هنگام تعیین اقدامات برای اجرا، یادگیرندگان تقویتی دائماً با تصمیم بهرهبرداری از دانش موجود یا بررسی گزینههای جدید مواجه هستند که هزینههای کوتاه مدت را به خطر میاندازد اما به طور بالقوه عملکرد را در بلندمدت بهبود میبخشد. این مقاله چهار استراتژی کاوش/ بهرهبرداری موجود برای سیستم دستهبند یادگیری XCS را توصیف و به صورت تجربی ارزیابی میکند. ارزیابی روی سه مسئله معروف یادگیری - دو مالتی پلکسر و یک محیط ماز انجام می شود. یک بهینهسازی پارامتر خودکار انجام میشود، که نشان میدهد محیطهای مختلف به پارامترسازی متفاوتی از استراتژیها نیاز دارند. علاوه بر این، نتایج ما نشان میدهد که هیچ یک از استراتژیها برتر از استراتژیهای دیگر نیست. به نظر میرسد که مسائل چند مرحلهای با پاداشهای کمیاب برای استراتژیهای انتخاب شده چالش برانگیز است و نیاز به توسعه استراتژیهای کاوش/ بهرهبرداری قابل اعتمادتر برای مقابله با چنین محیطهایی را برجسته میکند.
گرامر و برنامههای کامپیوتری ارتباط نزدیکی با هم دارند. هم گرامرها و هم برنامهها راهحل مسائل پیچیده با اجرای دنبالهای از عملیات ابتدایی را تولید میکنند. در دهه 1830، چارلز بابیج یک کامپیوتر قابل برنامهریزی به نام Difference Engine با ترکیب دستگاههای مکانیکی برای جمع و ضرب طراحی نمود. کامپیوترهای امروزی که در همه جا حاضر هستند مستقیم تجسم ایدههای بابیج هستند. به طور مشابه، گرامرها از مراحل ساده برای تعریف اشیاء پیچیده استفاده میکنند، اجازه میدهد هر دو الگوریتمی و مطالعه نظری اشیاء تعریف شوند. به عنوان پیش درآمدی برای ارتباط گرامرها و پویاییهای محدود تولید شده، و به عنوان راهی برای ایجاد شهود در مورد امکانات گرامر، این فصل گرامرها را در "منطقه اصلی" مطالعه زبان بررسی میکند.
گرامرها در ابتدا استان زبان شناسی توصیفی بود که برای اکثر ما از تمرینات دبیرستان در نمودار نویسی جملات آشنا بود. در سال 1951، استفان کلین، منطقدان با ابداع فرمال، دستور زبان گرامر برای توضیح رویکرد پیشگامانه اما دشوار وارن مک کالوخ و والتر پیتس برای طراحی «مدارهای منطقی» وارد علوم کامپیوتر نمود (کلین 1956). گرامرها از آن زمان تاکنون نقش محوری در علوم کامپیوتر نظری و عملی داشتهاند. در اواخر در دهه 1950، نوام چامسکی گرامرها را با حدس زدن اینکه همه زبانهای طبیعی تغییراتی در یک گرامر جهانی واحد (UG) هستند، دایره کامل گرامرها را ایجاد کرد و یک علم رسمی از زبان شناسی در این فرآیند را ارائه کرد (چامسکی 1965). بر اساس حدس چامسکی، هر زبان انسانی مشاهده شده از یک زبان دستور زبان جهانی با تنظیم (یا یادگیری) مقادیر برای مجموعهای از متغیرهایی که پارامتر نامیده میشوند به دست میآید. یک بار مقادیر برای پارامترها تنظیم میشوند، تمام قوانین دستور زبان جهانی خاص، تعیین یک زبان خاص میشوند.
UG، با پارامترهای تنظیم شده، یک روش استاندارد برای ترکیب عناصر (کلمات) به رشتههای قابل قبول (جملات) است. با این حال، UG جنبه چند عاملی زبان را بررسی نمیکند. زیرا جنبه چند عاملی زبان در مرکز مطالعه سیستمهای سیگنال/مرز، از جمله خود زبان قرار دارد، این جنبه از زبان ارزش بررسی دقیقتر را دارد:
· زبان، بیش از هر چیز، یک پدیده اجتماعی است که تسهیل کننده تعامل عوامل آن است.
· فراگیری زبان بسیار بیشتر از تعیین مقادیر پارامترها از طریق نمونهگیری کردن است. نوزادان و کودکان خردسال زبان را با استفاده از رویههای کاملاً پیچیده - ژستها، توجه مشترک و مواردی از این دست به دست آورید.
· هر فردی زبان را به شیوهای متمایز و خاص تولید میکند. گرامرهای فردی متنوعی در یک زبان وجود دارد (کی ۲۰۰۶).
گرامری بودن رشته ای از گفتهها را میتوان در غیاب آموزش خاص دستور زبان، با تشکیل مدلهای پیشبینی یاد گرفت. یعنی رشته گفتههایی که در ایجاد تعامل مؤثر هستند در موقعیتهای مشابه استفاده میشوند، در حالی که رشتههایی که بیاثر هستند کنار گذاشته میشوند. یادگیری از طریق پیشبینی نقش مهمی در توسعه گرامرهای سیگنال / مرز ایفا میکند (هالند، تائو، و وانگ ۲۰۰۵).
۲. گرامرهای زبانی
زبان که به طور کامل مورد استفاده قرار میگیرد، ظرفیتی منحصر به فرد برای انسان موجود روی زمین است. این یک توانایی عظیم برای سیگنال دادن به یک مجموعه متنوعی از موقعیتهای محیطی، هم در حال حاضر و هم غایب است. ما هنوز با درک جامع زبان فاصله داریم، اما گرامرها کمک قابل توجهی را ارائه میدهند. در اصل، گرامر به توضیح توانایی زبان تولید توضیحات و ارتباطات پیچیده کمک میکند در حالی که از واژگان محدود استفاده میکند. با استفاده از دستور زبان مقایسه توالی گفتهها با استفاده از انواع زیادی از جملات منفرد برای توصیف موقعیتهای مشابه است. حتی اگر تکرار بیان باشد مثلاً به عنوان راهی برای نشان دادن فوریت استفاده میشود، اندازه واژگان با هر گونه افزایش در انواع عوامل محیطی برجسته - اندازه، فرم، رنگ، جهت، نزدیکی، و غیره به طور چشمگیری افزایش مییابد. توانایی رشته کردن جملات با هم در یک راه معنیدار تا حد زیادی نیاز به اندازه واژگان را کاهش میدهد.
به عنوان نمونهای از کاهش ابهام ارائه شده توسط یک دنباله دستوری، موقعیتی را در نظر بگیرید که در آن یک توپ قرمز، یک توپ آبی و یک کوکی روی یک میز کوچک قرار میگیرد. فرض کنید که یک کودک (به نام L، برای یادگیرنده) در حال تعامل با معلم است (به نام T). L ممکن است بگوید "بیاور"، اما T باید تصمیم بگیرد که آیا یکی از توپها، کوکی یا حتی میزی است که قرار است آورده شود. اگر L بگوید "کوکی بیاور" دیگر هیچ ابهامی وجود ندارد؛ با این حال، اگر L بگوید "توپ بیاور" هنوز ابهامی وجود دارد، که با دنباله "توپ قرمز بیاور" حل میشود. اگر جداگانه برای هر مورد جملهای بود، واژگان مورد نیاز بسیار افزایش خواهد یافت. شکل 10.1 این نکته را نشان میدهد. با یک گرامر ساده فعل/صفت/اسم، واژگان دوازده گفته شصت تمایز معنیدار را امکانپذیر میکند.
مشاهدات فراگیری زبان
بدون هیچ گونه دستورالعمل صریح در گرامر، یک نوزاد از غرغر کردن به زبانی مبتنی بر دستور زبان در طی سالها پیشرفت میکند. چه مکانیسمهایی این امکان را فراهم میکند؟ به خوبی ثابت شده است که نوزاد معمولی دارای قابلیتهای "سیمی" است که شامل بینایی، صدا و ژست میشود. یک نوزاد تازه متولد شده، بدون تمرین، بسیاری از اعمال صورت مادرش، مانند بیرون آمدن زبان را تقلید میکند. پس از چند ماه، نوزاد توجه خود را به هر شی مشخصی که مادرش به آن خیره میشود معطوف میکند. نوزادان برای تکرارپذیری تلاش میکنند. حرکت دست از تکان دادن تصادفی برای حرکت در یک جهت ثابت در سراسر میدان بینایی و سپس به لمس هدفمند پیشرفت میکند. از ایجاد صداهای تصادفی تا عبارات تکراری ساده پیشرفت میکند. نوزاد در هر پیشروی پیدرپی شادی آشکاری از خود نشان میدهد. این قابلیتها در بسیاری از گونههای پریمیتها وجود دارد، اما تعامل اجتماعی انسان و یادگیری آنها را به هم میرساند به ترکیباتی که از تجربه برای هدایت اقدامات آینده استفاده میکنند (پیش بینی). شواهد بیشتر و بیشتر نشان میدهد که برنامهریزی دنبالهای از گفتههای مشخص کننده زبان از این ترکیب پدیدار میشود (بایبی ۲۰۰۶؛ فایو گراسیس ۲۰۰۹؛ گائو ۲۰۰۱).
آزمایشات به خوبی کنترل شده پیشرفت کودک نوپا از فعالیتهای غیر انعکاسی و حالگرایی گرفته تا انتساب برچسبها به تجربه ادراکی، و سپس به پیشبینی و برنامهریزی کوتاه مدت را مشخص میکند. در یک آزمایش معمولی، به یک کودک دو کارت هدف نشان داده میشود (به عنوان مثال، یک خرگوش آبی و یک ماشین قرمز) و درخواست شد یک سری از این کارتها را بر اساس یک بعد مرتب کنید (به عنوان مثال، رنگ). سپس پس از مرتب کردن چند کارت، به کودک گفته می شود که دست از کار بکشد بازی اول را انجام دهید و به بازی دیگری بروید (مثلاً شکل: «خرگوشها را اینجا بگذارید؛ ماشین ها را آنجا بگذارید»). مهم نیست چه ابعادی ابتدا ارائه میشود، کودکان سه ساله معمولاً به مرتبسازی ادامه میدهند با وجود اینکه قوانین جدید در هر آزمایشی به آنها گفته میشود (زلازو، گائو و تاد 2007). در مقابل، کودکان چهار ساله بلافاصله متوجه میشوند که دو مجموعه قانون برای بازی وجود دارد و تغییر قوانین مورد نیاز است. در امتداد خطوط مشابه، مراحل متوالی رشد زبانی ارتباط نزدیکی با افزایش استقلال و پیشرفت در کنترل گفتهها با هم دارند.
آگاهی، به معنای عام آن، به وضوح وقتی کودک به طور فزایندهای در استفاده از زبان مهارت پیدا میکند، گسترش مییابد (دنت ۱۹۹۲؛ هوفستاتر ۱۹۹۹). اما "آگاهی" مانند تعریف دقیق «زندگی یا «ذهن» دشوار است. با این اوصاف، علوم توسعه یافتهای وجود دارد که بر مفاهیم دشوار تعریف شدهای مانند "زندگی" و "ذهن" (به ترتیب زیستشناسی و روانشناسی) متمرکز هستند، بنابراین ما نباید خیلی عجله کنیم که یک رویکرد به موضوع اکتساب زبان با تمرکز بر آگاهی را رد کنیم. استفاده از زبان به عنوان ابزاری برای گزارش تجربیات آگاهانه میتواند دیدگاه ما را نسبت به فرآیند کسب گسترش دهیم. زلازو، گائو، و تاد (2007) رویکرد جالبی را ارائه میکند که یک آرایش سلسله مراتبی آگاهی را بر اساس تواناییهای وابسته به سن فرض میکند. مشاهدات زلازو را میتوان با استفاده از مجموعهای لایهای از قوانین مشابه مدلسازی کرد با رویکردی که والنتینو برایتنبرگ در کتاب وسایل نقلیهاش در سال 1984 استفاده کرد: آزمایشهایی در روانشناسی ترکیبی.
مدلهای «سطوح هوشیاری» (LoC) مبتنی بر قوانین-کلان هستند که مختص زبان نیستند و بهطور در دسترس پپریماتهای اولیه قابل اثبات هستند. چنین مدلهایی به دنبال ترکیب مکانیسمهایی میشوند که یا به طور مستقیم مشاهده شدهاند یا بر اساس شواهد حدس زده شدهاند. مدلها از مکانیسمهای رایج استفاده میکنند، همانطور که مهندسان از چرخ دندهها و فنرها برای درک اصول کار همه چیز استفاده میکنند، از ساعت تا واگن، یا همانطور که فیزیکدانان هنگام بحث علیت از "جهان ساعتی" صحبت میکنند. اگرچه بعید است که قوانین ساده کل فراگیری زبان را در بربگیرد، حتی یک مدل مبتنی بر مکانیسم ابتدایی باید امکانات قابل آزمایشی را برای آموزش زبان دوم و ترجمه خودکار زبان پیشنهاد کند.
در این نسخه از رویکرد LoC، هر سطح از آگاهی با افزودن مکانیسم جدیدی به سطح قبلی به دست میآید (گائو و هلند 2008). همانطور که قبلاً از قوانین برای تعریف دو عامل استفاده میشود، L (یادگیرنده - یک نوزاد) و T (یک معلم زبان - مثلاً یک مادر).
سطح 0: فعالیتهای ناخودآگاه (تواناییهای شناختی ارثی)
پیش-سازهای پیش از نخستی برای فراگیری زبان
۱. توانایی تقلید جملات و حرکات.
۲. توانایی تشخیص بین اشیا و اعمال.
۳. آگاهی از یک شی برجسته متقابل یا عمل.
۴. رویه های یادگیری پایه، مشابه یادگیری قانون هب (1949).
قانون معمولی
(تقلید بیان) THEN (گفتار T) IF
(توجه داشته باشید که L از تواناییهای فعلی محدود خود برای تطابق تلاش استفاده میکند. به عنوان مثال، T-گفتار"Gloria" میتواند تبدیل به L-گفتار “Do-ee” شود.)
سطح 1: حداقل آگاهی (تقویت ذاتی فعالیتهای تکرار شونده، از تکرار صداها و حرکت به اعمالی که پاداش ذاتی ایجاد میکند)
مثال: حرکت جهتدار دست در عرض میدان بینایی (پیشساز اشاره کردن)
قانون معمولی
(<دست را به راست حرکت دهید>) THEN (دست در دایره دید) IF
سطح 2: هوشیاری محرک-پاسخ (شرطی) (برچسبگذاری از حافظه بلند مدت)
مثال: جملاتی که باعث پاداش ذاتی میشوند (مانند ایجاد T لبخند زدن)
قانون معمولی
(<بیان "شیر">) THEN (بطری شیر موجود است) IF
اغلب همبستگی بین الگوهای تکرار شونده محیط وجود دارد (به عنوان مثال، همبستگی بین اعمال و اشیاء) که میتواند از طریق شرطیسازی مورد بهرهبرداری قرار گیرد.
سطح 3: آگاهی بازگشتی ساده (استفاده از عبارات به دیگران را وادار به عمل کنید)
مثال: جملاتی که وقتی غذا قابل مشاهده باشد منجر به بدست آوردن غذا میشود
مجموعه قوانین معمولی
(<بیان "شیر">) THEN (بطری شیر موجود است) IF
T بطری شیر میآورد.
(<شیر بنوشید>) THEN (بطری شیر در دهان) IF
سطح 4: آگاهی بازگشتی گسترده (استفاده از برچسبها به وقتی شیء وجود ندارد باعث شود دیگران عمل کنند)
مثال: بدست آوردن غذا زمانی که غذا قابل مشاهده نیست
مجموعه قوانین معمولی
<" شیر "> THEN (گرسنه و هیچ غذایی قابل مشاهده نیست) IF
T بطری شیر میآورد.
(<شیر بنوشید>) THEN (بطری شیر در دهان) IF
سطح 5: خودآگاهی (توالی برنامهریزی شده درونی از عمل، از جمله جملات متوالی، که آن را ممکن می سازد برای نگاه کردن به آینده و کشف روشهای جایگزین اقدام)
ایده طاقچه
در مطالعه اکوسیستمها معمولاً مفهوم طاقچه محدود به نوع خاصی از عامل، معمولاً یک بخش خاص است. طاقچه با جریان مداوم منابع "قدرت[1]"، بسیار شبیه گردابی در جریانی سریع میشود. اصطلاح به همین شکل است در عباراتی مانند "طاقچه بازار[2]" استفاده میشود. با این حال، سودمند است که در یک رویکرد کلی برای گسترش سیستمهای سیگنال/مرزی تفسیر به طوری که شامل کنگلومراها میشود (به عنوان مثال، مجموعهای از عوامل متنوع و وابسته به هم). سپس اصطلاح طاقچه میتواند برای تعیین تعاملات پیچیده آن مرکز در یک بروملیاد[3] در یک جنگل بارانی (همانطور که در فصل 1 توضیح داده شد) یا یک اداره دولتی (مانند بورس و کمیسیون اوراق بهادار) استفاده شود.
تحت این تفسیر، طاقچه مجموعهای از تعاملات محلی با گردش مجدد را مشخص میکند که امکان استفاده از منابع را دوباره و دوباره فراهم میکند. برای طاقچه بروملیا، کربن میتواند به عنوان منبعی که از موجودی به موجود دیگر منتقل میشود باشد با تهی شدن اندک، به افراد مختلف اجازه میدهد تا به طور مستقل در یک منطقه زندگی کنند. پول نقد نقش مشابهی را در یک طاقچه اقتصادی و عبور آن از زنجیرهای از خریداران و فروشندگان باعث ایجاد اثر چند برابری[4] میشوند (ساموئلسون و نوردهاوس 2009). به طور کلی، در یک شبکه، یک طاقچه یک انجمن[5] با تعداد زیادی اتصال داخلی اما اتصالات خارجی نسبتاً کمتر است (نیومن، باراباسی و واتس 2006)، امکان نمایش جزئی را برای رفتار خودمختار انجمن فراهم میکند. در هر مورد، گردش مجدد منابع به این معنی است که فعالیت در طاقچه نمیتواند صرفاً با جمع کردن فعالیتهای عوامل مختلف طاقچه اشغال گردد.
به طور قابل درک، تجربی گرایان میخواهند با شرایط یکسان[6] سروکار داشته باشند؛ از این رو محدودیت معمول در اکولوژی برای استفاده از طاقچه برای یک ارگانیسم خاص در یک محیط با خصوصیات خوب[7] است. اما چنین فرمولاسیون اطلاعات کمی در موردمکانیسمهای کلی برای شکلگیری و تغییر طاقچه است. زمانی که تعاریف گستردهتری از طاقچه استفاده میشود، آنها معمولاً کیفی هستند. به عنوان مثال، دیکشنری بیولوژی کمبریج طاقچه را با این عنوان تعریف میکند «موقعیت . . . یک ارگانیسم در انجمن خود . . . ناشی از سازگاریهای ساختاری ارگانیسم، پاسخهای فیزیولوژیکی و رفتار ذاتی یا آموختهشده» (واکر 1990). اگرچه این تعریف پیشنهادی است، اما دشوار است تا از آن به عنوان راهنمایی برای یافتن مکانیسمهایی که تولید طاقچه میکنند استفاده کنید. در غیاب آگاهی از این مکانیسمها، به طور معمول شانس کمی برای توضیح ویژگیهای نوظهور منسوب به طاقچهها-ازدحام[8]، رقابت، متقابلگرایی[9]، و از این دست وجود دارد. (به گیلبرت و اپل 2009 مراجعه کنید.)
این فصل اولین نگاه به مکانیسمهای مرتبط-طاقچه به ترتیب مدلهایی مبتنی بر مکانیسم ساده ارائه میکند که به ترتیب، ازدحام طاقچه و حذف رقابت، اثرات چند برابری، و تهاجم طاقچه را نشان میدهند.
2 راهزن با صف - یک آنالوگ طاقچه
مطالعه شانس بازده برای ماشینهای بازی که گاهی اوقات «راهزنان یکدست» نامیده میشود به ریشههای تئوری احتمال برمیگردد. مسئله اساسی تخمین بردهای مورد انتظار است (یا تلفات) در یک دنباله طولانی از بازیهای ماشین. این روش معمول برای انجام این تخمین این چندین نمایشنامه است (کشش بازو)، میانگین بازدهی هر بازی را محاسبه کرده و سپس به عنوان تخمینی از نرخ بازده استفاده کند. بسیاری از تکنیکهای پیچیده در آمار بر اساس همین ایده ساده است (فلر 1968).
نمایشی که در ادامه میآید - نسخهای شبیه به طاقچه از مسئله تخمین - با یک "راهزن دو دستی" شروع میشود – یک ماشین شکاف با دو بازو است. هر بازو با احتمال متفاوتی پرداخت میکند. به عنوان مثال، فرض کنید آن بازوی I 1 دلار با احتمال ۴/۱ و بازوی II یک دلار با احتمال ۲/۱ پرداخت میکند. در این مورد، بازیکن درآمد مورد انتظار را با بازی با بازو احتمال همیشه بالاتر (بازوی II) به حداکثر میرساند. با این حال، اگر احتمالات برای بازیکن ناشناخته باشد، یک سوال ظریف مطرح میشود: چگونه بازیکن باید بازیهایی را بین دو بازو اختصاص دهد تا بردهای مورد انتظار درازمدت را به حداکثر برساند؟ یعنی کدام "طاقچه" بازیکن باید اشغال کند؟
یک روش این است که هر دو بازو را به تعداد ثابت بازی کنید (مثلا، n) سپس بازو را با میانگین مشاهده شده بازده همیشه بالاتر بازی کنید. در مثال داده شده، اگر میانگینهای مشاهده شده به میانگینهای واقعی نزدیک هستند، بازیکن میانگین بازده هر بازی ۴/۱× 1 دلار از بازوی I و میانگین ۲/۱ ×1 دلار از بازوی II مشاهده خواهد کرد. بر اساس یک برآورد دقیق، بازیکن سپس مانند دانش کامل، بازوی دوم را بازی خواهد کرد. با این حال، توجه داشته باشید که به دست آوردن اطلاعات برای بازیکن «هزینه[10]» دارد—بازیکن بازوی کمتر خوب را n بار بازی کرده است. هزینه "فرصت از دست رفته" دلار ۴/n = n(۴/۱ – ۲/۱)۱ دلار. افزایش n دقت برآورد را افزایش میدهد، اما افزایش هزینه را در پی دارد.
عارضه دیگری نیز وجود دارد. همه ما آنرا "دوران بدشانس" میدانیم. در مونت کارلو سی و چهل دوره قرمزها پشت سر هم روی چرخ رولت اجرا شده است، حتی اگر قرمز و سیاه به همان اندازه محتمل هستند. اگر در نمونه برداری از دو بازو بالاتر باشد میانگین نتیجه یکی از این اجراهای "بدشانس" است، سپس بازیکن بدتر از دو بازو را تا به حال بازی خواهد کرد. که تخمین نادرست منجر به کاهش روزافزون نسبت به آنچه ممکن است به دست آمده باشد. این هزینه بدون محدودیت افزایش مییابد زیرا بازیکن به بازی بازوی اشتباه ادامه میدهد. آیا استراتژی که در برابر این نتیجه بدشانسی "بیمه" میکند وجود دارد؟
بله. بازیکن به بازی هر دو بازو ادامه میدهد، اما تخصیص آزمایشات با سرعت فزایندهای به بازویی که در حال حاضر میانگین پرداخت مشاهده شده بالاتری دارد است (هلند 1992). این استراتژی دو نتیجه دارد. (الف) تخمین بهترینها و دوم بهترین به طور پیوسته قابل اعتمادتر به عنوان بازی اضافی به هر بازو اختصاص داده شده است. (ب) افزایش نمایی تضمین میکند که در دراز مدت، بهترین بازو تقریباً همیشه بازی خواهد شد.
نرخ نمایی افزایش عوامل تکثیر کننده راهی برای اجرای این استراتژی را نشان میدهد. با هر یک از بازوها به عنوان طاقچهای که منابع را برای تکثیر یک عامل تامین میکند رفتار میشود. هر یک زمانی که بازو نتیجه میدهد، عوامل در آن بازو تکرار میشوند. به راحتی میتوان نشان داد که با گذشت زمان، جمعیت مرتبط است
با بازویی که بیشتر پرداخت میکند، به طور تصاعدی نسبت به جمعیت در بازوی دیگر افزایش مییابد. اگر اندازه جمعیت نشان دهنده تعداد بازیهای بازو در هر یک در مرحله است، استراتژی پاراگراف قبل اجرا شده است. در واقع، جمعیت در هر بازو نشان دهنده نرخ نمونه برداری از بازو است.
اکنون، برای اینکه بازوهای راهزنان را بیشتر شبیه طاقچه کنند، نیاز است که جمعیت عوامل در صف هر بازو تقسیم میشود به طور مساوی در بین خود پرداخت کنند. یعنی ایجاب میکنند که آنها سود را به اشتراک بگذارند. به عنوان مثال، اجازه دهید میانگین بازده برای I و II مانند قبل۴/۱ × 1 دلار و ۲/۱× 1 دلار باشد، و مجموعاً دوازده نماینده اجازه دهید. موردی را در نظر بگیرید که هر دوازده عامل در صف پشت بازوی II قرار دارند. سپس هر یک از این عوامل میانگین 1 دلار × 1/2 × 1/12 = 1/24 دلار در هر آزمایش میگیرند. توجه داشته باشید که اگر یکی از این عوامل قرار بود به سمت بازوی I حرکت کنند و یک صف به طول 1 تشکیل دهند، آن عامل متوسط درآمدی معادل 1 × 1/4 × 1 = 1/4 دلار در هر آزمایش دریافت میکند، شش برابر بیشتر از عواملی که پشت بازوی بهتر صف کشیده بودند. واضح است که حرکت از صف دوم به صف I در این مورد مزیت دارد، حتی اگر ورودی کلی از منابع در صف II بیشتر است.
بنابراین، این مثال ساده یک «اثر ازدحام» را نشان میدهد. مانند تعداد بازیکنان در صف افزایش مییابد، پرداخت به ازای هر فردی[2] کاهش می یابد. هر چه صف طولانیتر باشد، "ازدحام" طاقچه بیشتر است. یک محاسبه ساده نشان می دهد که بازیکنان سودهای مورد انتظار برابر هستند زمانی که طول هر صف متناسب با بازده مورد انتظار آن باشد. در مثال حاضر، حضور چهار بازیکن صف اول و هشت بازیکن در صف دوم به اندازه مورد انتظار پرداخت 1۶/1 دلار برای هر بازیکن به دست میآورند. این مدل به راحتی قابل گسترش بیش از دو طاقچه با افزودن بازوها به راهزن است. بنابراین، هر بازوی اضافی به عنوان یک طاقچه متفاوت عمل میکند و عواملی به دنبال آن برای بهرهبرداری از طاقچههای پراکنده هستند.
جالب است که یک الگوریتم ساده وجود دارد که به عوامل اجازه میدهد به صف هایی میرسند که بازده مورد انتظار برابر را غیرصریح همکاری عامل به عامل به دست میآورند. هر عاملی به یک صف مجاور نگاه میکند تا ببینید آیا میانگین درآمد هر عامل در آنجا از میانگین درآمد فعلی آن بیشتر است یا خیر. اگر باشد، عامل ثابت احتمال مهاجرت (مثلاً یک سکه) به صف مجاور دارد. یعنی زمانی که درآمد در درمان مجاور بیشتر مطلوب باشد، اگر سکه به سمت بالا بیاید، عامل راس حرکت میکند و در جای خود باقی میماند اگر دنبالهها بالا بیاید. وقتی هر عاملی از این رویه استفاده میکند، طولهای مورد انتظار صفها به سرعت به طول تضمین همگرا میشوند که همه عوامل سود متوسط یکسانی دریافت میکنند، با طول صف متناسب با نرخ سود. زیرا حرکت توسط یک مدیر اجرایی مرکزی تعیین نمیشود، این الگوریتم یک مثال ساده از کنترل توزیع شده ارائه میدهد (هان لی و گوو ۲۰۰۶)
نوع دیگری از کنترل توزیع شده زمانی به وجود میآید که همانندسازی عامل بر اساس بازده در جمعیتهای صف استفاده شود. اینجا یک عنصر داروینی وارد میشود. یک عامل بازدهی را جمع میکند، یا منابع، تا زمانی که انباشت به آستانهای برسد که به آن اجازه میدهد تا تکثیر شود، در این مرحله یک کپی از خود به آن صف اضافه میکند. واضح است که عواملی که بازدهی را با سرعت بیشتری جمع میکنند با سرعت بیشتری تولید مثل کنند. برای حفظ تعداد کلی تابت عوامل، یک عامل از یک صف انتخاب شده به طور تصادفی حذف میشود هر بار که یک کپی اضافه میشود. طول صف فردی "قرار گرفتن" (با نوسانات تصادفی متوسط) زمانی عوامل در هر صف با سرعت یکسان تکرار میشوند. مثل قبل، که نرخ زمانی اتفاق میافتد که طول هر صف متناسب با بازده آن باشد.
بخش بعدی بر اساس این ایدهها استوار است و دنبالهای از مدلهای مبتنی بر راهزنان با صف را ارائه میدهد، هر صف اشغال شده توسط عوامل مختلفی که هم مهاجرت میکنند و هم تکرار میکنند. با اضافه کردن ابزار اضافی به راهزن دو دست، ما میتوانیم به ادامه مدلهایی که ویژگیهای طاقچه مانند بیشتری را ارائه میدهند. این مدلها بهعنوان مدلهای تمام عیار از طاقچهها در نظر گرفته نشدهاند پیشنهادی هستند نه واقع بینانه. آنها راهی برای ایجاد شهود در مورد مکانیسمهایی که طاقچه ایجاد میکنند ارائه میدهند. محاسبات درگیر ابتدایی هستند، اما گاهی اوقات نیاز به توجه نزدیکی دارند. خواننده کمتر علاقهمند به محاسبه دقیق خواهد بود با پریدن به درک کافی برای خواندن بیشتر برسید به نتایج توصیفی در پایان محاسبات برای هر مدل
9.3 دنبالهای از مدلهای راهزن در صف
پارامترهای اساسی برای راهزنان صف به شرح زیر است:
[1] Powered
[2] Market Niche
[3] Bromeliad
[4] Multiplier Effect
[5] Community
[6] Uniform Conditions
[7] Well-characterized Environment
[8] Niches-crowding
[9] Mutualism
[10] Cost