هنگام تعیین اقدامات برای اجرا، یادگیرندگان تقویتی دائماً با تصمیم بهرهبرداری از دانش موجود یا بررسی گزینههای جدید مواجه هستند که هزینههای کوتاه مدت را به خطر میاندازد اما به طور بالقوه عملکرد را در بلندمدت بهبود میبخشد. این مقاله چهار استراتژی کاوش/ بهرهبرداری موجود برای سیستم دستهبند یادگیری XCS را توصیف و به صورت تجربی ارزیابی میکند. ارزیابی روی سه مسئله معروف یادگیری - دو مالتی پلکسر و یک محیط ماز انجام می شود. یک بهینهسازی پارامتر خودکار انجام میشود، که نشان میدهد محیطهای مختلف به پارامترسازی متفاوتی از استراتژیها نیاز دارند. علاوه بر این، نتایج ما نشان میدهد که هیچ یک از استراتژیها برتر از استراتژیهای دیگر نیست. به نظر میرسد که مسائل چند مرحلهای با پاداشهای کمیاب برای استراتژیهای انتخاب شده چالش برانگیز است و نیاز به توسعه استراتژیهای کاوش/ بهرهبرداری قابل اعتمادتر برای مقابله با چنین محیطهایی را برجسته میکند.