در سالیان اخیر، هوش مصنوعی از مرزهای پیشبینیهای ساده فراتر رفته و به سوی خلق و تصمیمگیری در محیطهای پیچیده گام برداشته است. نقطه عطف این تحول، تلاقی دو حوزه قدرتمند در علوم رایانه بود: یادگیری تقویتی که هنر اتخاذ تصمیمات بهینه است، و مدلهای زبانی بزرگ که درک عمیقی از ساختار دانش بشری فراهم آوردهاند.
کتاب حاضر، با عنوان یادگیری تقویتی نسل جدید: از مدلهای زبانی و Decision Transformers تا ایجنتهای همهمنظوره، تلاشی است جامع برای تبیین این همگرایی شگرف. ما در دورانی زیست میکنیم که مدلهای زبانی دیگر تنها ابزاری برای تولید متن نیستند، بلکه به عنوان «موتورهای استدلال» و «عاملهای هوشمند» در حال بازتعریف مفهوم عاملیت در دنیای دیجیتال و فیزیکی هستند.
در این اثر، ما سفر خود را از مفاهیم بنیادین یادگیری تقویتی آغاز کرده و به سرعت به سوی نوآوریهای ساختارشکنی همچون Decision Transformers حرکت میکنیم؛ جایی که یادگیری تقویتی به مثابه یک مسئله مدلسازی توالی نگریسته میشود. تمرکز ویژه این کتاب بر مفاهیمی همچون یادگیری تقویتی از بازخورد انسانی و بهینهسازی ترجیحات مستقیم است که ستونهای اصلی ایمنسازی و همراستاسازی مدلهای زبانی مدرن مانند سری GPT و Claude با ارزشهای انسانی را تشکیل میدهند.
علاوه بر این، در بخشهای پیشرفتهتر کتاب، به بررسی Generalist Agents و World Models پرداختهایم. هدف این بوده است که نشان دهد چگونه یک عامل هوشمند میتواند با بهرهگیری از شبیهسازهای فوقسریع و یادگیری خودنظارتی، به چنان درجهای از تعمیمیافتگی دست یابد که در محیطهای نادیده و وظایف متنوع، عملکردی در سطح خبره انسانی از خود نشان دهد.
مخاطب اصلی این کتاب، پژوهشگران، دانشجویان تحصیلات تکمیلی و مهندسان هوش مصنوعی هستند که به دنبال درک عمیق الگوریتمهای پسِ پشتِ چتباتهای پیشرفته و رباتهای هوشمند امروزی میباشند.
مولفان کوشیده اند تا با حفظ دقت علمی و ارائه جزئیات فنی دقیق، پلی میان تئوریهای انتزاعی و کاربردهای عملیاتی در لبه دانش ایجاد کنند و امیدوارند که این اثر بتواند خلأ موجود در منابع فارسیزبان در حوزه یادگیری تقویتی نوین را پر کرده و انگیزهبخش نسل جدیدی از محققان ایرانزمین در مسیر توسعه هوش مصنوعی باشد.
پیشگفتار /5
بخش اول: پاردایم یادگیری تقویتی/21
تغییر پارادایم - یادگیری تقویتی به عنوان دنباله/23
فصل اول: پایان عصر آزمون و خطا، ظهور Offline RL/33
فصل دوم: ترنسفورمرهای تصمیمگیر/59
بخش دوم: همسوسازی و RL برای مدلهای زبانی/85
فصل سوم: یادگیری تقویتی از بازخورد انسانی (RLHF)/91
فصل چهارم: بهینهسازی مستقیم (DPO & Beyond/101
فصل پنجم: ایجنتهای خود-اصلاحگر/125
بخش سوم: مدلهای جهانی و ایجنتهای جنرالیست/143
فصل ششم: مدلهای جهانی مولد/149
فصل هفتم: ایجنتهای چندمنظوره/173
بخش چهارم: مرزهای جدید - استدلال و اکتشاف (New Frontiers)/195
فصل هشتم: یادگیری تقویتی برای استدلال/201 201
فصل نهم: اکتشاف بدون پاداش/237
بخش پنجم: پیادهسازی مقیاسپذیر (Scalable Ops)/275
فصل دهم: کتابخانهها و فریمورکهای نسل جدید /281
سخن پایانی کتاب/322
واژهنامه انگلیسی به فارسی (/323
منابع/326
| دسته بندی موضوعی | موضوع فرعی |
| فنی و مهندسی |
مهندسی كامپيوتر
|