- مهندسی سیستم‌های زبانی

وارد شوید | ثبت نام کنید

مهندسی سیستم‌های زبانی -

ناشر:

شعبه اردبیل

نویسنده:

جعفر عبداللهی، مهدیه عزیزی هشجین، بابک نوری مقدم، عباس میرزایی ثمرین

مترجم:

سال نشر:

1405

صفحه:

334

نوبت چاپ:

در سالیان اخیر، هوش مصنوعی از مرزهای پیش‌بینی‌های ساده فراتر رفته و به سوی خلق و تصمیم‌گیری در محیط‌های پیچیده گام برداشته است. نقطه عطف این تحول، تلاقی دو حوزه قدرتمند در علوم رایانه بود: یادگیری تقویتی که هنر اتخاذ تصمیمات بهینه است، و مدل‌های زبانی بزرگ که درک عمیقی از ساختار دانش بشری فراهم آورده‌اند.

کتاب حاضر، با عنوان یادگیری تقویتی نسل جدید: از مدل‌های زبانی و Decision Transformers تا ایجنت‌های همه‌منظوره، تلاشی است جامع برای تبیین این همگرایی شگرف. ما در دورانی زیست می‌کنیم که مدل‌های زبانی دیگر تنها ابزاری برای تولید متن نیستند، بلکه به عنوان «موتورهای استدلال» و «عامل‌های هوشمند» در حال بازتعریف مفهوم عاملیت در دنیای دیجیتال و فیزیکی هستند.

در این اثر، ما سفر خود را از مفاهیم بنیادین یادگیری تقویتی آغاز کرده و به سرعت به سوی نوآوری‌های ساختارشکنی همچون Decision Transformers حرکت می‌کنیم؛ جایی که یادگیری تقویتی به مثابه یک مسئله مدل‌سازی توالی نگریسته می‌شود. تمرکز ویژه این کتاب بر مفاهیمی همچون یادگیری تقویتی از بازخورد انسانی و بهینه‌سازی ترجیحات مستقیم است که ستون‌های اصلی ایمن‌سازی و هم‌راستاسازی مدل‌های زبانی مدرن مانند سری GPT و Claude با ارزش‌های انسانی را تشکیل می‌دهند.

علاوه بر این، در بخش‌های پیشرفته‌تر کتاب، به بررسی Generalist Agents و World Models پرداخته‌ایم. هدف این بوده است که نشان دهد چگونه یک عامل هوشمند می‌تواند با بهره‌گیری از شبیه‌سازهای فوق‌سریع و یادگیری خودنظارتی، به چنان درجه‌ای از تعمیم‌یافتگی دست یابد که در محیط‌های نادیده و وظایف متنوع، عملکردی در سطح خبره انسانی از خود نشان دهد.

مخاطب اصلی این کتاب، پژوهشگران، دانشجویان تحصیلات تکمیلی و مهندسان هوش مصنوعی هستند که به دنبال درک عمیق الگوریتم‌های پسِ پشتِ چت‌بات‌های پیشرفته و ربات‌های هوشمند امروزی می‌باشند.

مولفان کوشیده اند تا با حفظ دقت علمی و ارائه جزئیات فنی دقیق، پلی میان تئوری‌های انتزاعی و کاربردهای عملیاتی در لبه دانش ایجاد کنند و امیدوارند که این اثر بتواند خلأ موجود در منابع فارسی‌زبان در حوزه یادگیری تقویتی نوین را پر کرده و انگیزه‌بخش نسل جدیدی از محققان ایران‌زمین در مسیر توسعه هوش مصنوعی باشد.

پیش‌گفتار /5

بخش اول: پاردایم یادگیری تقویتی/21

تغییر پارادایم - یادگیری تقویتی به عنوان دنباله/23

فصل اول: پایان عصر آزمون و خطا، ظهور Offline RL/33

فصل دوم: ترنسفورمرهای تصمیم‌گیر/59

بخش دوم: همسوسازی و RL برای مدل‌های زبانی/85

فصل سوم: یادگیری تقویتی از بازخورد انسانی (RLHF)/91

فصل چهارم: بهینه‌سازی مستقیم (DPO & Beyond/101

فصل پنجم: ایجنت‌های خود-اصلاح‌گر/125

بخش سوم: مدل‌های جهانی و ایجنت‌های جنرالیست/143

فصل ششم: مدل‌های جهانی مولد/149

فصل هفتم: ایجنت‌های چندمنظوره/173