هوش مصنوعی با طرح‌های زبانی بزرگ GPT-3 از محدودیت‌های مدل‌های زبانی در هوش مصنوعی اشاره می‌کند

یک سال از زمانی که OpenAI، یک شرکت هوش مصنوعی مستقر در سانفرانسیسکو، جهان را سرخورده کرده و با نشان دادن افزایش قابل توجهی در قدرت کامپیوترها برای تشکیل جملات به طور طبیعی و حتی حل سوالات، مثل کامل کردن یک جمله و تدوین بخش‌هایی از متنی طولانی که انسان معمولی می‌تواند آن را پیدا کند، اقدامی ناگوار انجام داد.

آخرین کار این تیم نشان می‌دهد که تفکر OpenAI در برخی جوانب به بلوغ رسیده است. GPT-3، که جدیدترین ابداع آن است، در هفته گذشته ظاهر شد، با ویژگی‌ها و تک‌تازی‌های بیشتری، که توسط برخی از نویسندگان نسخه قبلی تولید شده است، از جمله Alec Radford و Ilya Sutskever، همراه با چندین همکار اضافی، از جمله دانشمندان دانشگاه جانز هاپکینز.

اکنون، این‌ دیگر یک مدل زبان هیولا است که بیشترین متن را مورد استفاده قرار می‌دهد، مقدار متن بارها بیشتری نسبت به نسخه قبلی خود می‌خورد.

اما در میان آن حرکت بزرگتر-بهتر، تیم OpenAI به نظر می رسد در مقابل برخی حقایق عمیق تر نزدیک شده اند، به همان طور که دکتر دیوید بومن به محدودیت های شناخته شده در پایان فیلم 2001 نزدیک شد.

در بخش پایانی این مقاله ۷۲ صفحه‌ای، مدل‌های زبانی یادگیرنده‌های کم‌موجه هستند، که در هفته گذشته در سرور پیش‌چاپ arXiv منتشر شده است، یک تشخیص بسیار شگفت‌انگیز وجود دارد.

"یک محدودیت بنیادی دیگری که در رویکرد کلی که در این مقاله توضیح داده شده است- بزرگنمائی هر مدلی مانند LM ، آیا خودخواندایا دوجهته است- این است که در نهایت ممکن است با محدودیت های هدف پیش آموزش روبرو شود ( یا ممکن است که قبلاً با این محدودیت ها روبرو شده باشد)" نویسندگان آن را می نویسند.

چیزی که نویسندگان می‌گویند این است که ساخت یک شبکه عصبی که فقط احتمالات کلمه بعدی در هر جمله یا عبارت را پیش‌بینی می‌کند، ممکن است محدودیت‌های خود را داشته باشد. فقط افزایش قدرت آن و پرکردن آن با متن‌های بیشتر، ممکن است نتایج بهتری ایجاد نکند. این یک توجه قابل توجه در داخل یک مقاله است که اکثرا افتخارا تلاش در زمینه افزایش قدرت محاسباتی را داراست.

برای درک اینکه چرا نتیجه نویسندگان به این اندازه مهم است، باید به اینکه چگونه به اینجا رسیدیم فکر کنیم. تاریخچه کار OpenAI در زمینه زبان بخشی از تاریخچه پیشرفت پیوسته یک نوع روش است که با افزایش موفقیت، فناوری به اندازه بزرگتر و بزرگتر و بزرگتر قرار می‌گیرد.

گی‌پی‌تی اصلی و گی‌پی‌تی-۲، هر دو با تطبیقاتی از آنچه به آن یک "ترانسفورمر" معروف است، ساخته شده‌اند. ترانسفورمر یک تابع به نام توجه را برای محاسبه احتمال ظاهر شدن یک کلمه با توجه به کلمات اطرافش استفاده می‌کند. اوپن‌آی یک سال پیش بحث‌هایی را به وجود آورد که گفت کد منبع نسخه بزرگتر گی‌پی‌تی-۲ را منتشر نخواهد کرد، زیرا این کد ممکن است بدست اشتباهی رسیده و به عنوان مثال با اخبار جعلی، افراد را گمراه کند.

کاغذ جدید GPT را به سطح بعدی می‌برد با بزرگتر شدن آن. بزرگترین نسخه GPT-2، ورژنی بود که به صورت منبع منتشر نشد و حدود 1.5 میلیارد پارامتر داشت. GPT-3، 175 میلیارد پارامتر دارد. یک پارامتر محاسبه‌ای در شبکه عصبی است که وزن بیشتر یا کمتری را در برابر بعضی جنبه‌های داده اعمال می‌کند تا به آن جنبه در محاسبه کلی داده وزن بیشتر یا کمتری داده شود. این وزن‌ها شکل داده را مشخص می‌کنند و به شبکه عصبی دیدگاه یادگرفته را درباره داده می‌دهند.

افزایش وزن های برنامه های خانواده GPT در طول زمان منجر به نتایج تست معیار شگفت انگیزی شده است، و همچنین توسط نسخه های تبدیل کننده بزرگ دیگری مانند BERT گوگل، نتایجی که به طور مداوم بسیار تحسین برانگیز بوده است.

نگران نباشید که بسیاری از مردم بیان کرده‌اند که هیچکدام از این مدل‌های زبان واقعا به طور معناداری زبان را درک نمی‌کنند. آن‌ها آزمون‌ها را عالی اجرا می‌کنند و این موضوع در برخی موارد مهم است.

نسخه‌ی جدید باز هم پیشرفت کمّی را نشان می‌دهد. مثل GPT-2 و سایر برنامه‌های برمبنای ترانسفورمر، GPT-3 بر روی مجموعه داده Common Crawl آموزش دیده است، یک مجموعه متنی که تقریباً تریلیون کلمه متن را از شبکه جمع‌آوری می‌کند. "اندازه مجموعه داده و مدل حدود دو دسته از اندازه آنهایی است که برای GPT-2 استفاده شده‌اند"، نویسندگان می‌نویسند.

GPT-3 با 175 میلیارد پارامتر قادر است به آنچه که نویسندگان آن به عنوان "متا-یادگیری" توصیف می‌کنند، دست پیدا کند. متا-یادگیری یعنی اینکه شبکه عصبی GPT مجدداً آموزش داده نمی‌شود تا وظیفه‌ای مانند تکمیل جمله را انجام دهد. با داشتن یک نمونه از یک وظیفه، مانند یک جمله ناتمام و سپس جمله کامل شده، GPT-3 قادر است هر جمله ناتمامی که به آن داده شود را کامل کند.

توانایی GPT-3 برای یادگیری یک وظیفه با یک پیام تنها در برخی موارد بهتر از نسخه های Transformer است که مشخصاً برای انجام فقط آن وظیفه بهینه شده اند. بنابراین، GPT-3 پیروزی تعمیم بخشی شده است. به اندازه کافی متن بزرگی به آن تغذیه کنید تا وزن های آن بهترین حالت را بگیرد، و می تواند در نهایت به خوبی در تعدادی از وظایف خاص عمل کند بدون نیاز به توسعه دیگر.

اتفاقاً، همینجا نوشته به یک خاتمهٔ برجسته دست می‌یابد. پس از لیست کردن نتایج قابل تحسین GPT-3 در وظایف زبانی از تکمیل جملات تا استنباط پذیرش منطقی از بیانیه ها و ترجمه بین زبان ها، نویسندگان نقص ها را یادداشت می‌کنند.

"با وجود بهبودهای کمی و کیفی قوی در GPT-3 ، به ویژه به مقایسه با سرمایه گذاری مستقیم GPT-2 ، هنوز نقاط ضعف قابل توجهی دارد."

این ضعف ها شامل عدم توانایی در دستیابی به دقت قابل توجه در آنچه به آن نیمه کشاورزی NLI می گویند است. NLI یا استدلال زبان طبیعی تستی است که در آن برنامه باید رابطه بین دو جمله را تعیین کند. پژوهشگران از فیسبوک و دانشگاه شمال کارولینا نسخه تعارضی را معرفی کرده اند که در آن انسان ها جفت جمله هایی را ایجاد می کنند که برای رایانه سخت است تا حل کند.

نویسنده‌ها می‌نویسند که GPT-3 در مواردی مانند Adversarial NLI "تقریباً بهتر از اتفاق افتاده" است. بدتر این است که با افزایش قدرت پردازش سیستم به 175 میلیارد وزن، نویسندگان دقیقاً نمی‌دانند چرا در برخی از وظایف نتیجه مطلوبی نگرفته‌اند.

زمانی که آنها به نتیجه بالا اشاره می‌کنند، ممکن است متوجه شوند که فقط تغذیه یک مجموعه عظیم از متن به یک ماشین عظیم، پاسخ نهایی نیست.

توجه بیشتری به مشاهده بعدی جالب وجود دارد. نویسندگان می‌نویسند که تمامی تلاش برای پیش‌بینی اتفاقات زبان ممکن است رویکرد نادرستی باشد. آنها ممکن است در محل نادرستی هدف قرار گرفته باشند.

"با اهداف خودسازماندهی، مشخص سازی وظیفه بر اصرار بر تبدیل مسئله مورد نظر به یک مسئله پیش‌بینی،"نوشته‌اند، "در حالیکه در نهایت، سیستم‌های زبانی مفید (به عنوان مثال معاونت‌های مجازی) بهتر است به عنوان اقدامات هدافمند به جای فقط پیش‌بینی‌ها در نظر گرفته شود."

نویسندگان آن را برای زمان دیگری می‌گذارند تا راهبردهای خود را برای درگیر شدن با این جهت جدید بسیار جذاب مشخص کنند.

با وجود فهم اینکه بزرگتر برتری نهایی نیست، نتایج بهتر GPT-3 در بسیاری از وظایف احتمالاً رغبت به بزرگتر و بزرگتر شدن شبکه‌های عصبی را تحریک خواهد کرد، نه کاهش خواهد داد. در حال حاضر، با 175 میلیارد پارامتر، GPT-3 سلطان شبکه‌های عصبی بزرگ است. یک ارائه در آوریل توسط شرکت تراشه هوش مصنوعی Tenstorrent ، شبکه های عصبی آینده با بیش از یک تریلیون پارامتر توصیف کرد

برای یک بخش خوب از انجمن یادگیری ماشین، مدلسازی زبان با اندازه‌های هرچه بزرگ‌تر احتمالاً به صورت هنر محسوب خواهد شد.

گی.نی.تی-۳ عظیم OpenAI به محدودیت‌های مدل‌های زبانی برای هوش مصنوعی اشاره می‌کند.

مقالات مرتبط