یک سال از زمانی که OpenAI، یک شرکت هوش مصنوعی مستقر در سانفرانسیسکو، جهان را سرخورده کرده و با نشان دادن افزایش قابل توجهی در قدرت کامپیوترها برای تشکیل جملات به طور طبیعی و حتی حل سوالات، مثل کامل کردن یک جمله و تدوین بخشهایی از متنی طولانی که انسان معمولی میتواند آن را پیدا کند، اقدامی ناگوار انجام داد.
آخرین کار این تیم نشان میدهد که تفکر OpenAI در برخی جوانب به بلوغ رسیده است. GPT-3، که جدیدترین ابداع آن است، در هفته گذشته ظاهر شد، با ویژگیها و تکتازیهای بیشتری، که توسط برخی از نویسندگان نسخه قبلی تولید شده است، از جمله Alec Radford و Ilya Sutskever، همراه با چندین همکار اضافی، از جمله دانشمندان دانشگاه جانز هاپکینز.
اکنون، این دیگر یک مدل زبان هیولا است که بیشترین متن را مورد استفاده قرار میدهد، مقدار متن بارها بیشتری نسبت به نسخه قبلی خود میخورد.
اما در میان آن حرکت بزرگتر-بهتر، تیم OpenAI به نظر می رسد در مقابل برخی حقایق عمیق تر نزدیک شده اند، به همان طور که دکتر دیوید بومن به محدودیت های شناخته شده در پایان فیلم 2001 نزدیک شد.
در بخش پایانی این مقاله ۷۲ صفحهای، مدلهای زبانی یادگیرندههای کمموجه هستند، که در هفته گذشته در سرور پیشچاپ arXiv منتشر شده است، یک تشخیص بسیار شگفتانگیز وجود دارد.
"یک محدودیت بنیادی دیگری که در رویکرد کلی که در این مقاله توضیح داده شده است- بزرگنمائی هر مدلی مانند LM ، آیا خودخواندایا دوجهته است- این است که در نهایت ممکن است با محدودیت های هدف پیش آموزش روبرو شود ( یا ممکن است که قبلاً با این محدودیت ها روبرو شده باشد)" نویسندگان آن را می نویسند.
چیزی که نویسندگان میگویند این است که ساخت یک شبکه عصبی که فقط احتمالات کلمه بعدی در هر جمله یا عبارت را پیشبینی میکند، ممکن است محدودیتهای خود را داشته باشد. فقط افزایش قدرت آن و پرکردن آن با متنهای بیشتر، ممکن است نتایج بهتری ایجاد نکند. این یک توجه قابل توجه در داخل یک مقاله است که اکثرا افتخارا تلاش در زمینه افزایش قدرت محاسباتی را داراست.
![gpt-3-versus.jpg](https://static-lib.s3.amazonaws.com/cms/gpt_3_versus_2028c4dcd3.jpg)
برای درک اینکه چرا نتیجه نویسندگان به این اندازه مهم است، باید به اینکه چگونه به اینجا رسیدیم فکر کنیم. تاریخچه کار OpenAI در زمینه زبان بخشی از تاریخچه پیشرفت پیوسته یک نوع روش است که با افزایش موفقیت، فناوری به اندازه بزرگتر و بزرگتر و بزرگتر قرار میگیرد.
گیپیتی اصلی و گیپیتی-۲، هر دو با تطبیقاتی از آنچه به آن یک "ترانسفورمر" معروف است، ساخته شدهاند. ترانسفورمر یک تابع به نام توجه را برای محاسبه احتمال ظاهر شدن یک کلمه با توجه به کلمات اطرافش استفاده میکند. اوپنآی یک سال پیش بحثهایی را به وجود آورد که گفت کد منبع نسخه بزرگتر گیپیتی-۲ را منتشر نخواهد کرد، زیرا این کد ممکن است بدست اشتباهی رسیده و به عنوان مثال با اخبار جعلی، افراد را گمراه کند.
کاغذ جدید GPT را به سطح بعدی میبرد با بزرگتر شدن آن. بزرگترین نسخه GPT-2، ورژنی بود که به صورت منبع منتشر نشد و حدود 1.5 میلیارد پارامتر داشت. GPT-3، 175 میلیارد پارامتر دارد. یک پارامتر محاسبهای در شبکه عصبی است که وزن بیشتر یا کمتری را در برابر بعضی جنبههای داده اعمال میکند تا به آن جنبه در محاسبه کلی داده وزن بیشتر یا کمتری داده شود. این وزنها شکل داده را مشخص میکنند و به شبکه عصبی دیدگاه یادگرفته را درباره داده میدهند.
افزایش وزن های برنامه های خانواده GPT در طول زمان منجر به نتایج تست معیار شگفت انگیزی شده است، و همچنین توسط نسخه های تبدیل کننده بزرگ دیگری مانند BERT گوگل، نتایجی که به طور مداوم بسیار تحسین برانگیز بوده است.
نگران نباشید که بسیاری از مردم بیان کردهاند که هیچکدام از این مدلهای زبان واقعا به طور معناداری زبان را درک نمیکنند. آنها آزمونها را عالی اجرا میکنند و این موضوع در برخی موارد مهم است.
نسخهی جدید باز هم پیشرفت کمّی را نشان میدهد. مثل GPT-2 و سایر برنامههای برمبنای ترانسفورمر، GPT-3 بر روی مجموعه داده Common Crawl آموزش دیده است، یک مجموعه متنی که تقریباً تریلیون کلمه متن را از شبکه جمعآوری میکند. "اندازه مجموعه داده و مدل حدود دو دسته از اندازه آنهایی است که برای GPT-2 استفاده شدهاند"، نویسندگان مینویسند.
GPT-3 با 175 میلیارد پارامتر قادر است به آنچه که نویسندگان آن به عنوان "متا-یادگیری" توصیف میکنند، دست پیدا کند. متا-یادگیری یعنی اینکه شبکه عصبی GPT مجدداً آموزش داده نمیشود تا وظیفهای مانند تکمیل جمله را انجام دهد. با داشتن یک نمونه از یک وظیفه، مانند یک جمله ناتمام و سپس جمله کامل شده، GPT-3 قادر است هر جمله ناتمامی که به آن داده شود را کامل کند.
توانایی GPT-3 برای یادگیری یک وظیفه با یک پیام تنها در برخی موارد بهتر از نسخه های Transformer است که مشخصاً برای انجام فقط آن وظیفه بهینه شده اند. بنابراین، GPT-3 پیروزی تعمیم بخشی شده است. به اندازه کافی متن بزرگی به آن تغذیه کنید تا وزن های آن بهترین حالت را بگیرد، و می تواند در نهایت به خوبی در تعدادی از وظایف خاص عمل کند بدون نیاز به توسعه دیگر.
اتفاقاً، همینجا نوشته به یک خاتمهٔ برجسته دست مییابد. پس از لیست کردن نتایج قابل تحسین GPT-3 در وظایف زبانی از تکمیل جملات تا استنباط پذیرش منطقی از بیانیه ها و ترجمه بین زبان ها، نویسندگان نقص ها را یادداشت میکنند.
"با وجود بهبودهای کمی و کیفی قوی در GPT-3 ، به ویژه به مقایسه با سرمایه گذاری مستقیم GPT-2 ، هنوز نقاط ضعف قابل توجهی دارد."
این ضعف ها شامل عدم توانایی در دستیابی به دقت قابل توجه در آنچه به آن نیمه کشاورزی NLI می گویند است. NLI یا استدلال زبان طبیعی تستی است که در آن برنامه باید رابطه بین دو جمله را تعیین کند. پژوهشگران از فیسبوک و دانشگاه شمال کارولینا نسخه تعارضی را معرفی کرده اند که در آن انسان ها جفت جمله هایی را ایجاد می کنند که برای رایانه سخت است تا حل کند.
نویسندهها مینویسند که GPT-3 در مواردی مانند Adversarial NLI "تقریباً بهتر از اتفاق افتاده" است. بدتر این است که با افزایش قدرت پردازش سیستم به 175 میلیارد وزن، نویسندگان دقیقاً نمیدانند چرا در برخی از وظایف نتیجه مطلوبی نگرفتهاند.
زمانی که آنها به نتیجه بالا اشاره میکنند، ممکن است متوجه شوند که فقط تغذیه یک مجموعه عظیم از متن به یک ماشین عظیم، پاسخ نهایی نیست.
توجه بیشتری به مشاهده بعدی جالب وجود دارد. نویسندگان مینویسند که تمامی تلاش برای پیشبینی اتفاقات زبان ممکن است رویکرد نادرستی باشد. آنها ممکن است در محل نادرستی هدف قرار گرفته باشند.
"با اهداف خودسازماندهی، مشخص سازی وظیفه بر اصرار بر تبدیل مسئله مورد نظر به یک مسئله پیشبینی،"نوشتهاند، "در حالیکه در نهایت، سیستمهای زبانی مفید (به عنوان مثال معاونتهای مجازی) بهتر است به عنوان اقدامات هدافمند به جای فقط پیشبینیها در نظر گرفته شود."
نویسندگان آن را برای زمان دیگری میگذارند تا راهبردهای خود را برای درگیر شدن با این جهت جدید بسیار جذاب مشخص کنند.
با وجود فهم اینکه بزرگتر برتری نهایی نیست، نتایج بهتر GPT-3 در بسیاری از وظایف احتمالاً رغبت به بزرگتر و بزرگتر شدن شبکههای عصبی را تحریک خواهد کرد، نه کاهش خواهد داد. در حال حاضر، با 175 میلیارد پارامتر، GPT-3 سلطان شبکههای عصبی بزرگ است. یک ارائه در آوریل توسط شرکت تراشه هوش مصنوعی Tenstorrent ، شبکه های عصبی آینده با بیش از یک تریلیون پارامتر توصیف کرد
برای یک بخش خوب از انجمن یادگیری ماشین، مدلسازی زبان با اندازههای هرچه بزرگتر احتمالاً به صورت هنر محسوب خواهد شد.