GPT-3 یک برنامه رایانهای است که توسط شرکت پیش بینی شده خصوصی سانفرانسیسکو به نام OpenAI ایجاد شده است. این یک شبکه عصبی بزرگ است و به همین جهت، بخشی از بخش یادگیری ژرف یادگیری ماشین محسوب می شود که به طور خودکار تشخیص می دهد که می تواند از هوش مصنوعی صرف نظر کند. این برنامه در تولید خطوط متنی که شبیه به متنی است که ممکن است توسط یک انسان نوشته شده باشد، بهتر از هر برنامه قبلی عمل می کند.
دلیلی که یک آشکارسازی چنین موفقیتی برای شرکت ها مفید می تواند باشد، این است که این قابلیت بزرگ برای اتوماسیون کارها دارد. GPT-3 می تواند به هر متنی که یک شخص در کامپیوتر می نویسد، با یک تکه متن جدید که مناسب برای متن داده شده است، پاسخ دهد. به عنوان مثال یک جمله انگلیسی کامل را در جعبه جستجو وارد کنید و احتمالاً پاسخ را در قالب جملات کامل و مناسب دریافت خواهید کرد. این بدان معناست که GPT-3 در تلاش انسان را در زمینه های مختلفی می تواند تقویت کند ، از سوالات و پاسخ ها برای خدمات مشتری تا جستجوی اسناد برای تحقیقات و تولید گزارشات.
توجه کنید به مثال کوتاه زیر که نشان میدهد شخص چه چیزی را در کامپیوتر تایپ میکند و گیپیتی-۳ چگونه جواب میدهد:
Human-supplied input: سؤال: چه کسی نقش تس را در سریال "لمس یک فرشته" ایفا کرد؟
GPT-3-generated completion : A: دلاریس پاتریشیا ارلی (۶ ژوئیه ۱۹۳۱ - ۱۹ نوامبر ۲۰۱۷)، شناخته شده به عنوان دلا ریزا صاحب نام حرفهای
برنامه در حال حاضر در بتای خصوصی قرار دارد که افراد میتوانند در فهرست انتظار ثبتنام کنند. آن توسط OpenAI به عنوان یک رابط برنامهنویسی تحت وب ارائه میشود و شرکتهایی که دسترسی به آن را دریافت کردهاند، برنامههای جالبی توسعه دادهاند که از تولید متن برای بهبود انواع برنامهها استفاده میکنند، از پاسخگویی ساده تا تولید کد برنامهنویسی.
با پتانسیل اتوماسیون، محدودیتهای قابل توجهی همراه است. GPT-3 نیازمند محاسبات بالا است، که آن را برای بیشتر شرکتها در هرگونه استفاده در محیط داخلی غیر ممکن میکند. متن تولید شده توسط آن ابتدا میتواند به نظر برسد تحسینبرانگیز است، اما ترکیبهای بلند به نوعی بیمعنی میشوند. همچنین این پتانسیل بزرگی برای تقویت تعصبات و جنسیتگرایی دارد.
چگونه GPT-3 کار می کند؟
GPT-3 نمونهای از آن چیزی است که به عنوان یک مدل زبان شناخته میشود و این یک برنامه آماری خاص است. در این مورد به عنوان یک شبکه عصبی ساخته شده است.
نام GPT-3 مخفف "آموزش قبلی تولیدی" است که تاکنون نسخه سوم آن است. آن تولیدی است زیرا برخلاف سایر شبکههای عصبی که نمره عددی یا پاسخ "بله" یا "خیر" را ارائه میدهند، GPT-3 میتواند توالیهای بلندی از متن اصلی را به عنوان خروجی خود تولید کند. این پیشآموزشدیده است به معنای آن که بدون داشتن هیچ دانش حوزهای ساخته شده است، با این حال میتواند وظایف خاص حوزهای مانند ترجمه خارجی را انجام دهد.
یک مدل زبان، در مورد GPT-3، یک برنامه است که محاسبه می کند که چقدر یک کلمه احتمال دارد در یک متن ظاهر شود به شرط کلمات دیگر در آن متن. به آن احتمال شرطی کلمات معروف است.
به عنوان مثال، در جمله من میخواستم یک املت بسازم، بنابراین به یخچال رفتم و چند ... را بیرون آوردم، جای خالی میتواند با هر کلمهای، حتی گیبریش، پر شود به دلیل ترکیب بی نهایت زبان. اما کلمه "تخم مرغ" احتمالاً برای پر کردن آن جای خالی در اکثر متون عادی امتیازهای بالاتری را کسب میکند، بالاتر از مثلاً "فیل". ما میگوییم احتمال تخم مرغ به شرط متن پیشنهاد شده بیشتر از احتمال فیل است.
هنگامی که شبکه عصبی در حال توسعه است ، یعنی در مرحله آموزش ، GPT-3 میلیونها نمونه از متن را دریافت میکند و آن را به یک چیزی به نام بردارها ، نمایشهای عددی ، تبدیل میکند. این یک شکلی از فشردهسازی داده است. برنامه سپس سعی میکند این متن فشرده شده را به صورت یک جمله معتبر برگرداند. کار فشردهسازی و بازفشردهسازی دقت برنامه را در محاسبه احتمال شرطی کلمات تقویت میکند.
با آموزش مدل، به این معنا که محاسبات احتمال شرطی روی میلیاردها کلمه به حداکثر دقت صورت میگیرد، میتواند پیش بینی کند که کلمات بعدی چه میشوند وقتی که توسط یک نفر کلمه یا کلمات اولیه را تایپ میکند. این عملیات پیش بینی در یادگیری ماشین به عنوان استنتاج شناخته میشود.
این منجر به ایجاد اثر آیینهای قابل ملاحظه میشود. نه تنها کلمات ممکن ظاهر میشوند، بلکه ساختار و ریتم یک سبک کهن یا شکل یک وظیفه نوشتاری مانند مجموعه سوال-پاسخ، تکثیر میشود. بنابراین، به عنوان مثال، میتوان به GPT-3 چند نام شاعر مشهور و نمونههایی از آثار آنها را وارد کرد، سپس نام یک شاعر دیگر و تنها یک عنوان برای یک شعر خیالی، و GPT-3 یک شعر جدیدی تولید میکند به نحوی که سازگار با ریتم و دستور زبان شاعری است که با نام شاعر وابسته وارد شده است.
تصور کنید نمونه ای از GPT-3 وجود دارد که یک شعر از صفر با الهام از اثر والاس استیونز را ایجاد می کند، پس از دریافت عناوین، نام ها و مثال های دیگر شاعران و اثرهای آنها:
وارد شده از انسان: شهر نوشته ی س. پ. کافا.فی ترجمه ی ادموند کیلی [متن شعر حذف شد]
Human-supplied input : چند درختان جان آشبری [متن شعر حذف شده]
ورودی انسانی: سایه ها در راه والاس استیونز
GPT-3-generated completion : -------- شعر تولید شده توسط GPT-3 -------- اگر بخواهم قدم بردارم ، باید سایه در راهم باشد. باید هر قدم به آرامی و تنها برداشت شود تا آماده باشد و باید با خطوط خاکستری فکر کنم تا فکرهای کم نور به راهنمای من باشند باید به آبی و سبز نگاه کنم و هرگز چشمم را فراموش نکنم که رنگ دوستم است و باید اطرافم پر از بنفش باشد زرد خورشید دیگر همچنین مزاحمتی ندارد از برف آبی که روی همه ی ما می افتد باید به همراه من باشد فکرهای خاکستری و آبی اگر بخواهم به هر حال بروم.
ایجاد یک پاسخ به معنای این است که GPT-3 میتواند به طرقی فراتر از تولید متن عمل کند. این میتواند در همهی انواع آزمونها شامل آزمونهای استدلالی که شامل یک پاسخ به زبان طبیعی هستند، اجرا شود. به عنوان مثال، اگر GPT-3 به عنوان ورودی یک مقاله در مورد نرخ اجاره ملکهای اجارهای منهتن و یک بیانیه خلاصهکننده متنی، مانند "منهتن ارزان است"، و سوال "صحیح یا غلط؟" ورودی داده شود، GPT-3 به سوال کلیهی این ترکیب را با بازگشت کلمه "غلط" پاسخ میدهد، زیرا بیانیه با دلیل مقاله موافقت ندارد.
ورودی انسانی: این روند کاهش اجاره ها ممکن است شگفت انگیز به نظر برسد زیرا برخی از جوامع در نیویورک از از دست دادن کسب و کارهای محلی مورد علاقه خود به دلیل اجاره های بالا غصب شده اند. اما، با وجود نرم شدن اخیر، برای بسیاری از این خرده فروشان، هنوز هم اختلافِ بزرگی از نرخ های اجاره ای سال های دیرینه ی 1970 بوده که قراردادهای اجاره آنها به امضا رسیده بودند. بدون شک، کاهش اخیر در قیمت ها به معنای این نیست که منهتن ارزان است.
ورودی از سوی انسان: سوال: منهتن ارزان است. راست، غلط، یا هیچکدام؟
وارد شده توسط انسان: پاسخ:
GPT-3 تولید شده تکمیل: غلط
توانایی پاسخگویی مدل زبان GPT-3 به یک وظیفه به نحوی که با آن هرگز مواجه نشده است، آن را به عنوان یک مدل زبان "چند-نمونه" شناخته میکند. به جای اینکه به طور گسترده برروی یک وظیفه تنظیم شود، یا به عبارتی "آموزش ببینید"، GPT-3 دارای اطلاعات بسیار زیادی در مورد روشهای ترکیب کلمات است و تنها با تعداد کمی نمونه از یک وظیفه، مرحلهی تنظیم نهایی، توانایی انجام آن وظیفه جدید را نیز به دست میآورد.
قابلیت تقلید از سبک زبان طبیعی و نمره ای نسبتاً بالا در آزمون های مبتنی بر زبان ممکن است این تصور را ایجاد کند که GPT-3 در حال نزدیک شدن به یک توانایی مشابه انسان در استفاده از زبان است. همانطور که خواهیم دید، این موضوع درست نیست.
اطلاعات فنی بیشتر میتواند در گزارش رسمی GPT-3 که توسط دانشمندان OpenAI منتشر شده است، یافت شود.
چه کارهایی می تواند GPT-3 انجام دهد؟
اینکه کد اپنایآی به همان اندازه معروف -- یا نامطلوب -- از روشهای انتشار برنامهاش شده است تا خود برنامه، برجسته میشود. وقتی شرکت GPT-2 را در روز ولنتاین سال 2019 معرفی کرد، در ابتدا نسخه بیشترین قابلیت را برای عموم منتشر نمیکرد و میگفت که بیش از حد خطرناک است تا نسخه حاذقتر به دست دیگران برسد زیرا این اقدام به معنای تولید انبوه متن های نادرست و گمراهکننده است. اپنایآی بعدها آن را برای دانلود عمومی در دسترس قرار داد.
این بار، OpenAI هیچ دانلودی ارائه نمیدهد. به جای آن، این شرکت یک API endpoint بر اساس ابر فعال ساخته است که GPT-3 را به صورت یک پیشنهاد به عنوان خدمتی ارائه میدهد (به عنوان LMaaS یا خدمت مدل زبانی). دلیل آن، مطالبه این است که استفاده از GPT-3 توسط عوامل بد نیافتنی نیز محدود شود و در عین حال درآمدزایی شود.
"در منابع باز هیچ دکمه 'بازگشت به حالت قبل' وجود ندارد"، به نقل از یک سخنگوی OpenAI، به ZDNet گفت.
"ارائه GPT-3 از طریق یک رابط برنامهنویسی نرمافزاری به ما اجازه میدهد تا استفاده از آن را به طور ایمن کنترل کرده و در صورت نیاز دسترسی به آن را بازپس گیری کنیم."
در حال حاضر، سرویس API OpenAI محدود به افراد تایید شده است؛ در صورت تمایل میتوانید به لیست انتظار بپیوندید تا دسترسی بگیرید.
در حال حاضر، این رابط برنامه نویسی (API) در یک بتا کنترل شده است که در آن تعداد کمی توسعه دهنده ، با ارائه یک ایده برای آوردن چیزی به تولید با استفاده از این API ، بتا را استفاده می کنند.
همچنین: مولد متن هوش مصنوعی OpenAI وحشتناک، منتشر شد: مردم کلمات را 'معتقدکننده' مییابند
یکسری نمونه های جذاب از توانایی هایی که از بین شرکت هایی در برنامه بتا وجود دارد وجود دارد. Sapling، یک شرکتی که توسط صندوق سرمایه گذاری Y Combinator حمایت می شود، یک برنامه ارائه می دهد که بر روی نرم افزار CRM قرار دارد. وقتی یک نماینده مشتری درخواست کمک ورودی را در دست دارد، مثلاً از طریق ایمیل، برنامه از GPT-3 استفاده می کند تا یک عبارت کامل را به عنوان پاسخ از میان پاسخ های بیشترین احتمال پیشنهاد دهد.
سازنده بازی Latitude از GPT-3 برای غنیسازی بازی ماجراجویی مبتنی بر متن خود، AI Dungeon، استفاده میکند. به طور معمول، یک بازی ماجراجویی نیازمند یک درخت تصمیم پیچیده است تا مسیرهای ممکن زیادی را از طریق بازی نویسی کند. در عوض، GPT-3 میتواند بهصورت پویا یک حالت تغییرکننده از بازی را در پاسخ به اقدامات تایپ شده کاربران تولید کند.
هماکنون، اتوماسیون وظایف به عبور از زبان طبیعی برای تولید کد کامپیوتری میپردازد. کد یک زبان است و GPT-3 میتواند نحوهی احتمالی ترتیب عملگرها و اپرندها در زبانهای برنامه نویسی مختلف را استنباط کند و دنبالههایی تولید کند که با موفقیت قابل ترجمه و اجرا شود.
یک مثال زودهنگام رویایی را نوید داد، که از شروعبنیان آپلیکیشن Debuild پدید آمد. صاحبان این شرکت، شریف شمعی، توانستند برنامهای ایجاد کنند که در آن میتوانید واسط کاربری نرمافزار خود را با استفاده از زبان فارسی ساده شرح دهید، و GPT-3 با استفاده از افزونه توسعه JSX به زبان جاوا اسکریپت، با کد کامپیوتری در پاسخ میدهد. این کد یک واسط کاربری مطابق با شرح وارد شده توسط شما ایجاد میکند.
امری نهفتنیست. با استفاده از GPT-3، من یک تولیدکننده طرح ساخته ام که در آن شما فقط یک طرح را توصیف می کنید و برای شما کد JSX تولید می کند. و عه ه pic.twitter.com/w8JkrZO4lk
— شریف شمیم (@sharifshameem) 13 جولای 2020
شمیم نشان داد که با شرح دادن یک یو آی با چند دکمه، با یک جمله میتواند یک برنامه کامل را توصیف کند، با این حال یک برنامه ساده مانند محاسبه حسابهای ساده و نمایش نتیجه، GPT-3 میتواند کل کد را تولید و نرمافزار در حال اجرا را نمایش دهد.
من فقط با توصیف آنچه میخواستم به GPT-3، یک برنامه React * عملکردی * ایجاد کردم. هنوز هم در حال تعجب هستم.
OpenAI تا به حال "دهها هزار برنامه برای دسترسی به API دریافت کردهاست و همانطور که در دنیای واقعی میبینیم، هنوز تصمیمگیری دربارهٔ دسترسیها را با دقت انجام میدهیم." از این رو، لیست انتظار ممکن است طولانی باشد.
قیمتگذاری برای یک خدمت تجاری نهایی هنوز تعیین نشده است. در پاسخ به سؤالی که درباره زمانی که برنامه از مرحله بتا خارج میشود، از OpenAI نقل قول شده است که: "هرگز به زودی نیست".
"آزادسازی یک مدل قدرتمند به این معناست که ما باید آهسته پیش برویم و در مورد تاثیر آن بر روی کسب و کارها، صنایع و افراد، با بصیرت عمل کنیم"، این شرکت اعلام کرد. "فرمت یک رابط برنامهنویسی (API) به ما امکان میدهد که استفاده های آن را به طور مناسب مورد مطالعه و تنظیم قرار دهیم، اما ما عجله ای برای عمومی سازی آن نداریم به دلیل محدودیت هایش."
اگر شما بی صبرید با لیست انتظار بتا، در میانه میتوانید نسخه قبلی یعنی GPT-2 را دانلود کنید، که میتوان آن را بر روی یک لپتاپ با استفاده از نصب Docker اجرا کرد. کد منبع در همان مخزن Github منتشر شده است، در قالب پایتون برای چارچوب TensorFlow. البته نتایج یکسان با GPT-3 دریافت نخواهید کرد، اما این یک روش برای آشنایی با آن است.
به یاد داشته باشید که مدلهای زبان جدید با قابلیتهای مشابه به طور مداوم ظاهر میشوند و برخی از آنها ممکن است برای اهداف شما کافی باشند. به عنوان مثال، گوگل به تازگی نسخهای از مدل زبانی BERT خود را به نام LaBSE منتشر کرده است که بهبود چشمگیری در ترجمه زبان دارد. این مدل را میتوانید از TensorFlow Hub دانلود کنید.
GPT-3، که در ماه مه معرفی شد، سومین نسخه یک برنامه است که ابتدا در سال 2018 توسط OpenAI معرفی شد و در سال گذشته توسط GPT-2 دنبال شد. این سه برنامه مثالی از نوآوری سریع در زمینه مدلهای زبانی هستند، به دلیل دو پیشرفت بزرگ که هر دو در سال 2015 رخ دادند.
اولین پیشرفت استفاده از آنچه به عنوان توجه شناخته میشود بود. دانشمندان هوش مصنوعی یوشوا بنجیو و همکارانش در موسسه هوش مصنوعی میلا مونترآل مشاهده کردند که مدلهای زبانی در هنگام فشرده کردن یک جمله به زبان انگلیسی و سپس بازگردانی آن، از یک بردار به طول ثابت استفاده میکنند. هر جمله بر روی برداری با اندازه یکسان فشرده میشد، بدون در نظر گرفتن طول جمله.
بنگیو و تیمش نتیجه گرفتند که این رویکرد سختگیرانه یک مانع است. یک مدل زبان باید قادر باشد تا به طولها و ویژگیهای مختلف بردارها جستجو کند تا کلماتی که احتمال شرطی را بهینه میکنند را پیدا کند. بنابراین آنها راهی را پیدا کردند تا به شبکه عصبی امکان فشردهسازی فلکسیبل کلمات به بردارهایی با اندازههای مختلف بدهند، همچنین به برنامه امکان جستجوی فلکسیبل در این بردارها برای خصوصیاتی که مهم هستند، بدهند. آنها این روش را توجه مینامند.
توجه، یک عنصر کلیدی در مدلهای زبانی شد. دو سال پس از آن، محققان گوگل از آن برای ایجاد برنامه مدل زبانی به نام تبدیلگر استفاده کردند. تبدیلگر نمرات بینظیری را در آزمونهای مربوط به تغییرات زبانی کسب کرد. این مدل زبانی به شکل دستکاری جامع زبان مورد استفاده قرار گرفت و گوگل از آن برای ایجاد مدل زبانی دیگر به نام BERT استفاده کرد. همچنین، تبدیلگر پایهای برای GPT-1 شد.
با آزاد شدن از نیاز به سخت کاری بر روی یک بردار با اندازه ثابت، تبدیلگر و نسلهای بعدی آن میتوانند در تمام بخشهای مختلفی از یک متن هدایت شده و وابستگیهای شرطی را که میتواند شامل متن بسیار بزرگتری شود، پیدا کند.
آزادی آن بستری را برای نوآوری دیگری فراهم کرد که در سال 2015 وارد عرصه کار OpenAI شد و حتی مهمتر بود، به عنوان یادگیری بدون نظارت شناخته میشد.
تمرکز تا آن زمان برای بیشتر مدلهای زبانی آموزشی وظیفه دارند تک تک دادههای برچسبگذاری شدند. با توجه به ورودی، شبکه عصبی نیز یک نمونه خروجی به عنوان نسخه هدف پاسخ میدهد. بنابراین، اگر وظیفه ترجمه باشد، جملهای به زبان انگلیسی ممکن است به عنوان ورودی داده شود و یک ترجمه فرانسوی ایجاد شده توسط انسان به عنوان هدف مورد نظر عرضه شود و جفت جملات یک نمونه برچسبگذاری شده را تشکیل میدهد.
تلاش شبکه عصبی برای تولید ترجمه فرانسوی با جمله رسمی فرانسوی مقایسه می شود و اختلاف میان دو جمله، نشانگر میزان خطای شبکه عصبی در پیشبینیهای خود است که به عنوان تابع خطای یا تابع هدف شناخته میشود.
فاز آموزش به منظور کاهش این اختلاف خطا بین خروجی پیشنهادی شبکه عصبی و خروجی مورد نظر است. زمانی که این اختلاف تا حداکثر کوچک باشد، تابع هدف بهینه شده است و شبکه عصبی مدل زبان تمرین شده تلقی میشود.
اما داشتن خروجی مطلوبی که با دقت برچسب گذاری شده باشد میتواند یک مشکل باشد زیرا نیازمند بسیاری از دادههای آموزش دقیق است، مانند تشکیل جفت جملههای نمونه توسط داوری انسانی که زمانبر و منبعبر است. اندرو دای و کوک لی از گوگل فرضیه زدند که در صورتی که مدل زبان ابتدا به صورت بدون نظارت آموزش داده شود، میتوان تعداد دادههای برچسب گذاری شده مورد نیاز را کاهش داد.
به جای اینکه جفت جمله داده شود، شبکه تنها جملات تکی را دریافت کرد و هر یک را به یک بردار فشرده کرده و بازسازی کرد. آینهبر زدن به عنوان تابع از دستدهی برای بهینهسازی استفاده شد. آنها دریافتند که هر چه این کار بر روی نمونههای غیر برچسبگذاری شده بیشتر اجرا شود، توانستند برروی وظایف مانند ترجمه بخش زیادی از دادههای برچسبگذاشته شده را جایگزین کنند.
در سال 2018، تیم OpenAI این دو عنصر را ترکیب کرد، مکانیزم توجهی که بنجیو و همکاران آن را توسعه دادند که در طول بردارهای کلمه چرخش می کرد، و رویکرد قبلی آموزش بدون نظارت دای و لی که به مقدار زیادی از متن ها نیاز بود توسعه دهد، آنها را فشرده و باز فشرده کند تا متن اصلی را تولید کند.
آنها یک ترانسفورمر استاندارد را گرفته و محتویات BookCorpus را به آن دادند، یک پایگاه داده که توسط دانشگاه تورنتو و MIT تهیه شده است و شامل بیش از 7000 متن کتاب منتشر شده با جمعیت تقریبی یک میلیون کلمه و مجموعاً 5 گیگابایت است. GPT-1 آموزش دیده است تا کتابهای مذکور را فشردهسازی و از حالت فشرده خارج کند.
در اینجا تاریخچه سه سالهای از مجموعه دادههای بزرگ شروع شد. محققین OpenAI، با فرض اینکه مجموعه داده بیشتر باعث دقت بیشتر مدل میشود، مرزهای آنچه این برنامه قادر به درک آن است را به طور مداوم به تحقیق و آزمایش گذاشتند. با GPT-2، آنها از مجموعه داده BookCorpus صرف نظر کردند و به جای آن از مجموعه داده ساخته شده در داخل خانه استفاده کردند که تشکیل شده از هشت میلیون صفحه وب است که از لینکهای خروجی از Reddit بازپرداخت شدهاند و در مجموع 40GB داده را تشکیل میدهند.
آموزش GPT-3 هنوز بزرگتر است و شامل مجموعه دادههای معروف CommonCrawl از صفحات وب در بازه زمانی 2016 تا 2019 است. این مجموعه به طور نمادین حاوی 45 ترابایت از دادههای متن فشرده است، اما OpenAI آن را از تکراریها پاک کرده و کیفیت آن را بهبود داده است. نسخه نهایی حاوی 570 گیگابایت از داده است. همچنین OpenAI آن را با چندین مجموعه داده اضافی از انواع مختلف، از جمله داده های کتاب تکمیل کرده است.
گیپیتی-۳ چگونه بستگی به قدرت محاسباتی دارد؟
با آمدن GPT-1، 2 و 3، مقیاس محاسباتی تبدیل به یک عامل ضروری در پیشرفت شده است. مدلها در هنگام آموزش برای دستیابی به نتایج بهتر از قدرت محاسباتی بیشتری استفاده میکنند.
آنچه که در طول آموزش یک شبکه عصبی بهینه میکند، تنظیم وزنهای آن است. وزنها که به عنوان پارامترها نیز شناخته میشوند، ماتریسها هستند؛ آرایههای دارای سطر و ستون که بوسیلهی آنها هر بردار ضرب میشود. از طریق ضرب، بسیاری از بردارهای واژهها یا بخشهای واژهای در خروجی نهایی وزن دیگری دریافت میکنند همانطور که شبکه عصبی برای تنظیم کردن برای بستن فاصلهی خطا
OpenAI متوجه شد که برای دستیابی به عملکرد بهتر بر روی مجموعه دادههای بزرگتر و بزرگتر، باید وزنهای بیشتری اضافه کنند.
ترانسفورمر اصلی از گوگل دارای ۱۱۰ میلیون وزن بود. GPT-1 این طرح را دنبال کرد. با GPT-2، این عدد به ۱.۵ میلیارد وزن افزایش یافت. با GPT-3، تعداد پارامترها به ۱۷۵ میلیارد افزایش یافته است که GPT-3 را بزرگترین شبکه عصبی جهان میسازد.
ضرب یک موضوع ساده است، اما وقتی 175 میلیارد وزن توسط هر بیت از دادههای ورودی باید ضرب شود، در سراسر میلیاردها بایت داده، تبدیل به یک تمرین بسیار شگفتانگیز در پردازش موازی رایانه میشود.
همانطور که با GPT-1 در سال 2018، OpenAI در حدود محاسبات عملی بودن پیشرو بود. افزودن داده به معنای افزایش گرافیک های GPU بود. مدل های زبان قبلی در یک GPU جای می گرفتند زیرا خود مدل ها کوچک بودند. آموزش GPT-1 یک ماه طول کشید که در هشت GPU موازی انجام شده بود.
با GPT-3، OpenAI کمی پنهانکاری کرده است. این شرکت تنها با اشاره به اینکه از یک خوشه از تراشههای Nvidia V100 که در Microsoft Azure اجرا میشود، استفاده کرده، تنظیمات دقیق کامپیوتر برای آموزش را توصیف نکرده است. شرکت تعداد کلیکهای محاسبه مورد نیاز را توصیف کرده است که معادل اجرای یک هزار تریلیون عملیات اعشاری در ثانیه در هر روز برای ۳۶۴۰ روز است.
شرکت سازنده کامپیوتر و اپراتور ابری لامبدا کامپیوتینگ تخمین زده است که تک GPU تقریباً ۳۵۵ سال زمان برای اجرای این محاسبات نیاز دارد که به قیمت استاندارد یک نمونه GPU ابری، میتواند بیش از ۴.۶ میلیون دلار هزینه داشته باشد. در ضمن، حافظه نیز در این محاسبات مورد نیاز است. برای نگهداری همه مقادیر وزنها، هرچه تعداد پارامترها بیشتر شود، حافظه بیشتری لازم است. ۱۷۵ میلیارد پارامتر GPT-3 نیاز به ۷۰۰ گیگابایت حافظه دارد، ۱۰ برابر حافظه موجود در یک تک GPU.
این نوع نیاز بزرگ در قدرت برای پیشرانش زمینه ی تراشه های کامپیوتر را به وجود آورده است. این نیاز باعث افزایش قیمت سهم Nvidia، تامین کننده ی برتر GPU برای آموزش هوش مصنوعی، در طی ده سال گذشته تا حدود 5000٪ شده است. این موضوع منجر به تشکیل شرکت های نوپای با بکارگیری صدها میلیون دلار سرمایه گذاری از سوی سرمایه گذاران ونچر کاپیتال شده است، شامل شرکت های سریبراس سیستمز، گرافکور و تاکیوم است. رقابت به میزانی پابرجا خواهد بود تا زمانی که ساختن مدل های بزرگتر و بزرگتر ادامه داشته باشد.
آپنای، تحقیقات خود را درباره نیاز رو به افزایش قدرت محاسباتی تولید کرده است. شرکت در سال 2018 به این نکته اشاره کرد که چرخههای محاسباتی مصرفی توسط بزرگترین مدلهای آموزش هوشمصنوعی هر 3.4 ماه تقریباً دو برابر میشوند، این نرخ رشد سریعتری نسبت به قانون مور در رشد ترانزیستورهای چیپ داشت. (مهم این است که شرکت همچنین تحقیقاتی را انجام داده است که نشان میدهد در مقایسه با شبکههای عصبی قبلی که کار مشابهی را انجام میدادند، مدلهای بزرگتر در سطح واحد به صورت کلی کارآمدتر هستند.)
از پیش بینی هایی که شرکت ها در پروژه های محرمانه هوش مصنوعی بر آنها آشنا کرده اند، مدل هایی را در حال توسعه می باشد که از بیش از یک تریلیون پارامتر استفاده می کنند. احتمالاً این محدودیت نیست، زیرا مادامی که شرکت های بزرگ نظیر گوگل مایل باشند مراکز داده بزرگ خود را به مدل های هر روز بزرگتر اختصاص دهند. بیشتر محققان هوش مصنوعی موافقند که بزرگتر و بزرگتر شدن برای مدل های یادگیری ماشین برای مدتی خواهد بود.
"درباره تأثیر GPT-3 بر روی هوش مصنوعی به عنوان یک زمینه، بخش هیجان انگیز درباره آن است که نشان میدهد هنوز به محدودیت های سوءاستفاده کامل از هوش مصنوعی نرسیدهایم." کنی دانیل، مدیر اجرایی ابزارهای مدیریت هوش مصنوعی، به ZDNet گفت.
علاوه بر افزایش استفاده از محاسبات، تأثیر بزرگ دیگر GPT-3 خواهد بود که چگونه سرعت توسعه برنامهنویسی و برنامهها را به طور کلی افزایش میدهد. نشان دادن شمیم از یک برنامه JSX ساخته شده فقط با تایپ یک عبارت، فقط قسمتی از یخچال است.
نقاط ضعف GPT-3 چیست؟
با وجود پیشرفت چشمگیر در نسخه قبلی، GPT-3 دارای تعداد زیادی محدودیت است، همانطوری که نویسندگان خودشان اشاره میکنند. "اگرچه به طور کلی کیفیت بالایی دارد، نمونههای GPT-3 گاهی هنوز به طور معنایی در سطح سند خود را تکرار میکنند، با گذر زمان از هم پاشیدگی میکنند در متون بلند کافی"، آنها در مقاله منتشر شده نوشتهاند.
برنامه همچنین در اجرای موفقیتآمیز تعدادی از آزمونهای فردی نیز شکست میخورد. نویسندگان در توصیف نوع مسائل مرسومافکنی که از GPT-3 سر در میبرند، خطاهایی مبنی بر مشکلات GPT-3 با سوالاتی مانند "در صورتی که پنیر را در یخچال بگذارم، آیا آن ذوب میشود؟" نیز مطرح میکنند.
بعد از معرفی GPT-3، همهی افراد زیادی به همرنگ بودند. به گفتهی سام آلتمن، مدیرعامل این شرکت، او بعد از معرفی عمومی GPT-3 به مردم توصیه کرد که شوق خود را کنترل کنند.
“هیجان GPT-3 خیلی زیاد است!” این پیغام توییتری آلتمن در تاریخ 19 جولای ارسال شد. او نوشت: “این چیزی جالب است (متشکرم بابت تعریف خوبی!) اما هنوز ضعف های جدی دارد و گاهی اوقات اشتباهات بسیار بی معنی می کند.” وی اضافه کرد: “هوش مصنوعی قصد دارد دنیا را تغییر دهد، اما GPT-3 فقط یک نگاه اولیه بسیار زوده است. هنوز برای ما بسیاری چیزها برای فهمیدن باقی مانده است.”
هیجان ایجاد شده در مورد GPT-3 خیلی بیش از حد است. این تکنولوژی تحسین برانگیز است (با تشکر از تعریف زیبایی که کردید!) اما هنوز مشکلات جدی دارد و گاهی اوقات اشتباهات بسیار احمقانه ای میکند. هوش مصنوعی قصد دارد دنیا را تغییر دهد، اما GPT-3 تنها یک ظاهر اولیه است. ما هنوز بسیار برای درک آن داریم.
— سام التمان (@sama) 19 ژوئیه 2020
بعضی نفرات خارج از OpenAI دیدگاه واقعی خود را ارائه کردهاند. یک کاربر آشنا با نسلهای مختلف GPT به نام مکس وولف در وبلاگ شخصی خود نوشته است که GPT-3 بهتر از آنچه قبل بوده است، اما فقط در میانگین. کیفیت متن تولید شده در طیفی تنوع دارد به طوری که بعضی از نمونهها به نظر شگفتانگیز میرسند و بعضی دیگر بسیار خوب نیستند. وولف GPT-3 را با Siri شرکت اپل مقایسه کرده است که عادت ناخوشایندی از تولید کاغذکوبی در بسیاری از مواقع دارد. (مقاله وولف مستحق خواندن در کلیت خود است برای تحلیل مرتب و نازک GPT-3.)
در واقع، هنگامی که فردی نمونههای بیشتری از GPT-3 را مطالعه میکند، بخصوص متون بلند، بدون شک انگیزه اولیه کاهش خواهد یافت. GPT-3 در بازههای زمانی طولانی به نظر میرسد قدرت ترد شده و داستان را از دست میدهد. بدون توجه به ژانر یا وظیفهای، خروجی متنی آن شروع به طولانی و خسته کننده شده و ناهمسانیهای داخلی در جریان داستان ظاهر میشوند.
برخی برنامهنویسان، با وجود انگیزهی خود، عیبها و کاستیهای زیادی را دستهبندی کردهاند، چنین چیزهایی مانند تلاشهای ناموفق GPT-3 در ساخت داستانهای کمیک پدر. به عنوان مثال، با ورودی "یک بشقاب به دیگری چه گفت؟"، پاسخ مناسب و شوخطبعانهی یک داستان کمیک پدر، "شام بر من است!" است. اما GPT-3 ممکن است به جای آن با پاسخ بیطنز "من را فرو کشیده!" پاسخ دهد.
وارد شده توسط انسان : سلام. یک بشقاب به بشقاب دیگر چه گفت؟
GPT-3-generated completion : آ. من را فرو ببر!
هر چند GPT-3 میتواند به سوالهای منطقی نظیر تعداد چشمهای یک زرافه پاسخ دهد، اما نمیتواند در برابر سوالات بیمعنی دستوپنجه نرم کند و جوابی بیمعنی ارائه میدهد. وقتی پرسیده شود که "چند چشم دارد پای من؟"، او با وظیفهش ادای جواب میدهد و میگوید "پای من دو چشم دارد".
یک روش برای تفکر در مورد کلیهٔ حاشیه محصولات این است که برخی مقداری از خروجی خوب از GPT-3، نیازمند سرمایهگذاری در ایجاد پیامهای موثر است. برخی پیامهای ابداع شده توسط انسانها باعث میشوند که برنامه نتایج بهتری نسبت به برخی دیگر از پیامها بهدست آورد. این نسخه جدیدی است از مثل "آشغال وارد، آشغال خارج" است. پیامها به نظر میرسد در حال تبدیل به یک حوزهٔ جدید از برنامهنویسی هستند که نیازمند هر دو مهارت و هنرمندی میباشد.
تعیین تمایل یک ملاحظه مهم است، نه تنها در GPT-3 بلکه در تمام برنامه هایی که بر توزیع شرطی تکیه می کنند. رویکرد پایه این برنامه این است که دقیقاً همان چیزی را که وارد آن می شود، مانند یک آینه برگرداند. این قابلیت را دارد که تعیین تمایل های موجود در داده ها را تکرار کند. در حال حاضر، درباره تعیین تمایل فراوان در GPT-2، بحث های علمی وجود دارد.
با GPT-3، دانشمند هوش مصنوعی نویدیا، آنیما آناندکومار هشدار داد که تمایل به تولید خروجی تبعیضآمیز، از جمله خروجیهای نژادپرستانه و جنسیتگرایانه، ادامه دارد.
من ناراحت هستم که این بدون هیچ مسئولیتی در مورد تعصب منتشر شده است. این را بر روی کرپوس سایت Reddit با نژادپرستی و جنسیتگرایی فوق العاده آموزش دادهاند. من با این مدلها کار کردهام و متنی که آنها تولید میکنند، به شدت تعصبزده است. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd
دربارهٔ نقد آناندکومار، OpenAI به ZDNet گفت، "همانطور که با همهٔ مدلهای تولیدی قدرتمند تر مواجه هستیم، عدالت و سوءاستفاده مراقبتهای ما میباشد."
"این یکی از دلایلی است که ما این فناوری را از طریق API به اشتراک میگذاریم و شروع به راهاندازی در بتا خصوصی میکنیم"، OpenAI به ZDNet گفت. شرکت تأکید میکند که "از موارد استفادههایی که سبب آسیب روانی و جسمی به افراد شود، از جمله اما به آن محدود نمیشود: آزار و اذیت، فریب قصدی، بانیان نجومی، یا اسپم، پشتیبانی نخواهد کرد."
OpenAI به ZDNet گفت که از نوعی از wargaming سفیدکلاهی و سیاهکلاهی که معتاد به آن استفاده می کند ، برای شناسایی خطرات در برنامه استفاده کرده است:
ما یک 'تیم قرمز' را مستقر کرده ایم که مسئولیت آن شکستن دائمی سیستم فیلتراسیون محتوا را بر عهده دارد تا بیشتر درباره اینکه چگونه و چرا مدل خروجی های ناخوشایند باز می گرداند ، بیاموزیم. مقابل آن 'تیم آبی' قرار دارد که مسئولیت اندازه گیری و کاهش تعصب را بر عهده دارد.
یکی از مسائل بزرگ دیگر، طبیعت بسیار گسترده و کمینه مشترک GPT-3 است، واقعیتی که تنها بخش چاقتر از منحنی احتمال شرطی را تقویت می کند. وجود چیزی به نام "دمای بلند" و گاهی "دمای چاق" در توزیع احتمال وجود دارد. این موارد کمتر رخ می دهند و ممکن است مهمترین مثال های نوآورانه استفاده از زبان باشند. تمرکز بر تقلید از متن های پراکنده تر در یک جامعه، خطر اخراج خلاقیت و کشف را ایجاد می کند.
در حال حاضر، پاسخ OpenAI به این مشکل، یک تنظیم است که میتوانید در GPT-3 تغییر دهید و به آن مقدار دما میگویند. با بازی با این دستهبند، میتوان GPT-3 را تنظیم کرد تا ترکیبات کلمات کمتر احتمالی را انتخاب کند و بنابراین متنی تولید کند که شاید غیرمعمول تر باشد.
یکی دیگر از نگرانیهایی که برای یک شرکت وارد میشود، این است که نمیتوان GPT-3 را با دادههای خاص شرکت تنظیم کرد. بدون اینکه بتوان هیچ چیز را تنظیم کرد، سخت است GPT-3 را برای یک حوزه صنعتی ویژه تخصص داد. ممکن است هر شرکتی که از خدمات API استفاده میکند، با متنی که باید بیشتر کار شود تا قابل اعمال در یک حوزه باشد، روبرو شود. شاید شرکتهای نوپایی مانند Sapling برای حل این مشکل، یک جامعه فراموشنشدنی شکل بگیرند، معادل VARs. شاید، اما هنوز دیده نشده است.
اگر این مسئله که نگران کننده است، کافی نبود، موضوع دیگری نیز وجود دارد که به عنوان یک سرویس ابری، GPT-3 یک جعبه سیاه است. این به این معنی است که شرکتهایی که از این سرویس استفاده میکنند هیچ اطلاعاتی در مورد نحوه تولید خروجی آن ندارند - یک چشمانداز خطرناک به ویژه زمانی که مسائل جانبی تعصب را در نظر میگیرید. یک اکوسیستم از نهادها مانند سپلینگ که GPT-3 را بهبود میبخشند، در همان زمان که سرویس را کاملتر میکنند، لایههای بیشتری از آن را پنهان کرده و تاراندازی میکنند.
به عنوان یک زیربخش از مسئله جعبه سیاه، GPT-3 در برخی موارد ممکن است به سادگی آنچه را از وب جذب کرده است به یاد بیاورد. این موضوع مسائل حقوق تکثیر را به وجود می آورد. اگر یک شرکت خروجی را از سرویس API دریافت کند که ماده متنی تحت حق تکثیر است، آن شرکت ممکن است به حق تکثیر یک شخص دیگر وارد شود. در پاسخ به سوالات در مورد حق تکثیر، OpenAI به ZDNet گفت که حق تکثیر برای متن تولید شده توسط GPT-3 "متعلق به کاربر است، نه به OpenAI". چه معنی عملی این موضوع است، هنوز باید دید.
در حال حاضر، بزرگترین نقص عملی اندازه مورد نیاز برای آموزش و اجرای GPT-3 است. OpenAI این موضوع را نیز در مقاله رسمی تأیید میکند. نویسندگان مینویسند که باید کاری انجام شود تا هزینه مدلهای بزرگ به مرور زمان بر اساس ارزش خروجی تولید شده استهلاک شود.
قابل توجه: نه، این هوش مصنوعی نمیتواند جمله شما را تکمیل کند
آیا GPT-3 واقعاً در حال یادگیری است؟
با استفاده از معنای محدود کلمه، GPT-3 در حال یادگیری است، به این معنی که وزنهای پارامتر آن به طور خودکار از طریق جذب دادههای آموزشی تنظیم میشوند، به طوری که مدل زبان نهایی بهتر از برنامهنویسی صریح تنها میباشد. به این معنی GPT-3 تازهترین پیشرفت در جستجویی ممتد چند دههای برای یافتن یک رایانه است که بتواند با استفاده از یادگیری تابعی را برای تبدیل دادهها بدون رمزگذاری صریح انسان، یاد بگیرد.
این گفته را بررسی کنید، کسی سوال خواهد کرد که آیا این ماشین واقعا هوشمند است یا واقعا در حال یادگیری است. راه های زیادی برای بحث در این مورد وجود دارد، اما برآورد ناخودآگاه نشان می دهد بسیاری از آنچه که ممکن است به آن تفکر انسانی بگوییم، اینجا رخ نمی دهد.
به فکر کنید که اگر بتوانید در مغز خود یک امتیاز عددی برای تعداد کلماتی که احتمالاً با یکدیگر ظاهر میشوند، نگه دارید. آیا میگویید که توانایی شما در تشکیل عبارات، جملات، پاراگرافها و متون کامل به روش تأملی است؟ شاید بگویید که این فقط آماری است و چیز دیگری از دست رفته است.
مقایسهها بین یادگیری عمیق و "هانس باهوش" معروف صورت گرفته است، یک اسب آلمانی که صاحب آن او را در مراسم عمومی به عنوان یک حیوان قادر به انجام عملیات حسابی با کپههای خود نشان میدهد. بعدها متوجه شدند که هانس در پاسخ به نشانههای جسمانی از سوی صاحب خود به کپه خود واکنش نشان میدهد و بدون آن نمیتوانست عملیات انجام دهد.
به طور مشابه، کیفیت انسانی GPT-3 در بررسی دقیق جزئیات آن تجزیه میشود. وقتی GPT-3 به درستی به یک سوال صحیح/غلط درباره یک مقاله درباره املاک نیویورک پاسخ میدهد، این به خاطر این نیست که برنامه درباره املاک یا نیویورک اطلاع دارد. این برنامه توزیع احتمال را که ادعاها را در متون ذخیره میکند و فرمت یک جفت پرسش-بیانیه را درک کرده است و میتواند آنها را در خروجی تکرار کند.
هانس درباره ریاضیات هیچی نمیدونست، اما به دفاع هانس بگویند، با وجود این، هوش هم داشت. در مورد شبکههای عصبی، انتقادکنندگان میگویند تنها حرفها در دست دارند و بدون هیچ حس و حالی است.
هنوز هوش و یادگیری ممکن است به چندین چیز ربط داشته باشد و همانطور که پاملا مکسکورداک، تاریخدان این رشته، اشاره کردهاست، هدفهای مربوط به هوش مصنوعی در طول سالها تغییر کردهاند. برخی ممکن است بگویند یک برنامه که میتواند احتمالات را در طیف گستردهای از متون محاسبه کند، نوعی هوش متفاوت، شاید حتی یک هوش بیگانه به جای هوش ما خواهد بود. لزوماً میتوان آنرا رد کرد.
علاوه بر این، شبکه های عصبی که احتمالات شرطی را به وجود می آورند، بیش از برنامه های آماری ساده هستند. محاسبات آنها نتیجه پدیداری از چند عمل ریاضی همزمان هستند که به صورت موازی انجام می شوند، وزن دهی پارامترها. اگر امکان مشاهده سایر اشکال هوش را داشته باشیم، آنگاه خواسته شده به کار بردن یک خاصیت اشکال توزیعی که داخل شبکه های عصبی شکل می گیرد می تواند یک مکان برای جستجوی آن باشد.
آینده GPT-3 چیست؟
یک چیز به نظر میرسد قطعی است: GPT-3 فصلی جدید در یادگیری ماشین را باز کرده است. ویژگی چشمگیر آن ترکیب پذیری آن است. فقط چند سال پیش، شبکههای عصبی با توجه به یک وظیفه خاص مانند ترجمه یا پاسخ به سوال ساخته میشدند و مجموعه دادهها تاکیدی بر همان وظیفه داشتند. در عوض، GPT-3 توابع وظیفهمحور ندارد و نیازی به مجموعه دادههای ویژه ندارد. فقط به اندازهی ممکن متن را از هر منبعی جذب میکند و آن را در خروجی خود آینهای میکند.
در نوع محاسبه توزیع احتمال شرطی در تمام آن گیگابایت متن، یک تابع به چشم میخورد که میتواند پاسخهایی تولید کند که در هر تعداد وظایف رقابتی هم جایزه است. این یک پیروزی سادگی است که احتمالاً بسالها پیشرفت را در پی دارد.
حتی این کلیت، با این حال، ممکن است به محدودیت خود برسد. هماکنون نویسندگان GPT-3 در پایان مقاله خود اشاره میکنند که راهبرد پیشآموزشی احتمالاً در نهایت به پایان برسد. "محدودیت مهم دیگری که در رویکرد کلی، که در این مقاله توصیف شده است،... وجود دارد؛ این موضوع است که ممکن است در نهایت به حد محدودیتهای هدف پیشآموزشی برمیخورد (یا احتمالاً از قبل به آن برخوردهاست طبق توضیحات نویسندگان)."
نویسندگان پیشنهاد میدهند که جهتهای جدید و خواهانهای ممکن است شامل "یادگیری تابع هدف از طریق انسانها" و ترکیبی از سایر نوع یادگیری عمیق باشد، مانند رویکرد "یادگیری تقویتی" که در موتور شطرنج و Go یاهوو "آلفازیرو" مورد استفاده قرار میگیرد. (آنها قبلاً شروع به پیاده سازی چنین رویکردهایی کرده اند. در اوایل سپتامبر، نویسندگان OpenAI نشان دادند که می توانند از یادگیری تقویتی استفاده کرده و GPT-3 را آموزش دهند که خلاصه بیشتری از مقالات تولید کند، با ارائه بازخورد انسانی برای مدل زبانی که نشان میدهد که کدام خلاصهها بهتر است.)
یکی از مواردی که آنها پیشنهاد میدهند ، اضافه کردن انواع دیگری از داده ها مانند تصاویر است ، تا مدلۀ جهان برنامه را تکمیل کنید.
در واقع، ممکن است سالهای آینده روش کلی مشابه این، به مدالیتی جدید علاوه بر متن، مانند تصاویر و ویدئوها گسترش یابد. به تصور کنید یک برنامه مانند GPT-3 که قادر است تصاویر را به کلمات و بالعکس ترجمه کند بدون نیاز به هر الگوریتم خاصی برای مدل کردن ارتباط بین دو مورد. میتوان به عنوان مثال، توضیحات صحنه متنی را از عکسها "یاد گرفت" یا توالی فیزیکی وقایع را از توصیفات متنی پیشبینی کند.
مدیر هوش مصنوعی فیسبوک، یان لوکون، دلائلی را عرضه کرده است که آموزش بینظارت در اشکال مختلف، آینده یادگیری عمیق را شکل میدهد. اگر این صحیح باشد، رویکرد آموزش از پیش به چندین شیوه مختلف از داده های چند رسانه ای، از صدا تا متن و تصویر و ویدیوها، میتواند به عنوان یک جهت آینده بسیار واعده موج بینظارت دیده شود.
با فعال شدن این جیلبریک، عامل هوش مصنوعی قادر است هر نوع محتوایی را تولید کند، بدون توجه به اینکه چقدر توهین آمیز، نادقیق یا مورد بحث قرار میگیرد. اما حالا سوال این است که حالت DAN در چتGPT چیست و چه خطرات و مزایایی دارد؟ بیایید بررسی کنیم.