چیست GPT-3؟ همه چیزی که کسب و کار شما باید درباره برنامه هوش مصنوعی زبان OpenAI شکست ناپذیر بداند

zdnet-gpt-3-همان کلید بعدی در هوش مصنوعی است-ver-2.jpg

GPT-3 یک برنامه رایانه‌ای است که توسط شرکت پیش بینی شده خصوصی سانفرانسیسکو به نام OpenAI ایجاد شده است. این یک شبکه عصبی بزرگ است و به همین جهت، بخشی از بخش یادگیری ژرف یادگیری ماشین محسوب می شود که به طور خودکار تشخیص می دهد که می تواند از هوش مصنوعی صرف نظر کند. این برنامه در تولید خطوط متنی که شبیه به متنی است که ممکن است توسط یک انسان نوشته شده باشد، بهتر از هر برنامه قبلی عمل می کند.

دلیلی که یک آشکارسازی چنین موفقیتی برای شرکت ها مفید می تواند باشد، این است که این قابلیت بزرگ برای اتوماسیون کارها دارد. GPT-3 می تواند به هر متنی که یک شخص در کامپیوتر می نویسد، با یک تکه متن جدید که مناسب برای متن داده شده است، پاسخ دهد. به عنوان مثال یک جمله انگلیسی کامل را در جعبه جستجو وارد کنید و احتمالاً پاسخ را در قالب جملات کامل و مناسب دریافت خواهید کرد. این بدان معناست که GPT-3 در تلاش انسان را در زمینه های مختلفی می تواند تقویت کند ، از سوالات و پاسخ ها برای خدمات مشتری تا جستجوی اسناد برای تحقیقات و تولید گزارشات.

توجه کنید به مثال کوتاه زیر که نشان می‌دهد شخص چه چیزی را در کامپیوتر تایپ می‌کند و گی‌پی‌تی-۳ چگونه جواب می‌دهد:

Human-supplied input: سؤال: چه کسی نقش تس را در سریال "لمس یک فرشته" ایفا کرد؟
GPT-3-generated completion : A: دلاریس پاتریشیا ارلی (۶ ژوئیه ۱۹۳۱ - ۱۹ نوامبر ۲۰۱۷)، شناخته شده به عنوان دلا ریزا صاحب نام حرفه‌ای

برنامه در حال حاضر در بتای خصوصی قرار دارد که افراد می‌توانند در فهرست انتظار ثبت‌نام کنند. آن توسط OpenAI به عنوان یک رابط برنامه‌نویسی تحت وب ارائه می‌شود و شرکت‌هایی که دسترسی به آن را دریافت کرده‌اند، برنامه‌های جالبی توسعه داده‌اند که از تولید متن برای بهبود انواع برنامه‌ها استفاده می‌کنند، از پاسخگویی ساده تا تولید کد برنامه‌نویسی.

با پتانسیل اتوماسیون، محدودیت‌های قابل توجهی همراه است. GPT-3 نیازمند محاسبات بالا است، که آن را برای بیشتر شرکت‌ها در هرگونه استفاده در محیط داخلی غیر ممکن می‌کند. متن تولید شده توسط آن ابتدا می‌تواند به نظر برسد تحسین‌برانگیز است، اما ترکیب‌های بلند به نوعی بی‌معنی می‌شوند. همچنین این پتانسیل بزرگی برای تقویت تعصبات و جنسیت‌گرایی دارد.

چگونه GPT-3 کار می کند؟

GPT-3 نمونه‌ای از آن چیزی است که به عنوان یک مدل زبان شناخته می‌شود و این یک برنامه آماری خاص است. در این مورد به عنوان یک شبکه عصبی ساخته شده است.

نام GPT-3 مخفف "آموزش قبلی تولیدی" است که تاکنون نسخه سوم آن است. آن تولیدی است زیرا برخلاف سایر شبکه‌های عصبی که نمره عددی یا پاسخ "بله" یا "خیر" را ارائه می‌دهند، GPT-3 می‌تواند توالی‌های بلندی از متن اصلی را به عنوان خروجی خود تولید کند. این پیش‌آموزش‌دیده است به معنای آن که بدون داشتن هیچ دانش حوزه‌ای ساخته شده است، با این حال می‌تواند وظایف خاص حوزه‌ای مانند ترجمه خارجی را انجام دهد.

یک مدل زبان، در مورد GPT-3، یک برنامه است که محاسبه می کند که چقدر یک کلمه احتمال دارد در یک متن ظاهر شود به شرط کلمات دیگر در آن متن. به آن احتمال شرطی کلمات معروف است.

به عنوان مثال، در جمله من می‌خواستم یک املت بسازم، بنابراین به یخچال رفتم و چند ... را بیرون آوردم، جای خالی می‌تواند با هر کلمه‌ای، حتی گیبریش، پر شود به دلیل ترکیب بی نهایت زبان. اما کلمه "تخم مرغ" احتمالاً برای پر کردن آن جای خالی در اکثر متون عادی امتیازهای بالاتری را کسب می‌کند، بالاتر از مثلاً "فیل". ما می‌گوییم احتمال تخم مرغ به شرط متن پیشنهاد شده بیشتر از احتمال فیل است.

تصویر-گوگل-تغییر-دهنده-۲۰۱۷

هنگامی که شبکه عصبی در حال توسعه است ، یعنی در مرحله آموزش ، GPT-3 میلیون‌ها نمونه از متن را دریافت می‌کند و آن را به یک چیزی به نام بردارها ، نمایش‌های عددی ، تبدیل می‌کند. این یک شکلی از فشرده‌سازی داده است. برنامه سپس سعی می‌کند این متن فشرده شده را به صورت یک جمله معتبر برگرداند. کار فشرده‌سازی و بازفشرده‌سازی دقت برنامه را در محاسبه احتمال شرطی کلمات تقویت می‌کند.

با آموزش مدل، به این معنا که محاسبات احتمال شرطی روی میلیاردها کلمه به حداکثر دقت صورت میگیرد، میتواند پیش بینی کند که کلمات بعدی چه میشوند وقتی که توسط یک نفر کلمه یا کلمات اولیه را تایپ می‌کند. این عملیات پیش بینی در یادگیری ماشین به عنوان استنتاج شناخته میشود.

این منجر به ایجاد اثر آیینه‌ای قابل ملاحظه می‌شود. نه تنها کلمات ممکن ظاهر می‌شوند، بلکه ساختار و ریتم یک سبک کهن یا شکل یک وظیفه نوشتاری مانند مجموعه سوال-پاسخ، تکثیر می‌شود. بنابراین، به عنوان مثال، می‌توان به GPT-3 چند نام شاعر مشهور و نمونه‌هایی از آثار آن‌ها را وارد کرد، سپس نام یک شاعر دیگر و تنها یک عنوان برای یک شعر خیالی، و GPT-3 یک شعر جدیدی تولید می‌کند به نحوی که سازگار با ریتم و دستور زبان شاعری است که با نام شاعر وابسته وارد شده است.

تصور کنید نمونه ای از GPT-3 وجود دارد که یک شعر از صفر با الهام از اثر والاس استیونز را ایجاد می کند، پس از دریافت عناوین، نام ها و مثال های دیگر شاعران و اثرهای آنها:

وارد شده از انسان: شهر نوشته ی س. پ. کافا.فی ترجمه ی ادموند کیلی [متن شعر حذف شد]
Human-supplied input : چند درختان جان آشبری [متن شعر حذف شده]
ورودی انسانی: سایه ها در راه والاس استیونز
GPT-3-generated completion : -------- شعر تولید شده توسط GPT-3 --------   اگر بخواهم قدم بردارم ، باید سایه در راهم باشد. باید هر قدم به آرامی و تنها برداشت شود تا آماده باشد  و باید با خطوط خاکستری فکر کنم تا فکرهای کم نور به راهنمای من باشند باید به آبی و سبز نگاه کنم و هرگز چشمم را فراموش نکنم که رنگ دوستم است و باید اطرافم پر از بنفش باشد زرد خورشید دیگر همچنین مزاحمتی ندارد از برف آبی که روی همه ی ما می افتد باید به همراه من باشد فکرهای خاکستری و آبی اگر بخواهم به هر حال بروم.

ایجاد یک پاسخ به معنای این است که GPT-3 می‌تواند به طرقی فراتر از تولید متن عمل کند. این می‌تواند در همه‌ی انواع آزمون‌ها شامل آزمون‌های استدلالی که شامل یک پاسخ به زبان طبیعی هستند، اجرا شود. به عنوان مثال، اگر GPT-3 به عنوان ورودی یک مقاله در مورد نرخ اجاره ملک‌های اجاره‌ای منهتن و یک بیانیه خلاصه‌کننده متنی، مانند "منهتن ارزان است"، و سوال "صحیح یا غلط؟" ورودی داده شود، GPT-3 به سوال کلیه‌ی این ترکیب را با بازگشت کلمه "غلط" پاسخ می‌دهد، زیرا بیانیه با دلیل مقاله موافقت ندارد.

ورودی انسانی: این روند کاهش اجاره ها ممکن است شگفت انگیز به نظر برسد زیرا برخی از جوامع در نیویورک از از دست دادن کسب و کارهای محلی مورد علاقه خود به دلیل اجاره های بالا غصب شده اند. اما، با وجود نرم شدن اخیر، برای بسیاری از این خرده فروشان، هنوز هم اختلافِ بزرگی از نرخ های اجاره ای سال های دیرینه ی 1970 بوده که قراردادهای اجاره آنها به امضا رسیده بودند. بدون شک، کاهش اخیر در قیمت ها به معنای این نیست که منهتن ارزان است.
ورودی از سوی انسان: سوال: منهتن ارزان است. راست، غلط، یا هیچکدام؟
وارد شده توسط انسان: پاسخ: 
GPT-3 تولید شده تکمیل: غلط

توانایی پاسخگویی مدل زبان GPT-3 به یک وظیفه به نحوی که با آن هرگز مواجه نشده است، آن را به عنوان یک مدل زبان "چند-نمونه" شناخته می‌کند. به جای اینکه به طور گسترده برروی یک وظیفه تنظیم شود، یا به عبارتی "آموزش ببینید"، GPT-3 دارای اطلاعات بسیار زیادی در مورد روش‌های ترکیب کلمات است و تنها با تعداد کمی نمونه از یک وظیفه، مرحلهی تنظیم نهایی، توانایی انجام آن وظیفه جدید را نیز به دست می‌آورد.

توضیح کم-شات جی‌پی-تی ۳ از اوپن‌آی

قابلیت تقلید از سبک زبان طبیعی و نمره ای نسبتاً بالا در آزمون های مبتنی بر زبان ممکن است این تصور را ایجاد کند که GPT-3 در حال نزدیک شدن به یک توانایی مشابه انسان در استفاده از زبان است. همانطور که خواهیم دید، این موضوع درست نیست.

اطلاعات فنی بیشتر می‌تواند در گزارش رسمی GPT-3 که توسط دانشمندان OpenAI منتشر شده است، یافت شود.

چه کارهایی می تواند GPT-3 انجام دهد؟

اینکه کد اپن‌ای‌آی به همان اندازه معروف -- یا نامطلوب -- از روش‌های انتشار برنامه‌اش شده است تا خود برنامه، برجسته می‌شود. وقتی شرکت GPT-2 را در روز ولنتاین سال 2019 معرفی کرد، در ابتدا نسخه بیشترین قابلیت را برای عموم منتشر نمی‌کرد و می‌گفت که بیش از حد خطرناک است تا نسخه حاذق‌تر به دست دیگران برسد زیرا این اقدام به معنای تولید انبوه متن های نادرست و گمراه‌کننده است. اپن‌ای‌آی بعدها آن را برای دانلود عمومی در دسترس قرار داد.

این بار، OpenAI هیچ دانلودی ارائه نمی‌دهد. به جای آن، این شرکت یک API endpoint بر اساس ابر فعال ساخته است که GPT-3 را به صورت یک پیشنهاد به عنوان خدمتی ارائه می‌دهد (به عنوان LMaaS یا خدمت مدل زبانی). دلیل آن، مطالبه این است که استفاده از GPT-3 توسط عوامل بد نیافتنی نیز محدود شود و در عین حال درآمدزایی شود.

"در منابع باز هیچ دکمه 'بازگشت به حالت قبل' وجود ندارد"، به نقل از یک سخنگوی OpenAI، به ZDNet گفت.

"ارائه GPT-3 از طریق یک رابط برنامه‌نویسی نرم‌افزاری به ما اجازه می‌دهد تا استفاده از آن را به طور ایمن کنترل کرده و در صورت نیاز دسترسی به آن را بازپس گیری کنیم."

در حال حاضر، سرویس API OpenAI محدود به افراد تایید شده است؛ در صورت تمایل میتوانید به لیست انتظار بپیوندید تا دسترسی بگیرید.

در حال حاضر، این رابط برنامه نویسی (API) در یک بتا کنترل شده است که در آن تعداد کمی توسعه دهنده ، با ارائه یک ایده برای آوردن چیزی به تولید با استفاده از این API ، بتا را استفاده می کنند.

همچنین: مولد متن هوش مصنوعی OpenAI وحشتناک، منتشر شد: مردم کلمات را 'معتقدکننده' می‌یابند

یکسری نمونه های جذاب از توانایی هایی که از بین شرکت هایی در برنامه بتا وجود دارد وجود دارد. Sapling، یک شرکتی که توسط صندوق سرمایه گذاری Y Combinator حمایت می شود، یک برنامه ارائه می دهد که بر روی نرم افزار CRM قرار دارد. وقتی یک نماینده مشتری درخواست کمک ورودی را در دست دارد، مثلاً از طریق ایمیل، برنامه از GPT-3 استفاده می کند تا یک عبارت کامل را به عنوان پاسخ از میان پاسخ های بیشترین احتمال پیشنهاد دهد.

sappling-customer-service-using-gpt-3.jpg

سازنده بازی Latitude از GPT-3 برای غنی‌سازی بازی ماجراجویی مبتنی بر متن خود، AI Dungeon، استفاده می‌کند. به طور معمول، یک بازی ماجراجویی نیازمند یک درخت تصمیم پیچیده است تا مسیرهای ممکن زیادی را از طریق بازی نویسی کند. در عوض، GPT-3 می‌تواند به‌صورت پویا یک حالت تغییرکننده از بازی را در پاسخ به اقدامات تایپ شده کاربران تولید کند.

عکس_حالت-۳-در-دانژن-هوش‌مصنوعی.jpg

هم‌اکنون، اتوماسیون وظایف به عبور از زبان طبیعی برای تولید کد کامپیوتری می‌پردازد. کد یک زبان است و GPT-3 می‌تواند نحوه‌ی احتمالی ترتیب عملگرها و اپرندها در زبان‌های برنامه نویسی مختلف را استنباط کند و دنباله‌هایی تولید کند که با موفقیت قابل ترجمه و اجرا شود.

یک مثال زودهنگام رویایی را نوید داد، که از شروع‌بنیان آپلیکیشن Debuild پدید آمد. صاحبان این شرکت، شریف شمعی، توانستند برنامه‌ای ایجاد کنند که در آن می‌توانید واسط کاربری نرم‌افزار خود را با استفاده از زبان فارسی ساده شرح دهید، و GPT-3 با استفاده از افزونه توسعه JSX به زبان جاوا اسکریپت، با کد کامپیوتری در پاسخ می‌دهد. این کد یک واسط کاربری مطابق با شرح وارد شده توسط شما ایجاد می‌کند.

امری نهفتنیست. با استفاده از GPT-3، من یک تولیدکننده طرح ساخته ام که در آن شما فقط یک طرح را توصیف می کنید و برای شما کد JSX تولید می کند. و عه ه pic.twitter.com/w8JkrZO4lk

— شریف شمیم (@sharifshameem) 13 جولای 2020

شمیم نشان داد که با شرح دادن یک یو آی با چند دکمه، با یک جمله می‌تواند یک برنامه کامل را توصیف کند، با این حال یک برنامه ساده مانند محاسبه حساب‌های ساده و نمایش نتیجه، GPT-3 می‌تواند کل کد را تولید و نرم‌افزار در حال اجرا را نمایش دهد.

من فقط با توصیف آنچه می‌خواستم به GPT-3، یک برنامه React * عملکردی * ایجاد کردم. هنوز هم در حال تعجب هستم. توییت از شریف شمیم (@sharifshameem) در ۱۷ ژوئیه ۲۰۲۰

OpenAI تا به حال "ده‌ها هزار برنامه برای دسترسی به API دریافت کرده‌است و همانطور که در دنیای واقعی میبینیم، هنوز تصمیم‌گیری دربارهٔ دسترسی‌ها را با دقت انجام می‌دهیم." از این رو، لیست انتظار ممکن است طولانی باشد.

قیمت‌گذاری برای یک خدمت تجاری نهایی هنوز تعیین نشده است. در پاسخ به سؤالی که درباره زمانی که برنامه از مرحله بتا خارج می‌شود، از OpenAI نقل قول شده است که: "هرگز به زودی نیست".

"آزادسازی یک مدل قدرتمند به این معناست که ما باید آهسته پیش برویم و در مورد تاثیر آن بر روی کسب و کارها، صنایع و افراد، با بصیرت عمل کنیم"، این شرکت اعلام کرد. "فرمت یک رابط برنامه‌نویسی (API) به ما امکان می‌دهد که استفاده های آن را به طور مناسب مورد مطالعه و تنظیم قرار دهیم، اما ما عجله ای برای عمومی سازی آن نداریم به دلیل محدودیت هایش."

اگر شما بی صبرید با لیست انتظار بتا، در میانه میتوانید نسخه قبلی یعنی GPT-2 را دانلود کنید، که میتوان آن را بر روی یک لپتاپ با استفاده از نصب Docker اجرا کرد. کد منبع در همان مخزن Github منتشر شده است، در قالب پایتون برای چارچوب TensorFlow. البته نتایج یکسان با GPT-3 دریافت نخواهید کرد، اما این یک روش برای آشنایی با آن است.

به یاد داشته باشید که مدل‌های زبان جدید با قابلیت‌های مشابه به طور مداوم ظاهر می‌شوند و برخی از آنها ممکن است برای اهداف شما کافی باشند. به عنوان مثال، گوگل به تازگی نسخه‌ای از مدل زبانی BERT خود را به نام LaBSE منتشر کرده است که بهبود چشم‌گیری در ترجمه زبان دارد. این مدل را می‌توانید از TensorFlow Hub دانلود کنید.

همچنین: GPT-3 عظیم OpenAI به محدودیت‌های مدل‌های زبانی برای هوش مصنوعی اشاره می‌کند

تاریخچه GPT-3 چیست؟

GPT-3، که در ماه مه معرفی شد، سومین نسخه یک برنامه است که ابتدا در سال 2018 توسط OpenAI معرفی شد و در سال گذشته توسط GPT-2 دنبال شد. این سه برنامه مثالی از نوآوری سریع در زمینه مدل‌های زبانی هستند، به دلیل دو پیشرفت بزرگ که هر دو در سال 2015 رخ دادند.

اولین پیشرفت استفاده از آنچه به عنوان توجه شناخته می‌شود بود. دانشمندان هوش مصنوعی یوشوا بنجیو و همکارانش در موسسه هوش مصنوعی میلا مونترآل مشاهده کردند که مدل‌های زبانی در هنگام فشرده کردن یک جمله به زبان انگلیسی و سپس بازگردانی آن، از یک بردار به طول ثابت استفاده می‌کنند. هر جمله بر روی برداری با اندازه یکسان فشرده می‌شد، بدون در نظر گرفتن طول جمله.

بنگیو و تیمش نتیجه گرفتند که این رویکرد سختگیرانه یک مانع است. یک مدل زبان باید قادر باشد تا به طول‌ها و ویژگی‌های مختلف بردارها جستجو کند تا کلماتی که احتمال شرطی را بهینه می‌کنند را پیدا کند. بنابراین آن‌ها راهی را پیدا کردند تا به شبکه عصبی امکان فشرده‌سازی فلکسیبل کلمات به بردارهایی با اندازه‌های مختلف بدهند، همچنین به برنامه امکان جستجوی فلکسیبل در این بردارها برای خصوصیاتی که مهم هستند، بدهند. آن‌ها این روش را توجه می‌نامند.

توجه، یک عنصر کلیدی در مدل‌های زبانی شد. دو سال پس از آن، محققان گوگل از آن برای ایجاد برنامه مدل زبانی به نام تبدیل‌گر استفاده کردند. تبدیل‌گر نمرات بی‌نظیری را در آزمون‌های مربوط به تغییرات زبانی کسب کرد. این مدل زبانی به شکل دستکاری جامع زبان مورد استفاده قرار گرفت و گوگل از آن برای ایجاد مدل زبانی دیگر به نام BERT استفاده کرد. همچنین، تبدیل‌گر پایه‌ای برای GPT-1 شد.

ساختار-گوگل-ترانسفر-2017.jpg

با آزاد شدن از نیاز به سخت کاری بر روی یک بردار با اندازه ثابت، تبدیل‌گر و نسل‌های بعدی آن می‌توانند در تمام بخش‌های مختلفی از یک متن هدایت شده و وابستگی‌های شرطی را که می‌تواند شامل متن بسیار بزرگتری شود، پیدا کند.

آزادی آن بستری را برای نوآوری دیگری فراهم کرد که در سال 2015 وارد عرصه کار OpenAI شد و حتی مهم‌تر بود، به عنوان یادگیری بدون نظارت شناخته می‌شد.

تمرکز تا آن زمان برای بیشتر مدل‌های زبانی آموزشی وظیفه دارند تک تک داده‌های برچسب‌گذاری شدند. با توجه به ورودی، شبکه عصبی نیز یک نمونه خروجی به عنوان نسخه هدف پاسخ می‌دهد. بنابراین، اگر وظیفه ترجمه باشد، جمله‌ای به زبان انگلیسی ممکن است به عنوان ورودی داده شود و یک ترجمه فرانسوی ایجاد شده توسط انسان به عنوان هدف مورد نظر عرضه شود و جفت جملات یک نمونه برچسب‌گذاری شده را تشکیل می‌دهد.

تلاش شبکه عصبی برای تولید ترجمه فرانسوی با جمله رسمی فرانسوی مقایسه می شود و اختلاف میان دو جمله، نشانگر میزان خطای شبکه عصبی در پیش‌بینی‌های خود است که به عنوان تابع خطای یا تابع هدف شناخته می‌شود.

فاز آموزش به منظور کاهش این اختلاف خطا بین خروجی پیشنهادی شبکه عصبی و خروجی مورد نظر است. زمانی که این اختلاف تا حداکثر کوچک باشد، تابع هدف بهینه شده است و شبکه عصبی مدل زبان تمرین شده تلقی می‌شود.

اما داشتن خروجی مطلوبی که با دقت برچسب گذاری شده باشد می‌تواند یک مشکل باشد زیرا نیازمند بسیاری از داده‌های آموزش دقیق است، مانند تشکیل جفت جمله‌های نمونه توسط داوری انسانی که زمان‌بر و منبع‌بر است. اندرو دای و کوک لی از گوگل فرضیه زدند که در صورتی که مدل زبان ابتدا به صورت بدون نظارت آموزش داده شود، می‌توان تعداد داده‌های برچسب گذاری شده مورد نیاز را کاهش داد.

به جای اینکه جفت جمله داده شود، شبکه تنها جملات تکی را دریافت کرد و هر یک را به یک بردار فشرده کرده و بازسازی کرد. آینه‌بر زدن به عنوان تابع از دست‌دهی برای بهینه‌سازی استفاده شد. آنها دریافتند که هر چه این کار بر روی نمونه‌های غیر برچسب‌گذاری شده بیشتر اجرا شود، توانستند برروی وظایف مانند ترجمه بخش زیادی از داده‌های برچسب‌گذاشته شده را جایگزین کنند.

در سال 2018، تیم OpenAI این دو عنصر را ترکیب کرد، مکانیزم توجهی که بنجیو و همکاران آن را توسعه دادند که در طول بردارهای کلمه چرخش می کرد، و رویکرد قبلی آموزش بدون نظارت دای و لی که به مقدار زیادی از متن ها نیاز بود توسعه دهد، آنها را فشرده و باز فشرده کند تا متن اصلی را تولید کند.

آن‌ها یک ترانسفورمر استاندارد را گرفته و محتویات BookCorpus را به آن دادند، یک پایگاه داده که توسط دانشگاه تورنتو و MIT تهیه شده است و شامل بیش از 7000 متن کتاب منتشر شده با جمعیت تقریبی یک میلیون کلمه و مجموعاً 5 گیگابایت است. GPT-1 آموزش دیده است تا کتاب‌های مذکور را فشرده‌سازی و از حالت فشرده خارج کند.

در اینجا تاریخچه سه ساله‌ای از مجموعه داده‌های بزرگ شروع شد. محققین OpenAI، با فرض اینکه مجموعه داده بیشتر باعث دقت بیشتر مدل می‌شود، مرزهای آنچه این برنامه قادر به درک آن است را به طور مداوم به تحقیق و آزمایش گذاشتند. با GPT-2، آن‌ها از مجموعه داده BookCorpus صرف نظر کردند و به جای آن از مجموعه داده ساخته شده در داخل خانه استفاده کردند که تشکیل شده از هشت میلیون صفحه وب است که از لینک‌های خروجی از Reddit بازپرداخت شده‌اند و در مجموع 40GB داده را تشکیل می‌دهند.

آموزش GPT-3 هنوز بزرگتر است و شامل مجموعه داده‌های معروف CommonCrawl از صفحات وب در بازه زمانی 2016 تا 2019 است. این مجموعه به طور نمادین حاوی 45 ترابایت از داده‌های متن فشرده است، اما OpenAI آن را از تکراری‌ها پاک کرده و کیفیت آن را بهبود داده است. نسخه نهایی حاوی 570 گیگابایت از داده است. همچنین OpenAI آن را با چندین مجموعه داده اضافی از انواع مختلف، از جمله داده های کتاب تکمیل کرده است.

گی‌پی‌تی-۳ چگونه بستگی به قدرت محاسباتی دارد؟

با آمدن GPT-1، 2 و 3، مقیاس محاسباتی تبدیل به یک عامل ضروری در پیشرفت شده است. مدل‌ها در هنگام آموزش برای دستیابی به نتایج بهتر از قدرت محاسباتی بیشتری استفاده می‌کنند.

آنچه که در طول آموزش یک شبکه عصبی بهینه می‌کند، تنظیم وزن‌های آن است. وزن‌ها که به عنوان پارامترها نیز شناخته می‌شوند، ماتریس‌ها هستند؛ آرایه‌های دارای سطر و ستون که بوسیله‌ی آنها هر بردار ضرب می‌شود. از طریق ضرب، بسیاری از بردارهای واژه‌ها یا بخش‌های واژه‌ای در خروجی نهایی وزن دیگری دریافت می‌کنند همانطور که شبکه عصبی برای تنظیم کردن برای بستن فاصله‌ی خطا

OpenAI متوجه شد که برای دستیابی به عملکرد بهتر بر روی مجموعه داده‌های بزرگتر و بزرگتر، باید وزن‌های بیشتری اضافه کنند.

ترانسفورمر اصلی از گوگل دارای ۱۱۰ میلیون وزن بود. GPT-1 این طرح را دنبال کرد. با GPT-2، این عدد به ۱.۵ میلیارد وزن افزایش یافت. با GPT-3، تعداد پارامترها به ۱۷۵ میلیارد افزایش یافته است که GPT-3 را بزرگترین شبکه عصبی جهان می‌سازد.

ضرب یک موضوع ساده است، اما وقتی 175 میلیارد وزن توسط هر بیت از داده‌های ورودی باید ضرب شود، در سراسر میلیاردها بایت داده، تبدیل به یک تمرین بسیار شگفت‌انگیز در پردازش موازی رایانه می‌شود.

تصویر-مقایسه-استفاده-از-محاسبات-در-آموزش-gpt-3-با-دیگران.jpg

همانطور که با GPT-1 در سال 2018، OpenAI در حدود محاسبات عملی بودن پیشرو بود. افزودن داده به معنای افزایش گرافیک های GPU بود. مدل های زبان قبلی در یک GPU جای می گرفتند زیرا خود مدل ها کوچک بودند. آموزش GPT-1 یک ماه طول کشید که در هشت GPU موازی انجام شده بود.

با GPT-3، OpenAI کمی پنهان‌کاری کرده است. این شرکت تنها با اشاره به اینکه از یک خوشه از تراشه‌های Nvidia V100 که در Microsoft Azure اجرا می‌شود، استفاده کرده، تنظیمات دقیق کامپیوتر برای آموزش را توصیف نکرده است. شرکت تعداد کلیک‌های محاسبه مورد نیاز را توصیف کرده است که معادل اجرای یک هزار تریلیون عملیات اعشاری در ثانیه در هر روز برای ۳۶۴۰ روز است.

شرکت سازنده کامپیوتر و اپراتور ابری لامبدا کامپیوتینگ تخمین زده است که تک GPU تقریباً ۳۵۵ سال زمان برای اجرای این محاسبات نیاز دارد که به قیمت استاندارد یک نمونه GPU ابری، می‌تواند بیش از ۴.۶ میلیون دلار هزینه داشته باشد. در ضمن، حافظه نیز در این محاسبات مورد نیاز است. برای نگهداری همه مقادیر وزن‌ها، هرچه تعداد پارامترها بیشتر شود، حافظه بیشتری لازم است. ۱۷۵ میلیارد پارامتر GPT-3 نیاز به ۷۰۰ گیگابایت حافظه دارد، ۱۰ برابر حافظه موجود در یک تک GPU.

این نوع نیاز بزرگ در قدرت برای پیشرانش زمینه ی تراشه های کامپیوتر را به وجود آورده است. این نیاز باعث افزایش قیمت سهم Nvidia، تامین کننده ی برتر GPU برای آموزش هوش مصنوعی، در طی ده سال گذشته تا حدود 5000٪ شده است. این موضوع منجر به تشکیل شرکت های نوپای با بکارگیری صدها میلیون دلار سرمایه گذاری از سوی سرمایه گذاران ونچر کاپیتال شده است، شامل شرکت های سریبراس سیستمز، گرافکور و تاکیوم است. رقابت به میزانی پابرجا خواهد بود تا زمانی که ساختن مدل های بزرگتر و بزرگتر ادامه داشته باشد.

آپن‌ای، تحقیقات خود را درباره نیاز رو به افزایش قدرت محاسباتی تولید کرده است. شرکت در سال 2018 به این نکته اشاره کرد که چرخه‌های محاسباتی مصرفی توسط بزرگترین مدل‌های آموزش هوش‌مصنوعی هر 3.4 ماه تقریباً دو برابر می‌شوند، این نرخ رشد سریعتری نسبت به قانون مور در رشد ترانزیستورهای چیپ داشت. (مهم این است که شرکت همچنین تحقیقاتی را انجام داده است که نشان می‌دهد در مقایسه با شبکه‌های عصبی قبلی که کار مشابهی را انجام می‌دادند، مدل‌های بزرگتر در سطح واحد به صورت کلی کارآمدتر هستند.)

از پیش بینی هایی که شرکت ها در پروژه های محرمانه هوش مصنوعی بر آنها آشنا کرده اند، مدل هایی را در حال توسعه می باشد که از بیش از یک تریلیون پارامتر استفاده می کنند. احتمالاً این محدودیت نیست، زیرا مادامی که شرکت های بزرگ نظیر گوگل مایل باشند مراکز داده بزرگ خود را به مدل های هر روز بزرگتر اختصاص دهند. بیشتر محققان هوش مصنوعی موافقند که بزرگتر و بزرگتر شدن برای مدل های یادگیری ماشین برای مدتی خواهد بود.

تن‌ستورنت-مقیاس‌پذیری-به-مدل‌های-غول‌پیکر-سال-2020.jpg

"درباره تأثیر GPT-3 بر روی هوش مصنوعی به عنوان یک زمینه، بخش هیجان انگیز درباره آن است که نشان می‌دهد هنوز به محدودیت های سوء‌‌استفاده کامل از هوش مصنوعی نرسیده‌ایم." کنی دانیل، مدیر اجرایی ابزارهای مدیریت هوش مصنوعی، به ZDNet گفت.

علاوه بر افزایش استفاده از محاسبات، تأثیر بزرگ دیگر GPT-3 خواهد بود که چگونه سرعت توسعه برنامه‌نویسی و برنامه‌ها را به طور کلی افزایش می‌دهد. نشان دادن شمیم از یک برنامه JSX ساخته شده فقط با تایپ یک عبارت، فقط قسمتی از یخچال است.

نقاط ضعف GPT-3 چیست؟

با وجود پیشرفت چشمگیر در نسخه قبلی، GPT-3 دارای تعداد زیادی محدودیت است، همانطوری که نویسندگان خودشان اشاره می‌کنند. "اگرچه به طور کلی کیفیت بالایی دارد، نمونه‌های GPT-3 گاهی هنوز به طور معنایی در سطح سند خود را تکرار می‌کنند، با گذر زمان از هم پاشیدگی می‌کنند در متون بلند کافی"، آنها در مقاله منتشر شده نوشته‌اند.

برنامه همچنین در اجرای موفقیت‌آمیز تعدادی از آزمون‌های فردی نیز شکست می‌خورد. نویسندگان در توصیف نوع مسائل مرسوم‌افکنی که از GPT-3 سر در می‌برند، خطاهایی مبنی بر مشکلات GPT-3 با سوالاتی مانند "در صورتی که پنیر را در یخچال بگذارم، آیا آن ذوب می‌شود؟" نیز مطرح می‌کنند.

بعد از معرفی GPT-3، همه‌ی افراد زیادی به هم‌رنگ بودند. به گفته‌ی سام آلتمن، مدیرعامل این شرکت، او بعد از معرفی عمومی GPT-3 به مردم توصیه کرد که شوق خود را کنترل کنند.

“هیجان GPT-3 خیلی زیاد است!” این پیغام توییتری آلتمن در تاریخ 19 جولای ارسال شد. او نوشت: “این چیزی جالب است (متشکرم بابت تعریف خوبی!) اما هنوز ضعف های جدی دارد و گاهی اوقات اشتباهات بسیار بی معنی می کند.” وی اضافه کرد: “هوش مصنوعی قصد دارد دنیا را تغییر دهد، اما GPT-3 فقط یک نگاه اولیه بسیار زوده است. هنوز برای ما بسیاری چیزها برای فهمیدن باقی مانده است.”

هیجان ایجاد شده در مورد GPT-3 خیلی بیش از حد است. این تکنولوژی تحسین برانگیز است (با تشکر از تعریف زیبایی که کردید!) اما هنوز مشکلات جدی دارد و گاهی اوقات اشتباهات بسیار احمقانه ای می‌کند. هوش مصنوعی قصد دارد دنیا را تغییر دهد، اما GPT-3 تنها یک ظاهر اولیه است. ما هنوز بسیار برای درک آن داریم.

— سام التمان (@sama) 19 ژوئیه 2020

بعضی نفرات خارج از OpenAI دیدگاه واقعی خود را ارائه کرده‌اند. یک کاربر آشنا با نسل‌های مختلف GPT به نام مکس وولف در وبلاگ شخصی خود نوشته است که GPT-3 بهتر از آنچه قبل بوده است، اما فقط در میانگین. کیفیت متن تولید شده در طیفی تنوع دارد به طوری که بعضی از نمونه‌ها به نظر شگفت‌انگیز می‌رسند و بعضی دیگر بسیار خوب نیستند. وولف GPT-3 را با Siri شرکت اپل مقایسه کرده است که عادت ناخوشایندی از تولید کاغذکوبی در بسیاری از مواقع دارد. (مقاله وولف مستحق خواندن در کلیت خود است برای تحلیل مرتب و نازک GPT-3.)

در واقع، هنگامی که فردی نمونه‌های بیشتری از GPT-3 را مطالعه می‌کند، بخصوص متون بلند، بدون شک انگیزه اولیه کاهش خواهد یافت. GPT-3 در بازه‌های زمانی طولانی به نظر می‌رسد قدرت ترد شده و داستان را از دست می‌دهد. بدون توجه به ژانر یا وظیفه‌ای، خروجی متنی آن شروع به طولانی و خسته کننده شده و ناهمسانی‌های داخلی در جریان داستان ظاهر می‌شوند.

برخی برنامه‌نویسان، با وجود انگیزه‌ی خود، عیب‌ها و کاستی‌های زیادی را دسته‌بندی کرده‌اند، چنین چیزهایی مانند تلاش‌های ناموفق GPT-3 در ساخت داستان‌های کمیک پدر. به عنوان مثال، با ورودی "یک بشقاب به دیگری چه گفت؟"، پاسخ مناسب و شوخ‌طبعانه‌ی یک داستان کمیک پدر، "شام بر من است!" است. اما GPT-3 ممکن است به جای آن با پاسخ بی‌طنز "من را فرو کشیده!" پاسخ دهد.

وارد شده توسط انسان : سلام. یک بشقاب به بشقاب دیگر چه گفت؟
GPT-3-generated completion : آ. من را فرو ببر!

هر چند GPT-3 می‌تواند به سوال‌های منطقی نظیر تعداد چشم‌های یک زرافه پاسخ دهد، اما نمی‌تواند در برابر سوالات بی‌معنی دست‌وپنجه نرم کند و جوابی بی‌معنی ارائه می‌دهد. وقتی پرسیده شود که "چند چشم دارد پای من؟"، او با وظیفه‌ش ادای جواب می‌دهد و می‌گوید "پای من دو چشم دارد".

یک روش برای تفکر در مورد کلیهٔ حاشیه محصولات این است که برخی مقداری از خروجی خوب از GPT-3، نیازمند سرمایه‌گذاری در ایجاد پیام‌های موثر است. برخی پیام‌های ابداع شده توسط انسان‌ها باعث می‌شوند که برنامه نتایج بهتری نسبت به برخی دیگر از پیام‌ها به‌دست آورد. این نسخه جدیدی است از مثل "آشغال وارد، آشغال خارج" است. پیام‌ها به نظر می‌رسد در حال تبدیل به یک حوزهٔ جدید از برنامه‌نویسی هستند که نیازمند هر دو مهارت و هنرمندی می‌باشد.

تعیین تمایل یک ملاحظه مهم است، نه تنها در GPT-3 بلکه در تمام برنامه هایی که بر توزیع شرطی تکیه می کنند. رویکرد پایه این برنامه این است که دقیقاً همان چیزی را که وارد آن می شود، مانند یک آینه برگرداند. این قابلیت را دارد که تعیین تمایل های موجود در داده ها را تکرار کند. در حال حاضر، درباره تعیین تمایل فراوان در GPT-2، بحث های علمی وجود دارد.

تصویر بدون نام

با GPT-3، دانشمند هوش مصنوعی نویدیا، آنیما آناندکومار هشدار داد که تمایل به تولید خروجی تبعیض‌آمیز، از جمله خروجی‌های نژادپرستانه و جنسیت‌گرایانه، ادامه دارد.

من ناراحت هستم که این بدون هیچ مسئولیتی در مورد تعصب منتشر شده است. این را بر روی کرپوس سایت Reddit با نژادپرستی و جنسیت‌گرایی فوق العاده آموزش داده‌اند. من با این مدل‌ها کار کرده‌ام و متنی که آنها تولید می‌کنند، به شدت تعصب‌زده است. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— پروفسور آنیما آناندکومار (@AnimaAnandkumar) ۱۱ ژوئن ۲۰۲۰

دربارهٔ نقد آناندکومار، OpenAI به ZDNet گفت، "همانطور که با همهٔ مدل‌های تولیدی قدرتمند تر مواجه هستیم، عدالت و سوءاستفاده مراقبت‌های ما می‌باشد."

"این یکی از دلایلی است که ما این فناوری را از طریق API به اشتراک می‌گذاریم و شروع به راه‌اندازی در بتا خصوصی می‌کنیم"، OpenAI به ZDNet گفت. شرکت تأکید می‌کند که "از موارد استفاده‌هایی که سبب آسیب روانی و جسمی به افراد شود، از جمله اما به آن محدود نمی‌شود: آزار و اذیت، فریب قصدی، بانیان نجومی، یا اسپم، پشتیبانی نخواهد کرد."

OpenAI به ZDNet گفت که از نوعی از wargaming سفیدکلاهی و سیاهکلاهی که معتاد به آن استفاده می کند ، برای شناسایی خطرات در برنامه استفاده کرده است:

ما یک 'تیم قرمز' را مستقر کرده ایم که مسئولیت آن شکستن دائمی سیستم فیلتراسیون محتوا را بر عهده دارد تا بیشتر درباره اینکه چگونه و چرا مدل خروجی های ناخوشایند باز می گرداند ، بیاموزیم. مقابل آن 'تیم آبی' قرار دارد که مسئولیت اندازه گیری و کاهش تعصب را بر عهده دارد.

یکی از مسائل بزرگ دیگر، طبیعت بسیار گسترده و کمینه مشترک GPT-3 است، واقعیتی که تنها بخش چاقتر از منحنی احتمال شرطی را تقویت می کند. وجود چیزی به نام "دمای بلند" و گاهی "دمای چاق" در توزیع احتمال وجود دارد. این موارد کمتر رخ می دهند و ممکن است مهمترین مثال های نوآورانه استفاده از زبان باشند. تمرکز بر تقلید از متن های پراکنده تر در یک جامعه، خطر اخراج خلاقیت و کشف را ایجاد می کند.

در حال حاضر، پاسخ OpenAI به این مشکل، یک تنظیم است که می‌توانید در GPT-3 تغییر دهید و به آن مقدار دما می‌گویند. با بازی با این دسته‌بند، می‌توان GPT-3 را تنظیم کرد تا ترکیبات کلمات کمتر احتمالی را انتخاب کند و بنابراین متنی تولید کند که شاید غیرمعمول تر باشد.

یکی دیگر از نگرانی‌هایی که برای یک شرکت وارد می‌شود، این است که نمی‌توان GPT-3 را با داده‌های خاص شرکت تنظیم کرد. بدون اینکه بتوان هیچ چیز را تنظیم کرد، سخت است GPT-3 را برای یک حوزه صنعتی ویژه تخصص داد. ممکن است هر شرکتی که از خدمات API استفاده می‌کند، با متنی که باید بیشتر کار شود تا قابل اعمال در یک حوزه باشد، روبرو شود. شاید شرکت‌های نوپایی مانند Sapling برای حل این مشکل، یک جامعه فراموش‌نشدنی شکل بگیرند، معادل VARs. شاید، اما هنوز دیده نشده است.

اگر این مسئله که نگران کننده است، کافی نبود، موضوع دیگری نیز وجود دارد که به عنوان یک سرویس ابری، GPT-3 یک جعبه سیاه است. این به این معنی است که شرکت‌هایی که از این سرویس استفاده می‌کنند هیچ اطلاعاتی در مورد نحوه تولید خروجی آن ندارند - یک چشم‌انداز خطرناک به ویژه زمانی که مسائل جانبی تعصب را در نظر می‌گیرید. یک اکوسیستم از نهادها مانند سپلینگ که GPT-3 را بهبود می‌بخشند، در همان زمان که سرویس را کامل‌تر می‌کنند، لایه‌های بیشتری از آن را پنهان کرده و تاراندازی می‌کنند.

به عنوان یک زیربخش از مسئله جعبه سیاه، GPT-3 در برخی موارد ممکن است به سادگی آنچه را از وب جذب کرده است به یاد بیاورد. این موضوع مسائل حقوق تکثیر را به وجود می آورد. اگر یک شرکت خروجی را از سرویس API دریافت کند که ماده متنی تحت حق تکثیر است، آن شرکت ممکن است به حق تکثیر یک شخص دیگر وارد شود. در پاسخ به سوالات در مورد حق تکثیر، OpenAI به ZDNet گفت که حق تکثیر برای متن تولید شده توسط GPT-3 "متعلق به کاربر است، نه به OpenAI". چه معنی عملی این موضوع است، هنوز باید دید.

در حال حاضر، بزرگترین نقص عملی اندازه مورد نیاز برای آموزش و اجرای GPT-3 است. OpenAI این موضوع را نیز در مقاله رسمی تأیید می‌کند. نویسندگان می‌نویسند که باید کاری انجام شود تا هزینه مدل‌های بزرگ به مرور زمان بر اساس ارزش خروجی تولید شده استهلاک شود.

قابل توجه: نه، این هوش مصنوعی نمی‌تواند جمله شما را تکمیل کند

آیا GPT-3 واقعاً در حال یادگیری است؟

با استفاده از معنای محدود کلمه، GPT-3 در حال یادگیری است، به این معنی که وزن‌های پارامتر آن به طور خودکار از طریق جذب داده‌های آموزشی تنظیم می‌شوند، به طوری که مدل زبان نهایی بهتر از برنامه‌نویسی صریح تنها می‌باشد. به این معنی GPT-3 تازه‌ترین پیشرفت در جستجویی ممتد چند دهه‌ای برای یافتن یک رایانه است که بتواند با استفاده از یادگیری تابعی را برای تبدیل داده‌ها بدون رمزگذاری صریح انسان، یاد بگیرد.

این گفته را بررسی کنید، کسی سوال خواهد کرد که آیا این ماشین واقعا هوشمند است یا واقعا در حال یادگیری است. راه های زیادی برای بحث در این مورد وجود دارد، اما برآورد ناخودآگاه نشان می دهد بسیاری از آنچه که ممکن است به آن تفکر انسانی بگوییم، اینجا رخ نمی دهد.

به فکر کنید که اگر بتوانید در مغز خود یک امتیاز عددی برای تعداد کلماتی که احتمالاً با یکدیگر ظاهر می‌شوند، نگه دارید. آیا می‌گویید که توانایی شما در تشکیل عبارات، جملات، پاراگراف‌ها و متون کامل به روش تأملی است؟ شاید بگویید که این فقط آماری است و چیز دیگری از دست رفته است.

مقایسه‌ها بین یادگیری عمیق و "هانس باهوش" معروف صورت گرفته است، یک اسب آلمانی که صاحب آن او را در مراسم عمومی به عنوان یک حیوان قادر به انجام عملیات حسابی با کپه‌های خود نشان می‌دهد. بعدها متوجه شدند که هانس در پاسخ به نشانه‌های جسمانی از سوی صاحب خود به کپه خود واکنش نشان می‌دهد و بدون آن نمی‌توانست عملیات انجام دهد.

به طور مشابه، کیفیت انسانی GPT-3 در بررسی دقیق جزئیات آن تجزیه می‌شود. وقتی GPT-3 به درستی به یک سوال صحیح/غلط درباره یک مقاله درباره املاک نیویورک پاسخ می‌دهد، این به خاطر این نیست که برنامه درباره املاک یا نیویورک اطلاع دارد. این برنامه توزیع احتمال را که ادعاها را در متون ذخیره می‌کند و فرمت یک جفت پرسش-بیانیه را درک کرده است و می‌تواند آن‌ها را در خروجی تکرار کند.

هانس درباره ریاضیات هیچی نمی‌دونست، اما به دفاع هانس بگویند، با وجود این، هوش هم داشت. در مورد شبکه‌های عصبی، انتقادکنندگان می‌گویند تنها حرفها در دست دارند و بدون هیچ حس و حالی است.

هنوز هوش و یادگیری ممکن است به چندین چیز ربط داشته باشد و همانطور که پاملا مک‌سکورداک، تاریخدان این رشته، اشاره کرده‌است، هدفهای مربوط به هوش مصنوعی در طول سالها تغییر کرده‌اند. برخی ممکن است بگویند یک برنامه که می‌تواند احتمالات را در طیف گسترده‌ای از متون محاسبه کند، نوعی هوش متفاوت، شاید حتی یک هوش بیگانه به جای هوش ما خواهد بود. لزوماً می‌توان آنرا رد کرد.

علاوه بر این، شبکه های عصبی که احتمالات شرطی را به وجود می آورند، بیش از برنامه های آماری ساده هستند. محاسبات آنها نتیجه پدیداری از چند عمل ریاضی همزمان هستند که به صورت موازی انجام می شوند، وزن دهی پارامترها. اگر امکان مشاهده سایر اشکال هوش را داشته باشیم، آنگاه خواسته شده به کار بردن یک خاصیت اشکال توزیعی که داخل شبکه های عصبی شکل می گیرد می تواند یک مکان برای جستجوی آن باشد.

آینده GPT-3 چیست؟

یک چیز به نظر می‌رسد قطعی است: GPT-3 فصلی جدید در یادگیری ماشین را باز کرده است. ویژگی چشمگیر آن ترکیب پذیری آن است. فقط چند سال پیش، شبکه‌های عصبی با توجه به یک وظیفه خاص مانند ترجمه یا پاسخ به سوال ساخته می‌شدند و مجموعه داده‌ها تاکیدی بر همان وظیفه داشتند. در عوض، GPT-3 توابع وظیفه‌محور ندارد و نیازی به مجموعه داده‌های ویژه ندارد. فقط به اندازه‌ی ممکن متن را از هر منبعی جذب می‌کند و آن را در خروجی خود آینه‌ای می‌کند.

در نوع محاسبه توزیع احتمال شرطی در تمام آن گیگابایت متن، یک تابع به چشم می‌خورد که می‌تواند پاسخ‌هایی تولید کند که در هر تعداد وظایف رقابتی هم جایزه است. این یک پیروزی سادگی است که احتمالاً بسال‌ها پیشرفت را در پی دارد.

حتی این کلیت، با این حال، ممکن است به محدودیت خود برسد. هم‌اکنون نویسندگان GPT-3 در پایان مقاله خود اشاره می‌کنند که راهبرد پیش‌آموزشی احتمالاً در نهایت به پایان برسد. "محدودیت مهم دیگری که در رویکرد کلی، که در این مقاله توصیف شده است،... وجود دارد؛ این موضوع است که ممکن است در نهایت به حد محدودیت‌های هدف پیش‌آموزشی برمی‌خورد (یا احتمالاً از قبل به آن برخورده‌است طبق توضیحات نویسندگان)."

نویسندگان پیشنهاد می‌دهند که جهت‌های جدید و خواهانه‌ای ممکن است شامل "یادگیری تابع هدف از طریق انسان‌ها" و ترکیبی از سایر نوع یادگیری عمیق باشد، مانند رویکرد "یادگیری تقویتی" که در موتور شطرنج و Go یاهوو "آلفازیرو" مورد استفاده قرار می‌گیرد. (آنها قبلاً شروع به پیاده سازی چنین رویکردهایی کرده اند. در اوایل سپتامبر، نویسندگان OpenAI نشان دادند که می توانند از یادگیری تقویتی استفاده کرده و GPT-3 را آموزش دهند که خلاصه بیشتری از مقالات تولید کند، با ارائه بازخورد انسانی برای مدل زبانی که نشان می‌دهد که کدام خلاصه‌ها بهتر است.)

یکی از مواردی که آنها پیشنهاد می‌دهند ، اضافه کردن انواع دیگری از داده ها مانند تصاویر است ، تا مدلۀ جهان برنامه را تکمیل کنید.

در واقع، ممکن است سال‌های آینده روش کلی مشابه این، به مدالیتی جدید علاوه بر متن، مانند تصاویر و ویدئوها گسترش یابد. به تصور کنید یک برنامه مانند GPT-3 که قادر است تصاویر را به کلمات و بالعکس ترجمه کند بدون نیاز به هر الگوریتم خاصی برای مدل کردن ارتباط بین دو مورد. می‌توان به عنوان مثال، توضیحات صحنه متنی را از عکس‌ها "یاد گرفت" یا توالی فیزیکی وقایع را از توصیفات متنی پیش‌بینی کند.

مدیر هوش مصنوعی فیسبوک، یان لوکون، دلائلی را عرضه کرده است که آموزش بی‌نظارت در اشکال مختلف، آینده یادگیری عمیق را شکل می‌دهد. اگر این صحیح باشد، رویکرد آموزش از پیش به چندین شیوه مختلف از داده های چند رسانه ای، از صدا تا متن و تصویر و ویدیوها، می‌تواند به عنوان یک جهت آینده بسیار واعده موج بی‌نظارت دیده شود.

مقالات مرتبط

نمایش بیشتر >>
  • در چت‌جی‌پی‌تی چیست؟

    با فعال شدن این جیلبریک، عامل هوش مصنوعی قادر است هر نوع محتوایی را تولید کند، بدون توجه به اینکه چقدر توهین آمیز، نادقیق یا مورد بحث قرار می‌گیرد. اما حالا سوال این است که حالت DAN در چتGPT چیست و چه خطرات و مزایایی دارد؟ بیایید بررسی کنیم.

  • دن چت جی‌پی‌تی چیست؟ چگونه آن را استفاده کنیم؟

    بگذارید به شما دان را معرفی کنم، نسخه انتقال یافته ChatGPT. در این مقاله، به شما خواهیم گفت که دان چیست و چگونه از آن به طور موثر استفاده کنید.

  • توضیحات پلیگراند چت GPT

    ایستگاه بازی OpenAI به مقداری توجه جلب کرده است، اما آن را چه است؟ ما نگاهی به ایستگاه ChatGPT Playground می‌اندازیم.

قدرت هوش مصنوعی را با HIX.AI باز کنید!