این فناوری جدید می‌تواند GPT-4 و همه چیز مشابه آن را کند کند

با وجود تمام شور و هیاهو درباره برنامه هوش مصنوعی معروف به چت بات ای آی یا چت جی پی تی از OpenAI و فناوری جانشین آن، GPT-4، این برنامه‌ها در نهایت، فقط برنامه‌های نرم افزاری هستند. و مانند تمام برنامه‌ها، محدودیت‌های فنی دارند که می‌تواند عملکرد آن‌ها بهینه‌نباشد.

در یک مقاله منتشر شده در ماه مارس، دانشمندان هوش مصنوعی (AI) در دانشگاه استنفورد و موسسه MILA برای هوش مصنوعی کانادا، یک فناوری پیشنهاد کردند که ممکن است به طور قابل توجهی کارآمدتر از GPT-4 و یا هر چیز مشابه آن باشد، برای خوردن انبوهی از داده ها و تبدیل آنها به یک پاسخ.

همچنین: این کارمندان سابق اپل میخواهند این ابزار را به جای تلفن هوشمند جایگزین کنند

تکنولوژی به نام Hyena شناخته شده است، که قادر است در آزمون‌ها و بنچمارک‌های استاندارد مانند پاسخ به سوالات، دقت معادلی را برآورده کند، در حالی که از یک بخش کوچکی از قدرت محاسباتی استفاده می‌کند. در برخی موارد، کد Hyena قادر است مقادیری از متن را که به اندازه‌ای است که تکنولوژی GPT به سادگی حافظه را پر کند و نتواند عمل کند، به راحتی پردازش کند.

"نتایج قابل اعتماد ما در مقیاس زیر یک میلیارد پارامتر نشان می‌دهد که توجه شاید تنها چیزی نباشد که ما نیاز داریم"، نویسندگان می‌نویسند. این توجه به عنوان عنوان یک گزارش هوش مصنوعی برجسته از سال ۲۰۱۷ با عنوان "توجه همه چیزی است که نیاز دارید" اشاره دارد. در آن مقاله، علم‌آموز گوگل آشیش واسوانی و همکاران به جهان برنامه هوش مصنوعی ترانسفورمر گوگل معرفی کردند. ترانسفورمر به عنوان پایه هر یک از مدل‌های زبان بزرگ اخیر شد.

اما ترانسفورمر عیب بزرگی دارد. از چیزی به نام "توجه" استفاده می‌کند، جایی که برنامه کامپیوتر اطلاعات یک گروه از نمادها، مانند کلمات، را به گروهی جدید از نمادها، مانند پاسخی که از چت GPT می‌بینید، منتقل می‌کند که آن خروجی است.

همچنین:گیپی تی-۴ چیست؟ اینجا همه چیزی که باید بدانید را داریم

آن عملیات توجه - ابزار اساسی همه برنامه های زبان بزرگ، از جمله ChatGPT و GPT-4 - دارای پیچیدگی محاسباتی "چندجمله ای" است (Wiki "پیچیدگی زمانی" محاسبه). این پیچیدگی به این معنی است که میزان زمانی که ChatGPT برای تولید یک پاسخ به آن نیاز دارد، به مربع میزان داده ای که به عنوان ورودی به آن تغذیه می شود، افزایش می یابد.

در یک نقطه‌ای، اگر داده‌ها زیاد باشند - کلمه‌های زیادی در پرسش و یا رشته‌های زیادی از گفتگوها در طول ساعت‌ها صحبت با برنامه - برنامه یا دچار کندی در ارائه پاسخ می‌شود یا باید به آن چیپ GPU بیشتر و بیشتری داده شود تا سریعتر و سریعتر اجرا شود، که این موجب افزایش نیازمندی‌های محاسباتی می‌شود.

در مقاله جدید 'سلسله مراتب خرس های آفریقایی: به سمت مدل های زبانی کانوولوشن بزرگتر' که در سرور پیش‌چاپ arXiv منتشر شده است، مایکل پولی، نویسنده اصلی از دانشگاه استنفورد و همکارانش، پیشنهاد می کنند تابع توجه مدل ترانسفورمر را با چیزی زیر-مربعی به نام خرس آفریقایی جایگزین کنند.

همچنین:در مورد اتوماتیک-GPT همه چیز را بدانید، قدرتمندترین ابزار هوش مصنوعی بعدی

نویسندگان به نام توضیحی نمی‌دهند، اما می‌توان چند دلیلی را برای یک برنامه "Hyena" تصور کرد. هایناها حیواناتی هستند که در آفریقا زندگی می‌کنند و می‌توانند برای مایل‌ها و مایل‌ها شکار کنند. به نوعی، یک مدل زبان بسیار قوی می‌تواند شبیه به یک هاینا باشد که برای پیدا کردن ترغیب‌ها به مایل‌ها و مایل‌ها شکار می‌کند.

اما نویسندگان واقعاً به "سلسله مراتب" علاقه‌مند هستند، همانطور که از عنوان پیداست، و خانواده‌های روباه‌ها دارای یک سلسله مراتب سختگیرانه هستند که اعضای یک قبیله محلی روباه، سطوح مختلفی از رتبه دارند که اقتدار را تعیین می‌کند. به یک شیوهٔ مشابه، برنامهٔ روباه یک مجموعه‌ی عملیات بسیار ساده را بکار می‌گیرد، همانطور که خواهید دید، مرتب و مرتباً، طوری که ترکیب آنها به شکلی از پردازش دادهٔ سلسله مراتبی ایجاد می‌کند. همان عنصر ترکیبی که نام روبروی به برنامه می‌دهد.

همچنین: نسخه‌های آینده ChatGPT می‌توانند بیشتر کارهایی که اکنون مردم انجام می‌دهند را جایگزین کنند، می‌گوید بن گورتزل

نویسندگان همکار این مقاله شامل برجستگان عالم هوش مصنوعی مانند یوشوا بنژیو، مدیر علمی موسسه MILA که برنده جایزه تورینگ سال 2019 (معادل جایزه نوبل در رشته محاسبات) است، هستند. بنژیو به طور گسترده به توسعه مکانیزم توجه پیش از اینکه واسوانی و تیمش آن را برای مبدل (Transformer) به کار ببرند، نسبت داده می شود.

همچنین در بین نویسندگان استاد همکار علوم کامپیوتر دانشگاه استانفورد، کریستوفر ری، که در سال‌های اخیر به پیشرفت مفهوم هوش مصنوعی به عنوان "نرم‌افزار 2.0" کمک کرده است.

برای یافتن یک جایگزین زیر نیمه مربع برای توجه، پولی و تیمش به مطالعه اینکه مکانیزم توجه دارد چه کاری انجام می‌دهد، برای دیدن اینکه آیا آن کار را می‌توان به صورت کارآمدتری انجام داد، شروع کردند.

یک عمل متداول در علم هوش مصنوعی، که به تفسیر قابلیت مکانیستیک معروف است، دیدگاه هایی درباره آنچه در عمق شبکه عصبی، در داخل "مدارهای" محاسباتی توجهی، اتفاق می افتد را فراهم می کند. می توانید به آن فکر کنید به عنوان تفکیک نرم افزار به همان شیوه ای که شما قادر به تفکیک ساعت یا کامپیوتر هستید تا اجزای آن را ببینید و بفهمید که چگونه عمل می کند.

همچنین:از ChatGPT برای نوشتن همان روال در 12 زبان برنامه‌نویسی برتر استفاده کردم. اینجا چگونه عمل کرد

یکی از کارهای مورد ارجاع توسط پولی و تیم، مجموعه ای از آزمایش ها توسط پژوهشگر نلسون الهاژ از شرکت نوپای هوش مصنوعی به نام Anthropic است. این آزمایش ها برنامه های ترانسفورمر را بررسی می کنند تا ببینند که توجه در حال انجام چه کاری است.

درو واقعیت ، آنچه الهاژ و تیمش بدست آوردند این است که توجه در سطحی بسیار ابتدایی و با عملیات کامپیوتری بسیار ساده عمل می کند، مانند کپی کردن یک کلمه از ورودی اخیر و چسباندن آن در خروجی.

به عنوان مثال، اگر کسی شروع به تایپ یک جمله از کتاب هری پاتر و سنگ جادو کند، مانند "آقای دورسلی مدیر یک شرکت به نام گرانینگز بود..."، فقط تایپ کردن "D-u-r-s"، شروع اسم، ممکن است کافی باشد تا برنامه را به تکمیل نام "دورسلی" ترغیب کند زیرا در جمله‌ای قبلی از کتاب سنگ جادو دیده است. سیستم قادر است از حافظه، کاراکترهای "l-e-y" را کپی کند تا جمله را تکمیل کند.

همچنین:طبق گفته‌ی پیشبینی‌گر، چت‌جی‌پی‌تی بیشتر شبیه یک هوش خارجی است نه یک مغز انسانی

به هر حال، عملیات توجه با مشکل پیچیدگی چندجمله‌ای مواجه می‌شود، همچنین از آنجایی که تعداد کلمات به طور روزافزون افزایش می‌یابد. تعداد بیشتری از آنچه به عنوان "وزن‌ها" یا پارامترها شناخته می‌شود، برای اجرای عملیات توجه نیاز است.

همانطور که نویسندگان می‌نویسند: "بلوک تبدیل‌دهنده ابزاری قدرتمند برای مدل‌سازی دنباله است، اما بدون محدودیت نیست. یکی از مهم‌ترین آنها هزینه محاسباتی است که به سرعت با طول دنباله ورودی افزایش می‌یابد."

هرچند جزئیات فنی ChatGPT و GPT-4 توسط OpenAI فاش نشده است، اما اعتقاد می‌شود ممکن است بیش از یک تریلیون پارامتر مشابه را داشته باشند. اجرای این پارامترها نیازمند بیشترین تعداد تراشه‌های GPU از سوی Nvidia می‌باشد که باعث افزایش هزینه محاسباتی می‌شود.

برای کاهش هزینه محاسباتی چندجمله ای ، پولی و تیم اقدام به جایگزینی عملیات توجه با چیزی به نام "کانولوشن" می کنند که یکی از قدیمی ترین عملیات در برنامه های هوش مصنوعی است و در دهه 1980 بهبود یافته است. یک کانولوشن فقط یک فیلتر است که می تواند بخش هایی را در داده ها انتخاب کند ، بگونه ممکن است که پیکسل ها در یک عکس دیجیتال یا کلماتی در یک جمله باشند.

همچنین: موفقیت ChatGPT می‌تواند منجر به افزایش نگرانی های امنیتی در حوزه هوش مصنوعی شود، به گفته پیشروی هوش مصنوعی بنگیو

پلی و تیم یک نوع مشاوره انجام می دهند: آنها کار انجام شده توسط محقق استنفورد دانیل Y. فو و تیم را برای استفاده از فیلترهای همزن بر روی توالی کلمات به کار می برند، و آن را با کار دیوید رومر و همکاران در دانشگاه آزاد آمستردام که به برنامه اجازه می دهد اندازه فیلتر را در حالت پرواز تغییر دهد ترکیب می کنند. این قابلیت انطباق انعطاف پذیر، تعداد پارامترهای گران قیمت یا وزنه هایی را کاهش می دهد که برنامه باید داشته باشد.

نتیجه مشابه کردن (mash-up) این است که می‌توان یک کانولوشن را برروی متن بیشماری اعمال کرد، بدون نیاز به پارامترهای بیشتر و بیشتر برای کپی کردن داده‌های بیشتر. این یک رویکرد "بدون نیاز به توجه" است، همانطور که نویسندگان آن را بیان کرده اند.

‏"اپراتورهای رابطه مار یا هاینا قادرند با مقیاس توجه فاصله کیفی را به شدت کاهش دهند،" می‌نویسد پولی و تیم، "کمترین میزان پیچیدگی و عملکرد کلی با بودجه محاسباتی کوچکتر را دارا می‌شود/به دست می‌آورد." پیچیدگی، یک عبارت تکنیکی است که ارجاع می‌دهد به اینکه برنامه‌ای مانند ChatGPT به چه اندازه پاسخ پیچیده ای تولید کرده است.

برای نشان دادن توانایی های هیئت، نویسندگان این برنامه را در مقابل مجموعه ای از بنچمارک ها تست می کنند که مشخص می کند چقدر یک برنامه زبان در وظایف هوش مصنوعی خوب است.

همچنین: 'چیزهای عجیب و غریبی در نرم افزارها رخ می‌دهد،' می‌گوید استاد هوش مصنوعی استنفورد کریس ری

تستی که به نام پایه شناخته می‌شود با استفاده از یک مجموعه 825 گیگابایتی از متون، در سال 2020 توسط سازمان پژوهشی هوش مصنوعی غیرانتفاعی Eleuther.ai تهیه شده است. این متون از منابع "با کیفیت بالا" مانند PubMed، arXiv، GitHub، دفتر ثبت اختراعات آمریکا و دیگر منابع جمع آوری شده‌اند تا منابع دارای یک شکل دقیق‌تر نسبت به فقط بحث‌های Reddit باشند، به عنوان مثال.

چالش اصلی برای این برنامه تولید کلمه بعدی بوده است که وقتی یک مجموعه جمله جدید به عنوان ورودی داده می شود، این کار را انجام دهد. برنامه Hyena توانست امتیاز معادلی با برنامه GPT اصلی OpenAI از سال ۲۰۱۸ را با ۲۰٪ کمتر از عملیات محاسباتی به دست آورد - "اولین معماری بدون توجه، با استفاده از طرح پیچیده، برای برابری کیفیت GPT" ، محققان نوشته اند.

بعداً، نویسندگان برنامه را بر روی وظایف استدلالی به نام SuperGLUE تست کردند که در سال ۲۰۱۹ توسط محققان دانشگاه نیویورک، تحقیقات هوش مصنوعی فیسبوک، واحد دیپ‌مایند گوگل و دانشگاه واشنگتن معرفی شد.

به عنوان مثال، وقتی جمله "بدن من سایه ای روی چمن پرتاب می کند" به شما داده می‌شود و دو گزینه برای علت "خورشید در حال طلوع است" و "چمن بریده شده است" را به شما می دهند و از شما می خواهند یکی از دو گزینه را انتخاب کنید، برنامه باید "خورشید در حال طلوع است" را به عنوان خروجی مناسب تولید کند.

در چند وظیفه مختلف، برنامه Hyena در حالیکه با کمتر از نیمی از حجم داده‌های آموزشی آموزش دیده شده است، امتیازهایی نزدیک یا در سطحی مشابه در مقایسه با یک نسخه از GPT را کسب کرده است.

همچنین: چگونه از بینگ جدید استفاده کنیم (و چگونه از چت جی پی تی متفاوت است)

جالب‌ترین اتفاقی‌ که رخ داد وقتی نویسندگان طول عبارات ورودی را افزایش دادند بود: تعداد کلمات بیشتر بهبود عملکرد را بیشتر کرد. در 2048 "توکن"، که می‌توانید به عنوان کلمات فکر کنید، هاینا نیاز کمتری برای انجام یک وظیفه زبانی نیاز دارد نسبت به روش توجه.

در ۶۴٬۰۰۰ توکن، نویسندگان اینگونه توصیف می‌کنند: "تسریع‌های شغل‌های ژن‌مزدک به ۱۰۰ برابر می‌رسد" - یعنی بهبود کارایی صد‌برابری.

پولی و تیم ادعا می کنند که آنها فقط یک رویکرد متفاوت را با یگانه (Hyena) امتحان نکردند، بلکه "مانع توان‌هموارتر حل کردن مسائل" را شکسته‌اند و باعث شده‌اند که چگونگی محاسبه نتایج برنامه‌ها به صورت کیفی تغییر کند.

آنها نیز پیشنهاد می‌دهند که تغییرات قابل توجهی در کیفیت در ادامه‌ی مسیر وجود دارند: "شکستن محدودیت مربعی یک قدم کلیدی به سوی امکانات جدید برای یادگیری عمیق است، مانند استفاده از کتاب‌های کامل به عنوان زمینه، ایجاد موسیقی بلند و پردازش تصاویر در مقیاس گیگاپیکسل"، آنها می‌نویسند.

توانایی هاینا برای استفاده از فیلتری که بیشتر از هزاران کلمه به طور کارآمد دراز میکشد، به عبارتی است که میتواند حداقل تا "زمینه" یک پرس و جو به برنامه زبان مراجعه کند. بر اساس این موضوع به طور اثری میتواند عناصری از متون یا گفتگوهای قبلی را یادآوری کند که از موضوع فعلی گفتگوی فعلی خارج است - همانند هایناها که به مسافتهای دور شکار میکنند.

علاوه بر این: بهترین چت‌بات‌های هوش مصنوعی: ChatGPT و سایر جایگزین‌های جالب برای امتحان

« اپراتورهای هاینا دارای زمینه نامحدودی هستند » نوشته اند. « به عبارتی ، آنها به طور مصنوعی محدود نمی شوند توسط برداشت ها و می توانند وابستگی های بلند مدت بین هر یک از عناصر [ورودی] را یاد بگیرند. »

علاوه بر این، به علاوه کلمات، برنامه می تواند بر روی داده های متفاوتی مانند تصاویر و شاید ویدئو و صداها نیز اعمال شود.

مهم است به یاد داشته باشیم که برنامه Hyena که در مقاله نشان داده شده است، نسبت به GPT-4 یا حتی GPT-3 اندک در اندازه است. در حالی که GPT-3 ۱۷۵ میلیارد پارامتر یا وزن دارد، بزرگترین نسخه از Hyena فقط ۱.۳ میلیارد پارامتر دارد. بنابراین، هنوز نمی‌توانیم ببینیم که Hyena چقدر در مقابله مستقیم با GPT-3 یا ۴ عمل خواهد کرد.

اما اگر کارایی به دست آمده در نسخه های بزرگتر برنامه Hyena قابل حفظ باشد، می تواند یک الگوی جدید باشد که به همان اندازه توجهی که در دهه گذشته وجود داشته است، شایع باشد.

همانطور که پولی و تیم اختتامیه می‌کنند: "طراحی‌های ساده کمتر از مربعی مانند یونی، که براساس یک مجموعه اصول ساده و ارزیابی در شاخص‌های تفسیر مکانیکی بر اساس مبانی می‌توانند برای مدل‌های بزرگ کارآمد به عنوان پایه استفاده شوند."

این فناوری جدید می‌تواند GPT-4 و هر چیز مشابه دیگری را پرتاب کند

مقالات مرتبط