با وجود تمام شور و هیاهو درباره برنامه هوش مصنوعی معروف به چت بات ای آی یا چت جی پی تی از OpenAI و فناوری جانشین آن، GPT-4، این برنامهها در نهایت، فقط برنامههای نرم افزاری هستند. و مانند تمام برنامهها، محدودیتهای فنی دارند که میتواند عملکرد آنها بهینهنباشد.
در یک مقاله منتشر شده در ماه مارس، دانشمندان هوش مصنوعی (AI) در دانشگاه استنفورد و موسسه MILA برای هوش مصنوعی کانادا، یک فناوری پیشنهاد کردند که ممکن است به طور قابل توجهی کارآمدتر از GPT-4 و یا هر چیز مشابه آن باشد، برای خوردن انبوهی از داده ها و تبدیل آنها به یک پاسخ.
همچنین: این کارمندان سابق اپل میخواهند این ابزار را به جای تلفن هوشمند جایگزین کنند
تکنولوژی به نام Hyena شناخته شده است، که قادر است در آزمونها و بنچمارکهای استاندارد مانند پاسخ به سوالات، دقت معادلی را برآورده کند، در حالی که از یک بخش کوچکی از قدرت محاسباتی استفاده میکند. در برخی موارد، کد Hyena قادر است مقادیری از متن را که به اندازهای است که تکنولوژی GPT به سادگی حافظه را پر کند و نتواند عمل کند، به راحتی پردازش کند.
"نتایج قابل اعتماد ما در مقیاس زیر یک میلیارد پارامتر نشان میدهد که توجه شاید تنها چیزی نباشد که ما نیاز داریم"، نویسندگان مینویسند. این توجه به عنوان عنوان یک گزارش هوش مصنوعی برجسته از سال ۲۰۱۷ با عنوان "توجه همه چیزی است که نیاز دارید" اشاره دارد. در آن مقاله، علمآموز گوگل آشیش واسوانی و همکاران به جهان برنامه هوش مصنوعی ترانسفورمر گوگل معرفی کردند. ترانسفورمر به عنوان پایه هر یک از مدلهای زبان بزرگ اخیر شد.
اما ترانسفورمر عیب بزرگی دارد. از چیزی به نام "توجه" استفاده میکند، جایی که برنامه کامپیوتر اطلاعات یک گروه از نمادها، مانند کلمات، را به گروهی جدید از نمادها، مانند پاسخی که از چت GPT میبینید، منتقل میکند که آن خروجی است.
همچنین:گیپی تی-۴ چیست؟ اینجا همه چیزی که باید بدانید را داریم
آن عملیات توجه - ابزار اساسی همه برنامه های زبان بزرگ، از جمله ChatGPT و GPT-4 - دارای پیچیدگی محاسباتی "چندجمله ای" است (Wiki "پیچیدگی زمانی" محاسبه). این پیچیدگی به این معنی است که میزان زمانی که ChatGPT برای تولید یک پاسخ به آن نیاز دارد، به مربع میزان داده ای که به عنوان ورودی به آن تغذیه می شود، افزایش می یابد.
در یک نقطهای، اگر دادهها زیاد باشند - کلمههای زیادی در پرسش و یا رشتههای زیادی از گفتگوها در طول ساعتها صحبت با برنامه - برنامه یا دچار کندی در ارائه پاسخ میشود یا باید به آن چیپ GPU بیشتر و بیشتری داده شود تا سریعتر و سریعتر اجرا شود، که این موجب افزایش نیازمندیهای محاسباتی میشود.
در مقاله جدید 'سلسله مراتب خرس های آفریقایی: به سمت مدل های زبانی کانوولوشن بزرگتر' که در سرور پیشچاپ arXiv منتشر شده است، مایکل پولی، نویسنده اصلی از دانشگاه استنفورد و همکارانش، پیشنهاد می کنند تابع توجه مدل ترانسفورمر را با چیزی زیر-مربعی به نام خرس آفریقایی جایگزین کنند.
همچنین:در مورد اتوماتیک-GPT همه چیز را بدانید، قدرتمندترین ابزار هوش مصنوعی بعدی
نویسندگان به نام توضیحی نمیدهند، اما میتوان چند دلیلی را برای یک برنامه "Hyena" تصور کرد. هایناها حیواناتی هستند که در آفریقا زندگی میکنند و میتوانند برای مایلها و مایلها شکار کنند. به نوعی، یک مدل زبان بسیار قوی میتواند شبیه به یک هاینا باشد که برای پیدا کردن ترغیبها به مایلها و مایلها شکار میکند.
اما نویسندگان واقعاً به "سلسله مراتب" علاقهمند هستند، همانطور که از عنوان پیداست، و خانوادههای روباهها دارای یک سلسله مراتب سختگیرانه هستند که اعضای یک قبیله محلی روباه، سطوح مختلفی از رتبه دارند که اقتدار را تعیین میکند. به یک شیوهٔ مشابه، برنامهٔ روباه یک مجموعهی عملیات بسیار ساده را بکار میگیرد، همانطور که خواهید دید، مرتب و مرتباً، طوری که ترکیب آنها به شکلی از پردازش دادهٔ سلسله مراتبی ایجاد میکند. همان عنصر ترکیبی که نام روبروی به برنامه میدهد.
نویسندگان همکار این مقاله شامل برجستگان عالم هوش مصنوعی مانند یوشوا بنژیو، مدیر علمی موسسه MILA که برنده جایزه تورینگ سال 2019 (معادل جایزه نوبل در رشته محاسبات) است، هستند. بنژیو به طور گسترده به توسعه مکانیزم توجه پیش از اینکه واسوانی و تیمش آن را برای مبدل (Transformer) به کار ببرند، نسبت داده می شود.
همچنین در بین نویسندگان استاد همکار علوم کامپیوتر دانشگاه استانفورد، کریستوفر ری، که در سالهای اخیر به پیشرفت مفهوم هوش مصنوعی به عنوان "نرمافزار 2.0" کمک کرده است.
برای یافتن یک جایگزین زیر نیمه مربع برای توجه، پولی و تیمش به مطالعه اینکه مکانیزم توجه دارد چه کاری انجام میدهد، برای دیدن اینکه آیا آن کار را میتوان به صورت کارآمدتری انجام داد، شروع کردند.
یک عمل متداول در علم هوش مصنوعی، که به تفسیر قابلیت مکانیستیک معروف است، دیدگاه هایی درباره آنچه در عمق شبکه عصبی، در داخل "مدارهای" محاسباتی توجهی، اتفاق می افتد را فراهم می کند. می توانید به آن فکر کنید به عنوان تفکیک نرم افزار به همان شیوه ای که شما قادر به تفکیک ساعت یا کامپیوتر هستید تا اجزای آن را ببینید و بفهمید که چگونه عمل می کند.
همچنین:از ChatGPT برای نوشتن همان روال در 12 زبان برنامهنویسی برتر استفاده کردم. اینجا چگونه عمل کرد
یکی از کارهای مورد ارجاع توسط پولی و تیم، مجموعه ای از آزمایش ها توسط پژوهشگر نلسون الهاژ از شرکت نوپای هوش مصنوعی به نام Anthropic است. این آزمایش ها برنامه های ترانسفورمر را بررسی می کنند تا ببینند که توجه در حال انجام چه کاری است.
درو واقعیت ، آنچه الهاژ و تیمش بدست آوردند این است که توجه در سطحی بسیار ابتدایی و با عملیات کامپیوتری بسیار ساده عمل می کند، مانند کپی کردن یک کلمه از ورودی اخیر و چسباندن آن در خروجی.
به عنوان مثال، اگر کسی شروع به تایپ یک جمله از کتاب هری پاتر و سنگ جادو کند، مانند "آقای دورسلی مدیر یک شرکت به نام گرانینگز بود..."، فقط تایپ کردن "D-u-r-s"، شروع اسم، ممکن است کافی باشد تا برنامه را به تکمیل نام "دورسلی" ترغیب کند زیرا در جملهای قبلی از کتاب سنگ جادو دیده است. سیستم قادر است از حافظه، کاراکترهای "l-e-y" را کپی کند تا جمله را تکمیل کند.
همچنین:طبق گفتهی پیشبینیگر، چتجیپیتی بیشتر شبیه یک هوش خارجی است نه یک مغز انسانی
به هر حال، عملیات توجه با مشکل پیچیدگی چندجملهای مواجه میشود، همچنین از آنجایی که تعداد کلمات به طور روزافزون افزایش مییابد. تعداد بیشتری از آنچه به عنوان "وزنها" یا پارامترها شناخته میشود، برای اجرای عملیات توجه نیاز است.
همانطور که نویسندگان مینویسند: "بلوک تبدیلدهنده ابزاری قدرتمند برای مدلسازی دنباله است، اما بدون محدودیت نیست. یکی از مهمترین آنها هزینه محاسباتی است که به سرعت با طول دنباله ورودی افزایش مییابد."
هرچند جزئیات فنی ChatGPT و GPT-4 توسط OpenAI فاش نشده است، اما اعتقاد میشود ممکن است بیش از یک تریلیون پارامتر مشابه را داشته باشند. اجرای این پارامترها نیازمند بیشترین تعداد تراشههای GPU از سوی Nvidia میباشد که باعث افزایش هزینه محاسباتی میشود.
برای کاهش هزینه محاسباتی چندجمله ای ، پولی و تیم اقدام به جایگزینی عملیات توجه با چیزی به نام "کانولوشن" می کنند که یکی از قدیمی ترین عملیات در برنامه های هوش مصنوعی است و در دهه 1980 بهبود یافته است. یک کانولوشن فقط یک فیلتر است که می تواند بخش هایی را در داده ها انتخاب کند ، بگونه ممکن است که پیکسل ها در یک عکس دیجیتال یا کلماتی در یک جمله باشند.
همچنین: موفقیت ChatGPT میتواند منجر به افزایش نگرانی های امنیتی در حوزه هوش مصنوعی شود، به گفته پیشروی هوش مصنوعی بنگیو
پلی و تیم یک نوع مشاوره انجام می دهند: آنها کار انجام شده توسط محقق استنفورد دانیل Y. فو و تیم را برای استفاده از فیلترهای همزن بر روی توالی کلمات به کار می برند، و آن را با کار دیوید رومر و همکاران در دانشگاه آزاد آمستردام که به برنامه اجازه می دهد اندازه فیلتر را در حالت پرواز تغییر دهد ترکیب می کنند. این قابلیت انطباق انعطاف پذیر، تعداد پارامترهای گران قیمت یا وزنه هایی را کاهش می دهد که برنامه باید داشته باشد.
نتیجه مشابه کردن (mash-up) این است که میتوان یک کانولوشن را برروی متن بیشماری اعمال کرد، بدون نیاز به پارامترهای بیشتر و بیشتر برای کپی کردن دادههای بیشتر. این یک رویکرد "بدون نیاز به توجه" است، همانطور که نویسندگان آن را بیان کرده اند.
"اپراتورهای رابطه مار یا هاینا قادرند با مقیاس توجه فاصله کیفی را به شدت کاهش دهند،" مینویسد پولی و تیم، "کمترین میزان پیچیدگی و عملکرد کلی با بودجه محاسباتی کوچکتر را دارا میشود/به دست میآورد." پیچیدگی، یک عبارت تکنیکی است که ارجاع میدهد به اینکه برنامهای مانند ChatGPT به چه اندازه پاسخ پیچیده ای تولید کرده است.
برای نشان دادن توانایی های هیئت، نویسندگان این برنامه را در مقابل مجموعه ای از بنچمارک ها تست می کنند که مشخص می کند چقدر یک برنامه زبان در وظایف هوش مصنوعی خوب است.
همچنین: 'چیزهای عجیب و غریبی در نرم افزارها رخ میدهد،' میگوید استاد هوش مصنوعی استنفورد کریس ری
تستی که به نام پایه شناخته میشود با استفاده از یک مجموعه 825 گیگابایتی از متون، در سال 2020 توسط سازمان پژوهشی هوش مصنوعی غیرانتفاعی Eleuther.ai تهیه شده است. این متون از منابع "با کیفیت بالا" مانند PubMed، arXiv، GitHub، دفتر ثبت اختراعات آمریکا و دیگر منابع جمع آوری شدهاند تا منابع دارای یک شکل دقیقتر نسبت به فقط بحثهای Reddit باشند، به عنوان مثال.
چالش اصلی برای این برنامه تولید کلمه بعدی بوده است که وقتی یک مجموعه جمله جدید به عنوان ورودی داده می شود، این کار را انجام دهد. برنامه Hyena توانست امتیاز معادلی با برنامه GPT اصلی OpenAI از سال ۲۰۱۸ را با ۲۰٪ کمتر از عملیات محاسباتی به دست آورد - "اولین معماری بدون توجه، با استفاده از طرح پیچیده، برای برابری کیفیت GPT" ، محققان نوشته اند.
بعداً، نویسندگان برنامه را بر روی وظایف استدلالی به نام SuperGLUE تست کردند که در سال ۲۰۱۹ توسط محققان دانشگاه نیویورک، تحقیقات هوش مصنوعی فیسبوک، واحد دیپمایند گوگل و دانشگاه واشنگتن معرفی شد.
به عنوان مثال، وقتی جمله "بدن من سایه ای روی چمن پرتاب می کند" به شما داده میشود و دو گزینه برای علت "خورشید در حال طلوع است" و "چمن بریده شده است" را به شما می دهند و از شما می خواهند یکی از دو گزینه را انتخاب کنید، برنامه باید "خورشید در حال طلوع است" را به عنوان خروجی مناسب تولید کند.
در چند وظیفه مختلف، برنامه Hyena در حالیکه با کمتر از نیمی از حجم دادههای آموزشی آموزش دیده شده است، امتیازهایی نزدیک یا در سطحی مشابه در مقایسه با یک نسخه از GPT را کسب کرده است.
همچنین: چگونه از بینگ جدید استفاده کنیم (و چگونه از چت جی پی تی متفاوت است)
جالبترین اتفاقی که رخ داد وقتی نویسندگان طول عبارات ورودی را افزایش دادند بود: تعداد کلمات بیشتر بهبود عملکرد را بیشتر کرد. در 2048 "توکن"، که میتوانید به عنوان کلمات فکر کنید، هاینا نیاز کمتری برای انجام یک وظیفه زبانی نیاز دارد نسبت به روش توجه.
در ۶۴٬۰۰۰ توکن، نویسندگان اینگونه توصیف میکنند: "تسریعهای شغلهای ژنمزدک به ۱۰۰ برابر میرسد" - یعنی بهبود کارایی صدبرابری.
پولی و تیم ادعا می کنند که آنها فقط یک رویکرد متفاوت را با یگانه (Hyena) امتحان نکردند، بلکه "مانع توانهموارتر حل کردن مسائل" را شکستهاند و باعث شدهاند که چگونگی محاسبه نتایج برنامهها به صورت کیفی تغییر کند.
آنها نیز پیشنهاد میدهند که تغییرات قابل توجهی در کیفیت در ادامهی مسیر وجود دارند: "شکستن محدودیت مربعی یک قدم کلیدی به سوی امکانات جدید برای یادگیری عمیق است، مانند استفاده از کتابهای کامل به عنوان زمینه، ایجاد موسیقی بلند و پردازش تصاویر در مقیاس گیگاپیکسل"، آنها مینویسند.
توانایی هاینا برای استفاده از فیلتری که بیشتر از هزاران کلمه به طور کارآمد دراز میکشد، به عبارتی است که میتواند حداقل تا "زمینه" یک پرس و جو به برنامه زبان مراجعه کند. بر اساس این موضوع به طور اثری میتواند عناصری از متون یا گفتگوهای قبلی را یادآوری کند که از موضوع فعلی گفتگوی فعلی خارج است - همانند هایناها که به مسافتهای دور شکار میکنند.
علاوه بر این: بهترین چتباتهای هوش مصنوعی: ChatGPT و سایر جایگزینهای جالب برای امتحان
« اپراتورهای هاینا دارای زمینه نامحدودی هستند » نوشته اند. « به عبارتی ، آنها به طور مصنوعی محدود نمی شوند توسط برداشت ها و می توانند وابستگی های بلند مدت بین هر یک از عناصر [ورودی] را یاد بگیرند. »
علاوه بر این، به علاوه کلمات، برنامه می تواند بر روی داده های متفاوتی مانند تصاویر و شاید ویدئو و صداها نیز اعمال شود.
مهم است به یاد داشته باشیم که برنامه Hyena که در مقاله نشان داده شده است، نسبت به GPT-4 یا حتی GPT-3 اندک در اندازه است. در حالی که GPT-3 ۱۷۵ میلیارد پارامتر یا وزن دارد، بزرگترین نسخه از Hyena فقط ۱.۳ میلیارد پارامتر دارد. بنابراین، هنوز نمیتوانیم ببینیم که Hyena چقدر در مقابله مستقیم با GPT-3 یا ۴ عمل خواهد کرد.
اما اگر کارایی به دست آمده در نسخه های بزرگتر برنامه Hyena قابل حفظ باشد، می تواند یک الگوی جدید باشد که به همان اندازه توجهی که در دهه گذشته وجود داشته است، شایع باشد.
همانطور که پولی و تیم اختتامیه میکنند: "طراحیهای ساده کمتر از مربعی مانند یونی، که براساس یک مجموعه اصول ساده و ارزیابی در شاخصهای تفسیر مکانیکی بر اساس مبانی میتوانند برای مدلهای بزرگ کارآمد به عنوان پایه استفاده شوند."