![gpt-4-640b66db8c60d-sej-1520x800.jpg](https://static-lib.s3.amazonaws.com/cms/gpt_4_640b66db8c60d_sej_1520x800_1899fa76fc.jpg)
CTO شرکت مایکروسافت آلمان ، آندرهاس براون ، تایید کرده است که GPT-4 در یک هفته از تاریخ 9 مارس 2023 رونمایی خواهد شد و این نسخه چند حالته خواهد بود. هوش مصنوعی چند حالته به این معناست که قادر خواهد بود با ورودی های متنوعی مانند ویدئو ، تصاویر و صدا کار کند.
بهروزرسانی: GPT-4 در تاریخ 14 مارس 2023 به بازار عرضه شد
اپن آی آی یی به تاریخ 14 مارس 2023 مدل GPT-4 را منتشر کرد. این یک مدل چندحالته است که عکس و متن را به عنوان ورودی میپذیرد.
مدال یک عبارت استفاده شده در یادگیری ماشین برای نشان دادن اشکال ورودی مانند متن و همچنین حسهایی مانند صدا، تصویر، بو و غیره است.
اعلامیه OpenAI ویژگیهای پیشرفتهای GPT-4 را توصیف میکند:
"... در حالی که در بسیاری از صحنههای واقعی کمتر از انسانها کارآیی دارد، عملکرد سطح انسانی را در مقیاسهای مختلف حرفهای و تحصیلی ارائه میدهد.
به عنوان مثال، در آزمون مجازی کارآزمایی با نمرهای در حدود 10 درصد از بهترین آزمون دهندگان قبول میشود؛ در مقابل، نمره GPT-3.5 حدود 10 درصد پایین تر است.
ما تمام تلاشمان را برای تناسب GPT-4 در طول 6 ماه انجام دادهایم با استفاده از درسهایی که از برنامه آزمون رقابتی و چت GPT به دست آوردهایم، که باعث شد نتایج بهترین ما را (با افتکاک کامل از کمال) در حقیقتپذیری، قابلیت راهبردی و عدم تجاوز از محدودههای تعیینشده به دست آوریم."
مدلهای زبان بزرگ چندحالته
آمار جالب تبلیغ این است که GPT-4 چندواحدی است (SEJ در ژانویه 2023 GPT-4 چندواحدی است را پیشبینی کرده است).
Modaliti به نوع ورودی اشاره دارد که (در این مورد) یک مدل زبان بزرگ با آن سر و کار دارد.
مدل چندجَرياني شامل متن، گفتار، تصاوير و ويديو ميشود.
GPT-3 و GPT-3.5 فقط در یک حالت، متن، عمل میکنند.
بر اساس گزارش خبری آلمانی، GPT-4 ممکن است در حداقل چهار حالت، عکس، صدا (شنیداری)، متن و ویدیو عمل کند.
دکتر آندرهاس براون، CTO مایکروسافت آلمان، اینگونه اظهار نظر کرده است:
"هفته آینده GPT-4 را معرفی خواهیم کرد، در آنجا مدلهای چندحالته داشته باشیم که امکاناتی کاملاً متفاوت را ارائه میدهند - به عنوان مثال ویدیوها..."
گزارشدهی مورد نیاز به جزئیات برای GPT-4 نداشته است، بنابراین مشخص نیست که آیا اطلاعاتی که درباره چندحالتی در مورد GPT-4 ارائه شد، مربوط به خود GPT-4 است یا فقط به طور کلی بیان شده است.
مدیر استراتژی کسب و کار مایکروسافت، هولگر کن، توضیح داد که چگونه چندحالتیها توضیح داده میشود، اما گزارش دست و پا گیر بود که آیا او در اشاره به چندحالتی GPT-4 میباشد یا چندحالتیها به طور کلی.
معتقدم که ارجاعات او به چندشکلی بودن، به طور خاص مربوط به GPT-4 بود.
خبر گزارش شده است:
"کن توضیح داد که چیستی هوش مصنوعی چندحالتی که متن را قادر است به تصاویر به خوبی ترجمه نماید و همچنین به موسیقی و ویدیو."
یک واقعیت دیگر جالب این است که مایکروسافت در حال کار بر روی "معیارهای اعتماد" است تا هوش مصنوعی خود را با واقعیتها پایهگذاری کند و آن را قابل اعتمادتر کند.
مایکروسافت کیوسموس-1
یک چیزی که به نظر میرسد در ایالات متحده کمتر گزارش شده است این است که مایکروسافت در اوایل مارس ۲۰۲۳ یک مدل چندحالته زبانی به نام کوسموس-۱ منتشر کرده است.
به گزارش سایت خبری آلمانی، Heise.de:
«...تیم آزمایشهای مختلفی را برروی مدل پیشآموزشدیده انجام داد و نتایج خوبی در طبقهبندی تصاویر، پاسخ به سوالات درباره محتوای تصویر، برچسبگذاری خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار داشت.»
... استدلال تصویری، یعنی بدست آوردن استنتاج ها درباره تصاویر بدون استفاده از زبان به عنوان یک مرحله واسطه، به نظر می رسد در اینجا کلیدی است ...
کوسموس-۱ یک مدالیته چند حالتی است که حالتهای متن و تصویر را ترکیب میکند.
جیپیتی-۴ به عنوان یک توسعهی بیشتر از کوسموس-۱ در نظر میگیرد چون از ۳ حالت (صوت، تصویر و متن) استفاده میکند.
کارها در زبانهای متعدد کار میکند
GPT-4 شاید به همه زبانها پاسخگویی کند. به طوری که این قابلیت را دارد که یک سوال به زبان آلمانی دریافت کرده و بازگویی آن را به زبان ایتالیایی انجام دهد.
این نمونه کمی عجیب به نظر میرسد زیرا کسی که با زبان آلمانی سوال میپرسد و میخواهد پاسخی به زبان ایتالیایی دریافت کند؟
این چیزی است که تایید شده است:
"...تکنولوژی به حدی پیشرفت کرده است که به طور اساسی در تمام زبانها عمل می کند: می توانید یک سوال به آلمانی بپرسید و پاسخی به زبان ایتالیایی دریافت کنید."
با چند حالتی، مایکروسافت (OpenAI) "مدل ها را کامل می کند".
من معتقدم که نکته اصلی این موفقیت این مدل است که با توانایی جمع آوری دانش از طریق زبانهای مختلف، از محدودیت زبانی فراتر میرود. بنابراین، اگر پاسخ در زبان ایتالیایی باشد، میتواند آن را بشناسد و پاسخ را در زبانی که سوال مطرح شده است، ارائه دهد.
این باعث میشود به هدف هوش هنرمند چند حالته گوگل به نام MUM شباهت پیدا کند. گفته میشود که مادر (Mum) قادر است به سوالاتی که دادهها فقط به یک زبان دیگر مانند ژاپنی وجود دارد، به زبان انگلیسی پاسخ دهد.
کاربردهای GPT-4
تاکنون هیچ اعلامیهای درباره محل ظهور GPT-4 صورت نگرفته است. اما Azure-OpenAI به طور خاص ذکر شده است.
گوگل در حال تلاش برای رقابت با مایکروسافت است، با تجمیع یک فناوری رقیب در موتور جستجوی خود. این توسعه بیش از پیش احساس می کند که گوگل در حال عقب مانده و کمبود رهبری در هوش مصنوعی مواجه با مصرف کنندگان را دارد.
گوگل در حال حاضر هوش مصنوعی را در محصولات متعددی مانند Google Lens ، Google Maps و سایر حوزه هایی که کاربران با گوگل در آن تعامل دارند ، یکپارچه می کند. این رویکرد مربوط به استفاده از هوش مصنوعی به عنوان یک فناوری کمکی است برای کمک به افراد در وظایف کوچک.
روشی که مایکروسافت در حال اجرای آن است، قابل مشاهدهتر است و بنابراین تمام توجه را به خود جلب میکند و تصویری از گوگل به عنوان یک شرکت ناآرام و در تلاش برای رسیدن به جلو تقویت میکند.
بخوانید اعلان رسمی ارائه GPT-4 از OpenAI را اینجا.
برای خواندن گزارش اصلی به زبان آلمانی اینجا کلیک کنید:
GPT-4 هفته آینده رونمایی می شود - و به صورت چندوجهی خواهد بود، به گفته Microsoft آلمان