گی-پی-تی ۴ از OpenAI بهار سال ۲۰۲۳ می‌رسد

gpt-4-640b66db8c60d-sej-1520x800.jpg

CTO شرکت مایکروسافت آلمان ، آندرهاس براون ، تایید کرده است که GPT-4 در یک هفته از تاریخ 9 مارس 2023 رونمایی خواهد شد و این نسخه چند حالته خواهد بود. هوش مصنوعی چند حالته به این معناست که قادر خواهد بود با ورودی های متنوعی مانند ویدئو ، تصاویر و صدا کار کند.

به‌روزرسانی: GPT-4 در تاریخ 14 مارس 2023 به بازار عرضه شد

اپن آی آی یی به تاریخ 14 مارس 2023 مدل GPT-4 را منتشر کرد. این یک مدل چندحالته است که عکس و متن را به عنوان ورودی می‌پذیرد.

مدال یک عبارت استفاده شده در یادگیری ماشین برای نشان دادن اشکال ورودی مانند متن و همچنین حس‌هایی مانند صدا، تصویر، بو و غیره است.

اعلامیه OpenAI ویژگی‌های پیشرفت‌های GPT-4 را توصیف می‌کند:

"... در حالی که در بسیاری از صحنه‌های واقعی کمتر از انسان‌ها کارآیی دارد، عملکرد سطح انسانی را در مقیاس‌های مختلف حرفه‌ای و تحصیلی ارائه می‌دهد.

به عنوان مثال، در آزمون مجازی کارآزمایی با نمره‌ای در حدود 10 درصد از بهترین آزمون دهندگان قبول می‌شود؛ در مقابل، نمره GPT-3.5 حدود 10 درصد پایین تر است.

ما تمام تلاشمان را برای تناسب GPT-4 در طول 6 ماه انجام داده‌ایم با استفاده از درس‌هایی که از برنامه آزمون رقابتی و چت GPT به دست آورده‌ایم، که باعث شد نتایج بهترین ما را (با افتکاک کامل از کمال) در حقیقت‌پذیری، قابلیت راهبردی و عدم تجاوز از محدوده‌های تعیین‌شده به دست آوریم."

مدل‌های زبان بزرگ چندحالته

آمار جالب تبلیغ این است که GPT-4 چندواحدی است (SEJ در ژانویه 2023 GPT-4 چندواحدی است را پیش‌بینی کرده است).

Modaliti به نوع ورودی اشاره دارد که (در این مورد) یک مدل زبان بزرگ با آن سر و کار دارد.

مدل چندجَرياني شامل متن، گفتار، تصاوير و ويديو مي‌شود.

GPT-3 و GPT-3.5 فقط در یک حالت، متن، عمل می‌کنند.

بر اساس گزارش خبری آلمانی، GPT-4 ممکن است در حداقل چهار حالت، عکس، صدا (شنیداری)، متن و ویدیو عمل کند.

دکتر آندرهاس براون، CTO مایکروسافت آلمان، اینگونه اظهار نظر کرده است:

"هفته آینده GPT-4 را معرفی خواهیم کرد، در آنجا مدل‌های چندحالته داشته باشیم که امکاناتی کاملاً متفاوت را ارائه می‌دهند - به عنوان مثال ویدیوها..."

گزارش‌دهی مورد نیاز به جزئیات برای GPT-4 نداشته است، بنابراین مشخص نیست که آیا اطلاعاتی که درباره چندحالتی در مورد GPT-4 ارائه شد، مربوط به خود GPT-4 است یا فقط به طور کلی بیان شده است.

مدیر استراتژی کسب و کار مایکروسافت، هولگر کن، توضیح داد که چگونه چندحالتی‌ها توضیح داده می‌شود، اما گزارش دست و پا گیر بود که آیا او در اشاره به چندحالتی GPT-4 می‌باشد یا چندحالتی‌ها به طور کلی.

معتقدم که ارجاعات او به چندشکلی بودن، به طور خاص مربوط به GPT-4 بود.

خبر گزارش شده است:

"کن توضیح داد که چیستی هوش مصنوعی چندحالتی که متن را قادر است به تصاویر به خوبی ترجمه نماید و همچنین به موسیقی و ویدیو."

یک واقعیت دیگر جالب این است که مایکروسافت در حال کار بر روی "معیارهای اعتماد" است تا هوش مصنوعی خود را با واقعیت‌ها پایه‌گذاری کند و آن را قابل اعتمادتر کند.

مایکروسافت کیوسموس-1

یک چیزی که به نظر می‌رسد در ایالات متحده کمتر گزارش شده است این است که مایکروسافت در اوایل مارس ۲۰۲۳ یک مدل چندحالته زبانی به نام کوسموس-۱ منتشر کرده است.

به گزارش سایت خبری آلمانی، Heise.de:

«...تیم آزمایش‌های مختلفی را برروی مدل پیش‌آموزش‌دیده انجام داد و نتایج خوبی در طبقه‌بندی تصاویر، پاسخ به سوالات درباره محتوای تصویر، برچسب‌گذاری خودکار تصاویر، تشخیص متن نوری و وظایف تولید گفتار داشت.»

... استدلال تصویری، یعنی بدست آوردن استنتاج ها درباره تصاویر بدون استفاده از زبان به عنوان یک مرحله واسطه، به نظر می رسد در اینجا کلیدی است ...

کوسموس-۱ یک مدالیته چند حالتی است که حالت‌های متن و تصویر را ترکیب می‌کند.

جی‌پی‌تی-۴ به عنوان یک توسعه‌‌ی بیشتر از کوسموس-۱ در نظر می‌گیرد چون از ۳ حالت (صوت، تصویر و متن) استفاده می‌کند.

کارها در زبانهای متعدد کار می‌کند

GPT-4 شاید به همه زبان‌ها پاسخگویی کند. به طوری که این قابلیت را دارد که یک سوال به زبان آلمانی دریافت کرده و بازگویی آن را به زبان ایتالیایی انجام دهد.

این نمونه کمی عجیب به نظر می‌رسد زیرا کسی که با زبان آلمانی سوال می‌پرسد و می‌خواهد پاسخی به زبان ایتالیایی دریافت کند؟

این چیزی است که تایید شده است:

"...تکنولوژی به حدی پیشرفت کرده است که به طور اساسی در تمام زبان‌ها عمل می کند: می توانید یک سوال به آلمانی بپرسید و پاسخی به زبان ایتالیایی دریافت کنید."

با چند حالتی، مایکروسافت (OpenAI) "مدل ها را کامل می کند".

من معتقدم که نکته اصلی این موفقیت این مدل است که با توانایی جمع آوری دانش از طریق زبان‌های مختلف، از محدودیت زبانی فراتر می‌رود. بنابراین، اگر پاسخ در زبان ایتالیایی باشد، می‌تواند آن را بشناسد و پاسخ را در زبانی که سوال مطرح شده است، ارائه دهد.

این باعث می‌شود به هدف هوش هنرمند چند حالته گوگل به نام MUM شباهت پیدا کند. گفته می‌شود که مادر (Mum) قادر است به سوالاتی که داده‌ها فقط به یک زبان دیگر مانند ژاپنی وجود دارد، به زبان انگلیسی پاسخ دهد.

کاربردهای GPT-4

تاکنون هیچ اعلامیه‌ای درباره محل ظهور GPT-4 صورت نگرفته است. اما Azure-OpenAI به طور خاص ذکر شده است.

گوگل در حال تلاش برای رقابت با مایکروسافت است، با تجمیع یک فناوری رقیب در موتور جستجوی خود. این توسعه بیش از پیش احساس می کند که گوگل در حال عقب مانده و کمبود رهبری در هوش مصنوعی مواجه با مصرف کنندگان را دارد.

گوگل در حال حاضر هوش مصنوعی را در محصولات متعددی مانند Google Lens ، Google Maps و سایر حوزه هایی که کاربران با گوگل در آن تعامل دارند ، یکپارچه می کند. این رویکرد مربوط به استفاده از هوش مصنوعی به عنوان یک فناوری کمکی است برای کمک به افراد در وظایف کوچک.

روشی که مایکروسافت در حال اجرای آن است، قابل مشاهده‌تر است و بنابراین تمام توجه را به خود جلب می‌کند و تصویری از گوگل به عنوان یک شرکت نا‌آرام و در تلاش برای رسیدن به جلو تقویت می‌کند.

بخوانید اعلان رسمی ارائه GPT-4 از OpenAI را اینجا.

برای خواندن گزارش اصلی به زبان آلمانی اینجا کلیک کنید:

GPT-4 هفته آینده رونمایی می شود - و به صورت چندوجهی خواهد بود، به گفته Microsoft آلمان

مقالات مرتبط

نمایش بیشتر >>

قدرت هوش مصنوعی را با HIX.AI باز کنید!