شرکت OpenAI اعلامیه ای منتشر کرده و در آن اعلام کرده که در حال اضافه کردن قابلیتهای جدیدی به ChatGPT هستند. این قابلیتها به کاربران این امکان را میدهند تا با ChatGPT از طریق گفتار یا تصاویر گفتوگو کنند. به عبارت دیگر، شما میتوانید با استفاده از گفتار یا تصاویر با ChatGPT ارتباط برقرار کنید و از طریق این واسطه های جدید و باطنی به ChatGPT بفهمانید که در مورد چه موضوعی صحبت میکنید. هم چنین میتوانید از آن سوال بپرسید.
امکانات جدیدی که به ChatGPT اضافه شده، مدل جدیدی از تعامل را ارائه داده و تجربه کاربران را هم بهبود می بخشد.
همچین OpenAI گفته: ما در حال ارائه قابلیتهای جدیدی در زمینههای صدا و تصویر در ChatGPT هستیم. این قابلیتها به شما امکان مکالمه با ChatGPT به صورت گفتاری و یا نمایش موضوع مورد بحث خود را میدهند.
استفاده از این قابلیتهای صوتی و تصویری به شما این امکان را میدهد تا با ChatGPT به روشهای جدیدی تعامل کنید. به عنوان مثال، شما میتوانید عکسی از یک منظره در سفر گرفته و درباره جزئیات جالب آن با ChatGPT صحبت کنید. هنگامی که در خانه هستید، میتوانید عکسهایی از یخچال و مواد غذایی خود بگیرید تا ببینید چه غذایی درست کنید (و از ChatGPT سوالات مرتبط با دستور پخت یا مواد لازم را بپرسید). همچنین میتوانید پس از شام به فرزندتان در حل یک مسئله ریاضی کمک کنید. برای این کار، عکس مسئله را بگیرید، دور مساله مورد نظر خط بکشید، و ChatGPT به شما و فرزندتان راهنماییهای لازم را ارائه دهد.
ما قرار است این قابلیتهای صوتی و تصویری را در طی دو هفته آینده برای کاربران پلنهای Plus و Enterprise ارائه دهیم. قابلیت صدا بر روی سیستمعاملهای iOS و Android (با فعالسازی در تنظیمات) فعال خواهد شد و تصاویر در تمام پلتفرمها قابل استفاده خواهد بود. این امکانات جدید به شما امکان میدهند تا ChatGPT را به شکلی مؤثرتر و گستردهتر در زندگیتان به کار ببرید.
با ChatGPT صحبت کنید و از او بخواهید پاسخ دهد
اکنون میتوانید با چت جی پی تی حرف بزنید، او صدای شما را می شنود و به درخواست شما پاسخ می دهد. میتوانید از او برای خواب یک قصه بخواهید تا با صدای خودش برایتان بخواند.
چگونه قابلیت گفتاری را فعال کنیم؟
برای شروع استفاده از قابلیت گفتاری، شما باید به بخش “تنظیمات” در اپلیکیشن موبایل بروید و به بخش “ویژگیهای جدید” بروید. سپس باید به قسمت گفتگوهای صوتی در این بخش بروید و این قابلیت را فعال کنید (opt into).
سپس باید روی دکمه هدفون در گوشه بالا و راست صفحه اصلی برنامه کلیک کرده و یکی از پنج صدای موجود را به عنوان صدای ترجیحی خود انتخاب کنید.
این قابلیت جدید صدا توسط یک مدل متن به گفتار جدید تغذیه میشود که توانایی تولید صداهای مشابه انسان را از متن و چند ثانیه صدای نمونه دارد. برای ایجاد هر یک از این صداها، با بازیگران حرفهای صدا همکاری شده است. همچنین از سیستم تشخیص گفتار متنبهگفتار متنباز ما به نام “Whisper” برای تبدیل کردن کلمات گفتاری شما به متن استفاده میشود.
صحبت کردن در مورد تصویر
با اضافه شدن چنین ویژگیای به ChatGPT میتوانید یک یا چند تصویر برای او ارسال کنید، سوال خود را در مورد تصویر مطرح کنید و از ChatGPT کمک بخواهید. میتوانید عکس از داخل یخچال بگیرید تا او شما را برای پخت غذا راهنمایی کند.
چنین ویژگی ای برای دانش آموزان و دانشجویان فوق العاده است. آن ها میتوانند از مسائل سخت و پیچیده، نمودار های تجزیه و تحلیل و … عکس بگیرند و برای ChatGPT ارسال کنند تا او به آن ها در حل مساله کمک کند. برای تمرکز بر روی بخش خاصی از تصویر، میتوانید از ابزار نقاشی در اپلیکیشن موبایل ما استفاده کنید.
تفهیم تصاویر توسط مدلهای چندحالته GPT-3.5 و GPT-4 انجام میشود. این مدلها توانایی استدلال زبانی خود را به تصاویر متنوعی اعم از عکسها، تصاویر از صفحه نمایش، و اسنادی که شامل همزمان متن و تصاویر هستند، اعمال میکنند. به این ترتیب، میتوانند توانایی تفهیم و تعامل با تصاویر را داشته باشند.
قابلیت های تصویر و صدا به تدریج پیاده سازی میشوند
هدف OpenAI ایجاد یک هوش مصنوعی عمومی و اختصاصی (AGI) است که ایمن و مفید باشد. OpenAI اعتقاد دارد که ارائهی تدریجی ابزارها، این امکان را میدهد تا با گذشت زمان بهبودهایی حاصل شود و یکسری از خطرها کاهش پیدا کند. این استراتژی با مدلهای پیشرفته ای که با صدا و دیدگاه مرتبط هستند، حتی مهمتر میشود.
صدا
OpenAI از تکنولوژی صدای جدید استفاده کرده است که قادر به ساخت صداهای مصنوعی واقع گرایانه از چندثانیه گفتار واقعی است. این تکنولوژی امکانات جدیدی در زمینههای خلاقانه و دسترسیپذیری ایجاد میکند. با این حال، این قابلیتها همچنین ریسکهای جدیدی ایجاد میکنند، مانند امکان تقلب توسط اشخاص بدنام یا احتمال تقلب.
برای مقابله با این ریسکها، تکنولوژی صدا به یک مورد استفاده خاص توانمندی تعبیه شده است که به چت صوتی قدرت میبخشد. چت صوتی با همکاری بازیگران صدا که به صورت مستقیم با آنها کار شده، ایجاد شده است. همچنین OpenAI به همین روش با دیگران همکاری میکند. به عنوان مثال، Spotify از قدرت این تکنولوژی برای پیلوت ویژگی ترجمه صوتی استفاده میکند. این ویژگی به پادکستها کمک میکند تا با ترجمه آنها به زبانهای دیگر، داستانهایشان را به زبانهای دیگر و با صدای خودشان گسترش دهند. این استفاده مسئولانه از تکنولوژی صدا به منظور کاهش ریسکهای مرتبط با آن نشان داده شده است.
تصویر
مدلهای مبتنی بر تصویر نیز چالشهای جدیدی را ارائه میکنند، از توهم در مورد افراد تا تکیه بر تفسیر مدل از تصاویر در حوزههای پرمخاطره. قبل از استقرار گستردهتر، ما این مدل را با تیمهای قرمز برای خطر در حوزههایی مانند افراطگرایی و مهارت علمی و مجموعهای متنوع از آزمایشکنندگان آلفا آزمایش کردیم. تحقیقات ما به ما این امکان را داد که چند جزئیات کلیدی را برای استفاده مسئولانه هماهنگ کنیم.
کاربران Plus و Enterprise تا 2 هفته دیگر به این دو ویژگی دسترسی خواهند داشت.