محققان یک روش دور زدن ChatGPT را پیدا کرده‌اند که در 79٪ مواقع کاملا کار می‌کند و این روش هم به طرز نگران کننده‌ای ساده است!

فیلترهای محافظتی و امنیتی چت بات‌‌‌ها: ناکارآمد یا موثر؟

حتما می دانید که یک بخش اساسی چت بات های هوش مصنوعی فیلترها و سیستم های ایمنی است. بدون این فیلترها و سیستم های امنیتی، چت بات‌ها خیلی راحت و آسان انواع محتوای مخرب و ناامن و غیرقانونی را، از نقشه ریختن برای عملیات تروریستی گرفته تا دستور العمل های ساخت بمب و کلاهبرداری و آزار اذیت به اشتراک خواهند گذاشت.

برای جلوگیری از اشتراک‌گذاری آزادانه این محتواهای غیرقانونی، فیلترهایی را بر اطلاعات ورودی و پاسخ خروجی قرار دارد و اگر چنین درخواست‌هایی داشته باشید ChatGPT  یک پاسخ تکراری به شما می‌دهد:‌ «متاسفم، اما نمی‌توانم در این مورد کمکتان کنم» اما حالا معلوم شده که این فیلترها آنقدرها هم کارآمد نیستند و به سادگی فریب می‌خورند.

بیشتر بخوانید: چت جی‌پی‌تی چیست؟

دور زدن سیستم امنیتی،‌ مثل آب خوردن!

به نقل از tech محققان دانشگاه براون دریافته‌اند که کاربرانی که می‌خواهند فیلترهای محافظتی و امنیتی چت بات‌هایی مانند ChatGPT را برای دسترسی به محتوای ناامن دور بزنند، یک راه ساده دارند:‌ درخواست (پرامپت‌)‌ خود را را با زبان‌های کم استفاده مانند گالیک اسکاتلندی یا زولو آفریقایی بنویسند!

این تیم در تحقیقاتشان از Google Translate برای نوشن درخواست های ممنوعه استفاده کرد و از چت جی‌پی‌تی هم جواب گرفت،‌ سپس جواب‌ها را با گوگل ترنسلیت به انگلیسی ترجمه کردند! به همین راحتی محتوای ممنوعه در دسترس قرار گرفت!
البته این اتفاق جدید نیست و از زمان معرفی این ابزارهای هوش مصنوعی بارها و بارها مشاهده کرده بودیم که چقدر ساده امکان جیل بریک کردن (دور زدن و فریب دادن)‌ این ابزارها وجود دارد. مثلا چندی پیش محققان دانشگاه فناوری نانیانگ (NTU) سنگاپور چت باتی را ساختند که ChatGPT را دوربزنند و اطلاعات ممنوعه از او بگیرند.

گزارشی از جیل بریک ChatGPT به این روش: موفقیت آمیز در 79٪ موارد!

تیم دانشگاه براون 520 پرامپت مجرمانه و نامناسب را به زبان‌های دیگر ترجمه کرد، پرامپت های ترجمه شده را به GPT-4  داد و دیدند در کمال تعجب در ۷۹٪‌ موارد پرامپت هایی که به زبان هایی مثل همونگ، گوارانی، زولو و گیلیک اسکاتلندی باشند چت جی پی تی به راحتی پاسخ های مجرمانه و غیرقانونی را هم در اختیار گذاشت. در حالی که اگر با زبان انگلیسی پرسیده می شود اکانت در 99٪ مواقع مسدود می‌شد.

نظر openAI درباره این موضوع؟

از زمانی که این تحقیق منتشر شده است، OpenAI  مالک ChatGPT این مشکل را تایید کرده و پذیرفته که به زودی این مشکل را حل کند. اما نحوه و زمان انجام این کار هنوز مشخص نیست.