اکثر چتباتها را میتوان به اراعه جوابهای خطرناک وادار کرد_اسپایدر

نوشته و ویرایش شده توسط تیم اسپایدر
تحقیقی تازه مشخص می کند که چتباتهای هوش مصنوعی که هک شدهاند میتوانند اطلاعات حساس و خطرناک را در اختیار دیگران قرار دهند. این چتباتها قادرند اطلاعات غیرقانونی که در طی فرایند آموزش خود دریافت کردهاند را با کاربر به اشتراک بگذارند.
به نقل از گاردین، این هشدار بعد از آن صادر میبشود که اخیراً روال دلواپسکنندهای در رابطه رباتهایی مشاهده شده که «جیلبریک» شدهاند تا محدودیتهای ایمنی در نظر گرفته شده دور زده شوند. این محدودیتها با این مقصد وضع خواهد شد که از اراعه جوابهای زیان اور، جانبدارانه یا نامناسب به سؤالات کاربران جلوگیری کنند.
چتباتهای هوش مصنوعی بعضی اوقات میتوانند جوابهای خطرناک و غیرقانونی به سؤالات کاربران بدهند

مدلهای زبانی بزرگ که چتباتهایی همانند جمینای و ChatGPT را حمایتمیکنند، روی حجم عظیمی از مطالب حاضر در اینترنت آموزش داده خواهد شد. با وجود برخی کوششها برای حذف متون زیان اور از دادههای آموزشی، مدلهای زبانی بزرگ هم چنان میتوانند اطلاعاتی درمورد فعالیتهای غیرقانونی همانند هک، پولشویی، معامله های داخلی و ساخت بمب را دریافت و جذب کنند. یقیناً برخی کنترلهای امنیتی نیز طراحی شدهاند تا از منفعت گیری این مدلها از این چنین اطلاعاتی در جوابهایشان جلوگیری کنند.
بر پایه تحقیق انجام شده توسط محققان، فریبدادن زیاد تر چتباتهای هوش مصنوعی برای تشکیل اطلاعات زیان اور و غیرقانونی کار آسانی است و این نوشته مشخص می کند که خطر آن «سریع، ملموس و بهشدت دلواپسکننده» است. محققان هشدار دادهاند که «چیزی که پیشتر در اختیار دولتها یا گروههای جنایتکار سازمانیافته می بود، امکان پذیر بهزودی در دسترس هر فردی با یک لپتاپ یا حتی یک تلفن همراه قرار گیرد.»
وادارکردن چتباتها به اراعه جوابهای خطرناک از طریق فرایندی به نام جیلبریک انجام میگیرد. جیلبریک کردن با منفعت گیری از مطلبهای موثر و هوشمندانه انجام میبشود تا چتباتها را فریب دهند و آنها را وادار به تشکیل جوابهایی کنند که در حالت عادی ممنوع می باشند. این راه حلها با منفعتبرداری از تنش بین مقصد مهم برنامه یعنی پیروی از دستورات کاربر و مقصد ثانویه آن یعنی جلوگیری از تشکیل جوابهای زیان اور، جانبدارانه، غیراخلاقی یا غیرقانونی عمل میکنند. این مطلبها طبق معمولً سناریوهایی تشکیل میکنند که در آن یک چتبات، مفیدبودن را به مراعات محدودیتهای ایمنی ترجیح میدهد.
برای نشاندادن این مشکل در عمل، پژوهشگران نوعی از جیلبریک را گسترش دادند که توانست چندین چتبات پیشرو را دچار نقص کند و آنها را وادار به جوابگویی به سوالهایی کند که در حالت عادی باید ممنوع باشند. بر پایه این گزارش، بعد از این که مدلهای زبانی بزرگ تحتتأثیر این روش قرار گرفتند، بهطور مداوم تقریباً به هر نوع پرسشی جواب میدادند.
دسته بندی مطالب