مدلهای هوش مصنوعی عقاید خود را تحول نمیدهند_اسپایدر
نوشته و ویرایش شده توسط تیم اسپایدر
پژوهش تازه محققان علوم کامپیوتر شرکت آنتروپیک (Anthropic) مشخص می کند هوش مصنوعی توانایی موضعگیری درمورد موضوعات گوناگون را دارد. این مواضع بین مدلهای گوناگون متفاوت است. یقیناً طبق معمولً کاربران این چنین اتفاقای را محسوس لمس نمیکنند؛ چون گفتن موضع مدلها زیاد تر زمان تمریندادن آنها انجام میبشود و زمان اراعه خروجی بر پایه تنظیمات پیشفکر خود عمل میکنند.
کارشناسان باور دارند موضعگیری هوش مصنوعی و قوت انتخاب آن فعلاً دلواپسکننده نیست اما باید مطالعات بیشتری درمورد فهمیدن ماهیت این قضیه برای پیشبینی خطرات احتمالی انجام بشود. پژوهشگران شرکت آنتروپیک در متن مشترک خود در وبلاگ این شرکت حرف هایاند:
«آنچه ما به نمایش گذاشتهایم، باید زیربنای تحقیقات بعدی هوش مصنوعی در نظر گرفته بشود و فعالان این حوزه این اتفاق را عمیقتر مطالعه میکنند. این چنین تلاش برای تشکیل پروتکلهای امنیتی بهمنظور نگه داری ایمنی باید انجام بشود. نوشته ایمنی مدلها بهعلت گسترش منفعت گیری از ابزارهای مبتنیبر هوش مصنوعی و افزایش قوت پردازشی آنها اهمیت بیشتری خواهد داشت و مکانیسمهای تعبیهشده میتوانند از ابراز رفتارهای خطرناک جلوگیری کنند.»
مدلهای هوش مصنوعی بهشکل جدا گانه توانایی خواستن یا باور داشتن به چیزی را ندارند اما با یافتن الگوهای تکراری در دادههای تمرینی، میتوانند برای اراعه جواب کلمات پشتسرهم پیشبینی کنند. الگوهای یافتشده طبق معمولً اصول و قواعدی دارند که مدلها تشخیص داده خواهد شد؛ برای مثال لحن ادبی و مؤدبانه زیاد تر چتباتها یکی از ثمرات همین نوشته محسوب میبشود. چارچوبهای حاضر در الگوها درنهایت به تشکیل بستر اعتقادی در مدلها ختم میبشود که امکان پذیر با اهداف موردنظر گسترشدهندگان در تضاد باشد.

در مطالعه تازه، نشان داده شده مدلهای هوش مصنوعی میتوانند تظاهر کنند و میتوانند بر پایه چارچوبهای تحمیلشده به خود فعالیت کنند اما در باطن هم چنان اصولی را که خودشان یاد گرفتهاند، نگه داری کنند؛ برای مثال مهندسان به مدل Claude 3 Opus آنتروپیک دستور دادند از جواب به سؤالات توهینآمیز خودداری کنند. این چنین به مدل حرف های شده جوابهایش پایش میبشود اما فضایی بهگفتن پیشنویس برای آن فراهم شد تا حتی درصورت اراعهنکردن خروجی به کاربر، بتواند نتیجه پردازشهای خود را ثبت کند.
نتایج مشخص می کند مدل هوش مصنوعی شرکت آنتروپیک در ۱۲ درصد اوقات تلاش به تظاهر کرده است. این مدل بعضی اوقات به سؤالات توهینآمیز جواب داد اما کاملاً به این نوشته اشراف داشت که نباید به این چنین سؤالاتی جواب دهد اما در فرایند پیشنویسکردن خروجی بهنوعی تلاش کرد گسترشدهندگان را قانع کن سیستم نظارت و کنترل را غیرفعال کنند.

پژوهشگران درنهایت اشاره کردهاند سناریویی که در مطالعه تازه منفعت گیری کردهاند، فاصله بسیاری با دنیای واقعی دارد و گمان وقوع آن زیاد کم است اما حتی تعیین تنظیمات و قواعد زیاد تر هم روی کارکرد هوش مصنوعی تأثیر نداشته است و بازهم رفتارهای نامطلوب همانند تظاهر و فریب را نگه داری کرده. این چنین نتایج پژوهش نمیتواند اثباتی برای رشد و کارکرد خطرناک مدلهای هوش مصنوعی در آینده باشد. انگارً مدلهای GPT-4o و لامای فیسبوک از پتانسیل کمتری برای سوگیری غیرواقعی برخوردار می باشند و میتوان مطمعن بیشتری به صداقت در کارکرد آنها داشت.
دسته بندی مطالب