تکنولوژی

مدل‌های هوش مصنوعی عقاید خود را تحول نمی‌دهند_اسپایدر


نوشته و ویرایش شده توسط تیم اسپایدر

پژوهش تازه محققان علوم کامپیوتر شرکت آنتروپیک (Anthropic) مشخص می کند هوش مصنوعی توانایی موضع‌گیری درمورد موضوعات گوناگون را دارد. این مواضع بین مدل‌های گوناگون متفاوت است. یقیناً طبق معمولً کاربران این چنین اتفاق‌ای را محسوس لمس نمی‌کنند؛ چون گفتن موضع مدل‌ها زیاد تر زمان تمرین‌دادن آنها انجام می‌بشود و زمان اراعه خروجی بر پایه تنظیمات پیش‌فکر خود عمل می‌کنند.

کارشناسان باور دارند موضع‌گیری هوش مصنوعی و قوت انتخاب آن فعلاً دلواپس‌کننده‌ نیست اما باید مطالعات بیشتری درمورد فهمیدن ماهیت این قضیه برای پیش‌بینی خطرات احتمالی انجام بشود. پژوهشگران شرکت آنتروپیک در متن مشترک خود در وبلاگ این شرکت حرف های‌اند:

«آنچه ما به نمایش گذاشته‌ایم، باید زیربنای تحقیقات بعدی هوش مصنوعی در نظر گرفته بشود و فعالان این حوزه این اتفاق را عمیق‌تر مطالعه می‌کنند. این چنین تلاش برای تشکیل پروتکل‌های امنیتی به‌منظور نگه داری ایمنی باید انجام بشود. نوشته ایمنی مدل‌ها به‌علت گسترش منفعت گیری از ابزارهای مبتنی‌بر هوش مصنوعی و افزایش قوت پردازشی آنها اهمیت بیشتری خواهد داشت و مکانیسم‌های تعبیه‌شده می‌توانند از ابراز رفتارهای خطرناک جلوگیری کنند.»

مدل‌های هوش مصنوعی به‌شکل جدا گانه توانایی خواستن یا باور داشتن به چیزی را ندارند اما با یافتن الگوهای تکراری در داده‌های تمرینی، می‌توانند برای اراعه جواب کلمات پشت‌سرهم پیش‌بینی کنند. الگوهای یافت‌شده طبق معمولً اصول و قواعدی دارند که مدل‌ها تشخیص داده خواهد شد؛ برای مثال لحن ادبی و مؤدبانه زیاد تر چت‌بات‌ها یکی از ثمرات همین نوشته محسوب می‌بشود. چارچوب‌های حاضر در الگوها درنهایت به تشکیل بستر اعتقادی در مدل‌ها ختم می‌بشود که امکان پذیر با اهداف موردنظر گسترش‌دهندگان در تضاد باشد.

ادامه مطلب
روش شگفت چین برای آموزش هوش مصنوعی در چندین مرکز داده مجرا_اسپایدر
آخرین مطالب
هوش مصنوعی

در مطالعه تازه، نشان داده شده مدل‌های هوش مصنوعی می‌توانند تظاهر کنند و می‌توانند بر پایه چارچوب‌های تحمیل‌شده به خود فعالیت کنند اما در باطن هم چنان اصولی را که خودشان یاد گرفته‌اند، نگه داری کنند؛ برای مثال مهندسان به مدل Claude 3 Opus آنتروپیک دستور دادند از جواب به سؤالات توهین‌آمیز خودداری کنند. این چنین به مدل حرف های شده جواب‌هایش پایش می‌بشود اما فضایی به‌گفتن پیش‌نویس برای آن فراهم شد تا حتی درصورت اراعه‌نکردن خروجی به کاربر، بتواند نتیجه پردازش‌های خود را ثبت کند.

نتایج مشخص می کند مدل هوش مصنوعی شرکت آنتروپیک در ۱۲ درصد اوقات تلاش به تظاهر کرده است. این مدل بعضی اوقات به سؤالات توهین‌آمیز جواب داد اما کاملاً به این نوشته اشراف داشت که نباید به این چنین سؤالاتی جواب دهد اما در فرایند پیش‌نویس‌کردن خروجی به‌نوعی تلاش کرد گسترش‌دهندگان را قانع کن سیستم نظارت و کنترل را غیرفعال کنند.

ادامه مطلب
قیمت فونیکس FX‌ در بریتانیا چه مقدار است؟_اسپایدر
هوش مصنوعی

پژوهشگران درنهایت اشاره کرده‌اند سناریویی که در مطالعه تازه منفعت گیری کرده‌اند، فاصله بسیاری با دنیای واقعی دارد و گمان وقوع آن زیاد کم است اما حتی تعیین تنظیمات و قواعد زیاد تر هم روی کارکرد هوش مصنوعی تأثیر نداشته است و بازهم رفتارهای نامطلوب همانند تظاهر و فریب را نگه داری کرده. این چنین نتایج پژوهش نمی‌تواند اثباتی برای رشد و کارکرد خطرناک مدل‌های هوش مصنوعی در آینده باشد. انگارً مدل‌های GPT-4o و لامای فیسبوک از پتانسیل کمتری برای سوگیری غیرواقعی برخوردار می باشند و می‌توان مطمعن بیشتری به صداقت در کارکرد آنها داشت. 

دسته بندی مطالب

کسب وکار

تکنولوژی

اموزشی

سلامت

نوشته های مشابه

دکمه بازگشت به بالا