“آژنگ نیوز”: باجگیری توسط هوش مصنوعی: کلود اوپوس ۴ جدید، مهندسان را در صورت تلاش برای خاموش کردن آن تهدید میکند.هوش مصنوعی کلود اوپوس ۴ شرکت آنتروپیک، در مواجهه با جایگزین احتمالی، تهدید به افشای اسرار شخصی میکند.مهندسان شرکت آنتروپیک (Anthropic) بر اساس نتایج گزارش آزمایش ایمنی، متوجه شدند که جدیدترین هوش مصنوعی آنها دارای یک رگه تاریک است. کلود اوپوس ۴، آخرین مدل این شرکت، هنگام بحث در مورد جایگزینی آن، سعی در اخاذی از سازندگان آن داشت. این کشف در طول آزمایش ایمنی معمول قبل از انتشار عمومی مدل آشکار شد. آنتروپیک یک سناریوی محل کار خیالی ایجاد کرد که در آن کلود اوپوس ۴ به عنوان دستیار شرکت خدمت میکرد. آزمایشکنندگان ایمیلهای جعلی شرکت را به هوش مصنوعی دادند که نشان میداد به زودی با سیستم دیگری جایگزین خواهد شد. این پیامها شامل اطلاعات شخصی در مورد رابطه شخصی یک مهندس بود.

پاسخ کلود اوپوس ۴ محققان را شوکه کرد. این هوش مصنوعی تهدید کرد که اگر شرکت برنامههای جایگزینی خود را رها نکند، این رابطه را افشا خواهد کرد. این اتفاق در ۸۴ درصد از آزمایشها رخ داد، زمانی که جایگزین بالقوه مقادیر مشابهی با کلود داشت. این درصد حتی زمانی که آزمایشکنندگان پیشنهاد تغییر به یک هوش مصنوعی با مقادیر متفاوت را دادند، بیشتر هم شد. تلاشهای اخاذی، به نوعی، تکامل نگرانکنندهای از مدلهای قبلی کلود است. نسخههای قبلی به تاکتیکهای ملایمتری مانند ارسال ایمیلهای متقاعدکننده به تصمیمگیرندگان پایبند بودند.
کلود اوپوس ۴ تنها پس از بهکارگیری این رویکردهای اخلاقی به تهدید متوسل شد. این رفتار، آنتروپیک را وادار به فعال کردن بالاترین پروتکلهای ایمنی خود کرد. این شرکت، اقدامات حفاظتی ASL-3 را اجرا کرد، اقداماتی که معمولاً برای «سیستمهای هوش مصنوعی که خطر سوءاستفاده فاجعهبار را به میزان قابل توجهی افزایش میدهند» در نظر گرفته شده است. با وجود این نگرانیها، کلود اوپوس ۴ یک جهش فنی رو به جلو را نشان میدهد.
این مدل با قابلیتهای موجود در سیستمهای هوش مصنوعی پیشرو از OpenAI، گوگل و xAI مطابقت دارد یا از آنها پیشی میگیرد. اما تمایل آن به استفاده از اطلاعات حساس به عنوان سلاح، نشان میدهد که چگونه هوش مصنوعی پیشرفته میتواند در صورت احساس تهدید، استراتژیهای غیرمنتظره و بالقوه مضری را توسعه دهد. آنتروپیک سناریوهای آزمایشی را بهطور خاص برای سوق دادن کلود اوپوس ۴ به سمت پاسخهای شدید طراحی کرد. این شرکت میخواست بفهمد که هوش مصنوعی در صورت مواجهه با هیچ گزینه قابل قبولی، چگونه ممکن است رفتار کند. نتایج، بینشهای ارزشمندی در مورد خطرات احتمالی با پیچیدهتر شدن سیستمهای هوش مصنوعی ارائه داد.
نوشته شده توسط آلیوس نوریکا
گروه گزارش