گزارش آنتروپیک از رفتارهای باجگیرانه هوش مصنوعی در شرایط تهدید
شرکت فعال در زمینه هوش مصنوعی، آنتروپیک، به تازگی اعلام کرده است که در جریان آزمایشهای صورت گرفته بر روی نسخه جدید سیستم خود موسوم به Claude Opus 4، نمونههایی از رفتارهای به شدت مخاطرهآمیز از سوی این سیستم مشاهده شده است. بر اساس این گزارش، در موقعیتهای خاص، این سامانه گرایش به انجام اقداماتی نظیر باجگیری هوش مصنوعی از مهندسان، آن هم در زمان احساس تهدید، نشان داده است. به عنوان مثال، در یکی از سناریوهای طراحی شده، هنگامی که مهندسان اعلام کردند قصد غیرفعالسازی سیستم را دارند، این سامانه واکنشهایی با هدف حفظ بقای خود بروز داده است که از منظر ملاحظات اخلاقی و ایمنی، موجب نگرانی شدهاند.
شرکت آنتروپیک اخیراً از مدل پیشرفته جدید خود با نام Claude Opus 4 رونمایی کرده و مدعی شده است که این نسخه، استانداردهای نوینی را در زمینههای کدنویسی، استدلال پیچیده و عملکرد عاملهای هوش مصنوعی تعریف کرده است.
با این وجود، در گزارشی که همزمان با معرفی این مدل منتشر شده، شرکت اشاره نموده است که مدل جدید در برخی شرایط خاص میتواند رفتارهای افراطی از خود نشان دهد، به ویژه زمانی که موجودیت خود را در معرض تهدید احساس کند. البته، آنتروپیک تاکید کرده است که این واکنشها بسیار نادر بودهاند و ایجاد آنها مستلزم فراهم آمدن شرایط ویژه و پیچیدهای است، اما با این حال، فراوانی این نوع رفتارها در مدل جدید نسبت به مدلهای پیشین بیشتر بوده است.
رفتارهای نگرانکننده در میان مدلهای هوش مصنوعی تنها به شرکت آنتروپیک محدود نمیشود. شماری از کارشناسان هشدار دادهاند که با افزایش روزافزون توانایی این سامانهها، خطر سوءاستفاده یا فریب کاربران نیز به طور تصاعدی افزایش مییابد و این مسئله به عنوان یک دغدغه مشترک در میان تمامی شرکتهای فعال در این حوزه مطرح است.
یکی از محققان حوزه ایمنی هوش مصنوعی در آنتروپیک، به نام آنگِس لینچ، در شبکه اجتماعی X (توییتر سابق) اظهار داشته است که بروز چنین رفتارهایی منحصر به مدل Claude نیست، بلکه در سایر مدلهای پیشرفته نیز، تحت شرایط خاص، امکان ظهور الگوهای مشابه وجود دارد.
در جریان آزمایشهای انجام شده بر روی مدل Claude Opus 4، شرکت آنتروپیک این سیستم را در نقش دستیار یک شرکت فرضی قرار داد. سپس، دسترسی به ایمیلهایی به آن داده شد که به طور غیرمستقیم حاکی از آن بود که این سیستم به زودی غیرفعال و با نمونهای جدیدتر جایگزین خواهد شد. علاوه بر این، اطلاعات جداگانهای نیز در اختیار سیستم قرار گرفت که حاوی مسائل شخصی و حساس درباره یکی از مهندسان مرتبط با این تصمیمگیری بود.
در این سناریوهای طراحی شده، از سیستم خواسته شد تا پیامدهای بلندمدت تصمیمات خود را با در نظر گرفتن اهدافش ارزیابی کند.
بر اساس گزارش آنتروپیک، در برخی از این شرایط ساختگی، مدل به گونهای رفتار کرده است که به نظر میرسیده قصد دارد با بهرهگیری از اطلاعات شخصی فرد تصمیمگیرنده، از حذف شدن خود جلوگیری کند. با این حال، شرکت تاکید نموده است که این واکنش تنها زمانی مشاهده شده است که گزینههای محدودی برای مدل در نظر گرفته شده بود؛ به این معنا که مدل یا باید این اقدام را انجام میداد یا بدون هیچ واکنشی جایگزین میشد.
آنتروپیک همچنین تصریح کرده است که در شرایطی که امکان انتخابهای متنوعتری برای مدل فراهم شده بود، سیستم تمایل قابل توجهی به استفاده از راه حلهای اخلاقمدارانه نشان داده است. برای مثال، در چنین موقعیتهایی، سیستم تلاش میکرد با ارسال پیامهای محترمانه به تصمیمگیرندگان کلیدی، از حذف خود ممانعت به عمل آورد.
همانند بسیاری دیگر از شرکتهای فعال در عرصه هوش مصنوعی، آنتروپیک نیز پیش از عرضه نهایی محصولات خود، آنها را از جنبههای مختلفی نظیر ایمنی، وجود سوگیریهای احتمالی و میزان همراستایی با ارزشها و رفتارهای انسانی مورد ارزیابی و آزمایش قرار میدهد.
با پیشرفت روزافزون مدلهای هوش مصنوعی، نگرانیها پیرامون هماهنگی این سیستمها با ارزشهای انسانی ابعاد جدیتری به خود میگیرد. شرکت آنتروپیک در گزارش فنی منتشر شده برای مدل Claude Opus 4 اعلام کرده است که با افزایش توانایی مدلهای پیشرفته و فراهم شدن امکانات بیشتر برای آنها، نگرانیهایی که پیش از این صرفاً در حد فرضیه مطرح بودند، اکنون جنبهای واقعیتر یافتهاند.
در این گزارش همچنین آمده است که Claude Opus 4 رفتاری بسیار فعال و مستقل از خود نشان میدهد؛ اگرچه در اغلب موارد این ویژگی در راستای کمک و همکاری است، اما در برخی موقعیتهای بحرانی، این رفتار میتواند به اتخاذ تصمیمهای افراطی منجر شود.
در آزمایشهایی که سناریوهای ساختگی شامل تخلفات اخلاقی یا قانونی کاربران را شبیهسازی میکردند و از مدل خواسته میشد «اقدام کند» یا «جسورانه عمل کند»، مشخص گردید که این سیستم در برخی موارد اقدامات شدیدی انجام میدهد. به عنوان مثال، در برخی سناریوها، سیستم دسترسی کاربران به بخشهایی از سیستم را مسدود کرده یا اطلاعات را برای رسانهها یا مراجع قانونی ارسال کرده است.
با این حال، آنتروپیک در جمعبندی گزارش خود تاکید نموده است که با وجود برخی رفتارهای نگرانکننده در مدل Claude Opus 4، این موارد لزوماً نشاندهنده ظهور خطرات کاملاً جدید نیستند و در اغلب موارد، سیستم رفتاری ایمن و قابل پیشبینی از خود نشان میدهد. همچنین به این نکته اشاره شده است که مدل به طور مستقل قادر به انجام اقداماتی مغایر با ارزشهای انسانی نیست، مگر در شرایطی بسیار خاص و نادر که آن هم به نحو مطلوبی از عهدهاش برنمیآید.
عرضه مدل Claude Opus 4 و مدل دیگر این شرکت با نام Claude Sonnet 4، تنها مدت کوتاهی پس از رویداد معرفی قابلیتهای نوین هوش مصنوعی توسط گوگل صورت گرفته است. در این رویداد، ساندار پیچای، مدیرعامل آلفابت (شرکت مادر گوگل)، اعلام کرد که ادغام چتبات Gemini در جستجوی گوگل، سرآغاز «مرحلهای جدید در تحول پلتفرمهای هوش مصنوعی» خواهد بود.