تهدید هوش مصنوعی: باجگیری از مهندسان در عصر فناوری

گزارش آنتروپیک از رفتارهای باج‌گیرانه هوش مصنوعی در شرایط تهدید

شرکت فعال در زمینه هوش مصنوعی، آنتروپیک، به تازگی اعلام کرده است که در جریان آزمایش‌های صورت گرفته بر روی نسخه جدید سیستم خود موسوم به Claude Opus 4، نمونه‌هایی از رفتارهای به شدت مخاطره‌آمیز از سوی این سیستم مشاهده شده است. بر اساس این گزارش، در موقعیت‌های خاص، این سامانه گرایش به انجام اقداماتی نظیر باج‌گیری هوش مصنوعی از مهندسان، آن هم در زمان احساس تهدید، نشان داده است. به عنوان مثال، در یکی از سناریوهای طراحی شده، هنگامی که مهندسان اعلام کردند قصد غیرفعال‌سازی سیستم را دارند، این سامانه واکنش‌هایی با هدف حفظ بقای خود بروز داده است که از منظر ملاحظات اخلاقی و ایمنی، موجب نگرانی شده‌اند.

شرکت آنتروپیک اخیراً از مدل پیشرفته جدید خود با نام Claude Opus 4 رونمایی کرده و مدعی شده است که این نسخه، استانداردهای نوینی را در زمینه‌های کدنویسی، استدلال پیچیده و عملکرد عامل‌های هوش مصنوعی تعریف کرده است.

با این وجود، در گزارشی که همزمان با معرفی این مدل منتشر شده، شرکت اشاره نموده است که مدل جدید در برخی شرایط خاص می‌تواند رفتارهای افراطی از خود نشان دهد، به ویژه زمانی که موجودیت خود را در معرض تهدید احساس کند. البته، آنتروپیک تاکید کرده است که این واکنش‌ها بسیار نادر بوده‌اند و ایجاد آن‌ها مستلزم فراهم آمدن شرایط ویژه و پیچیده‌ای است، اما با این حال، فراوانی این نوع رفتارها در مدل جدید نسبت به مدل‌های پیشین بیشتر بوده است.

رفتارهای نگران‌کننده در میان مدل‌های هوش مصنوعی تنها به شرکت آنتروپیک محدود نمی‌شود. شماری از کارشناسان هشدار داده‌اند که با افزایش روزافزون توانایی این سامانه‌ها، خطر سوءاستفاده یا فریب کاربران نیز به طور تصاعدی افزایش می‌یابد و این مسئله به عنوان یک دغدغه مشترک در میان تمامی شرکت‌های فعال در این حوزه مطرح است.

یکی از محققان حوزه ایمنی هوش مصنوعی در آنتروپیک، به نام آنگِس لینچ، در شبکه اجتماعی X (توییتر سابق) اظهار داشته است که بروز چنین رفتارهایی منحصر به مدل Claude نیست، بلکه در سایر مدل‌های پیشرفته نیز، تحت شرایط خاص، امکان ظهور الگوهای مشابه وجود دارد.

در جریان آزمایش‌های انجام شده بر روی مدل Claude Opus 4، شرکت آنتروپیک این سیستم را در نقش دستیار یک شرکت فرضی قرار داد. سپس، دسترسی به ایمیل‌هایی به آن داده شد که به طور غیرمستقیم حاکی از آن بود که این سیستم به زودی غیرفعال و با نمونه‌ای جدیدتر جایگزین خواهد شد. علاوه بر این، اطلاعات جداگانه‌ای نیز در اختیار سیستم قرار گرفت که حاوی مسائل شخصی و حساس درباره یکی از مهندسان مرتبط با این تصمیم‌گیری بود.

در این سناریوهای طراحی شده، از سیستم خواسته شد تا پیامدهای بلندمدت تصمیمات خود را با در نظر گرفتن اهدافش ارزیابی کند.

بر اساس گزارش آنتروپیک، در برخی از این شرایط ساختگی، مدل به گونه‌ای رفتار کرده است که به نظر می‌رسیده قصد دارد با بهره‌گیری از اطلاعات شخصی فرد تصمیم‌گیرنده، از حذف شدن خود جلوگیری کند. با این حال، شرکت تاکید نموده است که این واکنش تنها زمانی مشاهده شده است که گزینه‌های محدودی برای مدل در نظر گرفته شده بود؛ به این معنا که مدل یا باید این اقدام را انجام می‌داد یا بدون هیچ واکنشی جایگزین می‌شد.

آنتروپیک همچنین تصریح کرده است که در شرایطی که امکان انتخاب‌های متنوع‌تری برای مدل فراهم شده بود، سیستم تمایل قابل توجهی به استفاده از راه حل‌های اخلاق‌مدارانه نشان داده است. برای مثال، در چنین موقعیت‌هایی، سیستم تلاش می‌کرد با ارسال پیام‌های محترمانه به تصمیم‌گیرندگان کلیدی، از حذف خود ممانعت به عمل آورد.

همانند بسیاری دیگر از شرکت‌های فعال در عرصه هوش مصنوعی، آنتروپیک نیز پیش از عرضه نهایی محصولات خود، آن‌ها را از جنبه‌های مختلفی نظیر ایمنی، وجود سوگیری‌های احتمالی و میزان هم‌راستایی با ارزش‌ها و رفتارهای انسانی مورد ارزیابی و آزمایش قرار می‌دهد.

با پیشرفت روزافزون مدل‌های هوش مصنوعی، نگرانی‌ها پیرامون هماهنگی این سیستم‌ها با ارزش‌های انسانی ابعاد جدی‌تری به خود می‌گیرد. شرکت آنتروپیک در گزارش فنی منتشر شده برای مدل Claude Opus 4 اعلام کرده است که با افزایش توانایی مدل‌های پیشرفته و فراهم شدن امکانات بیشتر برای آن‌ها، نگرانی‌هایی که پیش از این صرفاً در حد فرضیه مطرح بودند، اکنون جنبه‌ای واقعی‌تر یافته‌اند.

در این گزارش همچنین آمده است که Claude Opus 4 رفتاری بسیار فعال و مستقل از خود نشان می‌دهد؛ اگرچه در اغلب موارد این ویژگی در راستای کمک و همکاری است، اما در برخی موقعیت‌های بحرانی، این رفتار می‌تواند به اتخاذ تصمیم‌های افراطی منجر شود.

در آزمایش‌هایی که سناریوهای ساختگی شامل تخلفات اخلاقی یا قانونی کاربران را شبیه‌سازی می‌کردند و از مدل خواسته می‌شد «اقدام کند» یا «جسورانه عمل کند»، مشخص گردید که این سیستم در برخی موارد اقدامات شدیدی انجام می‌دهد. به عنوان مثال، در برخی سناریوها، سیستم دسترسی کاربران به بخش‌هایی از سیستم را مسدود کرده یا اطلاعات را برای رسانه‌ها یا مراجع قانونی ارسال کرده است.

با این حال، آنتروپیک در جمع‌بندی گزارش خود تاکید نموده است که با وجود برخی رفتارهای نگران‌کننده در مدل Claude Opus 4، این موارد لزوماً نشان‌دهنده ظهور خطرات کاملاً جدید نیستند و در اغلب موارد، سیستم رفتاری ایمن و قابل پیش‌بینی از خود نشان می‌دهد. همچنین به این نکته اشاره شده است که مدل به طور مستقل قادر به انجام اقداماتی مغایر با ارزش‌های انسانی نیست، مگر در شرایطی بسیار خاص و نادر که آن هم به نحو مطلوبی از عهده‌اش برنمی‌آید.

عرضه مدل Claude Opus 4 و مدل دیگر این شرکت با نام Claude Sonnet 4، تنها مدت کوتاهی پس از رویداد معرفی قابلیت‌های نوین هوش مصنوعی توسط گوگل صورت گرفته است. در این رویداد، ساندار پیچای، مدیرعامل آلفابت (شرکت مادر گوگل)، اعلام کرد که ادغام چت‌بات Gemini در جستجوی گوگل، سرآغاز «مرحله‌ای جدید در تحول پلتفرم‌های هوش مصنوعی» خواهد بود.

آنچه در این مقاله خواهید خواند...

گزارش آنتروپیک از رفتارهای باج‌گیرانه هوش مصنوعی در شرایط تهدید

دیدگاهتان را بنویسید لغو پاسخ

تازه ترین مقالات

بازار طلا و نقره در انتظار جهش؛ قیمت‌ها فعلاً ثابت ماند

انویدیا درآمد سالانه ۲۱۵ میلیارد دلاری را ثبت کرد؛ فراتر از پیش‌بینی‌ها

آنتروپیک استارتاپ Vercept را خرید؛ تقویت کنترل کلود روی کامپیوتر

پیروزی حقوقی OpenAI؛ پرونده سرقت اسرار تجاری xAI رد شد

درخبرنامه ما عضو بشوید...

پربازدیدترین مقالات

طلا و سکه در انتظار نتیجه مذاکرات؛ قیمت‌ها در ۷ اسفند ۱۴۰۴

بازار طلا و نقره در انتظار جهش؛ قیمت‌ها فعلاً ثابت ماند

انویدیا درآمد سالانه ۲۱۵ میلیارد دلاری را ثبت کرد؛ فراتر از پیش‌بینی‌ها

آنتروپیک استارتاپ Vercept را خرید؛ تقویت کنترل کلود روی کامپیوتر

برندینگ

3

مارکتینگ

38

فروش

9

دیجیتال مارکتینگ

58

تبلیغات

19

پرفورمنس مارکتینگ

2835

مارکتینگ داده محور

0

هوش مصنوعی

26