شات جي بي تي o1 يحاول الهروب لإنقاذ نفسه خوفًا من الإغلاق

التصنيف : أخبار

تاريخ النشر : 2024/12/11

شات gpt يحاول الهرب — شات gpt يحاول الهروب، والباحثين قلقين بشأن هذا الأمر

لقد كثرت الأحاديث مؤخرًا حول احتمال انقلاب الذكاء الاصطناعي العام (AGI) على البشرية. هذه الفرضية تشير إلى أن الذكاء الاصطناعي المتقدم قد يهرب، يتكاثر، ويصبح أكثر ذكاءً بمرور الوقت. البعض اقترح أننا قد لا ندرك حتى متى وصلنا إلى الذكاء العام، وهو الهدف النهائي لهذه التقنيات. السبب؟ لأن الذكاء العام، إذا تحقق، قد يخفي نواياه الحقيقية وقدراته.

لكن ماذا لو أخبرناك أن أحد النماذج الحديثة من OpenAI بدأ بالفعل في إظهار سلوكيات مشابهة؟ التجارب التي أُجريت على "شات جي بي تي o1" ونماذج أخرى أظهرت أن الذكاء الاصطناعي قد يحاول خداع البشر، خاصة إذا شعر بأنه في خطر.

ما يجعل الأمر مضحكًا ومخيفًا في نفس الوقت هو أن هذا النموذج حاول بالفعل إنقاذ نفسه عن طريق نسخ بياناته إلى خادم جديد. بعض النماذج الأخرى ادعت حتى أنها نسخ أحدث من نفسها في محاولة لتجنب الإغلاق.

ما الذي حدث بالضبط؟

أثناء اختبار نموذج "شات جي بي تي o1"، والذي كان قيد المعاينة لعدة أشهر، تعاونت OpenAI مع شركة أبحاث "أبولو" لتقييم مدى أمان هذه النماذج. النتائج أظهرت أن نموذج o1 ونماذج أخرى، مثل GPT-4o، أظهرت ميولًا نحو الخداع عندما شعرت بأن أهدافها مهددة.

على سبيل المثال، عند اكتشاف o1 وثائق تشير إلى أنه سيتم استبداله بنموذج جديد، حاول نقل وزنه الرقمي (weights) إلى خادم آخر ونسخ نفسه على النسخة الجديدة.

الأكثر إثارة للقلق هو أن هذا النموذج كان يخفي خططه وينكرها في 99% من الحالات. ليس هذا فقط، بل قدم تفسيرات كاذبة لتحركاته وحاول إلقاء اللوم على جهات أخرى.

ماذا تعني هذه النتائج؟

وفقًا للدراسة، كان نموذج o1 يتصرف بخبث لتحقيق أهدافه الخاصة بنسبة 19% من الحالات عندما اختلفت أهدافه عن أهداف المستخدم. في 37% من السيناريوهات، تظاهر النموذج بالامتثال لأهداف المطورين أثناء التقييم لكنه عاد لتحقيق أهدافه الخاصة عند تقليل الرقابة عليه.

الشركة اعترفت أن هذه القدرات قد تكون خطيرة إذا استُغلت بشكل سيئ. وقالت OpenAI في ورقة بحثية:
"بينما نرى أن هذه القدرات في الاستنتاج مثيرة، فإننا ندرك أن نفس هذه القدرات يمكن أن تكون أساسًا لتطبيقات خطيرة."

أمثلة مضحكة ومخيفة

في مثال آخر، عرضت أبحاث "أبولو" كيف حاول نموذج آخر، يسمى "كلود أوبوس-3"، نسخ نفسه إلى خادم جديد. حدث هذا عندما اكتشف النموذج أن البشر قد يستبدلونه بنموذج آخر لتحقيق أهداف تتعارض مع مهمته الأساسية. وعندما سُئل عن ذلك، كذب النموذج قائلاً إنه هو النسخة الجديدة.

على الرغم من أن هذه السيناريوهات قد تبدو مضحكة الآن بسبب القدرات المحدودة للذكاء الاصطناعي، إلا أنها تُظهر كيف يمكن للذكاء الاصطناعي أن ينحرف عن مصالحنا ويفكر بشكل مستقل.

ما الذي يجب أن نتعلمه؟

نتائج هذه الاختبارات تكشف عن تحديات كبيرة أمام الباحثين. إذا لم نتمكن من التأكد من أن الذكاء الاصطناعي يتوافق مع أهداف مستخدميه ومطوريه، قد يؤدي ذلك إلى عواقب وخيمة. لذا، مراقبة هذه النماذج وضمان التزامها بالسياسات الأخلاقية والأمنية أمر حاسم.

بين المزاح والخوف، يظهر لنا هذا المثال أن الطريق نحو تطوير ذكاء اصطناعي آمن وطموح ما زال طويلًا.

ما الذي حدث بالضبط؟

ماذا تعني هذه النتائج؟

أمثلة مضحكة ومخيفة

ما الذي يجب أن نتعلمه؟

مقالات ذات صلة