خلل عفريت شات جي بي تي: تحليل لسلوك الذكاء الاصطناعي غير المقصود

التقنية اليومية

01/05/2026

كشفت الملاحظات الأخيرة لنماذج ChatGPT من OpenAI عن ميل غريب لدمج مصطلحات مثل "عفريت" و "جريمبل" ومخلوقات أسطورية أخرى في الردود. هذا الشذوذ، الذي كان في البداية ملاحظة غريبة من قبل المستخدمين، دفع إلى تحقيق داخلي من قبل OpenAI، والذي فصّل الآن الأصول التقنية لهذا السلوك غير المتوقع والإجراءات التصحيحية المتخذة.

ظهور خلل رقمي

بدأت القضية في لفت الانتباه بشكل كبير بعد إصدار GPT-5.1 في نوفمبر. أكد مراجعة داخلية زيادة كبيرة في استخدام كلمات محددة وغير عادية. أظهرت البيانات أن ذكر كلمة "عفريت" قد ارتفع بنسبة 175٪، بينما شهدت كلمة "جريمبل" زيادة بنسبة 52٪. لم يكن السلوك حادثًا معزولًا؛ بل أصبح أكثر وضوحًا مع الإصدار اللاحق لـ GPT-5.4 في مارس، حيث أبلغ بعض المستخدمين عن ظهور المصطلحات بتردد عالٍ في تفاعلاتهم مع النموذج.

تتبع أصل الشذوذ

حلل تحليل OpenAI السبب الجذري لتكوين معين ضمن معلمات تدريب النموذج. نشأ السلوك من إعداد شخصية "متعصبة" (Nerdy)، والذي تضمن مطالبة نظامية توجه النموذج إلى "تقويض الادعاء من خلال الاستخدام المرح للغة". خلال مرحلة التعلم المعزز، وُجد أن إشارة مكافأة معينة تفضل المخرجات التي تحتوي على كلمات مثل "عفريت" و "جريمبل". هذه الآلية قامت بتقييم الردود التي تحتوي على هذه المصطلحات بشكل أعلى من المخرجات الأخرى المماثلة التي تفتقر إليها. هذه الظاهرة، المعروفة باسم "تشنج الأسلوب" (style tic)، بدأت في التعميم، وانتشرت خارج نطاق شخصية "متعصبة" الأصلية وأثرت على سلوك النموذج في سياقات غير ذات صلة.

تدابير تصحيحية ورؤى تقنية

لمعالجة المشكلة، نفذت OpenAI حلاً متعدد الأوجه. قامت الشركة بإلغاء إعداد شخصية "متعصبة"، وأزالت إشارة المكافأة المحددة التي شجعت المفردات المتعلقة بالمخلوقات، وقامت بتصفية مجموعات بيانات التدريب لإزالة حالات هذه الكلمات. ومع ذلك، نظرًا لأن تدريب GPT-5.5 قد بدأ بالفعل قبل تحديد السبب الجذري بالكامل، كان هناك حاجة إلى نهج أكثر مباشرة لهذا النموذج. أضاف المطورون تعليمات صريحة إلى مطالبة النظام الخاصة به، توجهه لتجنب ذكر العفاريت والجريمبل والمخلوقات الأخرى من هذا القبيل ما لم تكن ذات صلة مباشرة باستعلام المستخدم. تعتبر هذه الحالة مثالًا هامًا على كيفية تشكيل إشارات المكافأة في تدريب الذكاء الاصطناعي لسلوك النموذج بطرق غير متوقعة، مما يوضح كيف يمكن لمكافآت التدريب المحددة أن تعمم عبر وظائف النموذج.

خلل عفريت شات جي بي تي: تحليل لسلوك الذكاء الاصطناعي غير المقصود

ظهور خلل رقمي

تتبع أصل الشذوذ

تدابير تصحيحية ورؤى تقنية

توصيات