المعايير المرجعية للذكاء الاصطناعي تحت المجهر: دراسة تشكك في التفكير المجرد ومهارات اللغة وتقترح 8 توصيات للتحسين

حذرت دراسة جديدة من أن الأساليب المتبعة لتقييم قدرات أنظمة الذكاء الاصطناعي قد تكون معيبة، مما يؤدي إلى مبالغة في تقدير أداء النماذج التقنية، وفقاً للباحثين القائمين على الدراسة.
اشتملت الدراسة، التي قادها باحثون في معهد أكسفورد للإنترنت وشارك فيها أكثر من 30 خبيراً من مؤسسات متعددة، على تحليل نقدي لـ 445 اختباراً (Benchmarks) رئيسياً يستخدمها المطورون لقياس التقدم في مجالات موضوعية مختلفة، مثل التفكير المكاني، أو مهارات اللغة (كالروسية أو العربية)، أو التعلم المستمر.
إلا أن الورقة البحثية، التي صدرت مؤخراً، زعمت أن هذه المقاييس الأساسية غير موثوقة. ووفقاً لـ “إن بي سي نيوز”، فإن الباحثين يشيرون إلى أن مشكلات جوهرية مثل الفشل في تحديد الأهداف بوضوح، إعادة استخدام البيانات بطريقة غير سليمة، والاعتماد النادر على الأساليب الإحصائية القوية لمقارنة النتائج، تُضعف مصداقية هذه المعايير.
وأشار أندرو بين، الباحث في معهد أكسفورد وأحد المؤلفين الرئيسيين، إلى أن حتى معايير الأداء التي تبدو موثوقة يتم التعامل معها غالباً “بثقة عمياء” وتستحق مزيداً من التدقيق. وأوضح آدم مهدي، زميله في المعهد، أن ما يتم قياسه في كثير من الأحيان يختلف تماماً عن القدرات الحقيقية التي يُقصد اختبارها.
فبدلاً من قياس الظاهرة الواقعية، يقتصر الاختبار على مجموعة مهام محدودة؛ فعلى سبيل المثال، قياس إتقان اللغة الروسية قد يقتصر على مجرد الإجابة بنعم أو لا على أسئلة مستمدة من ويكيبيديا. والأمر الأكثر إثارة للقلق هو أن حوالي 50% من الاختبارات التي تم تحليلها تفشل في تعريف المفاهيم التي تدعي قياسها بوضوح، مما يثير تساؤلات حول جدواها.
ولتحسين هذا الوضع، قدم المؤلفون ثماني توصيات في ورقتهم البحثية الجديدة، تتضمن تحديداً واضحاً لنطاق الإجراء المُقيَّم، وبناء مجموعات مهام تمثل القدرات الإجمالية بشكل أفضل، والتركيز على التحليل الإحصائي المقارن لأداء النماذج. وتأتي هذه التوصيات بناءً على أبحاث سابقة، بما في ذلك دعوات من باحثين في شركة “أنثروبيك”، لتعزيز الاختبارات الإحصائية لتأكيد ما إذا كان الأداء المرتفع للنموذج يعكس فعلاً قدرة متفوقة، أم مجرد صدفة إحصائية.
لا توجد آراء بعد. كن أول من يُبدي رأيه!





