الحرية ـ سامر اللمع:
كشفت شركة «غوغل ديب مايند»، التابعة لشركة غوغل، مؤخراً عن مجموعة معايير تُسمى “FACTS Benchmark Suite”، والتي تقيس مدى موثوقية نماذج الذكاء الاصطناعي في إنتاج إجابات دقيقة وواقعية. تختبر هذه المعايير النماذج في أربعة مجالات: الإجابة عن أسئلة معلوماتية من خلال المعرفة الداخلية، استخدام البحث عبر الإنترنت بفعالية، إثبات دقة الإجابات عبر وثائق طويلة، وتفسير الصور.
وقد حقق أفضل نموذج، وهو جيميني 3 برو من “غوغل”، دقة بلغت 69 %، بينما كانت دقة النماذج الرائدة الأخرى أقل بكثير من ذلك، بحسب تقرير لموقع “بيزنس إنسايدر”.
ويجب أن يكون لهذا الرقم أهمية كبيرة للشركات التي تراهن على الذكاء الاصطناعي؛ فبينما تتفوق النماذج في السرعة والطلاقة، لا تزال موثوقيتها في تقديم المعلومات الواقعية أقل بكثير من التوقعات البشرية، ولا سيما في المهام التي تتطلب معرفة متخصصة، أو تفكيراً معقداً، أو دعماً دقيقاً للإجابات بالمصادر.
حتى الأخطاء الصغيرة في الحقائق قد تكون لها عواقب كبيرة في قطاعات مثل المالية، الرعاية الصحية، والقانون. وتزداد أهمية موثوقية نماذج الذكاء الاصطناعي مع الوقت بالنظر إلى تأثيرها المباشر على حياة الأشخاص. فعلى سبيل المثال، قامت إحدى الشركات بفصل موظف بعد أن قدّم مستنداً مليئاً بقضايا وهمية اختلقها “شات جي بي تي”، بعدما استخدم المحامي روبوت الدردشة لصياغة الملف.
تُعد معايير “FACTS” تحذيراً، ولكنها أيضاً بمنزلة خريطة إرشادية، فمن خلال تحديد مواطن قصور النماذج وكيفية حدوثها، تأمل “غوغل” في تسريع وتيرة التقدم. لكن في الوقت الراهن، تظل الحقيقة الأوضح أن الذكاء الاصطناعي يتحسن، لكنه لا يزال يخطئ في نحو ثلث الحالات.