الحرية ـ عائشة عكاش:
يشهد العالم تطوراً متسارعاً في تقنيات الذكاء الاصطناعي التوليدي، وبخاصة في مجال استنساخ الصوت البشري رقمياً (Voice Cloning)، حيث انتقلت الأنظمة من مجرد تحويل النص إلى صوت، إلى نماذج عميقة تعتمد على الشبكات العصبية القادرة على محاكاة الهوية الصوتية بدقة عالية، شاملة النبرة والطبقة والأسلوب التعبيري.
وفي هذا السياق، أوضح عميد كلية المعلوماتية بجامعة إدلب، الدكتور مصعب الشبيب في حديث لـ«الحرية»، أن هذا التوسع في التطبيقات يُبرز تحديات علمية وأمنية تتعلق بموثوقية الهوية الصوتية، وإساءة استخدام التقنيات في إنتاج محتوى صوتي مزيف (Deepfake Audio).
آليات تقليد الصوت
وبيّن الدكتور الدكتور الشبيب أن تقنيات استنساخ الصوت الحديثة تعتمد على نماذج التعلم العميق، القادرة على استخراج ما يشبه «البصمة الصوتية الرقمية» للمتحدث من ثوانٍ معدودة من التسجيل، مشيراً إلى أن أبحاث معهد مهندسي الكهرباء والإلكترونيات «IEEE» حول هذه التقنيات تقوم على بنيتين أساسيتين:
أولاً: تكييف المتحدث (Speaker Adaptation)، وهو تعديل نموذج توليدي عبر ضبط دقيق (Fine‑tuning) باستخدام عينات صوتية محدودة للشخص المستهدف.
ثانياً: ترميز المتحدث (Speaker Encoding)، وهو استخراج تمثيل رقمي (Embedding) لهوية الصوت واستخدامه ضمن نموذج توليدي دون إعادة تدريب النظام.
وتمر عملية هذه الأنظمة بثلاث مراحل مترابطة: استخراج الخصائص الصوتية، ثم النمذجة الصوتية، وأخيراً توليد الموجة الصوتية، لإنتاج صوت قريب جداً من الأصلي.
أبرز العيوب التقنية
وكشف الدكتور الشبيب أنه رغم التقدم الكبير، لا تزال أنظمة تقليد الصوت تعاني من قيود تمنع التطابق الكامل مع الصوت البشري، وتتركز في:
- فقدان الاتساق العاطفي وضعف التعبير عن الانفعالات الطبيعية.
- مشاكل في الإيقاع والتنفس، تظهر كنمط آلي غير بشري.
- أخطاء لغوية في نطق الأسماء النادرة أو التبديل بين اللغات.
- تحديات خاصة بالعربية نتيجة التنوع اللهجي الكبير.
- عيوب تقنية كانزياح الترددات أو المبالغة في «تنظيف» الصوت.
وبالتالي، يبقى غياب العفوية الإنسانية الكاملة تحدياً بحثياً مفتوحاً في مجالات معالجة الكلام والإشارة الصوتية.
مؤشرات تمييز الصوت المزيف
وفي هذا السياق، أكد الدكتور الشبيب أنه على المستوى الفردي، يمكن ملاحظة عدة علامات تساعد في التمييز بين الصوت الحقيقي والمولَّد، منها، النقاء المفرط وغياب التغيرات الطبيعية في التنفس والتوقفات العفوية، وكذلك ضعف التعبير العاطفي وثبات النبرة.
إيقاع آلي منتظم بشكل غير طبيعي
أما تقنياً، فتعتمد أنظمة الكشف على تحليل خصائص دقيقة، كمعاملات التردد الصوتي (MFCC) والمخطط الطيفي (Spectrogram)، لكشف تشوهات غير مرئية للأذن البشرية. لكن يبقى الوعي البشري خط الدفاع الأول، مع تأكيد أن التمييز الدقيق هو مهمة الأنظمة المتقدمة.
استراتيجية التحقق بدلاً من التخمين
ونوّه الدكتور الشبيب إلى أن الأبحاث لا توصي بالاعتماد على التمييز السمعي وحده، بل تؤكد أن الطريقة الأكثر أماناً هي التأكد من مصدر الصوت، وإعادة التواصل عبر وسيلة ثانية موثوقة، وعدم اتخاذ قرارات حساسة «مالية أو شخصية» اعتماداً على الصوت فقط، وهذا يجعل الوعي والتحقق العملي خط الدفاع الأساسي في مواجهة انتشار الأصوات الاصطناعية.
خطورة الاستنساخ الصوتي على المجتمع
واستعرض الدكتور الشبيب نقاط خطورة تقليد الأصوات، والتي تكمن في استخدامه في انتحال الهوى «Identity Impersonation»، وهجمات التأثير النفسي، والابتزاز المالي والاجتماعي.
وتحدث الدكتور الشبيب عن دراسة شملت أكثر من 7000 متحدث، أظهرت أن أنظمة التحقق الصوتي يمكن خداعها بسهولة، وأن الإنسان يفشل في التمييز بين الحقيقي والمزيف في حالات متعددة، خاصة مع التسجيلات القصيرة، والأخطر أن انخفاض التكلفة وسهولة الاستنساخ من ثوانٍ من التسجيلات المتاحة عبر الإنترنت قد أدى إلى ظهور حالات ابتزاز واقعية تستخدم أصواتاً مزيفة لأقارب الضحايا.
تقليد الأصوات الغنائية
ومن ناحية أن توليد الصوت الغنائي (Singing Voice Synthesis) أكد الدكتور الشبيب أن هذا الجانب شهد تطوراً كبيراً، حيث أصبحت الأنظمة قادرة على إعادة إنتاج خصائص أساسية كالنبرة والطبقة والإيقاع، مع إمكانية التحكم بالسرعة والأسلوب وحتى اللغة.
ومع ذلك، تكشف الأبحاث عن حدود واضحة، إذ تبقى «الروح الفنية» صعبة المحاكاة، كالارتجال اللحظي والشحنة العاطفية العميقة، وهي عناصر مرتبطة بالتجربة الإنسانية المباشرة لا تستطيع النماذج الاصطناعية إعادة إنتاجها بشكل كامل.
حماية الملكية الصوتية
وأوضح الدكتور الشبيب أن أنظمة التحقق الصوتي التقليدية لم تعد كافية في ظل هذه التحديات، ما استدعى تطوير حلول متعددة المستويات تشمل:
تقنياً: أنظمة كشف تعتمد على تحليل خصائص دقيقة، وإضافة بصمات رقمية خفية داخل الصوت، واعتماد وسائل تحقق متعددة.
بحثياً: استخدام قواعد بيانات معيارية لتقييم فعالية أنظمة الكشف في مواجهة أنواع مختلفة من الهجمات.
تنظيمياً: بدأت بعض الدول بوضع أطر قانونية تحمي الصوت كجزء من الهوية الشخصية، وتلزم المنصات بالإفصاح عن المحتوى المولَّد اصطناعياً.
وختم الدكتور الدكتور الشبيب بالإشارة إلى أن الدراسات في هذا المجال تشبه سباقاً مستمراً بين تقنيات الإنتاج والتزييف من جهة، وأنظمة الكشف من جهة أخرى. لذا، تعتمد الحماية الفعالة على مزيج من التقنية والتشريعات والوعي المجتمعي للحد من المخاطر.