ذكاء صِنعي جديد من للتعرف على Deepmind محتوى الكلام انطلاقا من حركات الشفاه

عما قريب، كل فيديو يصور شفاهيك وأنت تتحدث، حتى دون الحاجة لصوتك، كفيل جدا بجعل الذكاء الصنعي لغوغل يتعرف على محتوى كلامك

قام فريق من الباحثين من جامعة أكسفورد وDeepmind التابعة لجوجل والمتخصصة في مجال الذكاء الاصطناعي (AI)، بإنشاء تطبيق لتحليل حركات الشفاه واستخلاص مضمون الكلام حيث توجت مجهوداتهم بنجاح كبير إذ أن البرنامج كان أكثر كفاءة بكثير من البشر.

قام الفريق بتدريب شبكتهم العصبية (أو العصبونية) عبر 5000 ساعة من البرامج المتلفزة التابعة للبي بي سي، وقد احتوت العينة على 118000 جملة و 17500 كلمة متفردة.

نتيجة لذلك، حقق الفريقان نسبة نجاح بلغت 46.8٪ وهي نسبة جد ناجحة رغم أنها تبدو نسبة ضعيفة، إذ يجب التنويه إلى أن الفريق البحثي قام بإحضار متخصصين في الميدان وعرض عليهم نفس المقاطع التي عرضت على الذكاء الصنعي قصد التعرف على محتوى الكلام من مجرد مراقبة حركاة الشفاه، فكانت النتيجة %12.4 فقط.

ويوضح الفريق في الورقت البحثية التي نشرها على arXiv أن أكبر الصعوبات التي تواجه تقنيات قراءة وتحليل الشفاه تأتي من الكلمات المشتركة في اللفظ لكن بمعاني مختلفة، إذ يصعب في هذه الحالة التنبؤ بالمعني الصحيح المراد من ذلك اللفظ.

هذه التكنلوجيا الجديدة للذكاء الصنعي يتوقع أن يكون لها استخدامات وتطبيقات واسعة، نذكر منها امكانية املاء رسالة أو اعطاء أمر معين للمساعد الشخصي في الهاتف رغم وجودك في بيئة جد صاخبة، إعادة إحياء السينما الصامتة من الأرشيف، تحسين مستوى التعرف الصوتي وغيرها من التطبيقات المفيدة.

لكن، لا يخفى على أحد أن تكنلوجيا مثل هذه ستكون شيئا مفرحا للعاملين في مجال التجسس، إذ أنها ستفتح آفاق جديدة وبإمكانيات غير مسبوقة للتجسس وتعقب محتوى الكلام دون حاجة لمايكروفون قريب من الشخص المراد استهدافه.

ورغم أن الفريق البحثي يؤكد على أن برنامجهم يحتاج إلى فيديوهات عالية الدقة للتعرف على محتوى الكلام وأن كميرات المراقبة مثلا غير صالحة بتاتا لهذا الغرض، إلا أن الذكاء الصِّنعي في تقدم مستمر في هذا الميدان بالنظر لمحاولات فرق بحثية أخرى من أجل الوصول لنتائج أفضل.