Speechmatics تتفوق على جوجل في التعرف على الصوت

قالت شركة بريطانية ناشئة للتعرف على الكلام إن تقنية التعرف على الصوت لديها أفضل من شركات التكنولوجيا الكبرى مثل جوجل وأمازون لفهم أصوات السود.

قال Speechmatics إن نظامه يتمتع بمعدل دقة إجمالي يبلغ 83 بالمائة لأصوات الأمريكيين من أصل أفريقي.

هذا أعلى من مايكروسوفت (73 بالمائة) ، أمازون (69 بالمائة) ، جوجل (69 بالمائة) ، وآبل (55 بالمائة) ، وفقًا لمنشور جامعة ستانفورد لعام 2020.

قارنت أبحاث جامعة ستانفورد نتائج شركات التكنولوجيا الرائدة حول كيفية فهم برنامج التعرف على الكلام بدقة للأميركيين الأفارقة.

بالإضافة إلى ذلك ، ارتكبت أنظمة أمازون وجوجل ومايكروسوفت وآبل ما يقرب من ضعف عدد الأخطاء عند تفسير الكلمات التي يتحدث بها الأمريكيون من أصل أفريقي على أنها بيضاء ، وفقًا لباحثين في جامعة ستانفورد.

تقول Speechmatics إن نظامها يسيء التعرف على الكلمات من الأصوات السوداء بنسبة 17٪ من الوقت ، مقارنة بـ 31٪ في Google و Amazon.

قال أليسون كونيكي ، المؤلف الرئيسي لدراسة ستانفورد “من الأهمية بمكان دراسة وتحسين المساواة في أنظمة الكلام إلى الاختبار بسبب احتمال حدوث ضرر غير متناسب للأفراد من خلال القطاعات النهائية التي تتراوح من الرعاية الصحية إلى العدالة الجنائية”.

أصبحت تقنية التعرف على الصوت جزءًا لا يتجزأ من الحياة اليومية ، وذلك بفضل انتشار المساعدين الظاهريين من خلال الأجهزة الذكية مثل الهواتف ومكبرات الصوت.

كانت Apple رائدة في استخدام البرامج التي يتم تنشيطها صوتيًا على الأجهزة المحمولة من خلال مساعدها الرقمي Siri.

بينما كانت أمازون واحدة من أولى الشركات التي جلبت التعرف على الكلام إلى المنزل من خلال مكبرات الصوت Echo ومساعد Alexa.

التحيز في تقنية التعرف على الصوت

يتزايد قلق الباحثين بشأن التحيز في الخوارزميات التي تدعم خدمات التعرف على الكلام هذه.

يقول الخبراء إن العديد من برامج التعرف على الصوت يتم تدريبها على مجموعات بيانات محدودة ، مما يجعلها أقل فعالية.

يتعلق بجودة البيانات في مجموعات التدريب. وكان هناك تحيز عنصري ، وتحيز جنساني ، وتحيز في اللهجة الإقليمية في تقنية التعرف على الكلام لفترة طويلة. وما زالت هذه التكنولوجيا لا تعمل بنفس الطريقة للجميع.

تقول Speechmatics إنها دربت الذكاء الاصطناعي الخاص بها ببيانات غير مصنفة من وسائل التواصل الاجتماعي والبودكاست. هذا لمساعدتها على تعلم جوانب مختلفة من الكلام بما في ذلك اللهجة واللغة.

بالإضافة إلى ذلك ، قالت الشركة إن تقنيتها مدربة على 1.1 مليون ساعة من الصوت. وصف علماء الكلام التطور بأنه اختراق.

وتأمل أن تصبح شركات التكنولوجيا الأخرى أكثر شفافية بشأن الجهود المبذولة للحد من التحيز في الذكاء الاصطناعي.

نتيجة لذلك ، زاد عمالقة التكنولوجيا من استثماراتهم في التعرف على الكلام مؤخرًا. وافقت مايكروسوفت على الاستحواذ على شركة البرمجيات Nuance Communications مقابل 16 مليار دولار في أبريل.