كشفت شركة OpenAI عن أحدث نماذجها المبنية على الذكاء الاصطناعي وهو نموذج Voice Engine لاستنساخ الأصوات.

النموذج الجديد يمكنه استنساخ أصوات البشر بعد الاستماع لتسجيل صوتي مدته 15 ثانية فقط للصوت المراد استنساخه. هذه المدة القصيرة كافية ليتمكن النموذج من قراءة أي نص بالصوت المستنسخ كما يمكنه التحدث بلغات أخرى بطلاقة تجعل التفرقة بين الصوت الأصلي والمولد أمر صعبًا.

لماذا طورت OpenAI نموذج لاستنساخ الأصوات؟

شركة OpenAI تقول أن النموذج الجديد سيساعد الكثيرين في حياتهم اليومية مثل المرضى الذين فقدوا القدرة على التحدث أو صناع المحتوى الذين يرغبون في ترجمة محتواهم مع الإبقاء على هويتهم وصوتهم الحقيقي. بيان OpenAI للإعلان عن هذه الميزة أشار بالتحديد أن عملية الترجمة لن تغفل البُعد الثقافي للمتحدث، فإذا كان المتحدث فرنسيًا ويريد ترجمة شيئًا ما إلى الإنجليزية فإن الصوت المستنسخ سيتحدث الإنجليزية بلكنة فرنسية وليس بلكنة بريطانية أو أمريكية.

وعلى غرار نموذج Sora لتحويل لتوليد مقاطع الفيديو فإن هذا النموذج لن يتاح لجمهور المستخدمين وستقتصر OpenAI توافره خلال الفترة المقبلة على عدد محدود من المستخدمين لم تكشف الشركة عن طريقة اختيارهم.

إطلاق نموذج Sora بواسطة OpenAI - المصدر: Medium

تقنين الأصوات المستنسخة

ودعت OpenAI جهات عدة لاتخاذ الإجراءات اللازمة لتقنين الأصوات المستنسخة مع انتشارها مؤخرًا وتسببها في عمليات نصب واسعة كان أخرها استنساخ صوت الرئيس الأمريكي جو بايدن لإجراء مكالمات مزيفة. 

ترى الشركة أنه من الضروري الاستغناء عن المصادقة الصوتية كوسيلة أمن بيومترية في جهات عديدة كما نوهت بضرورة نشر الوعي عن تقنيات الذكاء الاصطناعي المتاحة حاليًا واحتمالية استخدامها في عمليات الاحتيال. وأكدت OpenAI على أنه من الضروري إقرار قوانين جديد تدير عملية استخدام الأصوات من قبل نماذج الذكاء الاصطناعي.

يذكر أن Voice Engine ليس أول نموذج لاستنساخ الأصوات بالذكاء الاصطناعي بل هناك عدد لا بأس به من تلك النماذج التي مازالت قيد التطوير، بعضها متاح بالفعل للجمهور ويمكنك بسهولة الوصول إليه واستخدامه، هناك بالفعل ملايين المقاطع المزيفة باستخدام هذه التقنية على مواقع التواصل الاجتماعي بل أن بعضها يزامن الصوت المزيف مع حركة الفم والوجه.

فهل يتفوق نموذج OpenAI عند طرحه للجمهور على نماذج باقي المنافسين؟