المواضيع

ثورة في توليد الكلام: نموذج SpeechSSM الذي يولد كلامًا طبيعيًا لمدة تصل إلى 16 دقيقة

 

مقدمة

مع تطور التكنولوجيا وتقدمها، أصبح من الممكن الآن توليد كلام طبيعي باستخدام نماذج الذكاء الاصطناعي. نموذج SpeechSSM هو واحد من هذه النماذج التي أحدثت ثورة في مجال توليد الكلام، حيث يمكنه توليد كلام طبيعي يصل إلى 16 دقيقة. في مقال اليوم عزيزي القارئ، سنناقش تفاصيل هذا النموذج وكيفية عمله.

ثورة في توليد الكلام: نموذج SpeechSSM الذي يولد كلامًا طبيعيًا لمدة تصل إلى 16 دقيقة
ثورة في توليد الكلام: نموذج SpeechSSM الذي يولد كلامًا طبيعيًا لمدة تصل إلى 16 دقيقة

نموذج SpeechSSM

يعد نموذج SpeechSSM خطوة رائدة في تكنولوجيا الذكاء الاصطناعي التي تولد الأصوات، وقد طور ضمن مشروع بحثي نشر على منصة " arXive" من قبل الباحثة" سي جين بارك" من كوريا الجنوبية ومن المقرر تقديمه من خلال مؤتمر تعلم الآلة الدولي لعام 2025.

 وقالت الباحثة" كانت النماذج اللغوية الصوتية التقليدية محدودة في قدرتها على توليد محتوى طويل المدى، وكان هدفنا تطوير نموذج يمكنه دعم الاستخدام البشري الحقيقي عبر توليد كلام طويل ومنسق". وأيضاً قالت " نعتقد أن هذا الإنجاز سيسهم في تطويرمجالات المحتوى الصوتي وتطبيقات الذكاء الاصطناعي مثل المساعدات الصوتية من خلال تحسين الاتساق في المحتوى وقدرة النماذج على التفاعل بكفاءة وسرعة في الزمن الحقيقي".

عمل نموذج SpeechSSM

يقوم نموذج SpeechSSM بتوليد كلام اصطناعي لكنه يبدو طبيعي ومتواصل دون قيود زمنية مثل إنتاج محتوى صوتي طويل التي تتطلبه الكتب المسموعة والتطبيقات التفاعلية وبرامج البودكاست.

مميزات نموذج SpeechSSM

  1. يتيح نموذج SpeechSSM إنتاج مقاطع متعددة في آن واحد من خلال نموذج تركيب صوتي غير تسلسلي اسمه" Non-Autoregressive" وأيضاً القدرة على توليد كلام يصل إلى 16 دقيقة من خلال إنشاء الباحثة مجموعة بيانات جديدة تحت اسم " LibriSpeech-Long" بعكس النماذج التقليدية التي تبني الصوت كلمة بكلمة أو حرفاً بحرف، وأيضاً توليد مقاطع قصيرة لا تتعدى 10 ثواني.
  2. أتضح من خلال التقييمات أن الكلام الذي يولده نموذج SpeechSSM يحافظ على الشخصيات والأحداث المذكورة في بداية المحتوى وأيضاً يضيف شخصيات ومعلومات جديدة بطريقة طبيعية ومتسقة حتى لو تم توليد كلام طويل المدة، وهذا ما يمثل قفزة نوعية مقارنة بالنماذج السابقة التي كانت تميل إلى التكرار أو فقدان الموضوع مع مرور الوقت.
  3. نموذج SpeechSSM يعتمد على هيكل هجيني يجمع بين طبقات الانتباه التي تركز على المعلومات الحديثة وطبقات تكرارية تتيح تذكر السياق الكامل للنص أو المحادثة.
  4. نموذج SpeechSSM يعالج تسلسلات الكلام غير المحدودة عبر تقسيم البيانات إلى وحدات زمنية ثابتة وقصيرة وتحليل كل واحدة منها بشكل مستقل ثم دمجها، من أجل إنتاج كلام طويل ومتماسك دون فقدان الخيط العام أو انحراف عن الموضوع.
  5. القدرة على تعلم الكلام البشري مباشرة دون الحاجة لتحويله إلى نص وإنتاج كلام عالي الجودة بسرعة، وأيضاً يسرع عملية التوليد بشكل كبير دون التضحية بجودة الصوت.
  6. نموذج SpeechSSM يقلل بشكل كبير من استهلاك الموارد الحاسوبية والذاكرة، وهذا ما يجعله أكثر استقراراً وكفاءةً.

في الختام، يمثل نموذج SpeechSSM تقدمًا كبيرًا في مجال توليد الكلام الطبيعي، بفضل قدرته على توليد كلام يصل إلى 16 دقيقة، ويمكن استخدام هذا النموذج في مجموعة واسعة من التطبيقات، من المساعدين الصوتيين إلى إنتاج المحتوى الصوتي. نحن نتطلع إلى رؤية كيف سيتم استخدام هذا النموذج في المستقبل وكيف سيساهم في تحسين تجربة المستخدمين.

أتمنى عزيزي القارئ أن تكون استفدت من هذا المقال. تم كتابة المقال استناداً إلى معلومات من موقعasharq.

وللمزيد من المعلومات والأخبار والمواضيع التقنية ما عليك سوا متابعة مدونتناtechnookblog.com .

 




حجم الخط
+
16
-
تباعد السطور
+
2
-