مقدمة
أعلنت OpenAI عن مجموعة جديدة من النماذج الصوتية المتطورة التي تهدف إلى إحداث نقلة نوعية في عالم التفاعل الصوتي والترجمة الفورية المعتمدة على الذكاء الاصطناعي، في خطوة تعكس التوسع السريع في تطوير تقنيات المحادثة الذكية القادرة على فهم الإنسان والتفاعل معه بصورة أكثر طبيعية وسلاسة. وتضم المجموعة الجديدة نماذج متقدمة مثل GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper، والتي صُممت لتوفير تجارب صوتية أكثر ذكاءً، مع القدرة على الاستماع المباشر، وفهم السياق، والترجمة اللحظية بين عشرات اللغات، إضافة إلى تحويل الكلام إلى نص في الوقت الحقيقي. وتأتي هذه التقنيات ضمن توجه متسارع لجعل المساعدات الرقمية أكثر قربًا من أسلوب التواصل البشري الحقيقي، سواء في التطبيقات التعليمية أو خدمة العملاء أو الاجتماعات والبث المباشر. وتشير الشركة إلى أن النماذج الجديدة لا تكتفي فقط بالتعرف على الكلام، بل أصبحت قادرة على إدارة الحوارات الطويلة، والتعامل مع المقاطعات، وتنفيذ الأوامر أثناء الحديث، مما يفتح الباب أمام جيل جديد من التطبيقات الذكية التفاعلية.نماذج صوتية جديدة من OpenAI تمهد لعصر المحادثات والترجمة اللحظية بالذكاء الاصطناعي
ثلاثة نماذج صوتية من OpenAI
شركة
OpenAI تكشف عن ثلاثة نماذج صوتية توفر تفاعلات
صوتية طبيعية بنحو أكبر ولحظي، وأيضاً تدعم الترجمة الحية وتحول الكلام إلى نصوص
بسرعة عالية، وهذه النماذج تستهدف العاملين على التطبيقات الصوتية والترجمة
الفورية وتحويل الكلام إلى نصوص مباشرة عبر واجهاتها البرمجية API ، ويستطيعون المطورين تجربة النماذج عبر منصةPlayground. إليك عزيزي
القارئ النماذج الصوتية الجديدة:
نموذج GPT-Realtime-Translate
يستهدف
هذا النموذج الترجمة الصوتية المتعددة اللغات ذات الأداء الفوري، حيث يدعم النموذج
ترجمة أكثر من 70 لغة إدخال إلى 13 لغة إخراج ، ويتميز بأنه يحافظ على المعنى عند الترجمة حتى عند ترجمة
مصطلحات متخصصة أو استخدام لهجات محلية. النموذج متاح عبر واجهة Realtime
API بسعر يبلغ نحو 0.034 دولار
للدقيقة.
نموذج
GPT-Realtime-2
هذا
النموذج من أبرز النماذج فهو يقدم فهم أفضل للمفردات الطبية، والأسماء العلمية،
والمصطلحات المتخصصة، وإدارة المحادثات الصوتية المباشرة،
والقدرة على تحليل الطلبات، والقدرة على تصحيح الأخطاء عند وقوعها، ودعم التحكم في نبرة الحديث وفق طبيعة الموقف، وإمكانية
تقديم عبارات تمهيدية قصيرة مثل دعني "أتحقق من ذلك"، والقدرة على
استدعاء عدة أدوات بالتوازي مع بقاء المستخدم مطلعاً على العملية. النموذج متاح
عبر واجهة Realtime API بسعر يبدأ من 32 دولار
لكل مليون رمز إدخال صوتي و64 دولار لكل مليون رمز إخراج صوتي.
نموذجWhisper GPT-Realtime-
هذا
النموذج مخصص لتحويل الكلام إلى نصوص مباشرة مع زمن استجابة منخفض، وأيضاً تحويل
الحديث إلى نصوص أثناء الكلام، هذا النموذج مناسب للمحاضرات الدراسية وتدوين
الاجتماعات والترجمات الفورية. النموذج متاح عبر واجهة Realtime
API بسعر يبلغ نحو 0.017 دولار
للدقيقة.
تعكس النماذج الصوتية الجديدة التي قدمتها OpenAI حجم
التطور المتسارع الذي يشهده مجال الذكاء الاصطناعي التفاعلي، خاصة في تقنيات الصوت
والترجمة الفورية. فبعد أن كانت أنظمة الذكاء الاصطناعي تقتصر على الردود النصية
أو الأوامر البسيطة، أصبحت اليوم قادرة على خوض محادثات طبيعية، وفهم السياق،
والتعامل مع اللغات المختلفة بشكل لحظي ومتقدم. ومن المتوقع أن تسهم هذه التقنيات
في تسهيل التواصل العالمي وتقليل الحواجز اللغوية، إلى جانب تطوير تجارب المستخدم
في قطاعات عديدة مثل التعليم، والسفر، وخدمة العملاء، والإعلام. كما أن دمج قدرات
التفكير والاستجابة الفورية مع الترجمة الحية يشير إلى مستقبل قد تصبح فيه
المحادثات بين البشر والأنظمة الذكية أكثر واقعية وانسيابية. وفي ظل التنافس
المتزايد بين شركات التقنية الكبرى، يبدو أن تقنيات الصوت ستكون إحدى أهم ساحات
الابتكار خلال السنوات المقبلة، مع احتمالية توسع استخدامها في الحياة اليومية
بصورة أكبر من أي وقت مضى.
أتمنى عزيزي القارئ أن تكون استفدت من هذا المقال. تم كتابة
المقال استناداً إلى معلومات من موقع
وللمزيد من المعلومات والأخبار والمواضيع التقنية ما عليك
سوا متابعة مدونتناtechnookblog.com .