OpenAI تكشف عن نماذج صوتية جديدة للتفاعلات الصوتية والترجمة الفورية
كشفت OpenAI عن ثلاثة نماذج صوتية جديدة تعمل بنحو لحظي، تستهدف المطورين العاملين على تطبيقات المساعدات الصوتية والترجمة الفورية وتحويل الكلام إلى نصوص عبر واجهاتها البرمجية API.
تضم المجموعة الجديدة نماذج GPT-Realtime-2 و GPT-Realtime-Translate و GPT-Realtime-Whisper، والتي توفر تفاعلات صوتية طبيعية بنحو أكبر، مع دعم للترجمة الحية وتحويل الكلام إلى نصوص بسرعة استجابة عالية.
يُعد GPT-Realtime-2 أبرز هذه النماذج؛ إذ صُمم لإدارة المحادثات الصوتية المباشرة، مع القدرة على تحليل الطلبات واستدعاء الأدوات والتعامل مع التصحيحات ومتابعة الحوار بصورة ط naturality.
أضافت OpenAI عدة مزايا جديدة للنموذج، منها إمكانية تقديم عبارات تمهيدية قصيرة مثل “دعني أتحقق من ذلك” قبل تنفيذ المهمة، مع دعم استدعاء عدة أدوات بالتوازي مع إبقاء المستخدم على اطلاع بما يحدث.
حسّنت الشركة آليات التعامل مع الأخطاء؛ إذ بات النموذج يستجيب بصورة أكثر سلاسة عند وقوع مشكلة بدل التوقف بصمت، فضلًا عن توسيع نافذة السياق من 32 ألف رمز إلى 128 ألف رمز.
تقول OpenAI إن النموذج الجديد يقدّم فهمًا أفضل للمصطلحات المتخصصة والأسماء العلمية والمفردات الطبية، مع دعم التحكم في نبرة الحديث وفق طبيعة الموقف. كذلك يتيح للمطورين اختيار مستوى التفكير والاستدلال بين عدة مستويات.
يستهدف نموذج GPT-Realtime-Translate تجارب الترجمة الصوتية المتعددة اللغات ذات الأداء الفوري؛ إذ يدعم ترجمة أكثر من 70 لغة إدخال إلى 13 لغة إخراج. وتؤكد الشركة أن النموذج يحافظ على المعنى مع مواكبة سرعة المتحدث، حتى عند استخدام لهجات محلية أو مصطلحات متخصصة.
أما GPT-Realtime-Whisper، فهو نموذج مخصص لتحويل الكلام إلى نصوص مباشرة مع زمن استجابة منخفض، ويستطيع تحويل الحديث إلى نصوص في أثناء الكلام، مما يجعله مناسبًا للترجمات الفورية، وتدوين الاجتماعات، والمحاضرات الدراسية، وغيرها.
أتاحت OpenAI النماذج الثلاثة عبر واجهات Realtime API، مع تسعير يبدأ من 32 دولارًا لكل مليون رمز إدخال صوتي و 64 دولارًا لكل مليون رمز إخراج صوتي لنموذج GPT-Realtime-2، في حين تبلغ تكلفة GPT-Realtime-Translate نحو 0.034 دولار للدقيقة، وتكلفة GPT-Realtime-Whisper نحو 0.017 دولار للدقيقة.
تشير الشركة إلى أن المطورين يستطيعون تجربة النماذج الجديدة عبر منصة Playground، وأنها ستواصل العمل على تحسين التجربة الصوتية داخل ChatGPT للمستخدمين العاديين.



إرسال التعليق