يقول ماتي ستانيزيفسكي، المؤسس المشارك والرئيس التنفيذي لشركة ElevenLabs، إن الصوت أصبح الواجهة الرئيسية القادمة للذكاء الاصطناعي – الطريقة التي سيتفاعل بها الناس بشكل متزايد مع الآلات مع تقدم النماذج لتتجاوز النصوص والشاشات.
خلال حديثه في قمة الويب في الدوحة، قال ستانيزيفسكي لموقع TechCrunch إن نماذج الصوت مثل تلك التي طورتها ElevenLabs قد انتقلت مؤخرًا من مجرد تقليد الكلام البشري — بما في ذلك العاطفة والنغمة — إلى العمل بالتزامن مع قدرات التفكير للنماذج اللغوية الكبيرة. وargued أن النتيجة هي تحول في كيفية تفاعل الناس مع التكنولوجيا.
في السنوات القادمة، قال: “نأمل أن تعود جميع هواتفنا إلى جيوبنا، وأن نتمكن من الانغماس في العالم الحقيقي من حولنا، مع الصوت كآلية تتحكم في التكنولوجيا.”
كانت تلك الرؤية دافعًا لجمع ElevenLabs مبلغ 500 مليون دولار هذا الأسبوع بتقييم 11 مليار دولار، وهي رؤية تتقاسمها بشكل متزايد صناعة الذكاء الاصطناعي. وقد جعلت كل من OpenAI وGoogle الصوت محور التركيز في نماذج الجيل القادم، في حين يبدو أن Apple تقوم بهدوء ببناء تقنيات مرتبطة بالصوت ودائمة التشغيل من خلال الاستحواذات مثل Q.ai. مع انتشار الذكاء الاصطناعي في الأجهزة القابلة للارتداء، والسيارات، وغيرها من الأجهزة الجديدة، أصبح التحكم أقل عن النقر على الشاشات وأكثر عن التحدث، مما يجعل الصوت ساحة قتال رئيسية للمرحلة التالية من تطوير الذكاء الاصطناعي.
وافق شريك عام Iconiq Capital، سيث بييربونت، على هذه الرؤية على المسرح خلال قمة الويب، مؤكداً أن الشاشات ستظل مهمة للألعاب والترفيه، لكن طرق الإدخال التقليدية مثل لوحات المفاتيح بدأت تشعر بأنها “قديمة”.
ومع تطور أنظمة الذكاء الاصطناعي لتصبح أكثر استقلالية، قال بييربونت، إن التفاعل نفسه سيتغير أيضاً، مع اكتساب النماذج للحواجز والتكامل والسياق اللازم للاستجابة دون الحاجة إلى توجيهات صريحة من المستخدمين.
وأشار ستانيزيفسكي إلى هذا التحول الاستقلالي كواحد من أكبر التغييرات الجارية. بدلاً من توضيح كل تعليمات، قال إن أنظمة الصوت في المستقبل ستعتمد بشكل متزايد على الذاكرة المستمرة والسياق الذي يتراكم بمرور الوقت، مما يجعل التفاعلات تبدو أكثر طبيعية وتتطلب أقل جهد من المستخدمين.
حدث Techcrunch
بوسطن، ماساتشوستس
|
23 يونيو 2026
وأضاف أن هذا التطور سيؤثر على كيفية نشر نماذج الصوت. على الرغم من أن نماذج الصوت عالية الجودة عاشت إلى حد كبير في السحابة، قال ستانيزيفسكي إن ElevenLabs تعمل نحو نهج هجين يمزج بين معالجة السحابة والأجهزة، وهو خطوة تهدف إلى دعم الأجهزة الجديدة، بما في ذلك سماعات الرأس وغيرها من الأجهزة القابلة للارتداء، حيث يصبح الصوت رفيقًا دائمًا بدلًا من ميزة تختار متى تستخدمها.
تتعاون ElevenLabs بالفعل مع Meta لجلب تقنيتها الصوتية إلى منتجات بما في ذلك إنستغرام وHorizon Worlds، منصة الواقع الافتراضي للشركة. قال ستانيزيفسكي إنه سيكون أيضًا منفتحًا للعمل مع Meta على نظارات Ray-Ban الذكية حيث تتوسع واجهات التحكم المعتمدة على الصوت إلى أشكال جديدة.
ومع أن يصبح الصوت أكثر استمرارية واندماجًا في الأجهزة اليومية، يفتح ذلك الباب لمخاوف خطيرة حول الخصوصية، والمراقبة، وكمية البيانات الشخصية التي ستخزنها الأنظمة المعتمدة على الصوت مع اقترابها من الحياة اليومية للمستخدمين — وهي مسألة تم اتهام شركات مثل Google بالفعل بالإساءة إليها.
