هذان المؤسسان تركا جولدمان وميتا لبناء ذكاء صناعي صوتي للأسواق التي تجاهلها الجميع الآخرون

تعتبر خدمة العملاء والدعم من بين القطاعات الأكثر حرية في الذكاء الاصطناعي الصوتي في الوقت الحالي. ولكن بناء منتج يبدو إنسانياً ويستجيب بدون تأخير ملحوظ يتبين أنه أصعب بكثير في بعض الأسواق من غيرها — ولم يتم بناء معظم اللاعبين الرئيسيين مع اعتبار إفريقيا والشرق الأوسط.

جمعت شركة AethexAI، وهي شركة ناشئة تأسست العام الماضي لسد هذه الفجوة، 3 ملايين دولار في تمويل أولي بقيادة 4DX Ventures، مع مشاركة من Enza Capital، Dorm Room Fund، Mojo Ventures، وStanford GSB 26 Fund. تشمل المستثمرين الأفراد أعضاء هيئة التدريس في جامعة ستانفورد، ومديري الاتصالات، وباحثي الذكاء الاصطناعي من Anthropic.

بدلاً من استخدام أدوات التنسيق الموجودة مثل Vapi وLiveKit، قامت الشركة ببناء نموذج صغير وطبقة تنسيق خاصة بها من الصفر للتعامل مع اللهجات المحلية للغة الإنجليزية والفرنسية والعربية المتحدث بها في أسواقها المستهدفة — وهو قرار مدفوع، كما سنرى، بمطالب محددة للعمل في المنطقة.

تقوم الشركة أيضًا بإطلاق منصتها للمؤسسات لاختبار تقنيتها والتسجيل في خدماتها، إلى جانب واجهات برمجة التطبيقات وSDKs للمطورين لتجربة نماذجها.

تم تأسيس الشركة الناشئة من قبل مريم ديالو وأيولوا أوديمويوا. عملت الرئيسة التنفيذية ديالو في Goldman Sachs وانضمت لاحقًا إلى ModelML المدعومة من YC كموظفة في مجال المنتج والنمو. تخرج أيولوا أوديمويوا من Caltech، وعمل في Meta، ثم التحق بمدرسة ستانفورد للأعمال قبل أن يكون من المؤسسين المشاركين للشركة. أراد الثنائي بناء شيء للأسواق الناشئة وبدأا في البحث عن الفرص.

تتنافس الشركات في جميع أنحاء العالم لاعتماد أدوات الذكاء الاصطناعي لأتمتة أجزاء من عملياتها. ولكن هذا لا يعمل دائمًا. في مصر، قامت مركز اتصال بأتمتة حصة كبيرة من مكالماتها، ولكنها تراجعت عن النظام بسبب النتائج الضعيفة، حسبما وجد المؤسسان. أخبرتهم عدة مراكز دعم في إفريقيا أن العثور على مهندسين وتوظيفهم لأتمتة المكالمات بتكلفة مناسبة كان صداعًا مستمرًا.

“كانت فترة الانتظار والتذبذب التي رأيناها على المكالمات الآلية في هذه المنطقة مروعة. إذا كنا قد أصبحنا منسقين، قد نكون مجبرين على استخدام نماذج كبيرة مستضافة خارج المنطقة، مما يؤدي إلى فترات انتظار أعلى. أدركنا أنه لكي تنجح هذه العملية، يجب علينا استخدام نماذج صغيرة جدًا وتقليل فترة الانتظار في كل خطوة،” قال أوديمويوا لـ TechCrunch حول قرار بناء نماذج الشركة الخاصة وطبقة التنسيق.

تقوم مختبرات الذكاء الاصطناعي التي تطور أحدث نماذجها عمومًا بإنفاق ملايين الدولارات على تدريبها واكتساب البيانات. وجدت AethexAI حلاً لكليهما. بدلاً من السعي وراء أكبر النماذج الممكنة، قررت أن النماذج الصغيرة تكفي لمواجهة مشكلة فترة الانتظار مع الحفاظ على الدقة وطورت سلسلة Kora الخاصة بها، مع معلمات تتراوح من 300 مليون إلى 1.7 مليار. هذا جزء بسيط من حجم LLMs، وهو بالضبط الهدف.

لتدريب هذه النماذج، استخدمت الشركة الناشئة تسجيلات مجهولة من شريك في مركز الاتصال. كما أرسلت أقراص صلبة إلى محطات الإذاعة في جميع أنحاء إفريقيا لجمع المزيد من بيانات الصوت. للحفاظ على التكاليف منخفضة، أنشأت شبكة من المساهمين من طلاب الجامعات لتوضيح البيانات ونطق الأسماء المحلية. نتيجة لذلك، تقول الشركة الناشئة إنها الآن تتعامل مع أكثر من 17,000 مكالمة يوميًا.

من الجانب التجاري، تأخذ الشركة عناية خاصة للمرور بالعملاء الجدد إلى الذكاء الاصطناعي الصوتي خلال العملية، وتقدم عروضًا حية وورش عمل لمساعدتهم في تحديد أفضل حالات الاستخدام للأتمتة.

“نخبر العملاء دائمًا أنه لا يمكننا أن نكون كل شيء لكل شخص في الوقت الحالي. نحن صغيرة. عندما نبدأ في التحدث إلى شركة، نطلب منهم اختيار حالة استخدام واحدة هي الأكثر أهمية لهم للبدء بها،” قالت ديالو.

الشركة الناشئة مفتوحة للعمل عبر جميع الصناعات، ولكن في الوقت الحالي، جزء كبير من حالات استخدامها يتضمن المكالمات لتحصيل الديون، وتنشيط العملاء، أو KYC — التحقق من الهوية. تقوم الشركة بتوظيف مهندسين متقدمين بدعم عقود للخدمة في الأسواق المحلية وبناء شراكات قنينة مع مزودي الاتصالات للتعامل مع الاتصال لمكالمات الذكاء الاصطناعي الصوتي. تقول إن الحلول التي تعمل بمدي وتعتمد على التشغيل الآلي ببساطة لن تنجح هنا.

يقول والتر بادو، المؤسس المشارك والشريك الإداري في 4DX Ventures، إن سوق إفريقيا والشرق الأوسط يختلف جذريًا عن الأسواق التي تم بناء معظم شركات الذكاء الاصطناعي الصوتي لخدمتها.

“تعالج الشركات في إفريقيا والشرق الأوسط تقريبًا ثلاثة أضعاف حجم المكالمات مقارنة بنظيراتها الغربية، حيث لا يزال الصوت هو القناة الرئيسية للتفاعل مع العملاء،” قال. “تم بناء الأنظمة الحالية للأسواق الغربية التي تتميز ببنية تحتية متطورة للـ GPU، وبيئات خطاب متعارف عليها باللغة الإنجليزية والأوروبية، وأعمال الشركات المعتادة في الولايات المتحدة وأوروبا. وهذا يخلق فجوات حقيقية عندما تحتاج الشركات إلى أنظمة تعالج اللهجات، وتبديل الرموز، وأنماط الكلام غير الرسمية، وتعمل ضمن بنيتها التحتية الهاتفية الموجودة ونقاط الأسعار الفعلية.”

بمعنى آخر، بينما تتوسع شركات مثل ElevenLabs وDeepgram وSierra وCognigy عالميًا بسرعة، فإن الأسواق التي تم بناؤها لها والأسواق التي تدخلها ليست دائمًا الشيء نفسه. الشركات الناشئة مثل AethexAI تراهن على أن الفجوات — النماذج المتخصصة في اللهجات المحلية، والشراكات المباشرة، والبنية التحتية المبنية للمنطقة — تمثل افتتاحًا في السوق ليس لدى العمالقة الحافز أو الهيكل لسدها.

عند الشراء من خلال الروابط في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلالنا التحريري.


المصدر