قررت فيسبوك أن تجعل نموذجها الجديد للترجمة بين اللغات، M2M، مفتوح المصدر. ويمكن أن ندرك أهمية هذا القرار إذا علمنا أن النموذج يترجم بين أي لغتين من قائمة تتضمن 100 لغة، ويعمل هذا النموذج بطريقة مختلفة عن النماذج السابقة متعددة اللغات، التي كانت تعتمد على اللغة الإنجليزية كوسيط في عملية الترجمة. حيث كانت ترجمة نص من الصينية إلى الفرنسية على سبيل المثال، تتم عادة على مرحلتين، الأولى ترجمة الصينية إلى الإنجليزية، والمرحلة الثانية ترجمة الإنجليزية إلى الفرنسية.
ويتضح لنا حجم الجهد الذي بذلته فيسبوك عندما نعلم أن النموذج درب باستخدام 7.5 مليار زوج من الجمل. واحتاج الباحثون من أجل تجميع بيانات بمثل هذا الحجم إلى الاستعانة ببرامج تتصفح شبكة الإنترنت بطريقة منهجية وآلية منظمة، مستخدمين ما يعرف باسم “زواحف شبكة الويب”، لاستخلاص مليارات من الجمل منها.
ويستخدم النموذج إضافة إلى ذلك نموذجا لغويا آخر يعرف باسم “فاست تكست” لتحديد اللغة. وجدير بالذكر أن الشركة لم تستخدم أي بيانات من موقع فيسبوك. بعد ذلك تم استخدام تطبيق ليزر – 2.0، الذي جرى تطويره في مختبرات فيسبوك أيضا. وهو برنامج تعليم آلي، لا يحتاج إلى بيانات مصنفة يدويا، لمطابقة الجمل من اللغات المختلفة عن طريق المعنى المشترك.
وفائدة ليزر 2.0 هي ببناء ما يعرف باسم “التضمينات” من بين مجموعات أضخم من بيانات الجمل الخام، ليقوم بالتدرب على أمثلة متوافرة ضمن كل لغة، ويحدد العلاقة القائمة في ما بينها، بناء على تكرارها وتقارب استخدامها، ما يسمح لليزر 2.0 بإجراء اقتران آلي بين كل جملتين تحملان نفس المعنى في لغتين مختلفتين.
وركز الباحثون على تراكيب أزواج اللغات التي يعتقدون أنها ستكون الأكثر طلبا من قبل المستخدمين. فقاموا بتجميع اللغات وفقا للتشابهات اللسانية والجغرافية والثقافية، مع افتراض وجود تواصل أكبر بين الناس الذين يعيشون في نفس المنطقة.
وتتضمن واحدة من المجموعات أكثر اللغات شيوعا بالهند، بما فيها البنغالية والهندية والتاميلية والأوردو، وقام ليزر 2.0 بتركيز بحثه على أزواج الجمل التي تنتمي إلى جميع أزواج اللغات ضمن كل مجموعة.
ونظرا لاعتماد البحث على بيانات الويب، يحتاج الباحثون أيضا إلى التوصل إلى طرق تحديد وحذف التحيزات على أساس الجنس والعرق وغيرها. حاليا يستخدم الباحثون مرشحا للتخلص من الكلمات البذيئة ذات الطابع الفاضح.
وقالت مصادر من فيسبوك إن الشركة لا تخطط حاليا لاستخدام النموذج في منتجاتها، وإن التطبيق مخصص فقط للأغراض البحثية. ويمكن أن تتضمن التطبيقات المستقبلية تواصل المستخدمين، وربما مراقبة المحتوى.