تصميم نظام هجين بالاعتماد على شبكات التعلم العميق وخوارزميات التعرف على الوجوه للكشف عن المشاعر باستخدام التعابير الوجهية

الأهداف: في السنوات الأخيرة تزايد الطلب على أنظمة التعرف التلقائي على العواطف للاستخدام في مجالات متعددة، بما في ذلك العمل على تعديل الحالة المزاجية للفرد لتحسين الصحة النفسية، وكذلك المساعدة في كشف مشاعر الأطفال الذين يعانون من طيف التوحد وذلك لعدم قدرتهم على التعبير عن حالتهم المزاجية. يقدم هذا البحث نظاماً (Mood Pulse) مصمماً لمحاولة الكشف عن المشاعر، حيث تم الدمج بين شبكات التعلم العميق وخوارزميات التعرف على الوجوه. حيث أنه في حال الاعتماد على شبكة تعلم عميق فإنه سيتم اعتبار أي كائن سيتم اكتشافه في الصورة كوجه ويتم التعامل معه وتحديد فيما إذا كان يمتلك مشاعر أو لا. وبالتالي سيتم الحصول على تعقيد حسابي كبير، وزمن استجابة كبير جداً، بالإضافة إلى الدقة القليلة في حال وجود أكثر من وجه في نفس الصورة. المنهجية: تم في هذا البحث أولاً إدخال الصور بعد إجراء بعض عمليات المعالجة الأولية عليها إلى شبكة الطي العصبونية Fer-Net والتي تم اختيارها بعد تجربة عدة شبكات طي عصبونية، والقيام ببعض التعديلات في بنية الشبكة. ومن ثم استخلاص السمات الوجهية من خلالها، ثم تصنيف هذه السمات المستخلصة إلى المشاعر الأربعة الأساسية. كذلك تم اختبار عدة قواعد بيانات قياسية كلٍ منها على حدا مثل (Fer-2013, AffectNet) لتدريب الشبكة وتقييمها. لاحقاً تم دمج قواعد البيانات السابقة مع قواعد بيانات أخرى مثل (RAF-DB, CK+)، من أجل زيادة عدد عينات التدريب، وعينات التقييم لعدم الوقوع في مشكلة overfitting. أخيراً قمنا بالربط بين اكتشاف الوجه وشبكة التصنيف التي حصلنا عليها من النموذج المدرب من خلال خوارزمية (MTCNN) من أجل تحديد الوجوه الموجودة في الصورة فقط قبل أن يتم تحليل معالم الوجه وتحديد المشاعر المستخلصة منه. النتائج: في البداية قمنا بإجراء عملية Data augmentation للبيانات الموجودة في قاعدة البيانات القياسية (Fer-2013) فحصلنا على مشكلة Overfitting وذلك بسبب تكرار البيانات. من أجل ذلك تم البحث عن جميع قواعد البيانات المستخدمة في مجال الكشف عن المشاعر من أجل زيادة عدد البيانات للأصناف الأساسية المختارة. وقد أظهرت النتائج التجريبية أن قيمة الدقة (Train Accuracy) خلال الدورات التدريبية عند استخدام Fer-2013 لم تتجاوز أكثر من 0.7، بينما لم تزد قيمة الدقة (Val Accuracy) أكثر من 0.55 خلال مرحلة التقييم. أما بالنسبة للخطأ (Train Loss) فقد بدأ بقيم كبيرة تجاوزت ال 2 ومن ثم انخفض إلى أن وصل إلى 0.8، بينما قيمة الخطأ خلال مرحلة التقييم (Val Loss) فقد حافظ على قيم كبيرة حتى وصل إلى القيمة 1.2. وعند استخدام قاعدة البيانات AffectNet فإن قيمة الخطأ خلال مرحلة التقييم (Val Loss) تجاوزت ال 4 وهي قيمة كبيرة جداً بالنسبة للخطأ. وأخيراً تم دمج عدة قواعد بيانات قياسية متخصصة في مجال التعرف على المشاعر (Fer-2013, AffectNet, RAF-DB, CK+) حيث تم تجميع الصور الخاصة بكل صنف مع بعضها، وبالتالي زيادة عدد العينات الخاصة بالتدريب، وكذلك العينات الخاصة بالتقييم. وقد أظهرت النتائج زيادة في دقة التصنيف تجاوزت 0.95، وانخفاض قيمة الخطأ إلى 0.15 تقريباً. الخلاصة: نلاحظ من النتائج التي تم التوصل إليها فعالية النظام وقدرته في الكشف عن المشاعر الأساسية من خلال التعابير الوجهية محققاً دقة عالية مقارنة بالدراسات المشابهة الأخرى.

30th Dec, 2024

مجلة المؤسسة العربية للعلوم ونشر الابحاث

  • `الذكاء الاصطناعي

  • محمد بطيخ
  • لارا قديد