خصائص اللهجة الكويتية المكتوبة واستخدامها في إنشاء موارد للتحليل الصرفي الآلي.
الكلمات المفتاحية:
العربية المكتوبة، المحلل الصرفي، المعالجة الآلية للغة الطبيعية، التواصل الاجتماعي، الكتابة الصوتية، معايير الكتابةالملخص
إن اللهجة الكويتية كبقية لهجات العربية لهجة متداولة شفهياً، ولا تمتلك معايير مكتوبة موحدة على خلاف اللغة العربية الفصحى. وبعد ظهور منصات التواصل الاجتماعي وانتشارها وجدت اللهجات طريقها إلى الوسائط المكتوبة، وبرزت الحاجة لمعالجتها آلياً جنباً إلى جنب مع اللغة العربية الفصحى. ولعل أبرز مشكلة واجهت المعالجات الآلية أن اللهجات لا تتمتع بمعايير كتابية ثابتة كالفصحى، وعادة ما يتبع الكتاب باللهجة نظام الكتابة الصوتية؛ أي كتابة الكلمات كما تنطق، مما فتح المجال لوجود تباين في كتابة اللهجة الواحدة وبين اللهجات والفصحى. ولعل أهم المتطلبات التي تحتاجها المعالجات الآلية لمعالجة اللغة الطبيعية هي وجود معايير كتابية واضحة للغة أو اللهجة المراد معالجتها وتحليلها، وقد توالت الجهود لضبط معايير كتابة اللهجات العربية، إلا أن اللهجة الكويتية لم تلق الاهتمام المطلوب. ويقدم البحث الحالي حلاً عملياً لمعالجة اللهجة الكويتية المكتوبة آلياً، فقد تضمنت الدراسة تحديد واستخراج أهم معايير اللهجة الكويتية المكتوبة من بيانات طبيعية جُمعت من تغريدات مغردين كويتيين في تويتر بوصفها نموذجاً من الاستخدام الحقيقي والطبيعي للهجة المكتوبة، تجاوزت مئة ألف تغريدة، ثم تعزيز المحلل الصرفي (MADAMIRA) – وهو محلل صرفي مخصص للغة العربية الفصحى - بهذه المعايير المستخلصة للهجة الكويتية. كما تضمن العمل إثراء المحلل الصرفي بقاموس من المصطلحات والمفردات الكويتية التي جمعت من موسوعة اللهجة الكويتية، ومن أكثر الكلمات الكويتية شيوعاً في تويتر؛ حتى يتعرف المحلل الآلي على هذه المفردات ويحللها تحليلاً سليماً. وتعد النسخة الموسعة من المحلل الصرفي (MADAMIRA-KA) الأولى من نوعها المخصصة كلياً لمعالجة اللهجة الكويتية، وقد حققت أداء متميزاً في تحليل أكثر من مئة ألف تغريدة كويتية بنجاح. وتكمن أهمية هذه الدراسة في توفير هذا المعالج الصرفي الذي يمكن استخدامه في برامج الترجمة الآلية، والتعرف الآلي على اللهجات، والاستقراء الآلي للرأي والانطباعات.