مشروع نملة
نصوص مكنزية للأخبار العربية

حول المشروع


إقتباس "نملة" يذكرنا أيضا بطريقة عمل النمل كحشرة نشطة تجمع ما يفيد بطريقة دؤوبة بهدف إثراء الخلية و لصالح المجموعة.

مشروع نملة إختصار ل"نصوص مكنزية للأخبار العربية". وهو مشروع بحثي يهدف إلى جمع النصوص الإخبارية باللغة العربية من مصادر مختلفة على شبكة الإنترنت عن طريق زيادة كمية البيانات تدريجيا.



كيفية عمل المشروع


إنطلاقا من خلاصات RSS للمواقع الإخبارية

تصفية واستخراج البيانات المصنفة

إنشاء وثائق المكنز

فريق العمل


الفريق التقني


أمينة الشويقي

aminachouigui [@] gmail [DOT] com

د. رجاء عيّاد

ayed [DOT] raja [@] gmail [DOT] com

د. أسامة بن خيرون

oussama [DOT] ben [DOT] khiroun [@] gmail [DOT] com

فريق الإشراف


د. بلال العايب

قسم التنزيلات


تنزيل النسخة 2.1 متعدد المصادر (عدد المقالات الجملي = 31.798 | تاريخ إعلان الإصدار = 05 ديسمبر 2018)
تنزيل النسخة 1.1 من مصدر واحد (عدد المقالات الجملي = 10.161 | تاريخ إعلان الإصدار = 11 جوان/يونيو 2018)
تنزيل النسخة 1.0 من مصدر واحد (عدد المقالات الجملي = 6.005 | تاريخ إعلان الإصدار = 12 أوت/أغسطس 2017)

Citation License / ترخيص الإستخدام

تخضع ملفات "مشروع نملة" لترخيص الإستعمال التالي:

By downloading ANT Corpus, you agree to cite at least one of our papers describing ANT Corpus (refer to the section below) and/or refer the project's main page in any kind of material you produce where ANT Corpus was used to conduct search or experimentation, whether be it a research paper, dissertation, article, poster, presentation, or documentation.
✅ By using this data, you have agreed to the citation licence.
عن طريق تحميل و إستخدام ملفات "مشروع نملة"، فإنك توافق على الاستشهاد على الأقل بواحدة من مقالاتنا البحثية التي تصف المشروع (راجع القسم أدناه) أو وضع رابط للصفحة الرئيسية للمشروع في أي نوع من المواد التي تُنْتَج حيث تم استخدام "مشروع نملة" لإجراء البحث أو التجريب ، سواء كان ذلك ورقة بحثية، أطروحة، مقالة، ملصق، تقديم أو توثيق.
✅ بتطبيق هذه البيانات، قد وافقت على رخصة الإستخدام.

Publications / المنشورات العلمية

📄 A. Chouigui, O. Ben Khiroun and B. Elayeb. ANT Corpus : An Arabic News Text Collection for Textual Classification. In proceedings of the 14th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA 2017), pp. 135-142, Hammamet, Tunisia, October 30 - November 3, 2017.

📄 A. Chouigui, O. Ben Khiroun and B. Elayeb. A TF-IDF and Co-occurrence Based Approach for Events Extraction from Arabic News Corpus. In proceedings of the 23rd International Conference on Natural Language & Information Systems (NLDB 2018), pp. 272-280, Paris, France, 13-15 June 2018.

📄 A. Chouigui, O. Ben Khiroun and B. Elayeb. Related Terms Extraction from Arabic News Corpus using Word Embedding. In: OTM Conferences & Workshops: Proceedings of the 7th International Workshop on Methods, Evaluation, Tools and Applications for the Creation and Consumption of Structured Data for the e-Society (Meta4eS'18), Springer, LNCS, pp. 1-11, Valletta, Malta, 22-26 October 2018.

Workshop poster participation

"ANT Corpus: un Corpus Multi-Sources pour la Classification et la Fouille des Textes Arabes"
(Poster des Journées Scientifiques Pluridisciplinaires (JSP'2018)) (in french)
Poster ANT Corpus JSP-2018