Top Banner
1 ا طبوع رقمي ا رآ الق ص لن ل ي ئ إم ق ق د تطوير م بناء و و ة" وبي ة حاس ي و ج غ ة ل ج عا عيد الس عتز دكتور ا وم ل ة دار الع ي ل كلقاهرةمعة ا جا[email protected] ج ونشره ب رآن الكر عة الق ة لطبا ولي دوة الد النأمول اقع وا الو ريف صحف الشعة اك فهد لطبالمع ا م رة نودينة ا ا نوفم2014
24

\"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

May 13, 2023

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

1

حنو بناء وتطوير مدقق إمالئي للنص القرآين املطبوع رقمياة لغجوية حاسوبية" "معالج

دكتور املعتز ابهلل السعيد

جامعة القاهرة –كلية دار العلوم [email protected]

الواقع واملأمولالندوة الدولية لطباعة القرآن الكرمي ونشره بنيج جممع امللك فهد لطباعة املصحف الشريف

املدينة املنورة 2014نوفمرب

Page 2: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

2

ملخص:

الة قق اإلمالئي، املـ امل :الكلمات الد ة.دجونة اللغجوية، قواعد البياانت القاموسية، الفهرسة اآللي ـ دج

قق إمالئي للنص القرآين املطبوع رقمي ا. وفدد تجسعى الدراسة املقتـجرجحجة إىل تقدمي منهجية لبناء وتطوير مدججعنيةـ واملالدراسة إىل توفري آلية تساعد الباحثنيج

ى تدقيق النص ومحايجته من برقمنة النص القرآين عل ؤسسات املا ابلنص القرآين قتـجرجحة على قواعد بياانت قاموسية بعد مراججعة مادفدا ومطابقتهـ التحريف؛ حيث تعتمد اآللية امل

تخالص مادة ن آلية فهرسة النصوص يف اسإىل اإلفادة م –كذلكج –املطبوع أو املخطوط ورقي ا. وتسعى الدراسة ونة لغجوية حتوي نجص القرآن الكرمي كامال، التماسا للدقة بضمان احتواء قو ـ قواعد البياانت امل اعد ستجمجدة من مدج

نة يف املوارد اللغجوية ليللية ضجم تج ـ البياانت على مجيع كلمات النص القرآين، والتماسا للسرعة بتخزين البياانت املقق وأتيت الدراسة يف ستة حماورج أساسية تتضجمن مقدمة ث عرضا ملنهجي واستدعائها حنيج احلاجة إليها. ة بناء مدج

ق اإلمالئي املنشودة، ث تقييم ليللية. دقيإمالئي للنص القرآين املطبوع رقمي ا؛ ويلي ذلك بيان بكيفية تطوير آلية الت وأخريا يستعرض الباحث نتائجج الدراسة، ث يعرض اخلالصة.

Building And Developing A Spell Checker For Quranic Text

Printed Digitally

“Linguistic & Computational processing”

Keywords: Spell Checker, Linguistic Corpus, Lexical Databases, Indexing.

The proposed study seeks to provide a methodology for building and developing a

spell checker for Quranic text printed digitally. The study aims to provide a mechanism

to help researchers and Institutions interested in digitizing of Quranic text to check the

text and protect it from distortion; as the proposed mechanism relies on lexical

databases after reviewing its substance and matching it with the Quranic text printed

or manuscript. Also, the study seeks to take advantage of the automatic indexing of texts

to extract material of databases derived from linguistic corpus containing the text of

the whole Quran, a petition for accuracy with ensure containment of the databases on

all the words of the Quranic text, and a petition to speed with storing data contained in

the linguistic resources of the mechanism and summoned it when needed. The study

comes in six main areas includes the introduction and then a presentation of

methodology for building a spell checker for Quranic text printed digitally; followed

by a statement of how to develop the desired spell checker mechanism, and then

evaluate the mechanism. Finally, review the results of the study, then displays a

conclusion.

Page 3: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

3

مة .1 مقد

دق ق اإلمالئي الـم مفهوم .1.1قق اإلمالئي يكن تعري ،الطبيعية ]اإلنسانية[ يف حوسجبة اللغة وتقنيات اللغات -Spellف املدج

checker ي، يجستجكشف األخطاءج اإلمالئيةج واملكتوبة وص ارحمررةالواردةج يف النص أبنه تطبيق بجرجمجرقمي ا، ويساعد على تجصويب هذه األخطاء عربج اقرتاح جمموعة من احتماالت الصواب. ويوججد هذا

ية مستقلة بذافد بية، كمعالات النصوص ا، أو ملحجقا أبدوات التحرير املكتج التطبيق ابعتباره برجمجword processors وحمجركات البجحثsearch engines 1.

يةآلية التدقيق اإلمالئي .1.1 للغات الطبيعققات اإلمالئية للغات الطبالـم ثجةج العديد من الوسائل ويتم حتديد عية. يستخدجمة يف بناء املدج

ية، وطبيعة النصوص من حيث كونا التصاقية أم اشتقاق عنية الـمج ناسبة وفقا لطبيعة اللغة الـم الوسيلة ى تجدقيقها من حيث مالءج اليت ية، وم يرج ن حيث كونا متها للخوارزمات أو املوارد اللغجوية للربجمج

وأكثرها شيوعا: أهم هذه الوسائل ومن نصوصا تراثية أم معاصرة. ية للنصوص:ملا .1 اره موردا وذلكج ابستخدام معججم أو قاموس لغجوي ابعتب طابقة القاموس

ج كلمات اللغة ويجيز ما عداها. ويجشيع استخدام هذه الوسيلة عندج رئيسا حي وي صحية اللغات االلتصاقية عندج تصريفها، ل اللغجوي اليت تضا زوائدها إىل األص –معالج

م إلجنليزية والرتكيةكا ة –جزئي ا –؛ كما تستجخدج .االشتقاقية اللغاتعندج معالج

ة وهي الوسيلة الشائعة ع م خوارزمات التوليد واالشتقاق:عالة ابستخداامل .2 ندج معالج رفيةكالعجرجبية. ويعتجمجد فيها بشكل رئيس على القوانني الص –اللغات االشتقاقية

يجغ الق [املورفولوجية] ياسية.لتوليد الكلمات واشتقاق الصوهي الوسيلة األكثر :N-Gramعالة ابستخدام النحو العددي/اإلحصائي الـم .3

اللغجوية من رتجبطة بتتابع الوحداتالـم تعقيدا، حيث يعتجمجد فيها على قواعد اإلحصاء ]الوحدات الكتابية الصغرى[. Graphemes الكلمات أو الرافيمات

1 Peterson, J. L., (Dec 1980). Computer Programs for Detecting and Correcting Spelling Errors.

مي الـم سرجد الـمج عتز ابهلل(: الـم وراجع أيضا: السعيد ) موعة من جملية( صطلحات حوسجبة اللغة، ضمنج كتاب )مقجدمة يف حوسجبة اللغة العربملعجج .املعتز ابهلل السعيداملؤلفني، حتــرير: الدكتور حمسن رجشوان، والدكتور

Page 4: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

4

آلية التدقيق اإلمالئي للغة العربيةحول .1.1حت عن قرينافدا –ختتلف طرائق املعالة اآللية للغة العربية عن أكثر اللغات الطبيعية األخرى

طبيعة العربية افة إىل . فباإلضشية[ نظرا العتبارات عديدةمن اللغات السامية ]كالعربانية واحلجبج ال تزال اللغة – Diacritics التشكيل/الضبط بعالمات يعىنالذي – ونظامها الكتاب االشتقاقية

ىل جانب قواعدها إ، األمر الذي يتطلب مراعاةج القواعد الرتكيبية للغة حتتفظ بظاهرة اإلعراب آلية للتدقيق اإلمالئي لنصوصها.تطوير حالج التصريفية،

وليسج ذلكج فحسب. بل إن ثراءج العربية يف جوانب املعىن وتشابك العالقات الداللية بنيج اد والتضاد واالشرتاك اللفظي وحنوها[ يستدعيان اوزج مفردافدا ة املباين عربج م ]من الرت عالج

ة املعاين، نظرا ملا يكن أن ينتجج من التباس يف اجملستويني البنج الـم موعات وي والرتكييب إىل معالجالضخمة من النصوص. ويتم هذا األمر من خالل إضافة ما يعرج آبلية فك االلتباس الداليل

ققات اإلمالئية اآللي الـم كفاءة وتزيد .Word Sense Disambiguation (WSD)للكلمات ة دجأم حاسوبية. أم معججمية ة لغجوي تاحة للمطجورين، سواء أكانت مواردج الـم يف ضوء املوارد للعربية أو تنقص

ققات اإللكن الواقعج يؤكد أن أكثرج احلدودج –تها يف معالجج –تاحة للعربية ال تتجاوز الـم مالئية الـمدج بنية وإعرااب. –الضيقة للمباين، إذ يقتصر عملها على تدقيق الكلمات جمردة من عالمات الضبط

ل اخلارجي للكلمة، تاحة للعربية على الشكالـم وبعبارة أخرى، يجقتجصر عمل املدققات اإلمالئية ققات على خوارزماالـم ا. ويـعجول يف بناء هذه مع اهل ضبط النطق الصحي هل ت التصريف العرب دج

]دونج سواها من خوارزمات التحليل الرتكييب أو الداليل[، ابستخدام قواعد بياانت مستجخلجصجة من ونة لغجوية كسج واقعج صحى، لتعتضم قدرا كبريا من نصوص العربية الف Linguistic Corpusمدج

فة الـم اللغة وطبيعةج النصوص دمة يف توليد ستجخالـم ؛ ابإلضافة إىل قواعد البياانت التصريفية 2ستجهدج Prefixesمن: السوابق Affixesللزوائد . وتشتمل هذه القواعد على قوائمج كلمات املدونة اللغجوية

على الزوائد –كذلكج –. وقد تشتمل Infixesوالساقات ]يف وسط الكلمة[ Suffixesواللواحق اليت تمع فيها السوابق واللواحق. circumfixesارحميطة

بة اللغة العربية( عتز ابهلل(: املدوانت اللغجوية، ضمنج كتاب )مقجدمة يف حوسج الـم دجوانت اللغوية ومنهج صناعتها، راجع: السعيد )الـم حولج 2 .ز ابهلل السعيدموعة من املؤلفني، حتــرير: الدكتور حمسن رجشوان، والدكتور املعتجمل

Page 5: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

5

ية .2 المطبوع رقمياإمالئي للنص القرآني بناء مدق ق منهج

قق اإلمالئالـم قتـجرجحة لبناء وتطوير الـم قبلج الشروع يف تقدمي املنهجية ي املنشود، ينبغي أن دج للنص قيقج للنص ستجهدج ، أمنا لاللتباس. إن املفهومج العلمي الالـم نقفج أوال على مفهوم واض د

نـجزل على رسوله حممد لـم ادس و قج الـم كتاب هللا –القرآين املطبوع رجقمي ا ]املرجقمجن[ نجص القرآن الكرمي عالات النصوص؛ حجررة ابستخدام أدوات التحرير املكتبية وم الـم يف صورجته –صلى هللا عليه وسلمج

ت[، رى ]الرافيمادخجل جبميع وحداته الكتابية الصغالـم واليت يكن من خالهلا التحكم يف النص سواء أكانت حروفا أم أرقاما ليلي أم عالمات ضبط ووقف، ابإلضافة أو احلذ أو التعديل.

تنا ويعين هذا أن ، والنص ال القرآين النص نستثينج من دراسج صجورج الـم قرآين املخطوط يدوي ية عجد ابعتبار كل كلمة وحدة كتابالـم ، والنص القرآين Scannersابستخدام املاسحات الضوئية

صغرى، مثل مصحف النشر احلاسوب الذي أجنجزجه جممع امللك فهد لطباعة املصحف الشريف ابملدينة ن تقسيمها إىل وحدات يك ، حيث تجثل كل كلمة يف النص وحدة كتابية قائمة بذافدا ال3 نورةالـم

أصغر منها، وإن أمكنج التحكم يف الكلمات دونج أجزائها. ابخلطأ يف كتابجته أوالـم ما كانج النص القرآين ـول حتريره، فإن قجدس ذا طبيعة خاصة، ال تسم

ذه الدراسة. ، وهي الوسيلة املذكورة يف مقدمة هطابقة القاموسية هلذا النص الـم الدراسةج تقوم على يذلكج أن النص القرآين حمدود يف حجمه، ومعلوم عدد كلماته وحروفه وآيته، األمر الذي سم

قق إمالئي ذي كفاءة عالية حيث تستمد اآللية معطجيافدا من قواعدج معلومة وال حمدودة و ببناء مدج الـم جمالج فيها للزيدة على النص مبا ليسج يف القواعد طبيعة النص نججزة له. وبعبارة أخرى، تسم

وجود اخلطأ ىل ذلكج حجتميةج أضف إ القرآين أبن تجستجمد آلية التدقيق اإلمالئي مواردجها من النص ذاته.دي الج أو التجاهل ح -Nاملعالجة ابستخدام خوارزمات التوليد واالشتقاق أو ابستخدام النحو العجدج

Gramة حينئذ على القواعد القياسية ]اللغوية واإلحصائية[، دونج النظج الـم صر ، إذ تقت ر إىل ما عالج ات املنهجيةج اخلطو –فيما يلي – يالف هذه القواعد. ويف ضوء ما سبق، تستعرض الدراسة

قق إمالئي آيل للنص القرآين املطبوع رقمي البناء وتطوير قتـجرجحةج الـم .مدج

جممع امللك فهد لطباعة املصحف الشريف ابملدينة 3 لية:نورة حتميلج مصحف النشر احلاسوب كامال من الصفحة التاالـم يتي

http://www.qurancomplex.org/MaterialCMS/viewSection.asp?matId=134&id=135&l=arb&matLang=

arb&SecOrder=15&SubSecOrder=2

Page 6: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

6

نة التدريب .1.1 Training Corpusبناء مدو

ونة التدريب جمموعةج النصوص ونة لقاعدة البياانت الـم تجثل مدج ججمية/القاموسية ليللية عالـم كجفة. فإذا كانج اهلد من ستجهدج الـم دجونة هيئةج النصوص الـم وابلتايل، ينبغي أن تعكسج هذه املنشودة.

قق إمالئي للنصوص العربية دجونة من املصادر لـم اعاصرة، لزمج أن تستجمجد نصوص الـم اآللية بناء مدجقق إمالئي للنصوص العربي الـم مثلة هلذا الـم ة بصفة ستوى اللغجوي؛ وإذا كانج اهلد من اآللية بناء مدج

ملديد، حبيث تضم نصوصا للعربية عربج اتريها ا الزمجنيةج عامة، لزمج أن تـغجطي مدجونة التدريب احلقجبج وهكذا. عاصرة؛الـم ة والوسيطة و للعربية القدي

يف ،ووفقا للهد من هذه الدراسة، فمصدر مدجونة التدريب هو نجص القرآن الكرمي كامال لصالحية ابإلضافة أو احلذ أو التعديل. وضمانة –رقمجنة اليت يكن التحكم فيها الـم الصورة

وية –الصورة، ينبغي أن تراججعج إمالئي ا مدجونة التدريب هبذه من خلوها من للتأكد –بصورة يجدجصحف الشريف للتأكد لـم اتجضجمن يف الـم اإلمالء والضبط؛ كما ينبغي أن تجتم مطابقتها ابلنص أخطاء

من شوليتها لميع كلمات القرآن الكرمي.ربج مستـجوجيجني، ع لتمسه من هذه الدراسة أن نطجورج آلية للتدقيق اإلمالئي للنص القرآين والذي ن

ة اجملموعات الكتابية أو الكلمات قادرة هذه اآللية حبيث تكون ستوى األول الـم يف 4على معالجة الكلمات عوحبيث تكون قادرة ججردة من عالمات الضبط/التشكيل؛ الـم على هيئتها العامة لى معالج

نة لعالمات ضبط الشكل.الـم يف هيئتها ستوى اآلخجر الـم يف تجضجمتوي األوىل منهما حتأن نوجدجها يف صورجتجني، –عندج بناء مدجونة التدريب –وعليه، فإننا نراعي

ات القرآن الكرمي مضبوطا ابلشكل، وحتتوي األخرى على النص ذاته بعدج ريده من عالمعلى نجص ةــــــــج ــــة ")الفجتح ؛ ونعين هبا العالمات الثمانيةالضبط ـــــ"،ــــــ ـــ"ة والشد ـــــ"، ـــــ ــــ" ةوالكجسر ـــــ"،ــــــــ ـ" ــ"، والضم عدد إبحصاءو (.ـــــــ"ــــ ـــ"وتجنوين الكجسر ــــ"، ـــ"ـــــــ وتجنوين الضم ــــــ"، ـــــ ـــ"وتجنوين الفجت ــــ"،ــــــــ ــ"ن والسكو

( كلمة.87484)تبلغ ، سنجدهايف أي من الصورجتجني دجونةالـم كلمات

عججم، وتصل ألن لـم اصيغة ذات وظيفة لغجوية معجينة يف تركيب الملة، تقوم بدجور وحدة من وحدات –يف اصطالح اللغجويني –مجة الكجل 4

ياق، وترجع مادفدا غالبا إىل أصول ثالثة. را ع: حجسان )تجام(: ج تفرجد أو حتذج ج أو حتشى، أو يـغجري موضعها، أو يستجبدجل هبا غريها يف السا حيز "أو 262مناهج البحث يف اللغة، ص ة، ال يفصل جمموع كتاب" من احلرو املرتابط؛ أما يف عر احلاسوب، فيمكن تعريفها أبن

رجاد هبا يف سائر الدراسجة ما ل يشجر إىل غري ذلك.الـم بينها فاصل، وهو

Page 7: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

7

قق اإلمالئي / نجص القرآن مجضبوطا ابلشكلالـم : الصورة األوىل ملدجونة تدريب 1الشكل دج

قق اإلمالئي / نجص القرآن الـم ملدجونة تدريب األخرى: الصورة 2الشكل جمردا من عالمات الضبطدج

Page 8: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

8

ية/القاموسيةالـم إعداد قاعدة البيانات .1.1 عجم

ناء الذي يعتجمجد عليه يف ب املباشر هي املورد Lexical databaseعججمية الـم قاعدة البياانت ى لـم اطابقة بنيج الكلمات الـم وتطوير آلية التدقيق اإلمالئي، حيث تقوم اآللية على دخجلة اليت يرج

مية.الـم عدة البياانت تجضجمنة يف قاالـم تدقيقها آلي ا والكلمات عطجيات هذه القاعدة من وتستجمجد م عجج .مداخلهاعجدة سلفا، بعدج فهرسجتها واستخالص الـم مدجونة التدريب

، نستطيع من 5 عججمية االعتمادج على منجصة ]أو بيئة[ حاسوبيةالـم ويتطلب إعداد قاعدة البياانت ةج خالهلا قاعدة، دجونة اللغجوية، الستخالص جمموعة البياانت اليت تتكون عنها الالـم نصوص معالج

ة ونظامها دد وفقا للهد املنشود منها؛ مع ضرورة اختيار منجصة مالئمة لطبيعة اللغة العربي واليت تتح ، وغريها. Safar 7، ومنجصة Gate 8، ومنجصة Nooj 6الكتاب، مثل: منجصة

قرتح الدراسة عججمية آللية التدقيق اإلمالئي، تالـم ويف ضوء اهلد املنشود من قاعدة البياانت ة، ي ؛ وهي بيئة تطوير لغجوية، تدعم ثالث وعشرينج لغة طبيعية، منها العربNoojاالعتمادج على منجصة

ة اآللية للنصوص ـم العججمية، كما حتتوي على أداوات الـم وحتتوي على جمموعة من املوارد اللغجوية و عالجم أساسا، 9 العربية ياقي، الذي يستجخدج ، ياانتالستخالص مادة قاعدة الب مبا فيها الكشا الس

على مجيع كلمات النص القرآين. القاعدة حيث يجضمن استخدامه أن حتتوي ( 87484)بلغ شتملة على النص القرآين يالـم لقد ذجكجران آنفا أن عددج كلمات مدجونة التدريب

، وإن أمكنج أن يتغيـرج Noojكلمة. وقد مت تجعيني هذا العدد ابستخدام أدوات اإلحصاء يف منجصة ت لزيدة أو النقصان، يف ضوء املعايري والضوابط اليت ختضجع هلا أداة اإلحصاء، سواء أكانهذا العدد اب

دجونة، بتنوع لـم اأخرى. ويجثل العدد الذي نعنيه جمموعج كلمات أو أداة منجصة أو أيةج Nooj منجصةج أقسام الكالم فيها، وبتكرار مجيع هذه األقسام.

ات اعججمية واحلاسوبية الـم جتجمجع الذي يجضم عددا من املوارد اللغجوية و الـم املقصود ابملنجصة احلاسوبية ذلكج 5 ليت تتالحم مع بعضها لتقومج مبعالج

.دجونة اللغجوية، كالفهرسة اآللية والتحليل الصريف وغري ذلكالـم تتحجقق من خالهلا الغاية من 6 http://www.nooj4nlp.net.

7 http://gate.ac.uk/. 8 http://sibawayh.emi.ac.ma/safar/. 9 Silberztein, Max. 2004. NooJ : an Object-Oriented Approach. In INTEX pour la Linguistique et le

Traitement Automatique des Langues, C. Muller, J. Royauté M. Silberztein Eds, Cahiers de la MSH

Ledoux. Presses Universitaires de Franche-Comté, pp. 359-369.

Page 9: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

9

ستخالص تجضجمنة يف قاعدة بياانت اآللية املنشودة، فإننا نقوم ابالـم وحرصا على دقة البياانت اليت استخدمناها – Nooj –كجررات ابستخدام اآللية ذافدا الـم كلمات مدونة التدريب بعدج حذ

ريب، إحداها كانت لدينا صورجاتن من مدجونة التدما ـدجونة. ولالـم يف من قبل يف تعيني عدد الكلماتلفج عدد كانج من البديهي أن يتواألخرى مضبوطة ابلشكل كلي ا، جمجردة من عالمات الضبط،

بعدج حذ التكرار يف أي من الصورجتجني عن األخرى. األشكال الكتابيةا ملا تظهر يف أشكال كتابية متـجعجددة، وفق –حالج ضجبطها ابلشكل –ذلكج أن الكلمات

ات يسفر عنه ضبطها ومبا يتوافق مع النطق الصحي هلا، على النحو الذي تبدو عجلجيه جمموعة الكلمبنية –المات ضبطها بتنـجوع ع)من / مجن / مجن / ...(. فهذه الكلمات اليت تتنوع أشكاهلا الكتابية

، األمر عندج ريدها من عالمات الضبط –)من( الشكل هو –أتخذ شكال كتابي ا واحدا –وإعرااب أو غريها. Noojالذي تظهره أدوات إحصاء الكلمات يف منجصة

ميـتجني، حتج مات مدجونة التدريب توي األوىل على كلوعليه، فإننا نجصنجع قاعدجيت بياانت معجج[؛ وحتتوي 3كل وجضحة يف ]الش الـم ابألعداد الـمدجونة املشكولةجمجردة من عالمات الضبط الواردة يف

األخرى على الكلمات ي ا، وحذ وليكن ألفبائ –مضبوطة ابلشكل، مع التزام ترتيب معجني القاعدتجني، والنص على سياقات كل كلمة.كجررات من الـم

كرميشتملة على نجص القرآن الالـم عالمات الضبط يف مدجونة التدريب ونسجب مجطط أعداد: 3الشكل

44؛ 123387; الفتحة

٪

17؛ 46642; الكرسة

٪

كون 16؛ 44325; الس

٪

ـــة م 13؛ 37317; الض

٪

ة ـــــد 7؛ 19246; الش

٪

1؛ 3740; تنوين الفتح

٪؛ 2633;تنوين الكرس

م 1؛ 2519; تنوين الض

٪

Page 10: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

10

دج كلمات ( كلمة، تجثل يف 14792يبلغ ) ردةجج الـم عججمية الـم قاعدة البياانت سنجد أن عجدجيبجها ألفبائي ا كما ونستطيع ترت .كجرراتالـم ، حالج حذ ججردةالـم أصلها عجدجدج كلمات مدجونة التدريب

[.5[، أو حبسب أكثرها ترددا، كما يف ]الشكل 4يف ]الشكل

ججردة، مرجتبة ألفبائي االـم عججمية الـم مداخل قاعدة البياانت : 4الشكل

ججردة، مرجتبة حبسب أكثرها تـجرجدداالـم عججمية الـم مداخل قاعدة البياانت : 5الشكل

Page 11: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

11

( كلمة، 18813يبلغ ) املشكولةعججمية الـم قاعدة البياانت سنجد أن عجدجدج كلمات لكننا دج كلمات مدجونة التدريب ونستطيع ترتيبجها .كجرراتالـم ، حالج حذ املشكولة تجثل يف أصلها عجدج

[.8[، أو حبسب أكثرها ترددا، كما يف ]الشكل 6ألفبائي ا كما يف ]الشكل

، مرجتبة ألفبائي ااملشكولةعججمية الـم مداخل قاعدة البياانت : 6الشكل

عججمية املشكولة، مرجتبة حبسب أكثرها تـجرجدداالـم مداخل قاعدة البياانت : 8الشكل

Page 12: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

12

يـتجني، جند تبايـنا كبريا عججم الـم ويف حني يتساوى تـجرجدد كلمات مثل )قال( يف قاعدجيتج البياانت زجمجت )امللك(، ...". ذلكج أن كلمة )قال( التـج )علم(،)من(، " تجثلها األشكال الكتابيةيف كلمات

كال كتابي ا ش –كذلكج –ججردة، هو )قال(؛ والتـجزجمجت الـم شكال كتابي ا واحدا يف قاعدة البياانت (؛ فتـجرجددت ( 416تجني )يف كل من القاعدج –ك بذل –واحدا يف قاعدة البياانت املشكولة، هو )قجالج

[.9]الشكل و [7]الشكل مرة، على النحو الوارد يف سياقات الكلمة يف

ججردةالـم عججمية الـم سياقات كلمة )قال( يف قاعدة البياانت : 7الشكل

عججمية املشكولةالـم سياقات كلمة )قال( يف قاعدة البياانت : 9الشكل

Page 13: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

13

ججردة، الـم اانت يف قاعدة البيوعلى الانب اآلخجر، جند الكلمة )من( تلتزم شكال كتابي ا واحدا ( مجرة. ويتـجوجزع هذا التـرجدد يف قاعدة البياانت املشكولة على األشكال 2864وترتجدد فيها )(؛ منهو )

(، و )منج(، (، و )مجن(، ...الكتابية ")من (و)مجن دج )ل "؛ حيث تـجرجددج الشكل الكتاب )من ( 1683ريجدج ) لنا هذا التباين ( مجرة، وهكذا.693مجرة، وتـجرجددج الشكل الكتاب )منج( لريج نحو على الويـجتض

[.11[ و ]الشكل 10الوارد يف سياقات الكلمة يف ]الشكل

ججردةالـم عججمية الـم سياقات كلمة )من( يف قاعدة البياانت : 10الشكل

( يف قاعدة البياانت : 11الشكل عججمية املشكولةالـم سياقات كلمة )من

Page 14: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

14

ية للمطابقة .1.1 ية التهيئة البرمج القاموس

لدينا الـم بعدج إعداد قاعدة البياانت كن االعتماد عليه الذي ي املباشر املورد عججمية، يصبقق اإلمالئي املنشود، حيث تتم الـم يف عمل دخجل الـم نيج النص ب طابقة الـم –من خالل القاعدة –دج

ية للمطابقة ا ينبغي مراعاة –عموما –ية لقاموسومادة قاعدة البياانت. وقبلج الشروع يف التهيئة الربجمج نني اإلعالل واإلبدال واإلدغاماابلنسبة للعربية ترتبط بقو وهي الكتاب للغة حمل الدراسة؛النظام قوانني

إثبات و وما يلحق هبا من كلمات، فردة ]مثل: ابء الر، وواو العطف[الـم ، والوصل بنيج األدوات 10 ]التشكيل[، وغري ذلك. ضبط احلرو أو إهال عالمات

لية، فإننا لن نكونج حباجة إىل الوقو كثريا على قوانني النظام الكتاب ومن الناحية العجمجات غللعربية. ذلكج أننا نتعامل مع النص القرآين يف منهجيةج هذه الدراسة كما نتعامل مع الل

اليت تـؤجثر ف العرب طابقة القاموسية، دونج النظجر إىل قوانني التصريالـم االلتصاقية، فنعتمد كلي ا على ؛ حمدود ومعلوم لنامالئي ا إالنص الذي ننشد بناءج آلية لتدقيقه هذا النظام الكتاب، حيث إن يف

ويكفي أن نراعي إهالج .عنه عندج بناء آلية للتدقيق اإلمالئي لعموم اللغة –حينجئذ –واألمر يتلف ة النصوص يف مستواها األول، وإهالج التطويلاملنشودة اآللية ؛ شيدةالك] لعالمات الضبط عندج معالج

/كجتج يف حن"ـــــــــــــ" وتكتجب هكذا [ـــــــو: كجتجبج ة النصوص جمجردة أو مشكولة. ــــــبج عندج معالجلبياانت عربج ومادة قاعدة ا – اراد تدقيقهالـم – ةدخجلالـم الكلمة طابقة بنيج الـم وتتم عملية

، : الكلمات املشكولة[2 ستوىالـم ججردة؛ و الـم : الكلمات 1ستوى الـم ] استـجوجيجني املذكورجين آنف الـم للخطأمنا أطابقة على املسافـجتجني السابقة هلا والالحقة هبا، الـم اشتمال الكلمة موضع مع مراعاة

بسوابق أو لواحق يف بعض ترددافدا. حالج وجود الكلمة مصحوبة ينتجج الذي يكن أن ية وتتلخص فكرة جمج راد تدقيقه الـم كلمات النص يف البحث عن للمطابجقة القاموسيةالتهيئة الربج

عالمات ستوى األول الذي فدمجل فيه الـم يف –داخلج قاعدة البياانت القاموسية –كلمة كلمة –ها يف عالضبط؛ ث البحث عن الشكل الكتاب للكلمة املضبوطة بنيج جمموعة الكلمات املشرتكة م

.التايلكستوى اآلخجر. ويكن التعبري عن ذلكج برجمي ا الـم يف –ججرد الـم شكلها الكتاب

10 Zerrouki, T. & Balla, A., (Apr 2009). "Implementation of infixes and circumfixes in the

spellcheckers".

.حة ماجستريأطرو من أجل مدقق إمالئي عرب مفتوح املصدر، (: حجري) إمساعيل: حولج قوانني النظام الكتاب للعربية وراجع أيضا

Page 15: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

15

ية في .1.1.1 ية للمطابقة القاموس لستوى االـم التهيئة البرمج ألو .(ص)ججردة هي }س{، والكلمة داخل النص هي الـم ابفرتاض أن قاعدة البياانت

دخجل.الـم حيث تجثل )ص( شكال كتابي ا واحدا داخلج النص }س{. ∋ (ص): إذا كانت 1ر األم -

ة: الكلمة صحيحة.ـــــالنتيج - [.12ويف هذه احلالة، يظهر النص كما يف ]الشكل

ية للمطابجقة القاموسية يف من 1نتيجة األمر : 12الشكل جمج ستوى األولالـم التهيئة الربج

}س{. ∌ (صكانت ): إذا 2األمر -

.خاطئةالنتيجـــــة: الكلمة -هذا أن الشكلج الكتاب ويجعين [.13يف هذه احلالة، يظهر النص كما يف ]الشكل -

]وإيتائ[ ليسج موجودا يف قاعدة البياانت.

ية للمطابجقة القاموسية يف من 2نتيجة األمر : 13الشكل جمج ستوى األولالـم التهيئة الربج

إن هللا أيمر ابلعدل واإلحسان وإيتاء ذي القرىب وينهى عن ﴿ ﴾(90) والبغي يعظكم لعلكم تذكرونالفحشاء واملنكر

ذي القرىب وينهى عن ئوإيتاإن هللا أيمر ابلعدل واإلحسان ﴿ ﴾(90الفحشاء واملنكر والبغي يعظكم لعلكم تذكرون )

Page 16: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

16

ية في .1.1.1 ية للمطابقة القاموس آلخرستوى االـم التهيئة البرمج

(. ججردة هو )س(، والكلمة داخل النص هي )صالـم الشكلج الكتاب للكلمة ابفرتاض أن وكانت )س( تشتمل على األشكال الكتابية املشكولة، واليت يرمجز هلا بـ )م(، و )ن(، و )ع(.

دخجل.الـم حيث تجثل )ص( شكال كتابي ا واحدا داخلج النص }س{. ∋: إذا كانت )ص( 1األمر -

أو )ن(، أو )ع(.أي أن: )ص( = )م(،

النتيجـــــة: الكلمة صحيحة. - [.14ويف هذه احلالة، يظهر النص كما يف ]الشكل

ية للمطابجقة القاموسية يف من 1نتيجة األمر : 14الشكل جمج اآلخجرستوى الـم التهيئة الربج

}س{. ∌: إذا كانت )ص( 2األمر -

النتيجـــــة: الكلمة خاطئة. -الشكلج الكتاب [. ويجعين هذا أن 15يف هذه احلالة، يظهر النص كما يف ]الشكل -

ل ] [ ليسج موجودا ضمنج األشكال الكتابية املشكولة للكلمة.ابل عجد

ية للمطابجقة القاموسية يف من 2نتيجة األمر : 15الشكل جمج اآلخجر ستوىالـم التهيئة الربج

ل ن اللج أيج مر إ ﴿ إيتجاء ذي ال قر ىبج ابل عجد ان وج سج وجيـجنـ هجى عجن وجاإل ح اء وج شج ر وجال بـجغ ي يجعظكم لجعجلكم الـم ال فجح ﴾(90ذجكرونج )تج ن كج

إيتجاء ذي ال قر ىبج وجيـجنـ ﴿ ان وج سج ل وجاإل ح هجى عجن إن اللج أيج مر ابل عجد اء وج شج ر وجال بـجغ ي يجعظكم لجعجلكم الـم ال فجح ﴾(90ذجكرونج )تج ن كج

Page 17: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

17

واب .1.2 تعيين احتماالت الص

القرآين طابقة القاموسية هي استكشا األخطاء اإلمالئية يف النص الـم نتجظجرجة من الـم النتيجة كل ويف ضوء هذه النتيجة، ينبغي أن تقرتحج اآللية جمموعة من احتماالت الصواب لاملطبوع رقمي ا. لتوليد جمموعة طريقجتجنيمكنة، تقرتح الدراسة إحدى الـم ولتعيني احتماالت الصواب خطأ إمالئي.

مصاحبة لكل كلمة حتوي خطأ إمالئي ا. من االحتماالت اليت يكن أن توردجها اآللية مد الطريقة األوىل هي الشائعة والتقليدية عندج بناء أدوات التدقيق اإلمالئي بصورة عامة؛ وتعت

كال الكتابية وجمموعة األش ة للكلمة الواردة بعد تقليب حروفهااألشكال الكتابي على إيراد جمموعة لى ذلك بكلمة )عجلجق( يف . ونستطيع التمثيلج عتتاليةالـم حروفهامن القدر األكرب يف هااليت تتفق مع

نإسان منإ علق ژ قجوله تعاىل .[2: ]العجلجق ژخلق اإلإنتيجةج خطأ –غري الوارد يف قاعدة البياانت –فالكلمة قد ترد موافقة للشكل الكتاب )عقل(

احات الصواب هي: وبتطبيق هذه الطريقة ستكون اقرت إمالئي يقع يف النص القرآين املطبوع رقمي ا.، ابإلضافة إىل لتقليب أو التبديل فيهاجمموعة الكلمات اليت تتكون من احلرو )ع، ق، ل( بعدج ا

تشتمل على حرفجني متتاليني من كلمة )عقل(.اليت الثالثية جمموعة الكلمات مية الـم قاعدة البياانت وعليه، فإننا سنبحث يف :عن املشكولة( غرياحلاوية للكلمات )عجج

تيب. والنتيجة أنن)علق، قعل، قلع، لعق، لقع( األشكال الكتابية - ا سنعثر على على الرت شكل كتاب واحد، هو )علق(.

مع مراعاة وجود املسافتجني السابقة –( ^$، عق ^$ل، ع ^$قل األشكال الكتابية ) -ة أننا سنعثر إىل حر غري حمجدد. والنتيج ^$تجاوران الـم حيث يشري الرمزان –والالحقة

(.عتل ،أقل، فقل، وقل، تقل، يقل، عدل، عمل، عجل، عسلعلى األشكال الكتابية )

يعين هذا أن احتماالت الصواب للخطأ اإلمالئي يف املثال الوارد يف اآلية الكرية هي األشكال ليها ؛ ويضا إقل، عدل، عمل، عجل، عسل، عتل(الكتابية )علق، أقل، فقل، وقل، تقل، ي

لصواب لألخطاء لتعيني احتماالت ااحتمال )غري ذلك(. وعلى هذا النحو يكن فديئة اآللية برجمي ا األوىل. للطريقة اإلحصائيةج القواعدج راعي ي ابستخدام خوارزماإلمالئية

Page 18: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

18

ملطبوع أما الطريقة األخرى فهي اليت يراها الباحث أكثرج مناسجبة وموافـجقجة لطبيعة النص القرآين اتتالية للكلمة موضع ـم اللثنائيات الكلمات طابقة القاموسيةالـم على هذه الطريقة وتعتمد رقمي ا؛

ئيات، هي جمموعة الكلمات اليت تعقب هذه الثنا –حينجئذ –، لتكونج احتماالت الصواب اخلطأ حبيث تكون كل كلمة احتماال واحدا.

ن بني اخلطأ تلقائي ا دونج االختيار م وابستخدام هذه الطريقة، سيكون ابإلمكان تصويب ا الج الواحد إال اندرا. وهذلن تتجاوزج االحتم اب. ذلكج أن احتماالت الصواباحتماالت الصو

ص القرآين، ث إضافة مدجونة التدريب احلاوية للن يف النادر يسهل إحصاؤه بتـجعجقب ثنائيات الكلمات كلمة موضع عدد الكلمات السابقة على ال قاعدة بياانت فرعية هبذه الثنائيات. كما يكن زيدة

طابقة القاموسية إىل ثالث كلمات أو أكثر، مبا يضمن ثـبوتج النتيجة.لـم ااخلطأ يف لصورة اخلطأ ( حالج وروده على ااصطفاكونستطيع التمثيلج على ذلكج ابلشكل الكتاب )

قالتإ الإمالئكة ي إ إ و ژيف قجوله ]ابستبدال امليم اجملاورة للكا يف لوحة املفاتي هبا[ ( اصطفام)

طفاك على نسا .[42: مرانآل ع] ژالإعالمي ءمرإي إن الل اصإطفاك وطهرك واصإودا يف النص القرآين، هي أكثر الثنائيات ور السابقة للكلمة موضع اخلطأ (إن اللج فالثنائية )

تالية حالج اكتشا اخلطأ اإلمالئي يف الكلمة ال –ومبطابقة هذه الثنائية مجرة. 205حيثج ورجدجت ذه يف حالة اندرة. وتظهر هاحتماال، 67اليت تبلغ نستطيع تعينيج احتماالت الصواب –هلا

فاه، اصطفى، طيف األشكال الكتابية: )اشرتى، اصطفاك، اص –لفبائي األ برتتيبها –االحتماالت أعد، ابلغ، ابلناس، بصري، بعباده، بكل، مبا، تواب، ثلث، جامع، حرمهما، خبري، رب، سريع، مسيع، سيبطله، شديد، عال، عزيز، على، عليم، عنده، عهد، غفور، فالق، فقري، قادر، قد، قوي،

ا، نعما، هو، ع، معنكان، ال، لذو، لطيف، لعفو، لعن، لغفور، لغين، لقوي، له، مبتليكم، مرج، مواسع، وعدكم، ومالئكته، أيمر، أيمرك، يبشرك، جيزي، حيب، حيكم، يدافع، يدخل، يرزق، يسمع،

يضل، يعلم، يغفر، يفصل، يفعل، يسك(.ثية نستطيع تقليلج عدد االحتماالت مبطابقة الثال –اندرة احلدوث –مثل هذه احلالة يف

إن اللج السابقة للكلمة، واليت يجثلها الشكل الكتاب ) جة أننا سنعثر على شكلني كتابيني والنتي .(مجر ميج فقط، يثالن احتماالت الصواب، ها: )اصطفاك، يبشرك(.

Page 19: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

19

الطريقجتجني املذكورجتجني يف –قتـجرجحة الـم الصواب تمنهجيةج تعيني احتماالن بقيج أن نشريج إىل أة عربج الـم تقوم على – ستوى لـم استوى األول أوال ]إبهال عالمات الضبط[ ث االنتقال إىل الـم عالج

نفس املنهجية. بجرد بصوجره املضبوطة ابلشكل يف قاعدة البياانت[ الـم اآلخجر ]مبطابقة الشكل الكتاب ذلكج آلي ا حالج استخدام الطريقة األخرى، فنستطيع القيامج ب – وسياقافدا أما عن تعيني الثنائيات

[.18]الشكل [ و 16كما يبدو يف ]الشكلج Noojابستخدام منجصة

ثنائيات القرآن الكرمي مرجتبة حبسب أكثرها ترددا: 16الشكل

سياقات الشكل الكتاب الثنائي )إن هللا( برتتيب ألفبائي : 18الشكل

Page 20: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

20

تطوير آلية التدقيق اإلمالئي .3

إمالئي ا، مادامجت املادة النص القرآين إىل ضبط قتـجرجحة الـم اإلمالئي املدقق بناء تؤدي منهجية ققة تجضجمنة الـم نججزة لبعض لـم اومراججعة. ومع هذا فثمةج احتمال إلهال اآللية يف قاعدة البياانت مدج

ا سيكون حتري ي ا فاألخطاء يف حاالت اندرة. لكن اخلطأ يف مثل هذه احلاالت لن يكونج إمالئي ا؛ وإنالكلمة درججة يف النص القرآين املطبوع رقمي ا ]الذي ننشد تدقيقجه[ لصورةالـم مبخالفة صورة الكلمة

ققة. الصحيحة يف النص القرآين الوجرجقي أو املمسوح ضوئي ا عن نسخة ورقية مدج عاىل:دي( الوارد يف قجوله تونستطيع التمثيلج على ذلكج ابلشكل الكتاب )يجه

ق ژ دي الل قل قلإ هلإ منإ شركائكمإ منإ يـهإدي إل الإ إل يـهإدي أفمنإ ق للإح يـهإ

ق دى يـتـ أنإ أحق الإ .[35يونس: ] ژكمون تإ كيإف لكمإ فما بع أمنإ ال يهدي إال أنإ يـهإة وأربعنيج موضعا؛ ججردة من عالمات الضبط يف ثالثالـم يف صورجته فقد وجرجدج هذا الشكل الكتاب

)يجهدي( يف موضع بينما يضبجط على الصورةاثنني وأربعنيج منها، )يـجه دي( يف يضبجط على الصورة –واحد هوج الوارد أعاله. ويعين هذا أن الشكلج الكتاب )يهدي( موجود يف قاعدة بياانت اآللية

دي( و )يجهدي(. ووفقا ملنهجية بناء اآللية، لن يكونج ابإلم –حالج ضبطه كان على صورجتجني، ها )يـجه لنا ابلصورة الصحيحة )يجهدي( الصورةج األا )يجهدي( ما ل تـزجود خرىستكشا التحريف إذا استجبدج

بقرينة تساعد على استكشا ما يكن أن يـجقجعج من حتريف. لية اآلا ال تعاجل التحريفا –عموما –فتـجرجض يف آليات التدقيق اإلمالئي الـم الواقعة يف النصوص تأن

اليت ة األخطاء اإلمالئي ليات استكشا هلذه اآل ن الوظيفةج األساسيةج إذ إ ، Static Textsالثابتةة يف النصوص احليوية يكن أن تـجقجعج والعمل على تصويبها Dynamic Texts]الديناميكية[ أو املتغجري

ابقرتاح احتماالت الصواب.ة لكننا هنا أمامج نجص مقجدس له طبيعة خاصة. وتقتضي هذه الطبيعة أن نجصلج أبدوات معالج

تحقيقها إىل الدرجة العليا من الدقة والكفاءة. أما عن الدقة، ف –ستويت الـم على مجيع –هذا النص فهيج ساعدة على استكشا التحريفات اليت يكن أن تقع؛ وأما الكفاءة الـم القرائن يتطلب إجيادج

خجزنة الـم سرتجاع البياانت على ا البياانت، إذ تساعد هذه املنهجية االعتماد على قواعد مبنهجية حمجققة فعلي ا، مبا حيجقق سرعةج األداء.

Page 21: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

21

مية/القاموسيةالـم قاعدة البياانت إىل تضمني لقد سبقجت اإلشارة ياقات جمموعةج عجج الساالـم ياقات يف أن ثل قرينة تجكن تج تعلقة بكل كلمة مدرججة يف هذه القاعدة. وتكمن أهية هذه الس

؛ وذلكج مبطابقة اليت يكن أن تـجقجعج يف النص القرآين املطبوع رقمي ااستكشا التحريفات اآلليةج من ياق وافقة هلا يف شكلها الكتاب الواقع يف قاعدة البياانت ض الـم موضع التدقيق ابلكلمة الكلمة منج الس تـجقجع فيه، ابلنظجر إىل الوحدات الكتابية الواردة يف سياق الكلمة.الذي

طابقة حينجئذ على كلمة واحدة سابقة أو الحقة ابلكلمة موضع التدقيق، الـم إذا اقتجصجرجت بعضج أن يفستزيد قدرة اآللية على استكشا التحريفات. إال أننا سنواجه إشكالية أخرى، تكمن

ا من عالمات التجمعات الكتابية الثنائية الواردة يف القرآن الكرمي تتفق يف شكلها الكتاب عندج ريدها ختتلف حالج ضبطها. الضبط، إال أن

ورة الشكل د على ص ر ونستطيع التمثيلج على ذلكج ابلشكل الكتاب الثنائي )أن يذكر(، حيث يج

( يف قجوله تعاىل: د الل أن يذإكر فيها اسإ ژ )أن يذ كجرج ا ومنإ أظإلم من منع مساج ه وسعى ف خراب

خلوها إال خآئفي لـئك ما كان لمإ أن يدإ )أن بينما يرد على صورة الشكل [.114البقرة: ] ژأوإ

( يف قوله: لإفة لمنإ أراد أن يذكر أوإ أ ژ يجذكرج ژراد شكوراوهو الذي جعل الليإل والنـهار خ

.[62الفرقان: ]نيج سياقات الكلمة موضع ب للمطابقة والتماسا للدقة املنشودة، تقرتح الدراسة أن تـهجيأج اآللية

ققج الكلمات من ستوى األول، االـم التدقيق بواقع كلمجتجني سابقجتجني وكلمجتجني الحقجتجني يف لذي تدجياق ذاته موجودا يف قاعدة البياانت املضبوطة، يخالله جمجردجة من عالمات الضبط. سهل ومادامج الس

لمة الكلمة داخلج سياقها يف النص املشكول ]املضبوط[ ابلك أن يتم استبدال –ة طابقالـم بعدج – ه.حالج وجود –ه وتصويب اخلطأ فيه داخلج سياقها يف النص الذي ججرجت مطابقت

طابقة هبذه الكيفية يضمن حتقيقج اآللية للدرجة القصوى من الدقة والكفاءة،الـم إن إجراءج ججع لـم استجمجدة عن مدجونة التدريب الـم بقاعدة البياانت –كلية –حيث ترتبط اآللية ققة، واليت تسرتج دج

يعين أن ثةج جدج خطأ يف النص القرآين بعدج تدقيقه، فهذاخجزنة عندج احلاجة إليها. فإذا و الـم مادفدا خلال يف قاعدة البياانت، وأن علينا إعادةج النظر يف ضبط بياانت هذه القاعدة.

Page 22: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

22

تقييم اآلليةمنهجية .4

وي رئيس، غج يف ضوء ما سبق، نستنتج أن آليةج التدقيق اإلمالئي املنشودة تعتمد على مورد ل قـقا ومراجعا يف ، إحداها يئـجتجنيهج هو مدجونة التدريب اليت تشتمل على نجص القرآن الكرمي كامال، مدج

ونالحظ أن . ة األخرىيف اهليئ يرد فيها النص جمردا من عالمات الضبط، بينما يرد مشكوال كلي استخدجمة يف الـم ل دونج غريها من الوسائ املطابجقة القاموسية للنصوص االعتمادج علىالدراسةج اقرتجحت

ققات اإلمالئية، السيما خوارزمات التوليد واالشتقاق اليت تتناسب مع طبيعة اللغة العالـم بناء ربية دج هبا القرآنج الكرمي. –سبحانه –اليت أنزجلج هللا

اعي إىل ذلك أمران رئيسان، ها:والد فيه بوجود احتمـ - ال مكن للخطأ.ـــأن النص القرآين مقجدس، ال يسمج

أن النص القرآين حمدود ومعلوم، وكلماته حمصاة. أي: هوج نجص ثبت. -رد لغجوي آخر، هو يتكون مو –تمثل يف مدجونة التدريب الـم –وعن املورد اللغجوي الرئيس

لية دجونة وسياقات هذه الكلمات. وتستمد اآلالـم عججمية اليت حتوي كلمات الـم قاعدة البياانت معطيافدا من قاعدة البياانت بصورة مباشرة، سواء عندج استكشا األخطاء أو اقرتاح احتماالت

ياقات اليت ترد فيها الكلمة موضع التدقيق.ا لصواب أو عندج مطابقة السونة لغجوي ا مدج ة ولتقييم اآللية، سنكون يف حاجة إىل مورد لغجوي آخر، هو: مدجونة االختبار. إن

مستجمجدة من مصدر ونة االختباروليسجت مطابقة هلا. مبعىن أن تكونج مدج –مشاهبة ملدونة التدريب آخرج غري مصدر مدجونة التدريب، وقامج برقنها وتدقيقها وضبطها آخرون غري أولئكج الذينج قاموا برقن

ققة.م أخرى غريج دجونة صورة الـم وتدقيق وضبط مدجونة التدريب، على أن نوجدج هلذه دجققة وأخرى غري واعتمادا على مدجونة االختبار اليت حتوي كاملج النص القرآين يف صورة مدج

ققة، نستطيع تقييمج اآللية ابلوقو على نتائج ة، ث مقارجنة الـم مدج خرججات يف النص املطبوع لـم اعالجالتقييم، عليه النص القرآين الوجرجقي. ويف ضوء نتائج مبا جاءج –يف كل حالة على حدة –رقمي ا

حالج وجوده؛ كما –نستطيع التأكدج من دقة املادة اليت حتويها مدجونة التدريب واستدراك اخلطأ فيها –ة واستدراك اخلطأ فيها مي عجج الـم تجضجمنة يف قاعدة البياانت الـم نستطيع التأكدج من دقة البياانت

حالج وجوده؛ وكذلكج نستطيع اختبارج سرعة اآللية والتحكمج فيها برجمي ا.

Page 23: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

23

راسة نتائج .5 الد

أن تقومج منهجية بناء –ابعتباره نجص ا ثبتا حمدودا ومعلوما –تقتضي طبيعة النص القرآين .1قق إمالئي له على طأ طابقة القاموسية لنصوصه، ضمانة لسالمة هذا النص من اخلالـم مدج

والتحريف، والتماسا ألعلى درجة مكنة من الدقة والكفاءة.

ر؛ وتـعجد يتطلب بناء اآللية املنشودة وتطويرها إعدادج مدجونجتني لغجويـتجني للتدريب واالختبا .2ونة الت ة. دريب املصدرج الرئيس الذي تستخلجص منه قاعدة البياانت القاموسية ليللي مدج

هلا ية جمموعة األشكال الكتابيكن تعيني احتماالت الصواب للكلمة موضع اخلطأ من .3بعد تقليب حروفها وجمموعة األشكال الكتابية اليت تتفق معها يف القدر األكرب من

.لسابقة عليهااطابقة القاموسية لثنائيات الكلمات الـم أو من خاللتتالية، الـم وفها حر

ادة قاعدة مالربجمية يف فهرسة مدجونة التدريب واستخالص Noojيكن اإلفادة من منجصة .4 و دقيق.حندجونة على الـم ؛ كما تساعد املنجصة يف توصيف البياانت القاموسية

قق اإلمالئي الـم قتـجرجحة الدقة املنشودة من الـم حتجقق املنهجية .5 تواء قواعد البياانت على ابحدج بقدرفدا على استدعاء البياانتمجيع كلمات النص القرآين، كما تضمن الكفاءة

ة ابعتبارها بم الـتجضجمنة يف قواعد البياانت وقتج احلاجة إليها عندج الـم ياانت مجزنة.عالج

الخالصة .6

قق منهجية وتقوم طبوع رقمي ا؛ ص القرآين املللن إمالئي تقرتح الدراسة منهجية لبناء وتطوير مدج مستوجيجني، يعىن األول موضع التدقيق، عربج طابقة القاموسية للنص القرآين الـم قتـجرجحة على الـم البناء

طابقة لـم امبطابقة النص جمجردا من عالمات الضبط، ويعىن اآلخجر مبطابقة النص املشكول. وتعتمد تشتمل على كامل ة على قاعدة بياانت قاموسية مستجخلجصة من مورد لغجوي رئيس تجثله مدجونة لغجوي

قـقا ومراججعا، سعيا إىل تييز األخطاء اإلمالئية؛ ث اختيار الصواب من بني جممو عة النص القرآين مدجة التطوير فتقوم أما منهجي عجدة سلفا.الـم اليت يكن استخالصها من قاعدة البياانت من االحتماالت

ياقات السابقة والالحقة ابلكلمة موضع التدقيق، أمنا للتحريف ال طابقالـم على ذي ة القاموسية للسآللية قبل تفعيلها اعتمادا ا منهجية لتقييمدجقق. وأخريا، اقتـجرجحجت الدراسة الـم يكن أن ينتجج يف النص

لية ودقة مرجافدا.على مدجونة اختبار، للتحقق من كفاءة اآل

Page 24: \"Building And Developing A Spell Checker For Quranic Text Printed Digitally (Linguistic \u0026 Computational processing)\", International Symposium for printing and publishing the

24

ع المراجكز مر أطروحة ماجستري، من أجل مدقق إمالئي عرب مفتوح املصدر، إساعيل )حجري(: .1

.2007 ،ة، الزائرغة العربي رتقية الل ل ة والتقجنيةث العلمي و البح

جمموعة ،اللغة العربية( )مقجدمة يف حوسجبة: املدوانت اللغجوية، ضمنج كتاب عتز ابهلل(الـم السعيد ) .2النشر من املؤلفني، حترير: الدكتور حمسن رجشوان، والدكتور املعتز ابهلل السعيد، كتاب حمجكم، قجيد

.م2013مبدينة امللك عبد العزيز للعلوم والتقنية، الريض، الزء األول،

صطلحات حوسجبة اللغةالـم سرجد امل: ابهلل(عتز الـم السعيد ) .3كتاب ضمن ، قنيافداوت عججمي مل

وان، والدكتور جمموعة من املؤلفني، حتــرير: الدكتور حمسن رجش ،مقجدمة يف حوسجبة اللغة العربية()لعلوم والتقنية، الريض، زيز لاملعتز ابهلل السعيد، كتاب حمجكم، قجيد النشر مبدينة امللك عبد الع

.م2013الزء الثاين،

م.1955، 1: مناهج البحث يف اللغة، مكتـجبجة األجنلو، القاهرة، طحسان )تام( .4

5. Silberztein, M. (2004). NooJ : an Object-Oriented Approach. In

INTEX pour la Linguistique et le Traitement Automatique des

Langues, C. Muller, J. Royauté M. Silberztein Eds, Cahiers de la

MSH Ledoux. Presses Universitaires de Franche-Comté, pp.

359-369.

6. Peterson, J. L., (Dec 1980). Computer Programs for Detecting

and Correcting Spelling Errors. Communications of the A.C.M.,

vol. 23, no. 12, pp. 676-687.

7. Zerrouki, T. & Balla, A. (Apr 2009). "Implementation of infixes

and circumfixes in the spellcheckers". 2nd International

Conference on Arabic Language Resources and Tools, Cairo

(Egypt), 22 - 23 April 2009.

الصفحات اإللكترونية

1. http://gate.ac.uk/. 2. http://sibawayh.emi.ac.ma/safar/.

3. http://www.nooj4nlp.net.

4. http://www.nooj4nlp.net/pages/introduction.html. 5. http://www.qurancomplex.org/MaterialCMS/viewSection.asp

?matId=134&id=135&l=arb&matLang=arb&SecOrder=15

&SubSecOrder=2.