กกกกกกกกกกกกกกกกกกกกกกกกก กกกกกกกกกกกกกกกกกกกกก Forms Management for Thai Character Recognition กกก กกกกกก กกกกกกก กกกกกกก กกกก 42067031 กกกกกกกกกกกกกกกกกกกกกกกกกกก กก. กก. กกกกกกก กกกกกกก กกกกกกก กกกกกกกกกกกกกกกกกกกกกกกกกกกกกกก
Mar 19, 2016
การจดการแบบฟอรมเพอการรจำาตวอกษรภาษาไทย
Forms Management for Thai Character Recognition
โดย นางสาว สปญญา อภวงศโสภณ
42067031อาจารยผควบคมวทยานพนธ รศ. ดร.
วเชยร เปรมชยสวสดอาจารยผควบคมวทยานพนธรวม รศ. ดร.
นชร เปรมชยสวสด
2
Outline Introduction Automatic mark การกำาหนดประเภทของขอมล
โดยผใช Automatic load mark การลบเสนบรรทดในเอกสาร การตรวจสอบความถกตอง
ของขอความ การทดลองและขอเสนอแนะ
3
โดยปกตการกำาหนดกรอบขอมลเพอการรจำาในแบบฟอรม จะตองใหผใชงานกำาหนดเองทงหมด ซงทำาใหเสยเวลาใน การกำาหนดกรอบขอมลแตละบรเวณทตองการ
หากสามารถกำาหนดกรอบขอมลเพอการรจำาตวอกษรไดโดย อตโนมต จะชวยลดเวลาในการทำางาน เพอใหสามารถทำางาน ไดรวดเรวยงขน
งานวจยนนำาเสนอการกำาหนดกรอบทจะบนทกขอมลใน แบบฟอรมโดยอตโนมต (AUTOMATIC MARKING )เพอ กำาหนดตำาแหนงทนำาไปรจำาขอมล
Introduction
4
เพอลดเวลาทใชในการกำาหนดกรอบขอมลทจะสงไปรจำา
เพอศกษาลกษณะตาง ๆ ทเปนบรเวณทมการกรอกขอมลของแบบฟอรม
เพอศกษาลกษณะขอมลเฉพาะตวทกรอกลงใน แบบฟอรม
เพอพฒนาระบบการจดการแบบฟอรมโดยการหากรอบตำาแหนงขอมลท ตองการบนทกโดยอตโนมต
วตถประสงคของงานวจย
5
ขอบเขตการวจย รปภาพแบบฟอรมทนำามาใชจะตองผานการสแกน (Scan )
โดย กำาหนดความละเอยดในการสแกนเปน 200 จดตอนว ในแบบ ระดบสเทา (Gray scale) แลวนำาภาพมาผานกระบวนการแปลง ภาพสสองระดบ (Duo tone) และบนทกเปนภาพสขาวดำา (Binary Image)
ภาพทนำามาใชจะตองกำาจดสญญาณรบกวนเรยบรอยแลว งานวจยนทำาหนาทจดการแบบฟอรมเทานน เพอสงบรเวณท
มการ กรอกขอมลใหโปรแกรมอนทำาหนาทรจำาตวอกษรเขยนภาษาไทย
6
ขนตอนการทำางานในงานวจย (1)
Empty Forms
Automatic Mark
User defined data type and field name
Empty Forms
7
Automatic Load Mark
Pre-Processing
Recognitions
Verify by field type
Empty Forms
Form Database
Filled Forms
ขนตอนการทำางานในงานวจย (2)
8
ขนตอนทหนง แยกบรรทดในแบบฟอรม โดยการหาความถของจดในแนวนอน (Horizontal projection) เพอคนหาตำาแนงทมการกรอกขอมล
ขนตอนทสอง หาความถของจดในแนวตง (Vertical projection) ของตวอกษรใน
แตละบรรทด เพอหาบรเวณทควรเปนตำาแหนงสำาหรบการกรอกขอความ และสรางเปนกรอบทตองการรจำา
Automatic Mark
9
ทศทางการหาคาฮสโตแกรมตามแนวนอน
ทศทางการหาคาฮสโตแกรมตามแนวตง
max0
),(P)m( histograHorizontal x
xyxy
max0
),(P)m( histograVertical y
yyxx
การกำาหนดบรรทดในภาพ เอกสาร
10
Automatic Mark
11
12
13
ลกษณะทกำาหนดตำาแหนงกรอบทจะบนทกขอมลโดยอตโนมต แบบฟอรมมชองวางสำาหรบเตมขอความรองรบดวยเสนบรรทด จะกำาหนดเปนกรอบของเสนตรง (Straight line mark) แบบฟอรมทมการบนทกเครองหมายลงในชองวางทกำาหนดขน โดยกำาหนดเปนกรอบทมคำาตอบสองลกษณะคอใช/ไม (Optional mark)
Automatic Mark
14
Automatic Markกรอบของเสนตรง (Straight line mark) สำาหรบเตมขอมลประเภทตวอกษรหรอตวเลข ในกรณนจะพจารณาจากบรเวณทมอตราสวนระหวางความกวางตอความสงของเสนมคาแตกตางกนมาก (ความกวางมคามากกวาความสงมาก ๆ) ประกอบดวย
เสนจด:Dot line ( …………………) เสนปะ:Dash line ( _ _ _ _ _ _ _ _ ) เสนทบ :Thick line ( ____________ )
กรอบทใชในการตอบคำาถามทมคำาตอบสองลกษณะคอใช/ไม (Optional mark) ประกอบดวย
, ( ) , [ ]
15
ตวอยางสวนหนงของภาพแบบฟอรมทประกอบดวยสวนทมลกษณะเปนเสนจด เสนปะ เสนทบ Dot line
Automatic Mark
16
Dash line
Thick line
Automatic Mark
17
Automatic Markลกษณะทพจารณาเปน Optional mark ปรากฏสญลกษณ , , ( ) หรอ [ ] วางทบรเวณตนบรรทด หลงสญลกษณ , , ( ) หรอ [ ] มพนทวางกอนมตวอกษรอธบายตาม กรอบวงกลมและสเหลยม ,
จะมจดสงสดของความถของจดสดำา 2 จด สงเทา ๆ กนบรเวณปลายทงสองขาง
18
(Bx,By)
(Ex,Ey)
ByEy
Bx Ex
(Bx,By)
(Ex,Ey)
By
Ey
Bx Ex
Automatic Mark
19
ตวอยางสวนหนงของภาพแบบฟอรมเปลาทประกอบดวยเครองหมาย , , ( ) และ [ ]Circle mark
Automatic Mark
20
Square mark
Automatic Mark
21
Automatic Markเครองหมายนขลขตหรอวงเลบ ( ) และเครองหมาย [ ]
มชวงแคบ ๆ ทมความถของจดสดำาทสงมาก แลวตามดวยชองวางของ ตวอกษรทมคาอยในระหวางคาคงท กอนพบชวงความถของจดสดำาทมสงมากทจดสนสดและจะตองพบ ชองวาง ซงมคาไมเกนคาคงทอกคาหนง กอนทจะพบความถของตวอกษรทเปนคำาอธบายตอไป
การกำาหนดประเภทขอมลเบองตน (Default data type) เปน Booleanหากไมเปนไปตามกำาหนดจะถอวาบรเวณนนไมใชบรเวณทจะตอง mark เพอบนทกขอมล
22
( ) และ [ ]
Automatic Mark
23
ผลลพธของกระบวนการกำาหนดกรอบอตโนมตในแบบฟอรมเปลา
24
การกำาหนดประเภทของขอมลโดยผใช (User defines data type and field name) ผใชสามารถเลอกตำาแหนงทจะกำาหนดกรอบขอมล หรอไมตองการ
กำาหนดกรอบทบรเวณนนได และสามารถกำาหนดกรอบเพมเตมไดใน สวนทตองการ
ผใชสามารถตงคาชอฟลด รวมทงชนดของขอมล เพอกำาหนดลงใน ฐานขอมล
ชนดขอมลเบองตนกำาหนดเปน Text และสามารถเปลยนแปลงเปน Numeric, Date, Month, Year, Age, Zip code และ Province ได ตามความเหมาะสม
25
การกำาหนดประเภทของขอมลโดยผใช
26
การกำาหนดประเภทของขอมลโดยผใช
27
การกำาหนดประเภทของขอมลโดยผใช
28
การกำาหนดประเภทของขอมลโดยผใช
29
กระบวนการโหลดกรอบจะใชตำาแหนงความสมพนธแบบอางองกบ แบบฟอรมเปลาเพอทจะหาตำาแหนงทจะกำาหนดกรอบในแบบฟอรมท กรอกขอความ และตรวจสอบบรเวณทกรอกขอความอกครงเพอความ ครอบคลมตวอกษรทกรอกดวยฮสโตแกรมแนวนอน
Automatic Load Mark
30
Automatic Load Mark
31
Automatic Load Mark
32
เสนสมผสกบตวอกษร (Contact) เสนผากลางตวอกษร (Intersection) เสนทบบนสวนหนงของตวอกษร (Superposition)
ประเภทของเสนทซอนทบกบตวอกษร
การลบเสนบรรทดในเอกสาร[5]
33
หลกการทใชในการลบเสนออกจากตวอกษร
ลบเสนเกอบทงหมดออก ใชคณสมบตของพนทซอนทบกน เตมเตมสวนของเสนในการเขยนหนงสอท
ขาดหายไป หลกการนใชไดกบ Contact และ
Intersection แตใชไมไดกบ Superposition
34
21 }|{ midiiinorm lysyeRR
LWTA (Line Width Thresholding Approach) สรางกรอบของเสนเกบใน Array ของพกเซลสดำาทมความยาวตอเนอง
กน (Run-lengths)
โดยกำาหนดคาคงท (Threshold) สง ๆ สำาหรบใชภายในตวอกษรทมเสน ทบและกำาหนดคาคงทตำา ๆ สำาหรบใชระหวางตวอกษรทมเสนทบ
35
เทคนคทใชในการลบเสนดวยคาคงท (LWTA)
Original Image
ผลลพธการลบเสนดวยคาคงทเพยงคาเดยว
ผลลพธของการแบงตวอกษร ซงอยในกรอบสเหลยมครอบตวอกษร
ผลลพธการลบเสนดวยการใช คาคงท 2 คา
36
การรจำาตวอกษรเขยนภาษาไทย [2,3] กระบวนการรจำาตวอกษรลายมอเขยนภาษาไทยทำาโดยโปรแกรมสำาเรจรปอน (โปรแกรมของคณกฤษดา วไลลกษณ)
37
การตรวจสอบความถกตองของขอความ กระบวนการตรวจสอบความถกตองของขอความเปน กระบวนการสดทายหลงจากการรจำาตวอกษร ประเภทของฟลดสามารถชวยลดขอบเขตความนาจะเปนของ ตวอกษรและใชเพอในการแกไขขอความใหถกตอง ขอบเขตของขอมลตาง ๆ ทระบบไดกำาหนดนผใชสามารถแกไข หรอเปลยนแปลงไดตามทตองการ
38
การตรวจสอบความถกตองของขอความประเภทขอมลเปนตวเลข ไดแก อาย มคาอยระหวาง 1-150 วนท มคาอยระหวาง 1-31 ป มคาอยระหวาง 1900-2200 ในปครสต
ศกราช และ 2400-2600 ในปพทธศกราชประเภทขอมลเปนขอความ ไดแก จงหวด ( ชอทง 76 จงหวด) เดอน (มกราคม- ธนวาคม ทง 12 เดอน) เดอนทระบเปนตวอกษรยอ (ม.ค.-ธ.ค.)
39
การตรวจสอบชอเดอนดวยระดบและจำานวนตวอกษร ระดบตวอกษร ชอเดอน จำานวนตวอกษร
สวนกลาง มกราคม 6เมษายน 6
สวนบนและสวนกลาง มนาคม 6สงหาคม 7กนยายน 7ธนวาคม 7
สวนกลางและสวนลาง ตลาคม 6พฤษภาคม 7กรกฎาคม 7
สวนบน สวนกลางและสวนลาง
มถนายน 8พฤศจกายน 9กมภาพนธ 10
40
การทดลอง งานวจยนเขยนดวยโปรแกรม Microsoft visual basic 6.0. แบบฟอรมทใชสแกนเขาสระบบดวยความละเอยด 200 dpi แลวบนทกในรปแบบภาพสขาวดำา (binary format) แบบฟอรมเปลาทนำามาใชมประมาณ 120แบบฟอรม เปนแบบฟอรมการสมครเขารวมการสมมนา ใบคำารองตาง ๆ หรอ ใบมอบอำานาจ งานวจยนใชคนทกรอกแบบฟอรมมอายอยในชวง - 1060 ป จำานวน 4 คน กรอกแบบฟอรมประมาณ 3
00 แบบฟอรม
41
42
43
44
45
การทดลอง ระบบนทำาหนาทจดการและเตรยมการแบบฟอรมทมการกรอกขอมล ใหสามารถผานเขาสกระบวนการจำาแนกตวอกษรได สามารถกำาหนดกรอบบรเวณทมการกรอกขอมลไดโดยอตโนมต ผใชสามารถเปลยนแปลงชนดของขอมลหรอกำาหนดขอบเขตขอมล ในแตละฟลด เวลาทใชในการกำาหนดกรอบขอมลแตละแบบฟอรม จะใชเวลาไมเทากน โดยระยะเวลาทใชจะมความยาวนานเพยงใดขนอยกบความซบซอนของ แตละแบบฟอรม
46
ผลการทดลอง เวลาทใชในการโหลดกรอบขอมลโดยอตโนมตหลงจากททราบวาแบบฟอรม ทมการกรอกขอมลตรงกบแบบฟอรมเปลาใด จะใช
ระยะเวลาไมเกน 1 วนาท งานวจยนสามารถใชจดการแบบฟอรมภาษาไทยไดและสามารถ พฒนาใหระบบสามารถจดการแบบฟอรมทเปนภาษา
องกฤษ ขอมลทรจำาไดตองมการตรวจสอบขอมลกอนบนทก
ลงสฐานขอมล
47
ขอเสนอแนะและแนวทางพฒนาตอในอนาคต พฒนาใหสามารถใชในแบบฟอรมทมหลายภาษาในแบบฟอรมเดยวกน อาจมการนำางานวจยไปพฒนาตอในแบบฟอรมของภาษาตางประเทศอน สามารถนำาไปพฒนาสวนของประเภทขอมลหรอขอบเขตของขอมลใหม ความหลากหลายยงขน
48
จบการนำาเสนอ