Top Banner
กกกกกกกกกกกกกกกกกกกกกกกกก กกกกกกกกกกกกกกกกกกกกก Forms Management for Thai Character Recognition กกก กกกกกก กกกกกกก กกกกกกก กกกก 42067031 กกกกกกกกกกกกกกกกกกกกกกกกกกก กก. กก. กกกกกกก กกกกกกก กกกกกกก กกกกกกกกกกกกกกกกกกกกกกกกกกกกกกก
48

การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

Mar 19, 2016

Download

Documents

thad

การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition. โดย นางสาว สุปัญญา อภิวงศ์โสภณ 42067031. อาจารย์ผู้ควบคุมวิทยานิพนธ์ รศ. ดร. วิเชียร เปรมชัยสวัสดิ์ อาจารย์ผู้ควบคุมวิทยานิพนธ์ร่วม รศ. ดร. นุชรี เปรมชัยสวัสดิ์. Outline. - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

การจดการแบบฟอรมเพอการรจำาตวอกษรภาษาไทย

Forms Management for Thai Character Recognition

โดย นางสาว สปญญา อภวงศโสภณ

42067031อาจารยผควบคมวทยานพนธ รศ. ดร.

วเชยร เปรมชยสวสดอาจารยผควบคมวทยานพนธรวม รศ. ดร.

นชร เปรมชยสวสด

Page 2: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

2

Outline Introduction Automatic mark การกำาหนดประเภทของขอมล

โดยผใช Automatic load mark การลบเสนบรรทดในเอกสาร การตรวจสอบความถกตอง

ของขอความ การทดลองและขอเสนอแนะ

Page 3: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

3

โดยปกตการกำาหนดกรอบขอมลเพอการรจำาในแบบฟอรม จะตองใหผใชงานกำาหนดเองทงหมด ซงทำาใหเสยเวลาใน การกำาหนดกรอบขอมลแตละบรเวณทตองการ

หากสามารถกำาหนดกรอบขอมลเพอการรจำาตวอกษรไดโดย อตโนมต จะชวยลดเวลาในการทำางาน เพอใหสามารถทำางาน ไดรวดเรวยงขน

งานวจยนนำาเสนอการกำาหนดกรอบทจะบนทกขอมลใน แบบฟอรมโดยอตโนมต (AUTOMATIC MARKING )เพอ กำาหนดตำาแหนงทนำาไปรจำาขอมล

Introduction

Page 4: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

4

เพอลดเวลาทใชในการกำาหนดกรอบขอมลทจะสงไปรจำา

เพอศกษาลกษณะตาง ๆ ทเปนบรเวณทมการกรอกขอมลของแบบฟอรม

เพอศกษาลกษณะขอมลเฉพาะตวทกรอกลงใน แบบฟอรม

เพอพฒนาระบบการจดการแบบฟอรมโดยการหากรอบตำาแหนงขอมลท ตองการบนทกโดยอตโนมต

วตถประสงคของงานวจย

Page 5: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

5

ขอบเขตการวจย รปภาพแบบฟอรมทนำามาใชจะตองผานการสแกน (Scan )

โดย กำาหนดความละเอยดในการสแกนเปน 200 จดตอนว ในแบบ ระดบสเทา (Gray scale) แลวนำาภาพมาผานกระบวนการแปลง ภาพสสองระดบ (Duo tone) และบนทกเปนภาพสขาวดำา (Binary Image)

ภาพทนำามาใชจะตองกำาจดสญญาณรบกวนเรยบรอยแลว งานวจยนทำาหนาทจดการแบบฟอรมเทานน เพอสงบรเวณท

มการ กรอกขอมลใหโปรแกรมอนทำาหนาทรจำาตวอกษรเขยนภาษาไทย

Page 6: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

6

ขนตอนการทำางานในงานวจย (1)

Empty Forms

Automatic Mark

User defined data type and field name

Empty Forms

Page 7: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

7

Automatic Load Mark

Pre-Processing

Recognitions

Verify by field type

Empty Forms

Form Database

Filled Forms

ขนตอนการทำางานในงานวจย (2)

Page 8: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

8

ขนตอนทหนง แยกบรรทดในแบบฟอรม โดยการหาความถของจดในแนวนอน (Horizontal projection) เพอคนหาตำาแนงทมการกรอกขอมล

ขนตอนทสอง หาความถของจดในแนวตง (Vertical projection) ของตวอกษรใน

แตละบรรทด เพอหาบรเวณทควรเปนตำาแหนงสำาหรบการกรอกขอความ และสรางเปนกรอบทตองการรจำา

Automatic Mark

Page 9: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

9

ทศทางการหาคาฮสโตแกรมตามแนวนอน

ทศทางการหาคาฮสโตแกรมตามแนวตง

max0

),(P)m( histograHorizontal x

xyxy

max0

),(P)m( histograVertical y

yyxx

การกำาหนดบรรทดในภาพ เอกสาร

Page 10: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

10

Automatic Mark

Page 11: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

11

Page 12: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

12

Page 13: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

13

ลกษณะทกำาหนดตำาแหนงกรอบทจะบนทกขอมลโดยอตโนมต แบบฟอรมมชองวางสำาหรบเตมขอความรองรบดวยเสนบรรทด จะกำาหนดเปนกรอบของเสนตรง (Straight line mark) แบบฟอรมทมการบนทกเครองหมายลงในชองวางทกำาหนดขน โดยกำาหนดเปนกรอบทมคำาตอบสองลกษณะคอใช/ไม (Optional mark)

Automatic Mark

Page 14: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

14

Automatic Markกรอบของเสนตรง (Straight line mark) สำาหรบเตมขอมลประเภทตวอกษรหรอตวเลข ในกรณนจะพจารณาจากบรเวณทมอตราสวนระหวางความกวางตอความสงของเสนมคาแตกตางกนมาก (ความกวางมคามากกวาความสงมาก ๆ) ประกอบดวย

เสนจด:Dot line ( …………………) เสนปะ:Dash line ( _ _ _ _ _ _ _ _ ) เสนทบ :Thick line ( ____________ )

กรอบทใชในการตอบคำาถามทมคำาตอบสองลกษณะคอใช/ไม (Optional mark) ประกอบดวย

, ( ) , [ ]

Page 15: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

15

ตวอยางสวนหนงของภาพแบบฟอรมทประกอบดวยสวนทมลกษณะเปนเสนจด เสนปะ เสนทบ Dot line

Automatic Mark

Page 16: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

16

Dash line

Thick line

Automatic Mark

Page 17: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

17

Automatic Markลกษณะทพจารณาเปน Optional mark ปรากฏสญลกษณ , , ( ) หรอ [ ] วางทบรเวณตนบรรทด หลงสญลกษณ , , ( ) หรอ [ ] มพนทวางกอนมตวอกษรอธบายตาม กรอบวงกลมและสเหลยม ,

จะมจดสงสดของความถของจดสดำา 2 จด สงเทา ๆ กนบรเวณปลายทงสองขาง

Page 18: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

18

(Bx,By)

(Ex,Ey)

ByEy

Bx Ex

(Bx,By)

(Ex,Ey)

By

Ey

Bx Ex

Automatic Mark

Page 19: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

19

ตวอยางสวนหนงของภาพแบบฟอรมเปลาทประกอบดวยเครองหมาย , , ( ) และ [ ]Circle mark

Automatic Mark

Page 20: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

20

Square mark

Automatic Mark

Page 21: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

21

Automatic Markเครองหมายนขลขตหรอวงเลบ ( ) และเครองหมาย [ ]

มชวงแคบ ๆ ทมความถของจดสดำาทสงมาก แลวตามดวยชองวางของ ตวอกษรทมคาอยในระหวางคาคงท กอนพบชวงความถของจดสดำาทมสงมากทจดสนสดและจะตองพบ ชองวาง ซงมคาไมเกนคาคงทอกคาหนง กอนทจะพบความถของตวอกษรทเปนคำาอธบายตอไป

การกำาหนดประเภทขอมลเบองตน (Default data type) เปน Booleanหากไมเปนไปตามกำาหนดจะถอวาบรเวณนนไมใชบรเวณทจะตอง mark เพอบนทกขอมล

Page 22: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

22

( ) และ [ ]

Automatic Mark

Page 23: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

23

ผลลพธของกระบวนการกำาหนดกรอบอตโนมตในแบบฟอรมเปลา

Page 24: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

24

การกำาหนดประเภทของขอมลโดยผใช (User defines data type and field name) ผใชสามารถเลอกตำาแหนงทจะกำาหนดกรอบขอมล หรอไมตองการ

กำาหนดกรอบทบรเวณนนได และสามารถกำาหนดกรอบเพมเตมไดใน สวนทตองการ

ผใชสามารถตงคาชอฟลด รวมทงชนดของขอมล เพอกำาหนดลงใน ฐานขอมล

ชนดขอมลเบองตนกำาหนดเปน Text และสามารถเปลยนแปลงเปน Numeric, Date, Month, Year, Age, Zip code และ Province ได ตามความเหมาะสม

Page 25: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

25

การกำาหนดประเภทของขอมลโดยผใช

Page 26: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

26

การกำาหนดประเภทของขอมลโดยผใช

Page 27: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

27

การกำาหนดประเภทของขอมลโดยผใช

Page 28: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

28

การกำาหนดประเภทของขอมลโดยผใช

Page 29: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

29

กระบวนการโหลดกรอบจะใชตำาแหนงความสมพนธแบบอางองกบ แบบฟอรมเปลาเพอทจะหาตำาแหนงทจะกำาหนดกรอบในแบบฟอรมท กรอกขอความ และตรวจสอบบรเวณทกรอกขอความอกครงเพอความ ครอบคลมตวอกษรทกรอกดวยฮสโตแกรมแนวนอน

Automatic Load Mark

Page 30: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

30

Automatic Load Mark

Page 31: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

31

Automatic Load Mark

Page 32: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

32

เสนสมผสกบตวอกษร (Contact) เสนผากลางตวอกษร (Intersection) เสนทบบนสวนหนงของตวอกษร (Superposition)

ประเภทของเสนทซอนทบกบตวอกษร

การลบเสนบรรทดในเอกสาร[5]

Page 33: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

33

หลกการทใชในการลบเสนออกจากตวอกษร

ลบเสนเกอบทงหมดออก ใชคณสมบตของพนทซอนทบกน เตมเตมสวนของเสนในการเขยนหนงสอท

ขาดหายไป หลกการนใชไดกบ Contact และ

Intersection แตใชไมไดกบ Superposition

Page 34: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

34

21 }|{ midiiinorm lysyeRR

LWTA (Line Width Thresholding Approach) สรางกรอบของเสนเกบใน Array ของพกเซลสดำาทมความยาวตอเนอง

กน (Run-lengths)

โดยกำาหนดคาคงท (Threshold) สง ๆ สำาหรบใชภายในตวอกษรทมเสน ทบและกำาหนดคาคงทตำา ๆ สำาหรบใชระหวางตวอกษรทมเสนทบ

Page 35: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

35

เทคนคทใชในการลบเสนดวยคาคงท (LWTA)

Original Image

ผลลพธการลบเสนดวยคาคงทเพยงคาเดยว

ผลลพธของการแบงตวอกษร ซงอยในกรอบสเหลยมครอบตวอกษร

ผลลพธการลบเสนดวยการใช คาคงท 2 คา

Page 36: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

36

การรจำาตวอกษรเขยนภาษาไทย [2,3] กระบวนการรจำาตวอกษรลายมอเขยนภาษาไทยทำาโดยโปรแกรมสำาเรจรปอน (โปรแกรมของคณกฤษดา วไลลกษณ)

Page 37: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

37

การตรวจสอบความถกตองของขอความ กระบวนการตรวจสอบความถกตองของขอความเปน กระบวนการสดทายหลงจากการรจำาตวอกษร ประเภทของฟลดสามารถชวยลดขอบเขตความนาจะเปนของ ตวอกษรและใชเพอในการแกไขขอความใหถกตอง ขอบเขตของขอมลตาง ๆ ทระบบไดกำาหนดนผใชสามารถแกไข หรอเปลยนแปลงไดตามทตองการ

Page 38: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

38

การตรวจสอบความถกตองของขอความประเภทขอมลเปนตวเลข ไดแก อาย มคาอยระหวาง 1-150 วนท มคาอยระหวาง 1-31 ป มคาอยระหวาง 1900-2200 ในปครสต

ศกราช และ 2400-2600 ในปพทธศกราชประเภทขอมลเปนขอความ ไดแก จงหวด ( ชอทง 76 จงหวด) เดอน (มกราคม- ธนวาคม ทง 12 เดอน) เดอนทระบเปนตวอกษรยอ (ม.ค.-ธ.ค.)

Page 39: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

39

การตรวจสอบชอเดอนดวยระดบและจำานวนตวอกษร ระดบตวอกษร ชอเดอน จำานวนตวอกษร

สวนกลาง มกราคม 6เมษายน 6

สวนบนและสวนกลาง มนาคม 6สงหาคม 7กนยายน 7ธนวาคม 7

สวนกลางและสวนลาง ตลาคม 6พฤษภาคม 7กรกฎาคม 7

สวนบน สวนกลางและสวนลาง

มถนายน 8พฤศจกายน 9กมภาพนธ 10

Page 40: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

40

การทดลอง งานวจยนเขยนดวยโปรแกรม Microsoft visual basic 6.0. แบบฟอรมทใชสแกนเขาสระบบดวยความละเอยด 200 dpi แลวบนทกในรปแบบภาพสขาวดำา (binary format) แบบฟอรมเปลาทนำามาใชมประมาณ 120แบบฟอรม เปนแบบฟอรมการสมครเขารวมการสมมนา ใบคำารองตาง ๆ หรอ ใบมอบอำานาจ งานวจยนใชคนทกรอกแบบฟอรมมอายอยในชวง - 1060 ป จำานวน 4 คน กรอกแบบฟอรมประมาณ 3

00 แบบฟอรม

Page 41: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

41

Page 42: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

42

Page 43: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

43

Page 44: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

44

Page 45: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

45

การทดลอง ระบบนทำาหนาทจดการและเตรยมการแบบฟอรมทมการกรอกขอมล ใหสามารถผานเขาสกระบวนการจำาแนกตวอกษรได สามารถกำาหนดกรอบบรเวณทมการกรอกขอมลไดโดยอตโนมต ผใชสามารถเปลยนแปลงชนดของขอมลหรอกำาหนดขอบเขตขอมล ในแตละฟลด เวลาทใชในการกำาหนดกรอบขอมลแตละแบบฟอรม จะใชเวลาไมเทากน โดยระยะเวลาทใชจะมความยาวนานเพยงใดขนอยกบความซบซอนของ แตละแบบฟอรม

Page 46: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

46

ผลการทดลอง เวลาทใชในการโหลดกรอบขอมลโดยอตโนมตหลงจากททราบวาแบบฟอรม ทมการกรอกขอมลตรงกบแบบฟอรมเปลาใด จะใช

ระยะเวลาไมเกน 1 วนาท งานวจยนสามารถใชจดการแบบฟอรมภาษาไทยไดและสามารถ พฒนาใหระบบสามารถจดการแบบฟอรมทเปนภาษา

องกฤษ ขอมลทรจำาไดตองมการตรวจสอบขอมลกอนบนทก

ลงสฐานขอมล

Page 47: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

47

ขอเสนอแนะและแนวทางพฒนาตอในอนาคต พฒนาใหสามารถใชในแบบฟอรมทมหลายภาษาในแบบฟอรมเดยวกน อาจมการนำางานวจยไปพฒนาตอในแบบฟอรมของภาษาตางประเทศอน สามารถนำาไปพฒนาสวนของประเภทขอมลหรอขอบเขตของขอมลใหม ความหลากหลายยงขน

Page 48: การจัดการแบบฟอร์มเพื่อการรู้จำตัวอักษรภาษาไทย Forms Management for Thai Character Recognition

48

จบการนำาเสนอ