Top Banner
Chapter 6 Text Representation (ตตตตตตตตตตตตต) 1
44

Chapter 6 Text Representation ( ตัวแทนข้อความ)

Jan 03, 2016

Download

Documents

Chapter 6 Text Representation ( ตัวแทนข้อความ). ขอบเขตการศึกษา. รหัสตัวอักษร (Character Encoding) Metadata รูปแบบข้อความ (Formats) ภาษามาร์กอัป (Markup Language). บทนำ. ในบทนี้ จะบรรยายเรื่องตัวแทนของข้อความ (Text Representation) - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Chapter 6

Text Representation

(ต�วแทนข�อความ)

1

Page 2: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ขอบเขตการศกษา•รห สต วอ กษร (Character Encoding)

•Metadata

•ร�ปแบบข�อความ (Formats)

•ภาษามาร�กอ ป (Markup Language)

2

Page 3: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

บทนำ�า• ในำบทนำ�� จะบรรยายเร"#องต วแทนำของข�อความ (Text Representation) • ในำคอมพ&วเตอร� ส&#งท�#เราเห'นำในำข�อความ ด งเช*นำในำรายงานำเล*มนำ�� ม�ต วอ กษรต*างๆ

ม�ค�าถามอย�*ว*าส&#งท�#เราเห'นำนำ �นำเป.นำเพ�ยงเบ"�องหนำ�าของข�อความ ส*วนำเบ"�องหล งของข�อความในำคอมพ&วเตอร�นำ��เป.นำอย*างไร...??

แต*ละต วอ กษรแทนำด�วยอะไร...??? ร�ปแบบของประโยควรรคตอนำ แต*ละหนำ�า แต*ละบท จะจ ดการอย*างเป.นำระบบได�

อย*างไร...???

ซ#งในำท�#นำ��รวมเร�ยกว*า ...

“ต วแทนำข�อความ”

3

Page 4: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

รห�สต�วอ�กษร•การเข�ารห สต วอ กษร หมายถงการก�าหนำดต วเลขเฉพาะให�ก บต ว

อ กษรของภาษาเพ"#อใช�งานำบนำคอมพ&วเตอร�•การเข�ารห สต วอ กษร อาจจะม�มากกว*า 1 ระบบ แต*ต�องเป.นำ

มาตรฐานำ ท �งนำ�� รห สท�#ก�าหนำดจะไม*ข�นำก บระบบคอมพ&วเตอร� ไม*ข�นำก บระบบปฏ&บ ต&การ รวามท �งไม*ข�นำอย�*ก บโปรแกรมประมวลผลท�#ใช�งานำ การก�าหนำดรห สเฉพาะท�#เป.นำมาตรฐานำจะเป.นำประโยชนำ�ในำการแลกเปล�#ยนำข�อม�ลระหว*างคอมพ&วเตอร�ด�วยก นำ

•ต วอย*างเช*นำASCII Tis-620

EBCDIC Unicode

4

Page 5: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ASCII อ*านำว*า แอส-ก��•ASCII ม�ใช�ในำระบบคอมพ&วเตอร� และเคร"#องม"อส"#อสารแบบด&จ&ท ล

ต*างๆ พ ฒนำาข�นำโดยคณะกรรมการ X3 ซ#งอย�*ภายใต�การด�แลของสถาบ นำมาตรฐานำแห*งชาต&อเมร&กา (American National Standard Institute : ANSI) ในำป9 ค.ศ. 1969 โดยเร&#มต�นำใช�คร �งแรกในำป9 ค.ศ. 1967 ซ#งม�อ กขระท �งหมด 128 ต ว (7 บ&ต) โดยจะม� 33 ต วท�#ไม*แสดงผล (unprintable/control character) ซ#งใช�ส�าหร บควบค:มการท�างานำของคอมพ&วเตอร�บางประการ เช*นำ การข�นำย*อหนำ�าใหม*ส�าหร บการพ&มพ� (CR & LF - carriage return and line feed) การส&�นำส:ดการประมวลผลข�อม�ลต วอ กษร (EOT - end of text)เป.นำต�นำ และ อ�ก 95 ต วท�#แสดงผลได� (printable character) 

5

Page 6: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ตาราง ASCII 7 บ&ท ท�#เป.นำมาตรฐานำ

6

Page 7: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ASCII

• ( American National Standard Institute ) ก�าหนำดมาตรฐานำของรห ส ASCII ออกเป.นำ 2 พวกใหญ* ๆ ตามล กษณะการใช�งานำค"อ

1. อ กขระท�#ท�าให�เก&ดข�อความท�#อ*านำเข�าใจได�เร�ยกว*า ต วอ กขระกราฟ=ก

( Graphic Character ) และ

2. อ กขระท�#ใช�ท�าให�เก&ดการควบค:ม เร�ยกว*าอ กขระควบค:ม ( Control Character )

7

Page 8: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

TIS-620

• เม"#อม�การใช�คอมพ&วเตอร�ก บข�อม�ลภาษาไทยในำย:คแรก ได�ม�ความส บสนำอย�*เป.นำประจ�าด�วยบร&ษ ทท�#จ�าหนำ*ายคอมพ&วเตอร�เหล*านำ �นำ ได�ก�าหนำดรห สเฉพาะของต วอ กษรภาษาไทย โดยอาศ ยต*อจากตาราง ASCII ท�#ม�ข�นำก*อนำหนำ�านำ �นำ อย*างเป.นำอ&สระต*อก นำ ท�าให�ขาดความเป.นำมาตรฐานำของรห สและไม*เป.นำท�#ยอมร บซ#งก นำและก นำ

• อย*างไรก'ตามท�ายท�#ส:ด ด�วยความร*วมม"อจากองค�กรต*าง ๆ และนำ กว&ชาการหลากหลายส�านำ กภายใต�การนำ�าของส�านำ กงานำมาตรฐานำอ:ตสาหกรรม หร"อ สมอ. (Thai Indrustial Standards Institute [TISI]) TIS-620 หร"อ มอก. 620 หร"อท�#เร�ยก ก นำท #วไปว*า รห ส สมอ. เป.นำมาตรฐานำของรห สต วอ กษร (Charset Code) ท�#ใช�บนำคอมพ&วเตอร� TIS-620 เป.นำรห สต วอ กษรท�#ต*อเพ&#มจากรห สต วอ กษรของ ISO-646

8

Page 9: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ตาราง TIS-620 ตามมาตรฐานำ สมอ.

TIS-620

x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF

0xไม*ได�ใช�

1x

2x SP ! " # $ % & ' ( ) * + , - . /

3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?

4x @ A B C D E F G H I J K L M N O

5x P Q R S T U V W X Y Z [ \ ] ^ _

6x ` a b c d e f g h i j k l m n o

7x p q r s t u v w x y z { | } ~

8xไม*ได�ใช�

9x

Ax   ก ข ฃ ค ฅ ฆ ง จ ฉ ช ซ ฌ ญ ฎ ฏ

Bx ฐ ฑ ฒ ณ ด ต ถ ท ธ นำ บ ป ผ ฝ พ ฟ

Cx ภ ม ย ร ฤ ล ฦ ว ศ ษ ส ห ฬ อ ฮ ฯ

Dx ะ   า �า  &  �    "  :  �  K         ฿

Ex เ แ โ ใ ไ ๅ ๆ  '  *  �  N  O  �  �  P ๏

Fx ๐ ๑ ๒ ๓ ๔ ๕ ๖ ๗ ๘ ๙ ๚ ๛        

9

Page 10: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

TIS-620

•ตาราง TIS-620 ก�าหนำดให�ต วอ กษร ก-ฮ รวม ฤ ฦ ด�วย อย�*ในำต�าแหนำ*ง A1-CE ต วอ กษรสระ ะ า วรรณย:กต�และอ"#นำๆ อย�*ในำต�#าแหนำ*ง D0-EE ท�#พ&เศษค"อ ต วอ กษร ฿ อ นำเป.นำส ญล กษณ�ของเง&นำบาทไทย ก�าหนำดอย�*ในำต�#าแหนำ*ง DF นำอกจากนำ��ต วเลข ๐-๙ ก'ก�าหนำดอย�*ในำต�#าแหนำ*ง F0-F9

• อย*างไรก'ตามแม�จะม�การก�าหนำดมาตรฐานำของรห สคอมพ&วเตอร�ท�#ใช�แทนำต วอ กษรไทยแล�ว แต*การล�าด บต วอ กษรในำเข�ยนำค�าในำภาษาไทยย งต�องเป.นำบรรท ดฐานำเด�ยวก นำ เพ"#อการจ ดเก'บในำคอมพ&วเตอร�เหม"อนำก นำ ม&ฉะนำ �นำ ก'จะค�นำหาไม*พบในำการส"บค�นำเพราะในำคอมพ&วเตอร� การล�าด บต วอ กษรท�#ต*างก นำ ต�องถ"อว*าเป.นำค�าท�#ต*างก นำ

10

Page 11: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

EBCDIC

• รห ส EBCDIC (อ*านำออกเส�ยงว*า eb-si-dik) ย*อมาจาก Extended Binary Coded Decimal Interchange Code  เป.นำการเข�ารห สของต วอ กษรภาษาอ งกฤษจากบร&ษ ท IBM และได�ใช�จ ดเก'บข�อม�ล ประมวลผลข�อม�ล และแสดงผลข�อม�ลบนำเคร"#องคอมพ&วเตอร� รห สชนำ&ดนำ��นำ&ยมใช�ก นำในำระบบคอมพ&วเตอร�ขนำาดใหญ* ๆ

• เม"#อคอมพ&วเตอร�ได�แพร*หลายมาส�*ประเทศไทยในำย:ค 60 IBM ก'เป.นำรายแรกท�#ประสบผลสส�าเร'จในำการนำ�าเข�า และม�การต&ดต �งเคร"#องคอมพ&วเตอร� Main-frame ในำหลายๆองค�กรเพ"#อการประมวลผล ท�#ส�าค ญได�แก* จ:ฬาลงกรณ�มหาว&ทยาล ย ส�านำ กงานำสถ&ต&แห*งชาต& เป.นำต�นำ และเคร"#องคอมพ&วเตอร� IBM ท:กว นำนำ��ย งเป.นำท�#นำ&ยมและนำ*าเช"#อถ"อในำวงการคอมพ&วเตอร�ในำประเทศ เม"#อม�การจ ดเก'บข�อม�ลภาษาไทยบนำเคร"#องคอมพ&วเตอร� IBM รวมท �งการประมวลผลและการแสดงผล บร&ษ ท IBM จงได�พ ฒนำารห ส EBCDIC ท�#รวมภาษาไทยเข�าไปด�วย

11

Page 12: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

EBCDIC

•แต*ด�วยรห ส EBCDIC ม�เพ�ยงเคร"#องคอมพ&วเตอร� IBM เท*านำ �นำท�#ใช�งานำ EBCDIC ท�#เต&มต วอ กษรไทย จงไม*ม�ปญหาอย*างเช*นำ ASCII ท�#เต&มต วอ กษรไทย เนำ"#องจากมากระบบของหลายหนำ*วยงานำจนำเก&นำไป

•รห ส EBCDIC จะแตกต*างจากรห ส ASCII ตรงท�# รห สASCII จะใช�ล�าด บของเลขฐานำสองโดยตรงส�าหร บแทนำล กษณะเฉพาะต*าง ๆ แต*รห ส EBCDIC จะใช�รห ส BCD เป.นำพ"�นำฐานำของการจ ดเลขฐานำสอง

12

Page 13: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ต�าแหนำ*งอ กขระไทยในำตารางรห ส EBCDIC

13

Page 14: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Unicode

• Unicode ค"อ มาตรฐานำอ:ตสาหกรรมท�#ช*วยให�คอมพ&วเตอร�แสดงผลและจ ดการข�อความต วอ กษรท�#ใช�ในำระบบการเข�ยนำของภาษาส*วนำใหญ*ในำโลกได�อย*างสอดคล�องก นำ ย�นำ&โคดประกอบด�วยรายการอ กขระท�#แสดงผลได�มากกว*า 100,000 ต ว พ ฒนำาต*อยอดมาจากมาตรฐานำช:ดอ กขระสากล (Universal Character Set: UCS)

• สาเหต:การพ ฒนำา เพราะ จ�านำวนำอ กขระท�#เข�ยนำเป.นำจ�านำวนำมากเก&นำกว*าท�#จะแทนำด�วย 1 byte ได� (ซ#งแทนำได�เพ�ยง 256 แบบของต วอ กขระ) อ�กท �งเม"#อม�การใช�รห สอ กขระท�#แตกต*างก นำ ก'จะม�ผลต*อการย�ายข�อม�ลข�ามภาษา เช*นำ รห สท�#แทนำต วอ กขระ ก ท�#ใช�ภาษาไทยจะไปตรงก บรห สต วอ กขระ ¡ ในำอ�กตารางหนำ#ง เป.นำต�นำ จงม�ความพยายามแก�ป^ญหาให�ม�รห สเด�ยวท�#ใช�ได�ก บอ กขระท:กภาษา ซ#งเป.นำท�#มาของการพ ฒนำารห ส Unicode ข�นำมาต �งแต*ป9ค.ศ.1991 (Unicode 1.0) โดยท�#รห สต วอ กขระ 256 ต วแรกนำ �นำจะเหม"อนำก บรห สของ ISO-8859

14

Page 15: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Unicode• Unicode Consortium เป.นำองค�กรไม*แสวงหาผลก�าไร เป.นำผ��ร บผ&ด

ชอบในำการพ ฒนำาย�นำ&โคด องค�กรนำ��ม�จ:ดม:*งหมายเก�#ยวก บการแทนำท�#การเข�ารห สอ กขระท�#ม�อย�*ด�วยย�นำ&โคดและมาตรฐานำร�ปแบบการแปลงย�นำ&โคด (Unicode Transformation Format: UTF)

• Unicode Standard ได�ม�การพ ฒนำาร*วมก บ ISO (International Standard Organization) ในำการก�าหนำดมาตรฐานำของการเข�ารห สต วอ กษรตาม ISO/IEC 10646

• Unicode chart มาตรฐานำในำการเข�ารห สของต วอ กษรในำภาษาต*างๆ ท #วโลก

• Unicode for Symbols and Punctuation รห สมาตรฐานำของต วอ กษรในำภาษามนำ:ษย�แล�วย งได�ก�าหนำดส ญล กษณ�ในำภาษาคณ&ตศาสตร� ภาษาดนำตร� ภาษาร�ปภาพ และอ"#นำๆด�วย

15

Page 16: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

 Metadata •  Metadata หมายถงข�อม�ลท�#ใช�อธ&บายค:ณล กษณะของทร พยากรสารสนำเทศ

ซ#งอาจเป.นำข�อความ เอกสาร หนำ งส"อ ร�ปแบบ ส"#อผสม หร"ออ"#นำๆได� Metadata ไม*ใช*เนำ"�อหาท�#กล*าวถงแต*เป.นำข�อม�ลท�#เก�#ยวก บข�อม�ล (Data about the Data) เช*นำหนำ งส"อเล*มนำ��เป.นำต�าราว*าด�วยเร"#องระบบจ ดเก'บและส"บค�นำสารสนำเทศด�วยคอมพ&วเตอร� ม�เนำ"�อหาสาระว*าด�วยโมเดลต*างๆ ของระบบการส"บค�นำ การสร�างดรรชนำ� ว&ธ�การส"บค�นำ ฯลฯ ในำบทนำ��จะอธ&บายถง

• Metadata Schema

• Dublin Core

• การจ ดเก'บ Metadata

• ประโยชนำ�ของ Metadata

16

Page 17: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Metadata Schema

•Metadata Schema หมายถงร�ปแบบของการกก�าก บข�อม�ลในำทร พยากรสารสนำเทศ อ นำประกอบด�วยค:ณล กษณะด งต*อไปนำ��

•Element จ�านำวนำหนำ#งท�#ไม*มากจนำเก&นำไป

•ช"#อของท:ก Element ท�#กล*าวถง •ความหมายของแต*ละ Element

17

Page 18: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Metadata Server จะประกอบไปด�วยคล งข�อม�ลของทร พยากรสารสนำเทศต*าง ๆ ต วอย*างของระเบ�ยนำหนำ#งของ Metadata Database เป.นำด งนำ��

Element Name Value

Title Information Storage and Retrieval

Author Supachai Tangwongsan

Date January 2008

Format Text/PDF

Language Thai

ท:กระเบ�ยนำของ Metadata ประกอบด�วยช"#อ Element ท�#ได�ก�าหนำดไว�ก*อนำ เพ"#อใช�แสดงล กษณะเฉพาะของทร พยากรสารสนำเทศ แต*ละ Element จะตามด�วยค*าของม นำ ท�#จะม�หนำ#งค*าหร"อหลาย ๆ ค*าก'ได� ข�นำอย�*ก บชนำ&ดของ Element

ท:กระเบ�ยนำของ Metadata ประกอบด�วยช"#อ Element ท�#ได�ก�าหนำด ไว�ก*อนำ เพ"#อใช�แสดงล กษณะเฉพาะของทร พยากรสารสนำเทศ แต*ละ

Element จะตามด�วยค*าของม นำ ท�#จะม�หนำ#งค*าหร"อหลาย ๆ ค*าก'ได� ข�นำอย�*ก บชนำ&ดของ Element

18

Page 19: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Dublin Core

•Dublin Core เป.นำ Metadata Schema ท�#ส�าค ญส�าหร บงานำเอกสารอ&เล'กทรอนำ&กส�การก�าเนำ&ด Dublin Core ได�จากการประช:มว&ชาการ โดยกล:*ม OCLC (On-line Computer Library Center) ร*วมก บ NCSA (National Center for Supercomputing Applications) ของประเทศวหร ฐอเมร&กา เม"#อเด"อนำม�นำาคม 1995 ท�# Dublin ร ฐ Ohio ของประเทศสหร ฐอเมร&กา

19

Page 20: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

15 Element ในำ Dublin Core จ ดเป.นำ 3 กล:*มประเภทContent & about the Resource

Intellectual Property

Electronic or Physical Manifestation

Title SubjectDescriptionSourceLanguageRelationCoverage

Author/CreatorPublisherContributorrights

DateTypeFormatIdentifier

กล:*มแรกเป.นำเร"#องของเนำ"�อหาและเก�#ยวก บทร พยากรสารสนำเทศ กล:*มท�#สองเป.นำเร"#อง ของทร พย�ส&นำทางปญญา และกล:*มท�#สามเป.นำเร"#องของข�อม�ลท�#เป=ดเผยทางกายภาพ

หร"ออ&เล'กทรอนำ&กส�

20

Page 21: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

การจ�ดเก�บ Metadata

•การจ ดเก'บ Metadata สามารถนำ�าไปใช�ในำร�ปแบบต*างๆ ด�วยการจ ดเก'บในำหลายล กษณะได�ด งนำ��

• ฝงต ว Metadata ในำหนำ�าเว'บด�วย META Tag•แยกต วเอกสาร HTML โดยม�ต วเช"#อมไปย งทร พยากร

สารสนำเทศท�#กล*าวถง•จ ดเก'บในำฐานำข�อม�ลท�#เช"#อมไปย งทร พยากรสารสนำเทศ ต ว

ระเบ�ยนำอาจได�จากการสร�างข�นำโดยตรงในำฐานำข�อม�ล หร"อได�จากการดงข�อม�ลมาใช�บนำหนำ�าเว'บ

21

Page 22: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ประโยชน�ของ Metadata• Resource Discovery หมายถงช*วยในำการส"บค�นำ ส"บเสาะทร พยากร

สารสนำเทศบนำเคร"อข*าย Internet เป.นำไปอย*างง*ายและสะดวก ผลท�#ได�ม�ความส มพ นำธ�สอดาคล�องก บค�าสอบถามแทนำท�#จะได�ค�าตอบมากหลายแต*ก�เป_นำขยะเส�ยมาก

• Interoperabilityใช�ประโยชนำ�ในำการแลกเปล�#ยนำข�อม�ลระหว*างก นำ ด�วยความท�#ม�มาตรฐานำไม*ข�นำอย�*ก บชนำ&ด ย�#ห�อ และระบบปฎ&บ ต&การใดๆ ของเคร"#องคอมพ&วเตอร� ท�าให�สามารถส"บค�นำข�ามระบบก นำได� และใช�ทร พยากรร*วมก นำได�

• Digital Identificationใช�ประโยชนำ�ในำการระบ:ต วตนำของทร พยากรสารสนำเทศท�#กล*าวถง อ นำจะสามารถบอกถงชนำ&ด ประเภท ข�อม�ลทางกายภาพ ทร พย�ส&นำทางปญญา ท�าให�ผลการส"บค�นำม�ความเก�ยวพ นำธ�ท�#เป.นำการเฉพาะส�ง

• Archiving and Preservation ใช�ประโยชนำ�ในำการจ ดเก'บและร กษาเอกสารทางประว ต&ศาสตร�ในำร�ปแบบด&จ&ตอล

22

Page 23: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ร�ปแบบของข�อความ (Formats) • Formats หมายถง ร�ปแบบของข�อความในำเอกสาร ซ#งม�การจ ดเก'บในำ

หลากหลายร�ปแบบตามว ตถ:ประสงค�ต*างๆ ต วอย*างก'ค"อ ต�นำฉบ บของข�อความในำรายงานำเล*มนำ�� ม�ร�ปแบบการจ ดเป.นำ Word file โดยแหล*งม�การเตร�ยมข�อม�ลจากโปรแกรมต*างๆ เช*นำ Microsolf Word เป.นำต�นำ เม"#อได�จ ดร�ปแบบ จ ดบท จ ดหนำ�า จ ดบรรท ด ต วอ กษรใหญ*เล'ก ต วอ กษรหนำาหร"อต วอ กษรบาง ต วตรง ต วเอ�ยง เป.นำท�#เร�ยบร�อยและเป.นำระบบ

• ร�ปแบบข�อความ อาท&เช*นำ• LaTeX• Word Processing• RTF• PDF• PS

23

Page 24: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

LaTeX

•LaTeX เป.นำภาษามาร�กอ ปส�าหร บเอกสาร (document Markup Language) และโปรแกรมเตร�ยมอกสารส�าหร บสร�างเอกสารแบบม�โครงสร�างโดยอาศ ย TeX เป.นำต วเร�ยงพ&มพ� TeX เป.นำโปรแกรมจ ดเร�ยงพ&มพ�เอกสารทางว&ทยาศาสตร�และคณ&ตศาสตร� ซ#งแวดวงว&ทยาศาสตร�และคณ&ตศาสตร�ใช�ก นำอย*างแพร*หลาย เนำ"#องจากให�ค:ณภาพและการเร�ยงพ&มพ�ส�ง เอกสารท�#แสดงผลม�ความสวยงามนำ*าอ*านำ นำอกจากนำ��ย งสามารถนำ�าไปใช�งานำบนำ Internet เพ"#ออ�านำวยความสะดวกในำการแสดงสมการทางว&ทยาศาสตร�และคณ&ตศาสตร�บนำเว'บไซต�ต*าง ๆ ได�อ�กด�วย

24

Page 25: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ความเป�นมา• ในำป9 1978 ศาสตราจารย� Donald E. Knuth ท�#

มหาว&ทยาล ย Stanford ได�สร�างโปรแกรมเร�ยงพ&มพ� (Typesetter) โดยม�ว ตถ:ประสงค�เพ"#อให�เป.นำโปรแกรมเร�ยงพ&มพ�ระด บค:รภาพส�งเท�ยบเท*าการเร�ยงพ&มพ�หนำ งส"อตามแบบฉบ บ โดยเฉพาะการเร�ยงพ&มพ�สมการทางคณ&ตศาสตร� นำอกจากนำ��ย งม�ความสามารถในำการเร�ยงพ&มพ�สมการทางว&ทยาศาสตร� เช*นำ สมการเคม� ได�เป.นำอย*างด�

• LaTeX ซ#งพ ฒนำาโดย Leslie Lamport ในำป� 1980 ท�# SRI International เป.นำแมคโครส�าหร บสร�างเอกสารแบบม�โครงสร�างโดยอาศ ย TeX เป.นำต วเร�ยงพ&มพ� LaTeX

25

Page 26: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างของเอกสาร1. Preamble เป.นำส*วนำห วก*อนำเร&#มเนำ"�อหาเอกสาร ใช�ในำการระบ:ชนำ&ดของเอกสาร

และ Package ท�#ใช�และ ใช�ปร บแต*งร�ปหนำ�าของเอกสารต*างๆ 2. Top Matter เป.นำส*วนำท�#ใช�แสดงข�อม�ลเอกสาร ได�แก* ช"#อเร"#อง (Title), ว นำท�#

สร�างเอกสาร (Date),ช"#อผ:�แต*ง (Authors) และอ"#นำๆ3. Abstract เป.นำส*วนำท�#ใช�ในำการแสดงบทค ดย*อ ซ#งเป.นำองค�ประกอบหล กของ

บทความว&จ ยส*วนำใหญ*4. Sectioning Commands เป.นำค�าส #งในำการก�าหนำดห วข�อในำเอกสาร เหมาะ

ส�าหร บ Document Class Book แต*ไม*ม�ในำ Article5. Section Numbering เป.นำส*วนำท�#ใช�ในำการก�าหนำดห วข�อและห วข�อย*อยในำ

เอกสาร6. Ordinary Paragraphs เป.นำส*วนำท�#ใช�ในำการก�าหนำดช*องว*างระหว*างแต*ละ

ย*อหนำ�าในำเอกสาร โดยใช�ค�าส #ง \setlength ซ#งจะถ�กก�าหนำดในำส*วนำของ Preamble

7. Table of Contents ห วข�อต*างๆ จะถ:กนำ�ามาสร�างเป.นำสารบ ญโดยอ ตโนำม ต&

26

Page 27: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Word Processing

•Word Processing (โปรแกรมประมวลผลค�า) เป.นำโปรแกรมคอมพ&วเตอร� ท�#ใช�ส�าหร บ การพ&มพ�เอกสาร สามารถแก�ไข เพ&#ม แทรก ลบ และจ ดร�ปแบบเอกสาร เอกสารท�# พ&มพ�ไว� จ ดเป.นำ แฟ_มข�อม�ล เร�ยกมา พ&มพ�หร"อ แก�ไข ใหม*ได� การพ&มพ� ออกทาง เคร"#องพ&มพ� ก'ม�ร�ปแบบ ต วอ กษร ให�เล"อกหลาย ร�ปแบบ เอกสารจงด �เร�ยบร�อย สวยงาม นำอกจากนำ�� ย งสามารถแปลงแฟ_มเอกสารให�เป.นำ file ประเภทอ"#นำๆได� เช*นำ PDF file เป.นำต�นำ

27

Page 28: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างภายใน1. Main Stream ประกอบด�วยส*วนำห วในำช"#อ, ข�อความ และร�ปแบบ 2. FIB เป.นำส*วนำท�#เร&#มต�นำเอกสาร ซ#งจะเก'บในำหนำ�า 0 ของไฟล�3. Text เป.นำข�อความท �งในำส*วนำหล ก (Body) ส #งเกตส*วนำล*าง (footnotes) และห ว

เร"#องต*างๆ (Headers)4. Formatted Information ได�แก* ร�ปแบบ ส�าหร บ Character Properties

และ List level Cache 5. Summary Information Stream ในำรายละเอ�ยด จ ดเก'บในำส*วนำของ

SummaryInformation และ DocumentSummary Information6. Table Stream ในำเอกสารร Word จะเก'บตาราง เป.นำ Steam ท�#ม�ช"#อว*า

‘0Table’ หร"อ‘1Table’ โดยท #วไปแฟ_มข�อม�ลจะม�เพ�ยงตารางเด�ยว แต*ท�#ต�องม� 2 ตารางก'ใช�ในำกรณ�ท�#ไม*ปกต& เช*นำ แฟ_มข�อม�ลถ�กท�าลายเวลา Save

7. Data Stream ประกอบด�วยส&#งท�#ฝ# งต ว ในำเอกสารและร�ปภาพ ต*าง ๆ ซ#งเป.นำข�อม�ลมากมายท�#อ�างอ&งไปย ง Main Stream

8. Custom XML Storage เป.นำส*วนำท�#เพ&#มเตอมเฉพาะเอกสารท�#สร�างด�วย Word 2007 เพ"#อระบ:ส*วนำของ Customer XML ต*างๆ ท�#ม�อย�*ภายในำ Binary Format ซ#งอาจจะม�หร"อไม*ม�ก'ได� ถ�าม� ในำแต*ละส*วนำจะถ�กเก'บแยกก นำและถ�กก�าก บด�วยช"#อเฉพาะ Customer XML Storage จงประกอบไปด�วย 2 Stream ได�แก* item และ properties

9. Object Stream อ"#นำๆ ซ#งอาจจะประกอบไปด�วยข�อม�ลไบนำาร�ส�าหร บ Embedded Objects ของ OLE 2.0 ท�#อย�*ภายในำเอกสาร โดย Word จะไม*ม�องค�ความร� �เก�#ยวก บเนำ"�อหาของ Stream นำ�� หากไม*ม�ในำส*วนำนำ��ก'จะม�ค*าเป.นำศ�นำย�

28

Page 29: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

RTF

•Rich Text Fomat (RTF) เป.นำร�ปแบบไฟล�อกสารท�#พ ฒนำาโดย Microsoft ในำป9 1987 เพ"#อใช�ในำการแลกเปล�#ยนำเอกสารข�ามระบบปฏ&บ ต&การท�#ต*างก นำ โดยโปรแกรมประมวลผลค�าส*วนำใหญ*จะสามารถอ*านำและเข�ยนำเอกสาร RTF ได� มาตรฐานำของ RTF ก�าหนำดโดย Microsoft นำ บแต*เร&#มจนำถงปจจ:บ นำ โดยมาตรฐานำร: *นำ 1.9 ได�ม�การก�าหนำดในำเด"อนำมกราคม 2009

29

Page 30: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างภายใน RTF ประกอบไปด�วย 4 ส#วนได�แก# 1. RTF Prodog เป.นำส*วนำท�#ก�าหนำดข�อม�ลท�#ส�าค ยของ

เอกสาร ได�แก*ร: *นำของ RTF ประเภทและร�ปแบบอ กษร โดยเร&#มต�นำด�วย { และตามด�วยข�อม�ลต*างๆ ด งต วอย*าง

2. RTF Document Formatting Commands เป.นำ Option ท�#ใช�ส�าหร บก�าหนำดร�ปแบบของท �งเอกสาร จงจะถ�กก�าหนำดต*อจาก RTF Prodog

3. RTF Document Content เป.นำส*วนำของ Plaintext, Commands และ Escape พ"�นำฐานำในำย*อหนำ�าต*างๆ

4. RTF Conclusion เป.นำส*วนำป=ดท�ายของเอกสาร ซ#งจะต�องป=ดท�ายด�วย } และท�าการป=ดไฟล� 

30

Page 31: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Portable Document Format (PDF)

•PDF ค"อร�ปแบบแฟ_มล กษณะหนำ#งท�#พ ฒนำาโดยบร&ษ ท Adobe Systems ในำป9 1993 ส�าหร บการแสดงเอกสาร ท�#สามารถใช�งานำได�ในำท:กระบบปฏ&บ ต&การ และย งคงล กษณะเอกสารเหม"อนำต�นำฉบ บ เอกสารในำร�ปแบบ PDF สามารถจ ดเก'บ ต วอ กษร ร�ปภาพ ร�ปลายเส�นำ ในำล กษณะเป.นำหนำ�าหนำ งส"อ ต �งแต* หนำ#งหนำ�า หร"อหลายพ นำหนำ�าได�ในำแฟ_มเด�ยวก นำ PDF เป.นำมาตรฐานำท�#เป=ดให�คนำอ"#นำสามารถเข�ยนำโปรแกรมมา ท�างานำร*วมก บ PDF ได�

31

Page 32: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างของไฟล� PDF ประกอบด�วย 4 ส#วนหล�ก

1. Hearder อย�*ในำบรรท ดแรกของไฟล� PDF เป.นำส*วนำท�#ก�าหนำดร: *นำของ PDF

2. Body ประกอบด�วย Object ต*างๆ ซ#งบรรจ:เนำ"�อหาของเอกสารไว� Object ม�หลากหลายประเภท อาท&เช*นำ ข�อความ ร�ปภาพ ต วพ&มพ� ค�าอธ&บายประกอบ และอ"#นำๆ นำอกจากนำ��ย งประกอบด�วยข�อม�ลท�#ไม*สามารถแสดงผลได� เช*นำ Security, Logical Structure เป.นำต�นำ

3. Cross-refferance Table ประกอบด�วย Offset ของท:กๆ Object

4. Trailer เป.นำส*วนำป=ดท�ายไฟล� PDF ช*วยให�สามารถเข�าถง Cross-referance Table ได�อย*างรวดเร'ว เนำ"#องจากในำส*วนำนำ��จะเก'บค*า startxref และค*า Byte Offset จากจ:ดเร&#มต�นำไฟล�จนำกระท #งถงค�าว*า xref และโปรแกรมประย:กต�จะอ*านำไฟล� PDF เร&#มจากจ:ดส&�นำส:ดของไฟล� (End-of-line Marker)

Header

Body

‘xref’Table

Trailer

32

Page 33: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

PostScript (PS)

•PostScript (PS) เป.นำภาษาในำการจ ดหนำ�า (Page Description Language) และภาษาการเข�ยนำโปรแกรม (Programming Language) ของ Adobe Systems โดยได�นำ�ามาใช�ในำคร �งแรกในำการจ ดพ&มพ�เอกสารอ&เล'กทรอนำ&กส�ด�วยคอมพ&วเตอร�ท�#ช"#อว*า Destop Publishing

33

Page 34: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างภายในำของเอกสาร PostScript•ประกอบด�วย 5 ส*วนำ 1. Header เป.นำส*วนำท�#เร&#มต�นำของไฟล� PostScript ซ#งใช�

ก�าหนำดข�อม�ลส�าค ญของเอกสาร PostScript 2. Procedure Definition ใช�ในำการก�าหนำดข �นำตอนำต*างๆ

ท�#ใช�ในำเอกสาร PostScript ซ#งเข�ยนำเป.นำภาษา Prolog 3. Document Setup เป.นำส*วนำท�#ใช�ในำการก�าหนำดค*าเร&#มต�นำ

ต*างๆ ให�ก บเอกสาร 4. Pages เป.นำส*วนำก�าหนำดหนำ�าของเอกสาร โดยแต*ละหนำ�า

ของเอกสารจะแยกออกจากก นำโดยช ดเจนำ5. Document Trailer เป.นำส*วนำป=ดท�ายไฟล� PostScript

34

Page 35: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ภาษามาร�กอ ป(Markup Language)• ภาษามาร�กอ ป เป.นำภาษาคอมพ&วเตอร� ประภเทหนำ#งท�#ใช�เข�ยนำข�อความ

เพ&#มเต&มจากข�อความเด&ม โดยม�กฎกต&กาอย*างเป.นำระบบ เพ"#อใช�เป.นำประโยชนำ�ในำการอธ&บายข�อความนำ �นำ ในำเร"#องโครงสร�าง ร�ปแบบ การประมวลผล ตลอดจนำการแสดงผล ภาษามาร�กอ ปม�การใช�มาเป.นำเวลายาวนำานำ โดยเฉพาะการจ ดร�ปแบบการพ&มพ�ด�วยคอมพ&วเตอร� และการใช�โปรแกรมการประมวลผลค�า (Word Processor) เป.นำต�นำ ภาษามาร�กอ ปในำปจจ:บ นำม�มากมาย ในำท�#นำ��จะกล*าวถงเฉพาะภาษามาร�กอ ปท�#ส�าค ญและเป.นำท�#นำ&ยมใช�ก นำอย*างแพร*หลายในำปจจ:บ นำ อ นำได�แก*

SGML (Standardized Markup Language)

Hypertext Markup Language( HTML)

Extensible Markup Language (XML)

35

Page 36: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

SGML (Standardized Markup Language)

•SGML เป.นำภาษาต�นำแบบของภาษาก�าก บข�อความในำเอกสารท�#ม�มาตรฐานำการก�าก บจะเป.นำการก�าก บต วป_ายก�าก บ หร"อเร�ยกโดยท #วไปว*า Teg อย*างม�ความหมาย พ ฒนำามาในำป9 ค.ศ. 1986 เนำ"#องจากปญหาในำการแลกเปล�#ยนำเอกสารข�อม�ลระหว*างก นำในำระบบเคร"อข*ายอ&นำเทอร�เนำ'ตย:คแรกๆ จงม�นำ กว&จ ยกล:*มหนำ#ง พ ฒนำาเคร"#องม"อในำการแลกเปล�#ยนำข�อม�ลระหว*างก นำ ซ#งค:ณสมบ ต&เบ"�องต�นำของเคร"#องม"อด งกล*าว ค"อ ต�องย"ดหย:*นำ สามารถรองร บข�อม�ลร�ปแบบแปลกๆ ในำอนำาคตได� ใช�ได�ท #วโลก และในำคอมพ&วเตอร�ท:กร�ปแบบ จากข�อก�าหนำดด งกล*าว จงเก&ดภาษา SGML ม�การเก'บข�อม�ลในำร�ปรห ส ASCII เพราะคอมพ&วเตอร�ท #วไปสามารถอ*านำข�อม�ลล กษณะนำ��ได�เหม"อนำๆ ก นำ

36

Page 37: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

SGML ม�ล กษณะเฉพาะ 3 อย*างท�#แตกต*างจากภาษามาร�กอ ปอ"#นำ กล*าวค"อ

1 .เป.นำการก�าก บด�วยป_ายอธ&บาย (Description Markup) ไม*ใช*ด�วยว&ธ�การ (Procedural Markup)

2. เป.นำการก�าหนำดประเภทของเอกสาร (DTD) และ

3. เป.นำความอ&สระของข�อม�ล (Data Independence) ท�#ไม*ข�นำก บชนำ&ดของเคร"#องคอมพ&วเตอร�และโปรแกรมค�าส #ง

37

Page 38: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างของเอกสาร SGML•SGML ประกอบด�วยส*วนำต*างๆ ด งนำ��1 .ส*วนำประกาศ SGML เป.นำส*วนำท�#ระบ:ค:ณสมบ ต&ของ SGML2. Element เป.นำส*วนำท�#แสดงล กษณะโครงสร�างของเอกสาร

โดยแต*ละ Element จะประกอบด�วยป_ายก�าก บ (Tag) โดยช"#อของ Element อาจจะไม*แสดงความหมายของ Element นำ �นำๆ

3. Attribute ใช�ส�าหร บอธ&บายข�อม�ล ซ#งจะอย�*ในำเคร"#องหมาย < >

4. Entity อาจเป.นำสายต วอ กษร หร"อแฟ_มข�อความท�#นำ�ามารวมอย�*ในำเอกสาร

38

Page 39: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

HTML หร"อ Hypertext Markup Language

•HTML (เอชท�เอ'มแอล) เร&#มพ ฒนำาโดย ท&ม เบอร�เนำอรส� ล� (Tim Berners Lee) ในำปจจ:บ นำ HTML  เป.นำมาตรฐานำหนำ#งของ ISO ซ#งจ ดการโดย World Wide Web Consortium (W3C)

•HTML  เป.นำภาษามาร�กอ ปหล กในำปจจ:บ นำท�#ใช�ในำการสร�างเว'บเพจ หร"อข�อม�ลอ"#นำ  ท�#เร�ยกด�ผ*านำทางเว'บเบราว�เซอร�ซ#งต วโค�ดจะแสดงโครงสร�างของข�อม�ล ในำการแสดง ห วข�อ ล&งก�  ย*อหนำ�า รายการ รวมถงการสร�างแบบฟอร�ม เช"#อมโยงภาพ หร"อว&ด�โอด�วยโครงสร�างของโค�ด HTML  จะอย�*ในำล กษณะภายในำวงเล'บสามเหล�#ยม (< >) หร"อเร�ยกว*า Tag (แท'ก)

39

Page 40: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างเอกสาร HTML

ไฟล�เอกสาร HTML ประกอบด�วยส*วนำประกอบสองส*วนำค"อ Head ก บ Body  1. (Head Section) เป.นำส*วนำท�#ใช�อธ&บายเก�#ยวก บข�อม�ลเฉพาะของหนำ�าเว'บนำ �นำๆ เช*นำ ช"#อเร"#องของหนำ�าเว'บ (Title), ช"#อผ��จ ดท�าเว'บ (Author), ค�ย�เว&ร �ดส�าหร บการค�นำหา (Keyword) 2. Body Section เป.นำส*วนำเนำ"�อหาหล กของหนำ�าเว'บ ซ#งการแสดงผลจะต�องใช� Tag จ�านำวนำมาก ข�นำอย�*ก บล กษณะของข�อม�ล เช*นำ ข�อความ, ร�ปภาพ, เส�ยง, ว�ด&โอ หร"อไฟล�ต*างๆ 

40

Page 41: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Extensible Markup Language (XML)•XML ย*อมาจาก Extensible Markup

Language ซ#งเป.นำภาษามาร�กอ ปส�าหร บการใช�งานำท #วไป พ ฒนำาโดยW3C โดยม�จ:ดประสงค�เพ"#อใช�ในำการต&ดต*อก นำในำระบบท�#ม�ความแตกต*างก นำ(เช*นำใช�คอมพ&วเตอร�ม�#ม�ระบบปฏ&บ ต&การคนำละต ว หร"ออาจจะเป.นำคนำละโปรแกรมประย:กต�ท�#ม�ความต�องการส"#อสารข�อม�ลถงก นำ)นำอกจากนำ��ย งเพ"#อเป.นำพ"�นำฐานำในำการสร�างภาษามาร�กอ ปเฉพาะทางอ�กข �นำหนำ#ง XML พ ฒนำามาจาก SGML โดยด ดแปลงให�ม�ความซ บซ�อนำลดนำ�อยลง XML ใช�ในำแลกเปล�#ยนำข�อม�ลระหว*างเคร"#องคอมพ&วเตอร�ท�#แตกต*างก นำ และเนำ�นำการแลกเปล�#ยนำข�อม�ลผ*านำอ&นำเทอร�เนำ'ต

41

Page 42: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

ร'ปแบบโครงสร�างของเอกสาร• เอกสาร XML แบ*งออกเป.นำ 2 ประเภท ด งนำ��Well-formed XML Document เป.นำเอกสาร XML ท�#ใช�

กฎกต&กา (Syntax) ของ XML อย*างถ�กต�องตามมาตรฐานำท:กประการ เอกสารท�#ไม* Well-formed ไม*ถ"อว*าเป.นำ XML

Vaild XML Document เป.นำเอกสาร XML ท�# Well-formed และใช� Tag ท�#ก�าหนำดเฉพาะในำ Schema ท�#ตกลงก นำไว�เท*านำ �นำ ปจจ:บ นำ Schema ท�#นำ&ยมใช�ก นำท #วไป ม� 3ประเภท ด งต*อไปนำ��

1. Document Type Definition (DTD)2. XML Schema3. RELAXNG

42

Page 43: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

โครงสร�างของเอกสาร XML

• โครงสร�างของ XML ประกอบด�วย 2 ส*วนำหล ก ค"อ•Prolog ส*วนำประกาศ XML ส�าหร บเอกสาร XML ใดๆ

อาจม�ส*วนำประกาศ (XML Declaration) เพ"#อบอกเวอร�ช นำของ XML และล กษณะการ Encoding ต วอ กษรท�#ใช�โดย XML สนำ บสนำ:นำ Unicode Encoding

•Document Element XML ใดๆ จะประกอบด�วยโครงสร�างท�#ถ�กก�าหนำดเป.นำล�าด บช �นำ ซ#งจะม�หนำ#ง Root Element เสมอ

43

Page 44: Chapter 6 Text  Representation ( ตัวแทนข้อความ)

Questions/Answers

•Thank you

44