Chapter 6 Text Representation (ตตตตตตตตตตตตต) 1
Jan 03, 2016
Chapter 6
Text Representation
(ต�วแทนข�อความ)
1
ขอบเขตการศกษา•รห สต วอ กษร (Character Encoding)
•Metadata
•ร�ปแบบข�อความ (Formats)
•ภาษามาร�กอ ป (Markup Language)
2
บทนำ�า• ในำบทนำ�� จะบรรยายเร"#องต วแทนำของข�อความ (Text Representation) • ในำคอมพ&วเตอร� ส&#งท�#เราเห'นำในำข�อความ ด งเช*นำในำรายงานำเล*มนำ�� ม�ต วอ กษรต*างๆ
ม�ค�าถามอย�*ว*าส&#งท�#เราเห'นำนำ �นำเป.นำเพ�ยงเบ"�องหนำ�าของข�อความ ส*วนำเบ"�องหล งของข�อความในำคอมพ&วเตอร�นำ��เป.นำอย*างไร...??
แต*ละต วอ กษรแทนำด�วยอะไร...??? ร�ปแบบของประโยควรรคตอนำ แต*ละหนำ�า แต*ละบท จะจ ดการอย*างเป.นำระบบได�
อย*างไร...???
ซ#งในำท�#นำ��รวมเร�ยกว*า ...
“ต วแทนำข�อความ”
3
รห�สต�วอ�กษร•การเข�ารห สต วอ กษร หมายถงการก�าหนำดต วเลขเฉพาะให�ก บต ว
อ กษรของภาษาเพ"#อใช�งานำบนำคอมพ&วเตอร�•การเข�ารห สต วอ กษร อาจจะม�มากกว*า 1 ระบบ แต*ต�องเป.นำ
มาตรฐานำ ท �งนำ�� รห สท�#ก�าหนำดจะไม*ข�นำก บระบบคอมพ&วเตอร� ไม*ข�นำก บระบบปฏ&บ ต&การ รวามท �งไม*ข�นำอย�*ก บโปรแกรมประมวลผลท�#ใช�งานำ การก�าหนำดรห สเฉพาะท�#เป.นำมาตรฐานำจะเป.นำประโยชนำ�ในำการแลกเปล�#ยนำข�อม�ลระหว*างคอมพ&วเตอร�ด�วยก นำ
•ต วอย*างเช*นำASCII Tis-620
EBCDIC Unicode
4
ASCII อ*านำว*า แอส-ก��•ASCII ม�ใช�ในำระบบคอมพ&วเตอร� และเคร"#องม"อส"#อสารแบบด&จ&ท ล
ต*างๆ พ ฒนำาข�นำโดยคณะกรรมการ X3 ซ#งอย�*ภายใต�การด�แลของสถาบ นำมาตรฐานำแห*งชาต&อเมร&กา (American National Standard Institute : ANSI) ในำป9 ค.ศ. 1969 โดยเร&#มต�นำใช�คร �งแรกในำป9 ค.ศ. 1967 ซ#งม�อ กขระท �งหมด 128 ต ว (7 บ&ต) โดยจะม� 33 ต วท�#ไม*แสดงผล (unprintable/control character) ซ#งใช�ส�าหร บควบค:มการท�างานำของคอมพ&วเตอร�บางประการ เช*นำ การข�นำย*อหนำ�าใหม*ส�าหร บการพ&มพ� (CR & LF - carriage return and line feed) การส&�นำส:ดการประมวลผลข�อม�ลต วอ กษร (EOT - end of text)เป.นำต�นำ และ อ�ก 95 ต วท�#แสดงผลได� (printable character)
5
ASCII
• ( American National Standard Institute ) ก�าหนำดมาตรฐานำของรห ส ASCII ออกเป.นำ 2 พวกใหญ* ๆ ตามล กษณะการใช�งานำค"อ
1. อ กขระท�#ท�าให�เก&ดข�อความท�#อ*านำเข�าใจได�เร�ยกว*า ต วอ กขระกราฟ=ก
( Graphic Character ) และ
2. อ กขระท�#ใช�ท�าให�เก&ดการควบค:ม เร�ยกว*าอ กขระควบค:ม ( Control Character )
7
TIS-620
• เม"#อม�การใช�คอมพ&วเตอร�ก บข�อม�ลภาษาไทยในำย:คแรก ได�ม�ความส บสนำอย�*เป.นำประจ�าด�วยบร&ษ ทท�#จ�าหนำ*ายคอมพ&วเตอร�เหล*านำ �นำ ได�ก�าหนำดรห สเฉพาะของต วอ กษรภาษาไทย โดยอาศ ยต*อจากตาราง ASCII ท�#ม�ข�นำก*อนำหนำ�านำ �นำ อย*างเป.นำอ&สระต*อก นำ ท�าให�ขาดความเป.นำมาตรฐานำของรห สและไม*เป.นำท�#ยอมร บซ#งก นำและก นำ
• อย*างไรก'ตามท�ายท�#ส:ด ด�วยความร*วมม"อจากองค�กรต*าง ๆ และนำ กว&ชาการหลากหลายส�านำ กภายใต�การนำ�าของส�านำ กงานำมาตรฐานำอ:ตสาหกรรม หร"อ สมอ. (Thai Indrustial Standards Institute [TISI]) TIS-620 หร"อ มอก. 620 หร"อท�#เร�ยก ก นำท #วไปว*า รห ส สมอ. เป.นำมาตรฐานำของรห สต วอ กษร (Charset Code) ท�#ใช�บนำคอมพ&วเตอร� TIS-620 เป.นำรห สต วอ กษรท�#ต*อเพ&#มจากรห สต วอ กษรของ ISO-646
8
ตาราง TIS-620 ตามมาตรฐานำ สมอ.
TIS-620
x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF
0xไม*ได�ใช�
1x
2x SP ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D E F G H I J K L M N O
5x P Q R S T U V W X Y Z [ \ ] ^ _
6x ` a b c d e f g h i j k l m n o
7x p q r s t u v w x y z { | } ~
8xไม*ได�ใช�
9x
Ax ก ข ฃ ค ฅ ฆ ง จ ฉ ช ซ ฌ ญ ฎ ฏ
Bx ฐ ฑ ฒ ณ ด ต ถ ท ธ นำ บ ป ผ ฝ พ ฟ
Cx ภ ม ย ร ฤ ล ฦ ว ศ ษ ส ห ฬ อ ฮ ฯ
Dx ะ า �า & � " : � K ฿
Ex เ แ โ ใ ไ ๅ ๆ ' * � N O � � P ๏
Fx ๐ ๑ ๒ ๓ ๔ ๕ ๖ ๗ ๘ ๙ ๚ ๛
9
TIS-620
•ตาราง TIS-620 ก�าหนำดให�ต วอ กษร ก-ฮ รวม ฤ ฦ ด�วย อย�*ในำต�าแหนำ*ง A1-CE ต วอ กษรสระ ะ า วรรณย:กต�และอ"#นำๆ อย�*ในำต�#าแหนำ*ง D0-EE ท�#พ&เศษค"อ ต วอ กษร ฿ อ นำเป.นำส ญล กษณ�ของเง&นำบาทไทย ก�าหนำดอย�*ในำต�#าแหนำ*ง DF นำอกจากนำ��ต วเลข ๐-๙ ก'ก�าหนำดอย�*ในำต�#าแหนำ*ง F0-F9
• อย*างไรก'ตามแม�จะม�การก�าหนำดมาตรฐานำของรห สคอมพ&วเตอร�ท�#ใช�แทนำต วอ กษรไทยแล�ว แต*การล�าด บต วอ กษรในำเข�ยนำค�าในำภาษาไทยย งต�องเป.นำบรรท ดฐานำเด�ยวก นำ เพ"#อการจ ดเก'บในำคอมพ&วเตอร�เหม"อนำก นำ ม&ฉะนำ �นำ ก'จะค�นำหาไม*พบในำการส"บค�นำเพราะในำคอมพ&วเตอร� การล�าด บต วอ กษรท�#ต*างก นำ ต�องถ"อว*าเป.นำค�าท�#ต*างก นำ
10
EBCDIC
• รห ส EBCDIC (อ*านำออกเส�ยงว*า eb-si-dik) ย*อมาจาก Extended Binary Coded Decimal Interchange Code เป.นำการเข�ารห สของต วอ กษรภาษาอ งกฤษจากบร&ษ ท IBM และได�ใช�จ ดเก'บข�อม�ล ประมวลผลข�อม�ล และแสดงผลข�อม�ลบนำเคร"#องคอมพ&วเตอร� รห สชนำ&ดนำ��นำ&ยมใช�ก นำในำระบบคอมพ&วเตอร�ขนำาดใหญ* ๆ
• เม"#อคอมพ&วเตอร�ได�แพร*หลายมาส�*ประเทศไทยในำย:ค 60 IBM ก'เป.นำรายแรกท�#ประสบผลสส�าเร'จในำการนำ�าเข�า และม�การต&ดต �งเคร"#องคอมพ&วเตอร� Main-frame ในำหลายๆองค�กรเพ"#อการประมวลผล ท�#ส�าค ญได�แก* จ:ฬาลงกรณ�มหาว&ทยาล ย ส�านำ กงานำสถ&ต&แห*งชาต& เป.นำต�นำ และเคร"#องคอมพ&วเตอร� IBM ท:กว นำนำ��ย งเป.นำท�#นำ&ยมและนำ*าเช"#อถ"อในำวงการคอมพ&วเตอร�ในำประเทศ เม"#อม�การจ ดเก'บข�อม�ลภาษาไทยบนำเคร"#องคอมพ&วเตอร� IBM รวมท �งการประมวลผลและการแสดงผล บร&ษ ท IBM จงได�พ ฒนำารห ส EBCDIC ท�#รวมภาษาไทยเข�าไปด�วย
11
EBCDIC
•แต*ด�วยรห ส EBCDIC ม�เพ�ยงเคร"#องคอมพ&วเตอร� IBM เท*านำ �นำท�#ใช�งานำ EBCDIC ท�#เต&มต วอ กษรไทย จงไม*ม�ปญหาอย*างเช*นำ ASCII ท�#เต&มต วอ กษรไทย เนำ"#องจากมากระบบของหลายหนำ*วยงานำจนำเก&นำไป
•รห ส EBCDIC จะแตกต*างจากรห ส ASCII ตรงท�# รห สASCII จะใช�ล�าด บของเลขฐานำสองโดยตรงส�าหร บแทนำล กษณะเฉพาะต*าง ๆ แต*รห ส EBCDIC จะใช�รห ส BCD เป.นำพ"�นำฐานำของการจ ดเลขฐานำสอง
12
ต�าแหนำ*งอ กขระไทยในำตารางรห ส EBCDIC
13
Unicode
• Unicode ค"อ มาตรฐานำอ:ตสาหกรรมท�#ช*วยให�คอมพ&วเตอร�แสดงผลและจ ดการข�อความต วอ กษรท�#ใช�ในำระบบการเข�ยนำของภาษาส*วนำใหญ*ในำโลกได�อย*างสอดคล�องก นำ ย�นำ&โคดประกอบด�วยรายการอ กขระท�#แสดงผลได�มากกว*า 100,000 ต ว พ ฒนำาต*อยอดมาจากมาตรฐานำช:ดอ กขระสากล (Universal Character Set: UCS)
• สาเหต:การพ ฒนำา เพราะ จ�านำวนำอ กขระท�#เข�ยนำเป.นำจ�านำวนำมากเก&นำกว*าท�#จะแทนำด�วย 1 byte ได� (ซ#งแทนำได�เพ�ยง 256 แบบของต วอ กขระ) อ�กท �งเม"#อม�การใช�รห สอ กขระท�#แตกต*างก นำ ก'จะม�ผลต*อการย�ายข�อม�ลข�ามภาษา เช*นำ รห สท�#แทนำต วอ กขระ ก ท�#ใช�ภาษาไทยจะไปตรงก บรห สต วอ กขระ ¡ ในำอ�กตารางหนำ#ง เป.นำต�นำ จงม�ความพยายามแก�ป^ญหาให�ม�รห สเด�ยวท�#ใช�ได�ก บอ กขระท:กภาษา ซ#งเป.นำท�#มาของการพ ฒนำารห ส Unicode ข�นำมาต �งแต*ป9ค.ศ.1991 (Unicode 1.0) โดยท�#รห สต วอ กขระ 256 ต วแรกนำ �นำจะเหม"อนำก บรห สของ ISO-8859
14
Unicode• Unicode Consortium เป.นำองค�กรไม*แสวงหาผลก�าไร เป.นำผ��ร บผ&ด
ชอบในำการพ ฒนำาย�นำ&โคด องค�กรนำ��ม�จ:ดม:*งหมายเก�#ยวก บการแทนำท�#การเข�ารห สอ กขระท�#ม�อย�*ด�วยย�นำ&โคดและมาตรฐานำร�ปแบบการแปลงย�นำ&โคด (Unicode Transformation Format: UTF)
• Unicode Standard ได�ม�การพ ฒนำาร*วมก บ ISO (International Standard Organization) ในำการก�าหนำดมาตรฐานำของการเข�ารห สต วอ กษรตาม ISO/IEC 10646
• Unicode chart มาตรฐานำในำการเข�ารห สของต วอ กษรในำภาษาต*างๆ ท #วโลก
• Unicode for Symbols and Punctuation รห สมาตรฐานำของต วอ กษรในำภาษามนำ:ษย�แล�วย งได�ก�าหนำดส ญล กษณ�ในำภาษาคณ&ตศาสตร� ภาษาดนำตร� ภาษาร�ปภาพ และอ"#นำๆด�วย
15
Metadata • Metadata หมายถงข�อม�ลท�#ใช�อธ&บายค:ณล กษณะของทร พยากรสารสนำเทศ
ซ#งอาจเป.นำข�อความ เอกสาร หนำ งส"อ ร�ปแบบ ส"#อผสม หร"ออ"#นำๆได� Metadata ไม*ใช*เนำ"�อหาท�#กล*าวถงแต*เป.นำข�อม�ลท�#เก�#ยวก บข�อม�ล (Data about the Data) เช*นำหนำ งส"อเล*มนำ��เป.นำต�าราว*าด�วยเร"#องระบบจ ดเก'บและส"บค�นำสารสนำเทศด�วยคอมพ&วเตอร� ม�เนำ"�อหาสาระว*าด�วยโมเดลต*างๆ ของระบบการส"บค�นำ การสร�างดรรชนำ� ว&ธ�การส"บค�นำ ฯลฯ ในำบทนำ��จะอธ&บายถง
• Metadata Schema
• Dublin Core
• การจ ดเก'บ Metadata
• ประโยชนำ�ของ Metadata
16
Metadata Schema
•Metadata Schema หมายถงร�ปแบบของการกก�าก บข�อม�ลในำทร พยากรสารสนำเทศ อ นำประกอบด�วยค:ณล กษณะด งต*อไปนำ��
•Element จ�านำวนำหนำ#งท�#ไม*มากจนำเก&นำไป
•ช"#อของท:ก Element ท�#กล*าวถง •ความหมายของแต*ละ Element
17
Metadata Server จะประกอบไปด�วยคล งข�อม�ลของทร พยากรสารสนำเทศต*าง ๆ ต วอย*างของระเบ�ยนำหนำ#งของ Metadata Database เป.นำด งนำ��
Element Name Value
Title Information Storage and Retrieval
Author Supachai Tangwongsan
Date January 2008
Format Text/PDF
Language Thai
ท:กระเบ�ยนำของ Metadata ประกอบด�วยช"#อ Element ท�#ได�ก�าหนำดไว�ก*อนำ เพ"#อใช�แสดงล กษณะเฉพาะของทร พยากรสารสนำเทศ แต*ละ Element จะตามด�วยค*าของม นำ ท�#จะม�หนำ#งค*าหร"อหลาย ๆ ค*าก'ได� ข�นำอย�*ก บชนำ&ดของ Element
ท:กระเบ�ยนำของ Metadata ประกอบด�วยช"#อ Element ท�#ได�ก�าหนำด ไว�ก*อนำ เพ"#อใช�แสดงล กษณะเฉพาะของทร พยากรสารสนำเทศ แต*ละ
Element จะตามด�วยค*าของม นำ ท�#จะม�หนำ#งค*าหร"อหลาย ๆ ค*าก'ได� ข�นำอย�*ก บชนำ&ดของ Element
18
Dublin Core
•Dublin Core เป.นำ Metadata Schema ท�#ส�าค ญส�าหร บงานำเอกสารอ&เล'กทรอนำ&กส�การก�าเนำ&ด Dublin Core ได�จากการประช:มว&ชาการ โดยกล:*ม OCLC (On-line Computer Library Center) ร*วมก บ NCSA (National Center for Supercomputing Applications) ของประเทศวหร ฐอเมร&กา เม"#อเด"อนำม�นำาคม 1995 ท�# Dublin ร ฐ Ohio ของประเทศสหร ฐอเมร&กา
19
15 Element ในำ Dublin Core จ ดเป.นำ 3 กล:*มประเภทContent & about the Resource
Intellectual Property
Electronic or Physical Manifestation
Title SubjectDescriptionSourceLanguageRelationCoverage
Author/CreatorPublisherContributorrights
DateTypeFormatIdentifier
กล:*มแรกเป.นำเร"#องของเนำ"�อหาและเก�#ยวก บทร พยากรสารสนำเทศ กล:*มท�#สองเป.นำเร"#อง ของทร พย�ส&นำทางปญญา และกล:*มท�#สามเป.นำเร"#องของข�อม�ลท�#เป=ดเผยทางกายภาพ
หร"ออ&เล'กทรอนำ&กส�
20
การจ�ดเก�บ Metadata
•การจ ดเก'บ Metadata สามารถนำ�าไปใช�ในำร�ปแบบต*างๆ ด�วยการจ ดเก'บในำหลายล กษณะได�ด งนำ��
• ฝงต ว Metadata ในำหนำ�าเว'บด�วย META Tag•แยกต วเอกสาร HTML โดยม�ต วเช"#อมไปย งทร พยากร
สารสนำเทศท�#กล*าวถง•จ ดเก'บในำฐานำข�อม�ลท�#เช"#อมไปย งทร พยากรสารสนำเทศ ต ว
ระเบ�ยนำอาจได�จากการสร�างข�นำโดยตรงในำฐานำข�อม�ล หร"อได�จากการดงข�อม�ลมาใช�บนำหนำ�าเว'บ
21
ประโยชน�ของ Metadata• Resource Discovery หมายถงช*วยในำการส"บค�นำ ส"บเสาะทร พยากร
สารสนำเทศบนำเคร"อข*าย Internet เป.นำไปอย*างง*ายและสะดวก ผลท�#ได�ม�ความส มพ นำธ�สอดาคล�องก บค�าสอบถามแทนำท�#จะได�ค�าตอบมากหลายแต*ก�เป_นำขยะเส�ยมาก
• Interoperabilityใช�ประโยชนำ�ในำการแลกเปล�#ยนำข�อม�ลระหว*างก นำ ด�วยความท�#ม�มาตรฐานำไม*ข�นำอย�*ก บชนำ&ด ย�#ห�อ และระบบปฎ&บ ต&การใดๆ ของเคร"#องคอมพ&วเตอร� ท�าให�สามารถส"บค�นำข�ามระบบก นำได� และใช�ทร พยากรร*วมก นำได�
• Digital Identificationใช�ประโยชนำ�ในำการระบ:ต วตนำของทร พยากรสารสนำเทศท�#กล*าวถง อ นำจะสามารถบอกถงชนำ&ด ประเภท ข�อม�ลทางกายภาพ ทร พย�ส&นำทางปญญา ท�าให�ผลการส"บค�นำม�ความเก�ยวพ นำธ�ท�#เป.นำการเฉพาะส�ง
• Archiving and Preservation ใช�ประโยชนำ�ในำการจ ดเก'บและร กษาเอกสารทางประว ต&ศาสตร�ในำร�ปแบบด&จ&ตอล
22
ร�ปแบบของข�อความ (Formats) • Formats หมายถง ร�ปแบบของข�อความในำเอกสาร ซ#งม�การจ ดเก'บในำ
หลากหลายร�ปแบบตามว ตถ:ประสงค�ต*างๆ ต วอย*างก'ค"อ ต�นำฉบ บของข�อความในำรายงานำเล*มนำ�� ม�ร�ปแบบการจ ดเป.นำ Word file โดยแหล*งม�การเตร�ยมข�อม�ลจากโปรแกรมต*างๆ เช*นำ Microsolf Word เป.นำต�นำ เม"#อได�จ ดร�ปแบบ จ ดบท จ ดหนำ�า จ ดบรรท ด ต วอ กษรใหญ*เล'ก ต วอ กษรหนำาหร"อต วอ กษรบาง ต วตรง ต วเอ�ยง เป.นำท�#เร�ยบร�อยและเป.นำระบบ
• ร�ปแบบข�อความ อาท&เช*นำ• LaTeX• Word Processing• RTF• PDF• PS
23
LaTeX
•LaTeX เป.นำภาษามาร�กอ ปส�าหร บเอกสาร (document Markup Language) และโปรแกรมเตร�ยมอกสารส�าหร บสร�างเอกสารแบบม�โครงสร�างโดยอาศ ย TeX เป.นำต วเร�ยงพ&มพ� TeX เป.นำโปรแกรมจ ดเร�ยงพ&มพ�เอกสารทางว&ทยาศาสตร�และคณ&ตศาสตร� ซ#งแวดวงว&ทยาศาสตร�และคณ&ตศาสตร�ใช�ก นำอย*างแพร*หลาย เนำ"#องจากให�ค:ณภาพและการเร�ยงพ&มพ�ส�ง เอกสารท�#แสดงผลม�ความสวยงามนำ*าอ*านำ นำอกจากนำ��ย งสามารถนำ�าไปใช�งานำบนำ Internet เพ"#ออ�านำวยความสะดวกในำการแสดงสมการทางว&ทยาศาสตร�และคณ&ตศาสตร�บนำเว'บไซต�ต*าง ๆ ได�อ�กด�วย
24
ความเป�นมา• ในำป9 1978 ศาสตราจารย� Donald E. Knuth ท�#
มหาว&ทยาล ย Stanford ได�สร�างโปรแกรมเร�ยงพ&มพ� (Typesetter) โดยม�ว ตถ:ประสงค�เพ"#อให�เป.นำโปรแกรมเร�ยงพ&มพ�ระด บค:รภาพส�งเท�ยบเท*าการเร�ยงพ&มพ�หนำ งส"อตามแบบฉบ บ โดยเฉพาะการเร�ยงพ&มพ�สมการทางคณ&ตศาสตร� นำอกจากนำ��ย งม�ความสามารถในำการเร�ยงพ&มพ�สมการทางว&ทยาศาสตร� เช*นำ สมการเคม� ได�เป.นำอย*างด�
• LaTeX ซ#งพ ฒนำาโดย Leslie Lamport ในำป� 1980 ท�# SRI International เป.นำแมคโครส�าหร บสร�างเอกสารแบบม�โครงสร�างโดยอาศ ย TeX เป.นำต วเร�ยงพ&มพ� LaTeX
25
โครงสร�างของเอกสาร1. Preamble เป.นำส*วนำห วก*อนำเร&#มเนำ"�อหาเอกสาร ใช�ในำการระบ:ชนำ&ดของเอกสาร
และ Package ท�#ใช�และ ใช�ปร บแต*งร�ปหนำ�าของเอกสารต*างๆ 2. Top Matter เป.นำส*วนำท�#ใช�แสดงข�อม�ลเอกสาร ได�แก* ช"#อเร"#อง (Title), ว นำท�#
สร�างเอกสาร (Date),ช"#อผ:�แต*ง (Authors) และอ"#นำๆ3. Abstract เป.นำส*วนำท�#ใช�ในำการแสดงบทค ดย*อ ซ#งเป.นำองค�ประกอบหล กของ
บทความว&จ ยส*วนำใหญ*4. Sectioning Commands เป.นำค�าส #งในำการก�าหนำดห วข�อในำเอกสาร เหมาะ
ส�าหร บ Document Class Book แต*ไม*ม�ในำ Article5. Section Numbering เป.นำส*วนำท�#ใช�ในำการก�าหนำดห วข�อและห วข�อย*อยในำ
เอกสาร6. Ordinary Paragraphs เป.นำส*วนำท�#ใช�ในำการก�าหนำดช*องว*างระหว*างแต*ละ
ย*อหนำ�าในำเอกสาร โดยใช�ค�าส #ง \setlength ซ#งจะถ�กก�าหนำดในำส*วนำของ Preamble
7. Table of Contents ห วข�อต*างๆ จะถ:กนำ�ามาสร�างเป.นำสารบ ญโดยอ ตโนำม ต&
26
Word Processing
•Word Processing (โปรแกรมประมวลผลค�า) เป.นำโปรแกรมคอมพ&วเตอร� ท�#ใช�ส�าหร บ การพ&มพ�เอกสาร สามารถแก�ไข เพ&#ม แทรก ลบ และจ ดร�ปแบบเอกสาร เอกสารท�# พ&มพ�ไว� จ ดเป.นำ แฟ_มข�อม�ล เร�ยกมา พ&มพ�หร"อ แก�ไข ใหม*ได� การพ&มพ� ออกทาง เคร"#องพ&มพ� ก'ม�ร�ปแบบ ต วอ กษร ให�เล"อกหลาย ร�ปแบบ เอกสารจงด �เร�ยบร�อย สวยงาม นำอกจากนำ�� ย งสามารถแปลงแฟ_มเอกสารให�เป.นำ file ประเภทอ"#นำๆได� เช*นำ PDF file เป.นำต�นำ
27
โครงสร�างภายใน1. Main Stream ประกอบด�วยส*วนำห วในำช"#อ, ข�อความ และร�ปแบบ 2. FIB เป.นำส*วนำท�#เร&#มต�นำเอกสาร ซ#งจะเก'บในำหนำ�า 0 ของไฟล�3. Text เป.นำข�อความท �งในำส*วนำหล ก (Body) ส #งเกตส*วนำล*าง (footnotes) และห ว
เร"#องต*างๆ (Headers)4. Formatted Information ได�แก* ร�ปแบบ ส�าหร บ Character Properties
และ List level Cache 5. Summary Information Stream ในำรายละเอ�ยด จ ดเก'บในำส*วนำของ
SummaryInformation และ DocumentSummary Information6. Table Stream ในำเอกสารร Word จะเก'บตาราง เป.นำ Steam ท�#ม�ช"#อว*า
‘0Table’ หร"อ‘1Table’ โดยท #วไปแฟ_มข�อม�ลจะม�เพ�ยงตารางเด�ยว แต*ท�#ต�องม� 2 ตารางก'ใช�ในำกรณ�ท�#ไม*ปกต& เช*นำ แฟ_มข�อม�ลถ�กท�าลายเวลา Save
7. Data Stream ประกอบด�วยส&#งท�#ฝ# งต ว ในำเอกสารและร�ปภาพ ต*าง ๆ ซ#งเป.นำข�อม�ลมากมายท�#อ�างอ&งไปย ง Main Stream
8. Custom XML Storage เป.นำส*วนำท�#เพ&#มเตอมเฉพาะเอกสารท�#สร�างด�วย Word 2007 เพ"#อระบ:ส*วนำของ Customer XML ต*างๆ ท�#ม�อย�*ภายในำ Binary Format ซ#งอาจจะม�หร"อไม*ม�ก'ได� ถ�าม� ในำแต*ละส*วนำจะถ�กเก'บแยกก นำและถ�กก�าก บด�วยช"#อเฉพาะ Customer XML Storage จงประกอบไปด�วย 2 Stream ได�แก* item และ properties
9. Object Stream อ"#นำๆ ซ#งอาจจะประกอบไปด�วยข�อม�ลไบนำาร�ส�าหร บ Embedded Objects ของ OLE 2.0 ท�#อย�*ภายในำเอกสาร โดย Word จะไม*ม�องค�ความร� �เก�#ยวก บเนำ"�อหาของ Stream นำ�� หากไม*ม�ในำส*วนำนำ��ก'จะม�ค*าเป.นำศ�นำย�
28
RTF
•Rich Text Fomat (RTF) เป.นำร�ปแบบไฟล�อกสารท�#พ ฒนำาโดย Microsoft ในำป9 1987 เพ"#อใช�ในำการแลกเปล�#ยนำเอกสารข�ามระบบปฏ&บ ต&การท�#ต*างก นำ โดยโปรแกรมประมวลผลค�าส*วนำใหญ*จะสามารถอ*านำและเข�ยนำเอกสาร RTF ได� มาตรฐานำของ RTF ก�าหนำดโดย Microsoft นำ บแต*เร&#มจนำถงปจจ:บ นำ โดยมาตรฐานำร: *นำ 1.9 ได�ม�การก�าหนำดในำเด"อนำมกราคม 2009
29
โครงสร�างภายใน RTF ประกอบไปด�วย 4 ส#วนได�แก# 1. RTF Prodog เป.นำส*วนำท�#ก�าหนำดข�อม�ลท�#ส�าค ยของ
เอกสาร ได�แก*ร: *นำของ RTF ประเภทและร�ปแบบอ กษร โดยเร&#มต�นำด�วย { และตามด�วยข�อม�ลต*างๆ ด งต วอย*าง
2. RTF Document Formatting Commands เป.นำ Option ท�#ใช�ส�าหร บก�าหนำดร�ปแบบของท �งเอกสาร จงจะถ�กก�าหนำดต*อจาก RTF Prodog
3. RTF Document Content เป.นำส*วนำของ Plaintext, Commands และ Escape พ"�นำฐานำในำย*อหนำ�าต*างๆ
4. RTF Conclusion เป.นำส*วนำป=ดท�ายของเอกสาร ซ#งจะต�องป=ดท�ายด�วย } และท�าการป=ดไฟล�
30
Portable Document Format (PDF)
•PDF ค"อร�ปแบบแฟ_มล กษณะหนำ#งท�#พ ฒนำาโดยบร&ษ ท Adobe Systems ในำป9 1993 ส�าหร บการแสดงเอกสาร ท�#สามารถใช�งานำได�ในำท:กระบบปฏ&บ ต&การ และย งคงล กษณะเอกสารเหม"อนำต�นำฉบ บ เอกสารในำร�ปแบบ PDF สามารถจ ดเก'บ ต วอ กษร ร�ปภาพ ร�ปลายเส�นำ ในำล กษณะเป.นำหนำ�าหนำ งส"อ ต �งแต* หนำ#งหนำ�า หร"อหลายพ นำหนำ�าได�ในำแฟ_มเด�ยวก นำ PDF เป.นำมาตรฐานำท�#เป=ดให�คนำอ"#นำสามารถเข�ยนำโปรแกรมมา ท�างานำร*วมก บ PDF ได�
31
โครงสร�างของไฟล� PDF ประกอบด�วย 4 ส#วนหล�ก
1. Hearder อย�*ในำบรรท ดแรกของไฟล� PDF เป.นำส*วนำท�#ก�าหนำดร: *นำของ PDF
2. Body ประกอบด�วย Object ต*างๆ ซ#งบรรจ:เนำ"�อหาของเอกสารไว� Object ม�หลากหลายประเภท อาท&เช*นำ ข�อความ ร�ปภาพ ต วพ&มพ� ค�าอธ&บายประกอบ และอ"#นำๆ นำอกจากนำ��ย งประกอบด�วยข�อม�ลท�#ไม*สามารถแสดงผลได� เช*นำ Security, Logical Structure เป.นำต�นำ
3. Cross-refferance Table ประกอบด�วย Offset ของท:กๆ Object
4. Trailer เป.นำส*วนำป=ดท�ายไฟล� PDF ช*วยให�สามารถเข�าถง Cross-referance Table ได�อย*างรวดเร'ว เนำ"#องจากในำส*วนำนำ��จะเก'บค*า startxref และค*า Byte Offset จากจ:ดเร&#มต�นำไฟล�จนำกระท #งถงค�าว*า xref และโปรแกรมประย:กต�จะอ*านำไฟล� PDF เร&#มจากจ:ดส&�นำส:ดของไฟล� (End-of-line Marker)
Header
Body
‘xref’Table
Trailer
32
PostScript (PS)
•PostScript (PS) เป.นำภาษาในำการจ ดหนำ�า (Page Description Language) และภาษาการเข�ยนำโปรแกรม (Programming Language) ของ Adobe Systems โดยได�นำ�ามาใช�ในำคร �งแรกในำการจ ดพ&มพ�เอกสารอ&เล'กทรอนำ&กส�ด�วยคอมพ&วเตอร�ท�#ช"#อว*า Destop Publishing
33
โครงสร�างภายในำของเอกสาร PostScript•ประกอบด�วย 5 ส*วนำ 1. Header เป.นำส*วนำท�#เร&#มต�นำของไฟล� PostScript ซ#งใช�
ก�าหนำดข�อม�ลส�าค ญของเอกสาร PostScript 2. Procedure Definition ใช�ในำการก�าหนำดข �นำตอนำต*างๆ
ท�#ใช�ในำเอกสาร PostScript ซ#งเข�ยนำเป.นำภาษา Prolog 3. Document Setup เป.นำส*วนำท�#ใช�ในำการก�าหนำดค*าเร&#มต�นำ
ต*างๆ ให�ก บเอกสาร 4. Pages เป.นำส*วนำก�าหนำดหนำ�าของเอกสาร โดยแต*ละหนำ�า
ของเอกสารจะแยกออกจากก นำโดยช ดเจนำ5. Document Trailer เป.นำส*วนำป=ดท�ายไฟล� PostScript
34
ภาษามาร�กอ ป(Markup Language)• ภาษามาร�กอ ป เป.นำภาษาคอมพ&วเตอร� ประภเทหนำ#งท�#ใช�เข�ยนำข�อความ
เพ&#มเต&มจากข�อความเด&ม โดยม�กฎกต&กาอย*างเป.นำระบบ เพ"#อใช�เป.นำประโยชนำ�ในำการอธ&บายข�อความนำ �นำ ในำเร"#องโครงสร�าง ร�ปแบบ การประมวลผล ตลอดจนำการแสดงผล ภาษามาร�กอ ปม�การใช�มาเป.นำเวลายาวนำานำ โดยเฉพาะการจ ดร�ปแบบการพ&มพ�ด�วยคอมพ&วเตอร� และการใช�โปรแกรมการประมวลผลค�า (Word Processor) เป.นำต�นำ ภาษามาร�กอ ปในำปจจ:บ นำม�มากมาย ในำท�#นำ��จะกล*าวถงเฉพาะภาษามาร�กอ ปท�#ส�าค ญและเป.นำท�#นำ&ยมใช�ก นำอย*างแพร*หลายในำปจจ:บ นำ อ นำได�แก*
SGML (Standardized Markup Language)
Hypertext Markup Language( HTML)
Extensible Markup Language (XML)
35
SGML (Standardized Markup Language)
•SGML เป.นำภาษาต�นำแบบของภาษาก�าก บข�อความในำเอกสารท�#ม�มาตรฐานำการก�าก บจะเป.นำการก�าก บต วป_ายก�าก บ หร"อเร�ยกโดยท #วไปว*า Teg อย*างม�ความหมาย พ ฒนำามาในำป9 ค.ศ. 1986 เนำ"#องจากปญหาในำการแลกเปล�#ยนำเอกสารข�อม�ลระหว*างก นำในำระบบเคร"อข*ายอ&นำเทอร�เนำ'ตย:คแรกๆ จงม�นำ กว&จ ยกล:*มหนำ#ง พ ฒนำาเคร"#องม"อในำการแลกเปล�#ยนำข�อม�ลระหว*างก นำ ซ#งค:ณสมบ ต&เบ"�องต�นำของเคร"#องม"อด งกล*าว ค"อ ต�องย"ดหย:*นำ สามารถรองร บข�อม�ลร�ปแบบแปลกๆ ในำอนำาคตได� ใช�ได�ท #วโลก และในำคอมพ&วเตอร�ท:กร�ปแบบ จากข�อก�าหนำดด งกล*าว จงเก&ดภาษา SGML ม�การเก'บข�อม�ลในำร�ปรห ส ASCII เพราะคอมพ&วเตอร�ท #วไปสามารถอ*านำข�อม�ลล กษณะนำ��ได�เหม"อนำๆ ก นำ
36
SGML ม�ล กษณะเฉพาะ 3 อย*างท�#แตกต*างจากภาษามาร�กอ ปอ"#นำ กล*าวค"อ
1 .เป.นำการก�าก บด�วยป_ายอธ&บาย (Description Markup) ไม*ใช*ด�วยว&ธ�การ (Procedural Markup)
2. เป.นำการก�าหนำดประเภทของเอกสาร (DTD) และ
3. เป.นำความอ&สระของข�อม�ล (Data Independence) ท�#ไม*ข�นำก บชนำ&ดของเคร"#องคอมพ&วเตอร�และโปรแกรมค�าส #ง
37
โครงสร�างของเอกสาร SGML•SGML ประกอบด�วยส*วนำต*างๆ ด งนำ��1 .ส*วนำประกาศ SGML เป.นำส*วนำท�#ระบ:ค:ณสมบ ต&ของ SGML2. Element เป.นำส*วนำท�#แสดงล กษณะโครงสร�างของเอกสาร
โดยแต*ละ Element จะประกอบด�วยป_ายก�าก บ (Tag) โดยช"#อของ Element อาจจะไม*แสดงความหมายของ Element นำ �นำๆ
3. Attribute ใช�ส�าหร บอธ&บายข�อม�ล ซ#งจะอย�*ในำเคร"#องหมาย < >
4. Entity อาจเป.นำสายต วอ กษร หร"อแฟ_มข�อความท�#นำ�ามารวมอย�*ในำเอกสาร
38
HTML หร"อ Hypertext Markup Language
•HTML (เอชท�เอ'มแอล) เร&#มพ ฒนำาโดย ท&ม เบอร�เนำอรส� ล� (Tim Berners Lee) ในำปจจ:บ นำ HTML เป.นำมาตรฐานำหนำ#งของ ISO ซ#งจ ดการโดย World Wide Web Consortium (W3C)
•HTML เป.นำภาษามาร�กอ ปหล กในำปจจ:บ นำท�#ใช�ในำการสร�างเว'บเพจ หร"อข�อม�ลอ"#นำ ท�#เร�ยกด�ผ*านำทางเว'บเบราว�เซอร�ซ#งต วโค�ดจะแสดงโครงสร�างของข�อม�ล ในำการแสดง ห วข�อ ล&งก� ย*อหนำ�า รายการ รวมถงการสร�างแบบฟอร�ม เช"#อมโยงภาพ หร"อว&ด�โอด�วยโครงสร�างของโค�ด HTML จะอย�*ในำล กษณะภายในำวงเล'บสามเหล�#ยม (< >) หร"อเร�ยกว*า Tag (แท'ก)
39
โครงสร�างเอกสาร HTML
ไฟล�เอกสาร HTML ประกอบด�วยส*วนำประกอบสองส*วนำค"อ Head ก บ Body 1. (Head Section) เป.นำส*วนำท�#ใช�อธ&บายเก�#ยวก บข�อม�ลเฉพาะของหนำ�าเว'บนำ �นำๆ เช*นำ ช"#อเร"#องของหนำ�าเว'บ (Title), ช"#อผ��จ ดท�าเว'บ (Author), ค�ย�เว&ร �ดส�าหร บการค�นำหา (Keyword) 2. Body Section เป.นำส*วนำเนำ"�อหาหล กของหนำ�าเว'บ ซ#งการแสดงผลจะต�องใช� Tag จ�านำวนำมาก ข�นำอย�*ก บล กษณะของข�อม�ล เช*นำ ข�อความ, ร�ปภาพ, เส�ยง, ว�ด&โอ หร"อไฟล�ต*างๆ
40
Extensible Markup Language (XML)•XML ย*อมาจาก Extensible Markup
Language ซ#งเป.นำภาษามาร�กอ ปส�าหร บการใช�งานำท #วไป พ ฒนำาโดยW3C โดยม�จ:ดประสงค�เพ"#อใช�ในำการต&ดต*อก นำในำระบบท�#ม�ความแตกต*างก นำ(เช*นำใช�คอมพ&วเตอร�ม�#ม�ระบบปฏ&บ ต&การคนำละต ว หร"ออาจจะเป.นำคนำละโปรแกรมประย:กต�ท�#ม�ความต�องการส"#อสารข�อม�ลถงก นำ)นำอกจากนำ��ย งเพ"#อเป.นำพ"�นำฐานำในำการสร�างภาษามาร�กอ ปเฉพาะทางอ�กข �นำหนำ#ง XML พ ฒนำามาจาก SGML โดยด ดแปลงให�ม�ความซ บซ�อนำลดนำ�อยลง XML ใช�ในำแลกเปล�#ยนำข�อม�ลระหว*างเคร"#องคอมพ&วเตอร�ท�#แตกต*างก นำ และเนำ�นำการแลกเปล�#ยนำข�อม�ลผ*านำอ&นำเทอร�เนำ'ต
41
ร'ปแบบโครงสร�างของเอกสาร• เอกสาร XML แบ*งออกเป.นำ 2 ประเภท ด งนำ��Well-formed XML Document เป.นำเอกสาร XML ท�#ใช�
กฎกต&กา (Syntax) ของ XML อย*างถ�กต�องตามมาตรฐานำท:กประการ เอกสารท�#ไม* Well-formed ไม*ถ"อว*าเป.นำ XML
Vaild XML Document เป.นำเอกสาร XML ท�# Well-formed และใช� Tag ท�#ก�าหนำดเฉพาะในำ Schema ท�#ตกลงก นำไว�เท*านำ �นำ ปจจ:บ นำ Schema ท�#นำ&ยมใช�ก นำท #วไป ม� 3ประเภท ด งต*อไปนำ��
1. Document Type Definition (DTD)2. XML Schema3. RELAXNG
42
โครงสร�างของเอกสาร XML
• โครงสร�างของ XML ประกอบด�วย 2 ส*วนำหล ก ค"อ•Prolog ส*วนำประกาศ XML ส�าหร บเอกสาร XML ใดๆ
อาจม�ส*วนำประกาศ (XML Declaration) เพ"#อบอกเวอร�ช นำของ XML และล กษณะการ Encoding ต วอ กษรท�#ใช�โดย XML สนำ บสนำ:นำ Unicode Encoding
•Document Element XML ใดๆ จะประกอบด�วยโครงสร�างท�#ถ�กก�าหนำดเป.นำล�าด บช �นำ ซ#งจะม�หนำ#ง Root Element เสมอ
43
Questions/Answers
•Thank you
44