Spis treści -1 LXI Zjazd PTJ, Tarnów 12-13.09.2003 Teksty i dokumenty Teksty i dokumenty Teksty i dokumenty Teksty i dokumenty Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Unicode 4.0 Unicode Consortium (www.unicode.org) Terminologia Unicode Unicode 4.0 Alfabety i symbole Alfabety i symbole Zunifikowane znaki hanowskie
46
Embed
Spis treści -1 - mimuw.edu.pljsbien/slajdy/JSB-PTJ03-s.pdf · Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w komputerze Kodowanie tekstów w
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Spis treści -1
LXI Zjazd PTJ, Tarnów12-13.09.2003
Teksty i dokumenty
Teksty i dokumenty
Teksty i dokumenty
Teksty i dokumenty
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Kodowanie tekstów wkomputerze
Unicode 4.0
Unicode Consortium(www.unicode.org)
Terminologia Unicode
Unicode 4.0
Alfabety i symbole
Alfabety i symbole
Zunifikowane znaki hanowskie
Spis treści 0
Koreańskie znaki sylabiczne
Koreańskie znaki sylabiczne
Terminologia Unicode
Terminologia Unicode
Kodowanie tekstów wkomputerze
Reprezentacja struktury tekstu
SGML
SGML/XML
Emblem Project Utrecht
GNU Emacs (psgml, xxml)
SGML w Polsce
T. Piotrowski, Z. Saloni
Uwagi końcowe
LXI Zjazd PTJ, Tarnów 12-13.09.2003 1
Janusz S. Bień
Adekwatnareprezentacja elektroniczna
tekstów pisanych
12.09.2003
Teksty i dokumenty 2
Inny słownikjęzyka polskiego PWN:
tekstciąg zapisanych słów i zdań,zwłaszcza tworzących pewną całośćartystyczną lub logiczną
Teksty i dokumenty 3
Wielki słownikwyrazów obcych PWN:
dokument3. «plik komputerowy,w szczególności tekstowy,zawierający informacje zapisanew odpowiednim formacie»
Teksty i dokumenty 4
J. S. Bień
dokument (elektroniczny)Traktowany jako jedna całość — w szczególnościopublikowany lub przeznaczony do opublikowaniaw sposób tradycyjny lub za pomocą Internetu np.na stronach WWW— plik lub zbiór plików kompu-terowych zawierających pewną informację, w szcze-gólności tekstową, w odpowiednim formacie, np.HTML.
Teksty i dokumenty 5
Nietekstoweskładniki dokumentów:
• ilustracje• formuły matematyczne• formuły chemiczne• . . .
skanowanieProces dokładnej i systematycznej analizy pewnychdanych wejściowych przez program lub urządzenie.Mówi się o skanowaniu obrazu przez kamery telewi-zyjne i skanery, . . .Ang. to scan – dawn. wchodzić, robić coś krok pokroku.
Kodowanie tekstów w komputerze 10
Kodowanie wizualne:
Przykład tekstu wskanowanego
Polska Akademia NaukSłownik języka polskiegopod redakcjąWitolda DoroszewskiegoWiedza PowszechnaPaństwowe Wydawnictwo Naukowe1958-1969
Kodowanie tekstów w komputerze 11
Litterae s.c.dla Wydawnictwa Naukowego PWN:
Przedruk elektroniczny(1997)
Koordynator:Janusz S. Bień
Redaktor prowadzący:Jadwiga Linde-Usiekniewicz
Kodowanie tekstów w komputerze 12
Kodowanie tekstów w komputerze 13
Kodowanie technologiczne:
PostScriptPDF Portable Document FormatRTF Rich Text Format
format Microsoft Word
i inne
Kodowanie tekstów w komputerze 14
Kodowanie symboliczne:
• czysty tekst(plain text)
• tekst adiustowany(marked-up text)
Kodowanie tekstów w komputerze 15
Czysty tekstkodowany symbolicznie:
• ciąg znaków piśmiennych• znaki piśmienne (characters)reprezentowane przez liczby naturalne
Kodowanie tekstów w komputerze 16
Kodowe zestawy znaków(strony kodowe):
CP 852 (DOS)CP 1250 (MS Windows)Latin 2 (Unix i Linux)
Różne repertuary!
Unicode 4.0 17
Unicode 4.0 18
The Unicode StandardVersion 4.0
1504 strony plus CD-ROMAddison-Wesley27.08.2003
Unicode Consortium (www.unicode.org) 19
Terminologia Unicode 20
Znaki (piśmienne)
(abstract) character
Terminologia Unicode 21
repertuarznaków piśmiennych
abstract characterrepertoire
Terminologia Unicode 22
współrzędna kodowa znaku
character code point
Unicode 4.0 23
96 246 znaków:alfabety i symbole ok. 14 000zunifikowane znaki hanowskie ok. 20 000dodatkowe znaki hanowskie ok. 50 000koreańskie znaki sylabiczne ok. 11 000
Alfabety i symbole 24
CYRILLIC CAPITAL LETTER KOMI ZJE
Alfabety i symbole 25
EIGHT PETALLED OUTLINED BLACK FLORETTE
Zunifikowane znaki hanowskie 26
Unified Han Ideographs
dynastia hanowskadynastia Hanod 206 r. p.n.e.
pismo hanowskie:Chiny – wersja tradycyjnaChiny – wersja uproszczona
JaponiaKorea
Zunifikowane znaki hanowskie 27
Koreańskie znaki sylabiczne 28
Pismo koreańskie(hangul)
alfabetyczne
aleznaki są wpisywane w prostokąt!
Koreańskie znaki sylabiczne 29
Terminologia Unicode 30
LATIN SMALL LETTER AWITH OGONEK
ą ą ą ą ąą ą ą ą ąą ą ą ą ą
261(heksadecymalnie 0105)
Terminologia Unicode 31
Glify (glyphs)ą ą ą ą ąą ą ą ą ąą ą ą ą ą
Znak piśmienny (abstract character)
261(heksadecymalnie 0105)LATIN SMALL LETTER AWITH OGONEK
Terminologia Unicode 32
Znak czy glif?
A (alfabet łaciński)A (alfabet grecki)A (cyrylica)
Kodowanie tekstów w komputerze 33
Kodowanie symboliczne:
• czysty tekst(plain text)
• tekst adiustowany(marked-up text)
Reprezentacja struktury tekstu 34
języki adiustacyjne
markup languages
SGML 35
ISOInternational Organisation for Standarization
Information processingText and office systemsStandard Generalized Markup Language (SGML)
ISO 8879:1986ISO 8879:1986/Cor 1:1996ISO 8879:1986/Cor 2:1999ISO 8879:1986/Amd 1:1988
SGML 36
SGML/XML 37
W3CWorld Wide Web Consortium
Tim Bray, Jean Paoli, C. M. Sperberg-McQueen, Eve Maler
Extensible Markup Language (XML) 1.0Second Edition
<TEI.2><teiHeader><fileDesc><titleStmt><title>Emblemata Amatoria 1608</title><author><name>Daniël Heinsius</name></author><editor><name id="jb">Jan de Boer</name></editor><editor><name>Els Stronks</name></editor><editor><name>Peter Boot</name></editor><respStmt><resp>Translations by </resp><name>Jan Bloemendal</name><resp> in cooperation with </resp><name>Boukje Thijs and Pim van Tent</name></respStmt></titleStmt><editionStmt><edition>a web edition</edition></editionStmt><publicationStmt><pubPlace>Utrecht</pubPlace><date>January 2002</date><publisher>Emblem Project Utrecht</publisher></publicationStmt><sourceDesc><p>Het door ons gebruikte exemplaar komt uitUtrecht (LBKUN: RAR LMY Heinsius 2 Conv 1), en verscheen gebundeld met’Spiegel van de doorluchtige, eerlicke, cloucke, deuchtsame ende verstandegevrouwen’.</p></sourceDesc>
GNU Emacs (psgml, xxml) 40
GNU Emacs (psgml, xxml) 41
SGML w Polsce 42
INCO–COPERNICUS PL96–113
STEELSpecialised Translation/foreign language understanding toolsfor Eastern Europe Languages
Specjalistyczne narzędzia do tłumaczenia i rozumieniatekstów obcojęzycznych dla języków Europy Wschodniej
Adres strony domowej:http://www.mimuw.edu.pl/~jsbien/
Niniejsze slajdydostępne pod adresem:http://www.mimuw.edu.pl/~jsbien/slajdy/JSB-PTJ03-s.pdfReferat z poprzedniego zjazdu PTJ:http://www.mimuw.edu.pl/~jsbien/publikacje/JSB-BPTJ02e.pdf