Modelarea datelor via XML. Design patterns in contextul specificarii documentelor XML

Post on 30-Nov-2014

2659 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

An introduction to XML (Extensible Markup Language), including several considerations regarding the use of design patterns in the context of semi-structural data modeling.

Transcript

Dr. Sabin-Corneliu BuragaFacultatea de Informatică

Universitatea “Alexandru Ioan Cuza” – Iași, România

www.purl.org/net/busaco@busaco

„Lucrurile nu sunt grele de făcut,ceea ce este greu este să fim în stare să le facem!”

Constantin Brâncuși

Cum modelăm (reprezentăm) datele?

Procesare(programe)

Date proprietare(baze de date, suite de birou)

Publicareadatelorpe Web (HTML)

Modelare(semi)

structurată(XML)

Modelareconceptuală(RDF, OWL)

1945 -1970 2000 - 20031994 - 20001970 - 1994 2003 -

“Data is lessimportant

than code”

“Data is asimportantas code”

“Data is moreimportant

than code”

evoluția conceptului de “dată” (Daconta et al., 2003)

datele: mai importante decât aplicațiile

Procesare(programe)

Date proprietare(baze de date, suite de birou)

Publicareadatelorpe Web (HTML)

Modelare(semi)

structurată(XML)

Modelareconceptuală(RDF, OWL)

1945 -1970 2000 - 20031994 - 20001970 - 1994 2003 -

“Data is lessimportant

than code”

“Data is asimportantas code”

“Data is moreimportant

than code”

datele: mai importante decât aplicațiile

evoluția conceptului de “dată” (Daconta et al., 2003)

Ce model de reprezentare a dateloralegem pentru…

stocarea datelor eterogene,provenind din surse multiple?

Ce model de reprezentare a dateloralegem pentru…

informații care evoluează rapid?

Ce model de reprezentare a dateloralegem pentru…

reprezentarea limbajului natural?

Dorim să modelăm și să procesămdate privitoare la…

antologii de poezii,cataloage de produse ale unui e-shop,

depozite de rețete gastronomice,chestionare,rețele sociale

etc.

Folosim HTML pentru modelarea datelorși – eventual – CSS pentru prezentarea lor

o soluție

Folosim HTML pentru modelarea datelorși – eventual – CSS pentru prezentarea lor

<p><strong>Prietenii mei:</strong></p><ul>

<li><a href="http://twitter.com/pinguinulvesel">Dragoș</a></li>

<li><a href="mailto:tux@pinguin.info">Tux</a></li>

</ul>

o soluție

Nu putem defini propriile noastre marcaje!?

Necesitate:un limbaj de marcare explicită a datelor

Necesitate:un limbaj de marcare explicită a datelor

datele modelate pot fi practic nelimitate (unbound)și necunoscute

Necesitate:un limbaj de marcare explicită a datelor

ar fi de dorit ca datelesă se poată „explica” pe ele însele (self-explanatory)

Necesitate:un limbaj de marcare explicită a datelor

ar fi de dorit ca datelesă se poată „explica” pe ele însele (self-explanatory)

ce reprezintă triplul ("Sabin", "Buraga", 33)?

Necesitate:modelul adoptat să se preteze arhitecturilornavigaționale actuale, bazate pe hipertext

suport pentru specificarea adreselor Web – URI-uri

Am putea recurge la sau specificaun nou format de document?

Documente:

formate particulare (proprietare)

versus

formate generice (deschise, standardizate)

definiție

Marcaj – adnotare, codare, mark-up

orice actiune de a interpreta explicito porțiune de text (conținut)

definiție

Marcaj – adnotare, codare, mark-up

orice actiune de a interpreta explicito porțiune de text (conținut)

exemple:semnele de punctuație pentru limbile scrise,

deliminatorii folosiți în codul-sursă

definiție

Limbaj de specificare(de adnotare, de marcare)

set de convenții de marcareutilizate pentru codificarea datelor

definiție

Limbaj de specificare(de adnotare, de marcare)

set de convenții de marcareutilizate pentru codificarea datelor

specifică mulțimea de marcaje obligatorii,modul de identificare și de structurare a marcajelor

Extensible Markup Language

meta-limbaj de marcare

permite definirea de limbaje

Extensible Markup Language

descendent simplificat al SGML destinatutilizării în Internet (1996–prezent)

Extensible Markup Language

standard al Consorțiului Web (W3C)

www.w3.org/TR/REC-xml

Extensible Markup Language

o tehnologie + o familie de limbaje

www.w3.org/XML/

Asigură inter-operabilitatea la nivel de date

are suport pe orice platformă hardware/software, inclusiv în cadrul navigatoarelor Web

Asigură inter-operabilitatea la nivel de date

procesoarele XML sunt implementateîn toate limbajele de programare

Asigură inter-operabilitatea la nivel de date

procesoarele XML sunt implementateîn toate limbajele de programare

metode uzuale de procesareobiectuală: DOM (Document Object Model)

secvențială bazată pe evenimente: SAX (Simple API for XML)simplificată: Simple XML

Asigură inter-operabilitatea la nivel de date

recurge la Unicode – independent de codificare

Soluție pentru reprezentarea conținutuluiresurselor Web identificate de URI/IRI

Reprezentarea unei antologii de poezii

<?xml version="1.0" ?><antologie>

<poem><titlu>...</titlu> <strofa>

<vers>...</vers> <vers>...</vers> ...

</strofa> </poem> <!-- mai multe poeme… (acesta e un comentariu) -->

</antologie>

exemplu

Specificarea unui catalog de produse

<produse> <produs tip="promo">

<nume>Ping Uinix</nume><ofertant>http://www.pinguin.info</ofertant>

</produs> <produs>

<!-- un soi de portocale albastre --><nume>Blue Ory</nume><descriere /> <!-- un element având conținut vid -->

</produs><produs>…</produs>

</produse>

exemplu

Specificarea unui catalog de produse

<produse> <produs tip="promo">

<nume>Ping Uinix</nume><ofertant>http://www.pinguin.info</ofertant>

</produs> <produs>

<!-- un soi de portocale albastre --><nume>Blue Ory</nume><descriere /> <!-- un element având conținut vid -->

</produs><produs>…</produs>

</produse>

exemplu

Specificarea unui catalog de produse

<produse> <produs tip="promo">

<nume>Ping Uinix</nume><ofertant>http://www.pinguin.info</ofertant>

</produs> <produs>

<!-- un soi de portocale albastre --><nume>Blue Ory</nume><descriere /> <!-- un element având conținut vid -->

</produs><produs>…</produs>

</produse>

exemplu

date semi-structurate

Informații despre o persoanăvia vocabularul FOAF (Friend Of A Friend)

<foaf:Person rdf:ID="busaco"> <foaf:name>Sabin Buraga</foaf:name> <foaf:mbox rdf:resource="mailto:busaco@infoiasi.ro"/> <foaf:homepage rdf:resource="http://www.purl.org/net/busaco"/>

</foaf:Person>

exemplu

Informații despre o persoanăvia vocabularul FOAF (Friend Of A Friend)

<foaf:Person rdf:ID="busaco"> <foaf:name>Sabin Buraga</foaf:name> <foaf:mbox rdf:resource="mailto:busaco@infoiasi.ro"/> <foaf:homepage rdf:resource="http://www.purl.org/net/busaco"/>

</foaf:Person>

<foaf:Image rdf:about="http://www.flickr.com/.../foto.jpg"> <dc:date rdf:datatype="xsd:date">2010-05-12</dc:date> <dc:title xml:lang="ro">Prezentare la Summer Web 2010</dc:title> <foaf:depicts rdf:resource="#busaco"/> <foaf:maker rdf:resource="#tux"/>

</foaf:Image>

exemplu

Informații despre o persoanăvia vocabularul FOAF (Friend Of A Friend)

<foaf:Person rdf:ID="busaco"> <foaf:name>Sabin Buraga</foaf:name> <foaf:mbox rdf:resource="mailto:busaco@infoiasi.ro"/> <foaf:homepage rdf:resource="http://www.purl.org/net/busaco"/>

</foaf:Person>

<foaf:Image rdf:about="http://www.flickr.com/.../foto.jpg"> <dc:date rdf:datatype="xsd:date">2010-05-12</dc:date> <dc:title xml:lang="ro">Prezentare la Summer Web 2010</dc:title> <foaf:depicts rdf:resource="#busaco"/> <foaf:maker rdf:resource="#tux"/>

</foaf:Image>

exemplu

spații de nume

sintaxaXML (Extensible Markup Language)

modelul de date XML (abstract)XML Information Set – Infoset

transformări/prezentări de dateXSL (Extensible Stylesheet Language)

interogarea datelorXQuery – împreună cu XPath

Structurarea/formatarea conținutului(formate de prezentare a datelor)

în navigatorul Web: (X)HTML – Extensible HTMLformulare electronice: XForms

grafică vectorială: SVG (Scalable Vector Graphics)lumi tridimensionale: X3D (Extensible 3D Graphics)

în medii fără fir: XHTML-MP (Mobile Profile), Tiny SVG

Reprezentarea diferitelor tipuri de conținut

expresii matematice: MathMLmultimedia sincronizată: SMIL

(Synchronized Multimedia Integration Language)informații vocale: VoiceXML

componente ale interfeței-utilizator: XUL(Extensible User-interface Language)

informații cartografice: KML (Keyhole Markup Language)

Reprezentarea diferitelor tipuri de conținut

documentații: DocBook (Documentation Book)informații prelucrate de suite de birou

– e.g., Open Office: ODF (Open Document Format) mediatizare (syndication) – fluxuri de știri:

RSS (Really Simple Syndication), Atomreguli de specificare a proceselor de afaceri:

BRML (Business Rules Markup Language)

Multe alte limbaje la

http://xml.coverpages.org/

Așadar, până la urmă, ce este XML?

XML unifică tehnologii privind:

procesarea documentelor

stocarea și prelucrarea tradițională a datelor

accesul la Internet (Web)

XML

Internet

Docu-mente

Bazede date

XML se pretează pentru stocarea(reprezentarea) datelor semi-structurate

XML se pretează pentru stocarea(reprezentarea) datelor semi-structurate

sistemele tradiționale (e.g., bazele de date relaționale)necesită specificarea unei scheme rigide

în vederea stocării/accesării datelor

XML se pretează pentru stocarea(reprezentarea) datelor semi-structurate

sistemele tradiționale (e.g., bazele de date relaționale)necesită specificarea unei scheme rigide

în vederea stocării/accesării datelor

…un punct de vedere în general centralizat

XML se pretează pentru stocarea(reprezentarea) datelor semi-structurate

datele de pe Web sunt descentralizate, eterogene și pot fi,deseori, accesate – chiar modificate – de către oricine

XML se pretează pentru stocarea(reprezentarea) datelor semi-structurate

datele de pe Web sunt descentralizate, eterogene și pot fi,deseori, accesate – chiar modificate – de către oricine

resursele disponibile la un moment datnu sunt cunoscute a-priori

Direcții de interes:comunicatii și interacțiune

Direcții de interes:comunicatii și interacțiune

person-to-person

instant messaging – e.g., Jabber via XMPPmicro-blogging – exemplu: Twitter

Direcții de interes:comunicatii și interacțiune

computer-to-person

syndication – via RSS/Atomrecomandare de conținut – e.g., Zemanta

integrare de sisteme sociale

Direcții de interes:comunicatii și interacțiune

computer-to-computer

servicii Webaplicații hibride (mash-up-uri)

Twitter + Google EarthTwittEarth

Direcții de interes:publicare deschisă a datelor

Direcții de interes:publicare deschisă a datelor

modelare (semi)structurată

utilizare de formate/vocabulare standardizateDCMI (Dublin Core Metadata Initiative),

FOAF (Friend Of A Friend),DOAP (Description Of A Project),

Direcții de interes:publicare deschisă a datelor

procesare independentă de platformă/limbaj

Direcții de interes:publicare deschisă a datelor

prezentări multiple ale conținutului,în diverse formate, pe sisteme eterogene

Direcții de interes:modelarea proceselor (de afaceri, mai ales)

Direcții de interes:modelarea proceselor (de afaceri, mai ales)

dataflow/workflow

BRML (Business Rules Markup Language),BPEL4WS (Business Process Execution Language

for Web Services)

Analizoare (procesoare, parsers)Apache Xerces, Expat, libxml,…

Vizualizatoare și editoare structuraleFirefox, Open Office, 4Suite, <oXygen />, Serna etc.

Formatatoare – e.g., procesoare XSLT/XSL-FOApache FOP, libxslt, Saxon,…

Firefinder – folosirea interogărilor XPath în cadrul Firebug

Instrumente de convertireTidy

Instrumente de arhivareXMill

Sisteme de gestiune a bazelor de date XMLBerkeley DB XML, eXist, Sedna etc.

Există bune practiciprivind utilizarea și/sau modelarea

documentelor XML?

Cum trebuie structurat un document XML pentru a modela (stoca)

anumite date sau meta-date?

Recurgerea la șabloane de proiectare(design patterns)

definiție

Pattern (șablon)

regulă ce exprimă o relațiedintre un context, o problemă și o soluție

Christopher Alexander, 1979

Uzual, pattern-urile sunt utilizateîn proiectarea de aplicații

(object-oriented software design)

pattern “mind sized” chunk of information

lucrarea de referință:E. Gamma et al., Design Patterns, Addison-Wesley, 1995

Șabloanele de proiectare au fost folosite, ulterior, în cadrul interacțiunii om-calculator

context: IA – Information Architecture

resurse esențiale:J. Tidwell, Designing Interfaces, O’Reilly, 2005

www.hcipatterns.orgwww.welie.com/patterns

folosirea șabloanelor de interacțiune

Un șablon poate descrie cunoștințele unui expert(pe baza experienței sale personale)

în domeniul problemei în ceea ce priveșterecunoașterea problemei, a contextului și a soluției

la acea problemă

Un șablon nu reprezintă o regulă fermă

uneori nu trebuie aplicatanti-patterns

Este necesară adoptarea unui vocabular comuncorespunzător domeniului problemei

pattern language

Șabloane privitoare la:

proiectarearhitectură

analizădezvoltarestructură

comportament

Ne interesează modelarea datelorpe baza familiei XML

Recurgerea la șabloane structurale pentruproiectarea structurii unui document XML:

lungimea documentuluiușurința folosirii marcajelor

ușurința procesăriiflexibilitateaconsistența

gradul de abstractizare

Use XML

determină situația în care XML este soluția viabilă de reprezentare a informațiilor (semi-)structurate

exemplu

Use XML

reprezentări multiple: binar, CSV (Comma-Separated Values), HTML,

baze de date relaționale, obiecte serializate, XML,…

exemplu

Use XML

XML poate fi o soluție adecvată atunci când:

datele (conținutul) trebuie separat(e) de formatare

exemplu

Use XML

XML poate fi o soluție adecvată atunci când:

datele trebuie partajate între aplicații, organizații,...

exemplu

exemplu

Use XML

XML poate fi o soluție adecvată atunci când:

reprezentarea resurselortrebuie să poată fi înțeleasă și de oameni

exemplu

Use XML

XML poate fi o soluție adecvată atunci când:

reprezentarea trebuie procesată facil de calculator, independent de platformă și de limbaj

exemplu

Short Understandable Names

numele marcajelor (elemente și atribute)trebuie să fie scurte și ușor de înțeles atât de autori,

cât și de dezvoltatorii software-uluicare va procesa documentul XML

exemplu

Short Understandable Names

numele prea scurte sunt dificil de înțeles,dar reduc lungimea documentelor

<DescriereaEchipamentului CodulEchipamentului="…" /> versus <desec c="…" />

<b> <ul> versus <video /> <table> <title>

exemplu

Short Understandable Names

convenții de numire:

<nume_tag><NumeTag><numeTag>

exemplu

Content Element

problemă: numeroase elemente care aparpe același nivel în document și care pot fi divizate

în grupuri distincte

un container grupează elemente (copil) înrudite

exemplu

Content Element

adaugă un nivel de abstractizare,gruparea elementelor oferind informații semantice

suplimentare – e.g., asocierea de meta-date unui grup de elemente

exemplu

Content Element

șabloane înrudite: Head-Body

Collection Element

exemplu

Content Element

exemplu

<config>

<ram>4096</ram>

<hdd tip="...">500</hdd>

<parser limbaj="Java">

Xerces</parser>

<editor>vim</editor>

<parser limbaj="Perl">

Expat</parser>

</config>

<config><hardware>

<ram>4096</ram><hdd tip="...">500</hdd>

</hardware><software>

<parser limbaj="Java">Xerces</parser>

<parser limbaj="Perl">Expat</parser>

<editor>vim</editor></software>

</config>

Envelope

oferă un tip de document care va desemna un „plic” în care se vor putea stoca date XML arbitrare

exemplu

Envelope

oferă un tip de document care va desemna un „plic” în care se vor putea stoca date XML arbitrare

problemă: diferite seturi de date trebuie livrateunui sistem, într-o manieră consistentă

context: structura datelor din „plic” poate varia și nu este cunoscută la momentul creării sistemului

exemplu

Envelope

permite separarea diferitelor tipuri de conținuturi,oferindu-se un mecanism de livrare a datelor XML

„plicul” nu interferează cu conținutul propriu-zisal mesajului transmis

exemplu

Envelope

exemplu tipic de utilizare:protocolul SOAP folosit la vehicularea datelor

dintre servicii Web și clienți

exemplu

Envelope

exemplu

Role Attribute

problemă:unui element îi trebuie precizat rolul

(i.e. caracteristica definitorie)

exemplu

Role Attribute

problemă:unui element îi trebuie precizat rolul

(i.e. caracteristica definitorie)

soluție:se poate folosi un atribut specificând rolul

exemplu

Role Attribute

valorile atributului trebuie să fie mutual exclusive

pentru un element XML, nu pot apăreade mai multe ori atribute având același nume

<departament rol="cercetare">…</departament>

exemplu

Role Attribute

exemple de utilizare în cadrul microformatelor

www.microformats.org

vezi direcția POSH (Plain Old Semantic HTML)

exemplu

Alte șabloane

reutilizarea tipurilor de documente existente: Reuse Document Type

Alte șabloane

alegerea elementului/elementelor rădăcină: Multiple Document Types

Multi Root Document Types

Alte șabloane

referențierea unor construcții: Declare Before First Use

referențierea aceleiași informații în locuri multiple: Flyweight

arbore (ierarhie) versus graf: Marketplace

facilitează organizarea structurii documentului XML

Alte șabloane

facilitarea extinderii: Catch-All Element

Role AttributeExtensible Content Model

Alte șabloane

asigurarea consistenței: Common Attributes

Consistent Element Set

Alte șabloane

asocierea de meta-date:Separate Metadata & Data

Metadata in Separate DocumentHead-Body

Metadata First

Modelarea datelor (de la implicit la explicit)

specificarea preferințelor utilizatoruluiîn contextul navigării pe Web

studiu de caz

Modelarea datelor (de la implicit la explicit)

specificarea preferințelor utilizatoruluiîn contextul navigării pe Web

studiu de caz

<preferinte tema="aqua" rezolutie="1024x768" browser="Firefox 3.6"

/>

Modelarea datelor (de la implicit la explicit)

specificarea preferințelor utilizatoruluiîn contextul navigării pe Web

studiu de caz

<preferinte tema="aqua" rezolutie="1024x768" browser="Firefox 3.6"

/>

convenții de reprezentare ce nu pot fi deduse explicit

Modelarea datelor (de la implicit la explicit)

specificarea preferințelor utilizatoruluiîn contextul navigării pe Web

studiu de caz

<preferinte tema="aqua" rezolutie="1024x768" browser="Firefox 3.6"

/>

dacă trebuie stocatăo listă de navigatoare?

Modelarea datelor (de la implicit la explicit)

recurgând la șabloaneo soluție mai bună

studiu de caz

<preferinte> <tema>aqua</tema><rezolutie>

<latime unit="px">1024</latime><lungime unit="px">768</lungime>

</rezolutie><browser versiune="3.6">Firefox</browser>

</preferinte>

Resurse bibliografice

S. Buraga, Tehnologii XML, Polirom, 2006

S. Buraga (coord.), Programarea în Web 2.0, Polirom, 2007

B. Daum, U. Merten, System Architecture with XML,Elsevier Science, 2003

Situri Web de interes

Consorțiul Web: www.w3.org

Șabloane de proiectare XML: www.XMLPatterns.com

XML.org: www.XML.org

Instrumente XML open source oferite de fundația Apache: xml.apache.org

Ă

top related