Visualisierung - WS07/08 26.10.2007 (c) 2007 D. Krömker, W. Müller 1 Hochschule Anhalt, SS 2005 1 Visualisierung, Prof. Dr. W. Müller Visualisierung Daten Detlef Krömker Uni Frankfurt, Graphische Datenverarbeitung Wolfgang Müller PH Weingarten, Mediendidaktik und Visualisierung Frankfurt, WS 2007/2008 2 Visualisierung, D. Krömker W. Müller Übersicht Wiederholung letzte Vorlesung (Teil B+C) Was kann visualisiert werden? (Teil D)
35
Embed
Visualisierung - gdv.informatik.uni-frankfurt.de · Dimension des Beobachtungsraums Terminologie zur Dimension des Beobachtungsraums 1-dimensionale Daten Dimension = 1 2-dimensionale
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 1
Hochschule Anhalt, SS 2005 1Visualisierung, Prof. Dr. W. Müller
Hochschule Anhalt, SS 2005 9Visualisierung, Prof. Dr. W. Müller
Was kann visualisiert werden?Teil D
Frankfurt, WS 2007/2008 10Visualisierung, D. Krömker W. Müller
Übersicht
Beschreibung der Daten Datenquellen Beobachtungsraum Datenmerkmale
Datenspezifikation
Datenformate
Reduktion einer Datenmenge Projektion Selektion
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 6
Frankfurt, WS 2007/2008 11Visualisierung, D. Krömker W. Müller
Beschreibung der Daten
Daten unterscheiden sich bezüglich Struktur Dimensionalität Umfang ... Bezugsraum in dem sie gemessen, beobachtet
berechnet, entworfen werden
Kennen und Berücksichtigen dieser Charakteristika istentscheidend für die Erfüllung des Kriteriums„Expressivität“
Frankfurt, WS 2007/2008 12Visualisierung, D. Krömker W. Müller
Datenquellen
Daten stammen aus der realen Welt theoretischen Welten künstlichen Welten
liefern Datenmengen im Mega-, Giga-, Terabytebereich,wobei maßgebend sind Anzahl der Mess- oder Beobachtungspunkte Anzahl der Parameter pro Punkt Anzahl der Werte pro Parameter Speicheraufwand pro Wert
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 7
Frankfurt, WS 2007/2008 13Visualisierung, D. Krömker W. Müller
Beispiele: Datenquellen
Filme
Spezialeffekte
WWW(gesamtes Web)
Spiele
VR-Szenarien
WWW(Einzeldokumente)
KünstlicheWelten
Hochenergie-physik
Astronomie
Geographie
(Militär ?)
Seismik
Kristallographie
Geographie
Meteorologie
Medizin
Medizin
Geographie
Meteorologie
Elektronen-mikroskopie
Reale Welt
Messdaten
TerabyteGigabyteMegabyte
Frankfurt, WS 2007/2008 14Visualisierung, D. Krömker W. Müller
Beispiele: Datenquellen
CustomerRelationship Data
Ökonomie- oderFinanzmodelle
GeschäftsdatenWirtschafts-wissenschaften
Styling (Auto)Architektur
Konstruktion (FEM)
Anlagenplanung
Ingenieur-wissenschaften
Moleküldesign
Meteorologie
Strömungs-simulation (CFD)
Molekulardynamik
Quantenchemie
Mathematik
Naturwissen-schaften
TerabyteGigabyteMegabyteTheoretischeWelten
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 8
Frankfurt, WS 2007/2008 15Visualisierung, D. Krömker W. Müller
Frankfurt, WS 2007/2008 18Visualisierung, D. Krömker W. Müller
Datenmerkmale
Merkmale Größen, die in einem Beobachtungsraum gemessen,
berechnet oder entworfen werden Spannen den Merkmalsraum auf Andere Bezeichnung: abhängige Variable
Aspekte Datentyp: Typ des Merkmals Dimensionalität: Anzahl der Werte pro Beobachtungspunkt Wertebereich: mögliche Ausprägung des Wertebereichs Strukturierung: Beziehungen zwischen den Merkmalen
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 10
Frankfurt, WS 2007/2008 19Visualisierung, D. Krömker W. Müller
Merkmalsraum (I)
“Unabhängige Variablen" vs. “abhängige Variablen" Unabhängige Variablen werden durch den
Beobachtungsraum beschrieben Alle anderen Attribute sind “abhängige Variablen”
und beschreiben den Merkmalsraum Bemerkung: die Unterscheidung von
unabhängigen und abhängigen Variablen ist oftnur bei Daten mir Orts-/Raumbezug eindeutigmöglich und in vielen anderen Fällen willkürlich!
Frankfurt, WS 2007/2008 20Visualisierung, D. Krömker W. Müller
Merkmalsraum (II)
Terminologie Univariate Daten
Dimension des Merkmalsraums = 1 Bivariate data
Dimension des Merkmalsraums = 2 Multivariate Daten, Multiparameter-Daten
Dimension des Merkmalsraums > 2
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 11
Frankfurt, WS 2007/2008 21Visualisierung, D. Krömker W. Müller
Datentypen (I)
Datentypen Unterscheidung interner Formate wie zum Beispiel „Byte“ oder „Real“
Auch: Beschreibung des Grads der Quantisierung Charakterisierung der Anzahl der Komponenten eines Merkmals
Skalare Größen Werden als Zahl repräsentiert Beispiel: Temperatur
Vektorielle Größen Betrag und Richtung, n-Tupel von Skalaren Beispiel: Geschwindigkeit
Tensorielle Größen Zusammenfassung mehrerer skalarer Größen mit bestimmten
Transformationsverhalten Repräsentieren eine Menge von Werten und Richtungen
Frankfurt, WS 2007/2008 22Visualisierung, D. Krömker W. Müller
Frankfurt, WS 2007/2008 23Visualisierung, D. Krömker W. Müller
Datentypen (III)
Qualitativ (Nominal) Keine Ordnungsrelation definiert Beispiele: Städtenamen, Automarken
Qualitativ (Ordinal) Ordnungsrelation, aber kein Maß zur
Bestimmung von Intervallgrößen Beispiele: erster, zweiter, dritter, …,
kalt, warm, heiß
Quantitativ (Intervall und Ratio) Kontinuierliche Prozesse oder
Phänomene Beispiel: Temperatur über die Zeit Ratio Scales erlauben zusätzlich zur
Bestimmung von Differenzen auch dieBestimmung von Verhältnissen
Daten
Qualitativ Quantitativ
Nominal Ordinal Intervall
Ratio
Frankfurt, WS 2007/2008 24Visualisierung, D. Krömker W. Müller
Datentypen (IV)
Bemerkung: Eine detailliertere Klassifikation von Datentypen ist
nur auf Basis eines akzeptierten gemeinsamenVerständnisses (z.B. standardisierte Ontologie)möglich
Dies korrespondiert zu einer Klassifikation desWissens und zumindest nicht trivial!
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 13
Frankfurt, WS 2007/2008 25Visualisierung, D. Krömker W. Müller
Beobachtungsraum: Wirkungskreis
punktuell
lokal
global
Daten gelten nur für denBeobachtungspunkt
Daten gelten in einer gewissenUmgebung um den Beobachtungs-punkt (z.B. durch endliche Aperturder Abtastung Integration übereine Region)
Daten gelten für den gesamtenBeobachtungsraum
Frankfurt, WS 2007/2008 26Visualisierung, D. Krömker W. Müller
Diskussion: Wirkungskreis
Wirkungskreis ist abhängig von Messverfahren und Kontext (d.h. Interpretation)
Bei punktuellem und globalem Wirkungskreis ist dieZuordnung der Messwerte eindeutig
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 14
Frankfurt, WS 2007/2008 27Visualisierung, D. Krömker W. Müller
Abtastung und Rekonstruktion (I)
Abtastung
Signal
Samples
Signal
Kontinuierliches Signal
Rekonstruktion
Diskretes Signal
Samples
Signal
Rekonstruiertes Signal
Frankfurt, WS 2007/2008 28Visualisierung, D. Krömker W. Müller
Abtastung und Rekonstruktion (II)
Abtastung
Signal
Rekonstruktion
Diskretes Signal
Samples
Signal
Rekonstruiertes Signal
Samples
Signal
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 15
Frankfurt, WS 2007/2008 29Visualisierung, D. Krömker W. Müller
Beispiel: Pixel Matrix
Frankfurt, WS 2007/2008 30Visualisierung, D. Krömker W. Müller
Abtasttheorem (I)
Frage: Wie muss ein Signal abgetastet werden, um eine korrekte
Rekonstruktion zu ermöglichen
Antwort: Shannon (1949)*:
„If a function f(t) contains no frequencies higher than W cps, itis completely determined by giving its ordinates at a series ofpoints spaced 1/2 W seconds apart.The function can be simply reconstructed from the samples byusing a pulse of the type
sin2
2
!
!
Wt
Wt
*Vorarbeiten durch H. Nyquist (1924) und J.M. Whittaker (1935).
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 16
Frankfurt, WS 2007/2008 31Visualisierung, D. Krömker W. Müller
Abtasttheorem (II)
Ein bandbegrenztes (kontinuierliches) Signal f(x),das mit Abtastintervallen abgetastet wird, kannfehlerfrei rekonstruiert werden, wenn dieAbtastfrequenzen größer als die Nyquist-Frequenzist:
Übliche Verfahren zur Datenwertzuordnung Voronoi-Zerlegung Scattered-Data-Interpolation
Frankfurt, WS 2007/2008 45Visualisierung, D. Krömker W. Müller
Voronoi -Zerlegung
Vorgehensweise Beobachtungsraum wird unterteilt in Gebiete, so dass jedem
Gebiet genau ein Beobachtungspunkt zugeordnet ist Jeder Punkt X des Beobachtungsraumes wird nun genau
einem Gebiet Gj zugeordnet und zwar so, dass alle Punktedieses Gebietes zu dem Beobachtungspunkt dieses Gebieteseinen geringeren Abstand haben als zu allen anderenBeobachtungspunkten
{ }mkjkPXPXXG kj
n
j !"#$%<%&'= :
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 23
Frankfurt, WS 2007/2008 46Visualisierung, D. Krömker W. Müller
Beispiel: Voronoi-Zerlegung
Für die Messwerte wurde eine Klasseneinteilung vorgenommen
Voronoi-Zerlegung zur Visualisierung:
Frankfurt, WS 2007/2008 48Visualisierung, D. Krömker W. Müller
Scattered-Data-Interpolation
Voraussetzungen: Gegeben: Menge von Beobachtungspunkten
Pi = (x1i, .. ,xni) mit i = 1, 2, ... m; m ≥ 1 und m: Anzahl der Beobachtungspunkte, n: Dimension des Beobachtungsraumes mit n ≥ 1, xl: l-te Dimension des Beobachtungsraums mit l = 1, ...,n
und xli die Koordinate des i-ten Beobachtungspunktes bzgl. der
I-ten Dimension. Für jeden Beobachtungspunkt Pi sei ein Datenwert fi gegeben.
Gesucht: Funktion
F(x1, .. , xn) = fi
ohne Voraussetzungen bzgl. Verteilung derBeobachtungspunkte
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 24
Frankfurt, WS 2007/2008 49Visualisierung, D. Krömker W. Müller
Shepard-Interpolation
.
122
22
2
11
1
1
1
1
1
1
1
))(...)()(()..,,(..
)..,,(
)..,,(
),..,(
!!
=
=
!+!+!==
=
"
"
nknkkknk
m
k
nk
m
k
knk
n
xxxxxxdxxWmitBz
xxW
fxxW
xxF
Kritik: alle Datenwerte haben globalen Einfluss. Man beschränkt also den Einfluss eines Datenwertes, z.B. nach Franke-Little
!"#
$
>%=%
&'
()*
+
,
%=
+
+
k
kk
k
k
k
nk
dr
drdrdr
mitdr
drxxW
falls0
falls)(
)(),..,(
2
1
r ist Radius des Wirkungskreises
Frankfurt, WS 2007/2008 50Visualisierung, D. Krömker W. Müller
Beispiel: Shepard-Interpolation
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 25
Frankfurt, WS 2007/2008 51Visualisierung, D. Krömker W. Müller
Weitere Charakteristika
Zusammensetzung der Datenmenge:
Welche Datentypen mit welchen Wertebereich: nominal,ordinal, metrisch
Umfang der Datenmenge: Wieviele Merkmale, wie oft, an wievielen
Beobachtungspunkten
Qualität der Datenmenge: Vollständigkeit und Fehlerbetrachtung
Weitere bekannte Zusammenhänge: Redundanzen, Korrelationen, ...
Frankfurt, WS 2007/2008 52Visualisierung, D. Krömker W. Müller
Metadaten (nach Treinisch)
„Datenbasis“ – Metadaten Notwendige Informationen zum Datenzugriff (z.B.
Datenbankkennung, Passwort, Datenformate)
„Attribut“ – Metadaten Charakterisierung der Daten (z.B. Merkmalsraum, Typen, etc.)
„Hilfs“(meta)daten Zusätzliche (i. allg.) numerische Daten, die für eine richtige
Interpretation der gegebenen Datenmenge erforderlich sind(z.B. demographische Daten oder Zeitangaben)
„Andere“ Metadaten Daten zur qualitativen Beurteilung In der Regel begleitende Texte
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 26
Frankfurt, WS 2007/2008 53Visualisierung, D. Krömker W. Müller
Attributmetadaten (I)
Spezifikation von Attributmetadaten nach Bergeron und GrinsteinGrundlegender Ansatz zur Klassifikation m-dimensionale Datenelemente auf einem
k-dimensionalen Gitter
Beispiele: Multiparameter-Daten: mit m ≥ 2 und k beliebig.
Gitterfreie Daten: mit m ≥ 1. Volumendaten: und Datenelement ist
Skalar
Strömungsdaten: mit k ≤ 3 und Daten-element Vektor
Kritik: Volumendaten und Strömungsdaten nicht ohne weiteresunterscheidbar
k
mL
0
mL
3
1L
kL1
k
mL
Frankfurt, WS 2007/2008 54Visualisierung, D. Krömker W. Müller
Attributmetadaten (II)
Spezifikation von Attributmetadaten nach BrodlieGrundlegender Ansatz zur Klassifikation Unabhängige Variablen werden in ihrer Dimensionalität
(unterer Index) beschrieben: Wirkungskreis
Keine Klammer: Daten gelten an einem PunktEckige Klammer: Daten gelten in einem BereichGeschweifte Klammer: Daten sind vom Aufzählungstyp
Abhängige Variablen werden durch Dimensionalität und Typ(oberer Index) beschrieben, z.B.
iS: i SkalareiV3: i 3-Dimensionale Vektoren
Beispiele:3
3
VE [ ]
SE5
2
Achtung:unterer und oberer Index zu
Begeron, Grinsteinvertauscht!
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 27
Frankfurt, WS 2007/2008 55Visualisierung, D. Krömker W. Müller
Attributmetadaten (II)
Spezifikation von Attributmetadaten nach GrawA: Anzahl der Beobachtungsfällec: Qualität der Datenmenge (vollständig/unvollständig)di: Anzahl der Merkmale mit Charakteristik (ti, oi, ui)
ti: Datentypoi: Existenz einer Ordnungsrelation über Wertebereich (ja/nein)ui: Umfang des Wertebereichs
n: Dimensionalität des Beobachtungsraumesg: Verbund der Beobachtungspunktew: Wirkungskreis der Beobachtungspunkte (punktuell, lokal, global)t = (ta, tdis, te) mit
ta Anfangszeitpunkt tdis Größe der Zeitintervalle (kontinuierlich, diskret) te Endzeitpunkt
Frankfurt, WS 2007/2008 56Visualisierung, D. Krömker W. Müller
Datenformate
Daten werden in unterschiedlichsten Formen undFormaten abgelegt Große Anzahl proprietärerer Datenformate Einige internationale und de-facto Standards für
Datenaustausch und -zugriff
Im Folgenden wird eine kleine Auswahl kurz vorgestellt: Tabellen und Excel Datenbanken NetCDF Topic Maps
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 28
Frankfurt, WS 2007/2008 57Visualisierung, D. Krömker W. Müller
Datenformate: Tabellen
Tabellen: Meistverwendete Form zur Repräsentation großer
Datensätze
Case1 Case2 Case3 ...
Attribute1
Attribute2
Attribute3
...
Value11 Value21 Value31
Value12 Value22 Value32
Value13 Value23 Value33
Bermerkung:Cases korrespondieren zu Datenobjekten,sind im Kontext von Tabellen jedoch dieüblichere Bezeichnung
Frankfurt, WS 2007/2008 58Visualisierung, D. Krömker W. Müller
Datenformate: Beispiel für Datentabelle
2-3
1-2
.286
5
2
Washington
0-00-01-11-0Div.
1-32-13-24-1Conf.
.333.429.667.833Pct.
4421Loss
2345Win
MiamiOrlandoBostonNew Jersey
NBA Eastern Conference Standings
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 29
Frankfurt, WS 2007/2008 59Visualisierung, D. Krömker W. Müller
Datenformate: Excel und ASCII Dump Format
Typische Repräsentationsformen von Tabellen in der Praxis Proprietäres Austauschformat von Microsoft Excel ASCII Dump Formats, z.B.
TAB Separated List Semicolon Separated List
Viele Werkzeuge undDatenbanken unterstützendiese Formate zumImport und ExportDaten können im Netz häufigin einem dieser Formategefunden werden
;New Jersey;Boston;Orlando;Miami;Washington
Win;5;4;3;2;2
Loss;1;2;4;4;5
Pct.;.833;.667;.429;.333;.286
Div.;1-0;1-1;0-0;0-0;1-2
Conf.;4-1;3-2;2-1;1-3;2-3
Frankfurt, WS 2007/2008 60Visualisierung, D. Krömker W. Müller
Datenformate: Daten in Databanken
Große und mittelgroße Firmensowie Content Providerspeichern und managen ihreDaten häufig inDatenbanksystemen
Zugriff auf Daten erfolgt dannim allgemeinen unterVerwendung von SQL
72-6750income
34372450age
164163170187size
femalemalefemalemalesex
IreneBobElsaTomname
4321
72-6750income
34372450age
femalemalefemalemalesex
4321
SELECT sex, age, incomeFROM persons
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 30
Frankfurt, WS 2007/2008 63Visualisierung, D. Krömker W. Müller
Datenformate: NetCDF
Network Common Data Format (NetCDF)
Entwicklung der University Corporation for Atmospheric Research(UCAR, 1993)
Aspekte Textuelle Beschreibung sowohl von Daten wie auch von
Metadaten Primär zur Repräsentation von Daten mit Raum- und Zeitbezug
auf unterschiedlichen Gitterformen, aber auch Mechanismenzur Beschreibung von Netzen
Weite Verbreitung in der Wissenschaftswelt Selbsterklärend Erweiterbar
Frankfurt, WS 2007/2008 64Visualisierung, D. Krömker W. Müller
Beispiel eines NetCDF Filesnetcdf example { //example of CDL notation for a netCDF file
dimensions: // dimension names and sizes are declared firstlat = 5, lon = 10, level =4, time = unlimited;
Frankfurt, WS 2007/2008 65Visualisierung, D. Krömker W. Müller
Topic Maps
Semantische Netze Zuerst eingeführt auf dem
Gebiet der KünstlichenIntelligenz zurWissensrepräsentation(Quillian 1966)
Darstellung von Konzeptenund Relationen in Formeines Graphen
Frames Partitionen eines
semantischen Netzwerkes
Hierarchische StrukturKnorz, 2001
Frankfurt, WS 2007/2008 66Visualisierung, D. Krömker W. Müller
Topic Maps
Topic Maps Austauschformat für Begriffsnetze / Semantische Netze
Internationaler Standard seit 1999 (ISO/IEC FCCD 13250:2000)
XTM 1.0 XML Encoding für Topic Maps
Komponenten Typen, Instanzen (Occurrences), sowie Assoziationen
zwischen Topics
Weitere Informationen http://www.topicmaps.org/xtm/1.0/core.xtm
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 32
Frankfurt, WS 2007/2008 67Visualisierung, D. Krömker W. Müller
Topic Maps
Data
Meta Data
M0: Core Elements
M1: Conceptual Layer
M2: Core Elements
occurrence
association
Course
Wolfgang
Script.htm
Frankfurt, WS 2007/2008 68Visualisierung, D. Krömker W. Müller
Reduktion einer Datenmenge
Entfernung irrelevanter Daten statistische oder informationstheoretische Methoden
Abstraktion durch Aggregation: Durchschnittswert und min, max Werte oder Durchschnittswert und Standardabweichung Gruppierung (Clustern Clusteranalyse)
Angabe des Bereichs von Interesse Beobachtungsraum Merkmalsraum
Auswahl von Teilmengen: Projektion Selektion ggf. Teilmengen durch Methoden des Focusing & Linking verbinden
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 33
Frankfurt, WS 2007/2008 69Visualisierung, D. Krömker W. Müller
Datenauswahl
Gegeben sei
D = {d1, ..., dN} der Struktur ndmv
(n unabhängige und m abhängige Variable)
Der Beobachtungsraum enthalte N Beobachtungspunkte
Für jeden Beobachtungspunkt seien die Werte der zugehörigenabhängigen Variablen in einem Datensatz zusammengefasst undmit di bezeichnet.
Nach einer endlichen Zahl von Reduktionsschritten erhält man
!
˜ D = ˜ d 1, ..., ˜ d ̃ N { } der Struktur ˜ n d ˜ m v
mit ˜ N " N, ˜ m " m und ˜ n " n.
Frankfurt, WS 2007/2008 70Visualisierung, D. Krömker W. Müller
Projektion
Anzahl der abhängigen oder unabhängigen Variablen werden reduziert.
Reduzierung der abhängigen Variablen:
Eindeutigkeit bleibt erhalten(Funktion bleibt eine Funktion)
Reduzierung der unabhängigen Variablen:
Funktion Relation (mehrere Werte)
mit 0 ≤ l ≤ (n-1) und 0 ≤ k ≤ (m-1) und ((l ≠ 0) ∨ (k≠0)).
( ) ( )!:~
,n m n l m k N Nd v" # # =d v und
Visualisierung - WS07/08 26.10.2007
(c) 2007 D. Krömker, W. Müller 34
Frankfurt, WS 2007/2008 71Visualisierung, D. Krömker W. Müller
Selektion
Durch Festlegung von Bedingungen an denWertebereich der Variablen