Analyse raumbezogener Daten Komplexere Methoden · Analyse raumbezogener Daten-Komplexere Methoden Prof. Dr.-Ing. Ralf Bill Universität Rostock Agrar- und Umweltwissenschaftliche
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Analyse raumbezogener Daten-
Komplexere Methoden
Prof. Dr.-Ing. Ralf BillUniversität Rostock
Agrar- und Umweltwissenschaftliche FakultätProfessur für Geodäsie und Geoinformatik
Data Mining nutzt verschiedene Techniken (Mustererkennung, statistische Auswertungen, Zeitreihenanalysen, Datenmodellierung, neuronale Netze), mit denen aus umfangreichen, sehr detaillierten und verteilten Datenbeständen bislang unerkannte Informationen, Muster und Zusammenhänge zwischen den einzelnen Daten extrahiert werden können.
Dabei werden insbesondere folgende Suchstrategien unterschieden: Datenzusammenhang (Association) und Abhängigkeiten (Regeln): Es besteht eine starke
Korrelation zwischen zwei Ereignissen, d.h. die Wahrscheinlichkeit ist groß, dass wenn A eintritt, gleichzeitig auch B eintritt.
Zeitabhängigkeit (Sequences): Es besteht ein Zusammenhang zwischen Ereignissen, die aber zeitlich aufeinanderfolgen.
Gruppenzuordnung (Classification, Clustering): Bestimmte Datensätze sind einander in mehreren Punkten ähnlich und können daher gleichen Gruppen (Clustern, Marktsegmenten, Zielgruppen) zugeordnet werden. Abweichungen sind in engen Grenzen zugelassen.
Datenprognose (Forecasting): Historische Daten werden analysiert, Trends bestimmt und die Daten nach bestimmten Gesetzmäßigkeiten fortgeschrieben. Als zugrundeliegende Technik werden dabei häufig neuronale Netze oder nichtlineare Optimierungsverfahren eingesetzt (www.geoinformatik.uni-rostock.de).
Ziel einer Clusterbildung ist es, einen Datenbestand in Gruppen (engl. Clusters) aufzuteilen, so dass sich die Objekte in einer Gruppe gemäß einem oder mehreren Merkmalen möglichst ähneln und Objekte verschiedener Cluster möglichst unähnlich sind. Objekte, die keiner Gruppe zugeordnet werden können, werden als Ausreißer (engl. Outlier) bezeichnet. Bei einer Klassifikation liegen im Gegensatz zur Cluster-Bildung die im Datenbestand auftretenden Klassen bereits vor. Aufgabe ist es, Objekte aufgrund ihrer Attributwerte einer dieser Klassen zuzuordnen, wobei für eine Menge von Trainingsobjekte die Zuordnung bekannt ist. Somit muss das System auf dieser Basis lernen, neue Objekte einer Klasse zuzuweisen.
Verfahren: z.B. in SPSS Clusterzentrenanalyse Hierarchische Clusteranalyse Two-Step-Clusteranalyse
7GI_AnalyseKomplex 7
Dendrogramm
Dendrogramme werden dazu verwendet, Beziehungen zwischen Clustern darzustellen. Es zeigt die multidimensionalen Abstände zwischen Objekten in einer baumähnlichen Struktur. Objekte, die sich im multidimensionalen Daten-raum am nächsten sind, sind durch eine horizontale Linie verbunden und bilden einen Cluster, der als "neues" Objekt angesehen werden kann. Der neue Cluster und die übrig gebliebenen Originaldaten werden wieder nach dem nächsten Paar durchsucht usw. Der Abstand eines bestimmten Paares von Objekten (oder Clustern) wird durch die Höhe der horizontalen Linie angezeigt.
Spatial Data Mining (SDM) koppelt Data Mining mit GIS-Funktionalitäten und nutzt somit alle Informationspotenziale von raumbezogenen Daten für Analysen und für die Gewinnung neuer Informationen.
SDM zielt damit auf die Charakterisierung von Geodaten, die Erkennung räumlicher Cluster und die Ableitung räumlicher Abhängigkeiten, die Erkennung solcher Cluster verursachender Objekte und die Erklärung der für die räumliche Clusterbildung verantwortlichen Faktoren. Damit spielen insbesondere topologische Beziehungen und Entfernungen eine Rolle.
Datensätze, die sich in räumlichen Aspekten ähnlich sind, bilden räumliche Cluster. Unter die Bestimmung räumlicher Trends fällt die Erkennung von Bewegungs- und
Ausbreitungsmustern, zum Beispiel bei der Bevölkerungs- oder Wirtschaftsentwicklung. Man versucht, die regelmäßige Änderung eines nichtgeometrischen Attributs in der Umgebung von Geoobjekten zu identifizieren (T. Brinkhoff, 2008).
Ein geographisches Modell unternimmt den Versuch, die komplexe Wirklichkeit verständlich und anschaulich darzustellen. Man abstrahiert und idealisiert die reale Welt und die darin auftretenden Zusammenhänge und Prozesse. Modelle repräsentieren daher immer nur einen kleinen zielgerichteten und zweckgebundenen Ausschnitt der komplexen Realität.
Ein Modell stellt i. d. R. eine dem jeweiligen Problem angepasste mathematische Formulierung (z.B. in Form von Differentialgleichungen für Strömungsprobleme) dar, welches in einem Programmpaket mit geeigneten Algorithmen und Berechnungsansätzen umgesetzt ist.
Klassifizierungsansatzfür Modelle nach G. Teutsch (1992)
Das Verhalten geographischer Systeme wird eher vom Zufall bestimmt. Für solche Systeme werden die Anfangshypothesen mittels Wahrscheinlichkeitstheorie definiert: Analyse räumlicher Verteilungen von Variablen
- Verteilungsmuster von Fabrikstandorten- Korrelation zwischen Umsätzen und Beschäftigtenzahl,
Analphabetentum und sozialem Status- Autokorrelation bei Wählern bestimmter Parteien
Auf Grundlage von bekannten Wahrscheinlichkeiten, mit denen bestimmte Ereignisse auftreten, Entscheidungshilfen geben
Das Verhalten geographischer Systeme wird von physikalischen Gesetzen bestimmt und kann deshalb exakt vorhergesagt werden: Charakterisiert durch das Speichern und Fließen von Materie, Energie oder Menschen
in bzw. zwischen Komponenten- Modelle von Bevölkerungswanderungen- Modelle zur Untersuchung von Ökosystemstabilitäten
Charakterisiert durch Speichern und Fließen über einen ganzen Bereich kontinuierlich oder diskret in einzelnen Rasterzellen
- Temperaturverteilung in Bodenprofilen- Wasserdurchfluss im Boden- Stadterwärmungsbereiche
Fließen von Menschen, Waren oder Kapital (Gravitationsmodelle)- Bewegung von Konsumentenkapital zw. Regionen- Bewegung von Arbeitern zwischen Wohn- u. Arbeitsort
Sucht optimalen Transportfluss (Transportmodelle)- Konsumenten zu Anbietern- Schüler zu Schulen
Ad-hoc-Verknüpfung: Bei Bedarf werden zwei separate Welten (GIS- und Modellsoftware) über Datenaustausch verknüpft. Das Problem der nicht zueinander passenden Datenformate ist zu lösen. Die Datenverfügbarkeit ist in der Regel nicht gegeben.
Modellkopplung: Das GIS wird um die Modellsoftware herum entwickelt oder ein Modell setzt auf dem GIS auf. Das GIS gibt Daten an die Modellsoftware weiter und kann deren Ergebnisse wiederum nutzen.
Volle Integration: Die GIS- und Modellsoftware ist vollständig verzahnt. Die Datenspeicherung im GIS orientiert sich am Bedarf des Modells und umgekehrt. Diese Philosophie wird bisher von keinem GIS-Produkt unterstützt.
Standort für Sportanlage mit folgenden Bedingungen:
A: Die ausgewählte Fläche soll weniger als 7% geneigt sein B: Die Fläche muss zusammenhängend größer als 40.000qm sein. C: Das Areal muss möglichst außerhalb (> 50m) von bebautem Gebiet sein. D: Das Areal soll verkehrstechnisch angebunden sein, d.h. nicht weiter als 50m vom
K = Bodenerodierbarkeitsfaktor= f(Bodenart) aus Bodenkarte
L = Hanglängenfaktor = f(Ackerlänge)S = Hangneigungsfaktor
= f(Hangneigung) aus DGMC = Bewirtschaftungsfaktor
= f(Fruchtfolge)P = Erosionsschutzfaktor
A = durchschn. jährlicher Abtrag [t/ha]
Wischmeier, W. H., Smith, D. D. (1978): Predicting rainfall erosion losses. A guide to conversation planning. AgricultureHandbook, 537. Washington, 57 S.DIN 19708 (2005): Bodenbeschaffenheit – Ermittlung der Erosionsgefährdung von Böden durch Wasser mit Hilfe der ABAG.Berlin, 25 S.
R*K*L*S*C*P
=
A
Allgemeine Bodenabtragsgleichung (ABAG): A = R*K*L*S*C*P
GI_AnalyseKomplex 22
BodenerosionsmodellierungModell EroRAB
Raumstrukturierungsmodell EroRAB (Erosionsbezogene Raumstrukturierung zur Abtrags--schätzung) mit Gliederung von Ackerschlägen in Prozesseinheiten des Erosionsgeschehens:
3 Typen von Prozesseinheiten: Bereiche auf denen der flächenhafte Bodenabtrag mit der Allgemeinen
Bodenabtragsgleichung (ABAG) berechnet werden kann, erosionsaktive Tiefenlinien in denen die ABAG nicht gilt und Depositionsflächen auf denen abgelöstes Bodenmaterial angelagert wird.
Analysemethoden in der Hydrologie/Wasserwirtschaft
z.B. ArcHydro – Kombination geometrischer (2D/3D), topologischer und mengentheoretischer Analysen mit Modellvorstellungen, Erweiterungen hinsichtlich der Dimension Zeit
Komplexere Algorithmen wie der Topographische Wetness-Index (TWI) modellieren die Abflussprozesse auf Oberflächen. Dieser berechnet sich zu:TWI = ln ( As tan ).As bezeichnet das spezifische Einzugsgebiet eines Punkts, d. h. die Fläche, aus der einer betrachteten Zelle aufgrund der berechneten Abflussrichtungen Wasser zufließen kann, tan entspricht der lokalen Geländeneigung. Der TWI beschreibt, wie stark eine Teilfläche durch Zu- oder Abflusswasser geprägt ist.
Minimiere die Summe der Anfahrtswege aller Nutzer einer bestimmten Einrichtung (z.B. Schüler zu Schulen) Lokalisiere die Wohngebäude aller Schüler im Studiengebiet Lege ein Raster mit n Zellen über die Karte der Wohngebiete und bestimme die Anzahl Oi
(i=1,n) der Schüler pro Rasterzelle Lokalisiere die m Schulen im Studiengebiet und bestimme ihre Schülerkapazitäten Dj (j=1,m) Bestimme die Transportkostenmatrix cij mit den durchschnittlichen Entfernungen von jeder
Rasterzelle n zu jeder Schule m. Berechne die optimale Transportmatrix Tij mittels linearer Optimierung des Systems Konvertiere die Struktur der optimalen Transportmatrix in Einzugsbereiche um Schulen
Zellulare Automaten und GIS zur Ausbreitungssimulation
Reguläre Gitter als Zellularraum R z.B. 3 x 5 Zellen mit denselben geometrischen Eigenschaften
Eine endliche Nachbarschaft N Ein Zustandsset Q
z.B. tot oder lebend, 0 oder 1 Eine lokale Übergangsfunktion (Regeln) Beispiel “Game of Life” (J. Conway, 1970)
Beispiel Westlicher Maiswurzelbohrer (Diabrotica v. virgifera) seit 2007 auch in Deutschland, invasiver Schadorganimus aus der Familie der Blattkäfer
(Chrysomelidae), größter Schaden geht von den Larven des Käfers aus fressen nach ihrem Schlupf die Maiswurzelhärchen und mit zunehmenden Alter auch
größere Wurzeln, um sich im abschließenden Larvenstadium förmlich in die Wurzeln hineinzubohren. Dies führt zu einer ungenügenden Versorgung der Maispflanze mit Wasser und Nährstoffen, woraus ein Ertrag minderndes, gehemmtes Pflanzenwachstum resultiert. Zusätzliche Ertragsverluste werden durch das Fressen der Narbenfäden durch die Käfer verursacht, welches zu einer verringerten Körnerbildung führt GI_AnalyseKomplex 36
Paarweise Vergleiche Analytic Hierarchy Process Compromise Programming:
Multikriterielles Bewertungsverfahren durch Suche nach Kompromisslösung, die möglichst nahe an der Ziellösung liegt.
GI_AnalyseKomplex 42
Analytic HierarchyProcess (AHP)
Von T. L. Saaty Beginn der 1970er entwickelt Drei Hauptcharakteristiken
Analytic- analytisch zu arbeiten, Zahlen benutzt- logische Schlüsse auf numerische Werte anwendet und verständlich macht
Hierarchy- Abbildung des konkreten Entscheidungsproblems in einer Hierarchie (Dekomposition)- Strukturierung des Problems in Ebenen, Ziele, Unterziele, Kriterien, Unterkriterien,
Alternativen Process
- den Prozesscharakter trägt
Multikriterielles Verfahren zur Bestimmung der relativen Wichtigkeit von Indikatoren zueinander Prinzip: Paarweiser Vergleich der Indikatoren Einbeziehen von Expertenwissen
Auswahl von Alternativen und Kriterien Abbildung des Bewertungsproblems in eine Hierarchie Paarweiser Vergleich der einzelnen Hierarchieelemente Ermittlung der lokalen Prioritätenvektoren Überprüfung der Konsistenz der Paarvergleichsurteile Ermittlung der globalen Prioritätenvektoren
Abbildung Entscheidungssituation
in Hierarchie
Berechnung Gewichtung der Alternativen bzgl.
Ziele für gesamte Hierarchie
Berechnung Gewichtungsvektoren
zu jeder Paarvergleichsmatrix
Paarweiser Vergleich der Elemente einer
Hierarchieebene
nein
ja
Konsistenzprüfung (CR < 0,1)
Flussdiagramm des AHP (verändert nach Zimmermann & Gutsche 1991: 70, Notation gemäß UML-Aktivitätsdiagrammen).
Beurteilung eines Sachverhalts: Ablehnung, Gleichgültigkeit, Akzeptanz Verfeinerung: gering, mittel, hoch => 3 * 3 = 9 Neun-Punkte-Skala nach Saaty
Skalen-wert
Definition Definition
1 Equal importance Gleiche Bedeutung
2 Equal to moderate importance Gleiche bis etwas größere Bedeutung
3 Moderate importance Etwas größere Bedeutung
4 Moderate to strong importance Etwas bis erheblich größere Bedeutung
5 Strong importance Erheblich größere Bedeutung
6 Strong to very strong importance Erheblich bis sehr viel größere Bedeutung
7 Very strong importance Sehr viel größere Bedeutung8 Very to extremely strong importance Sehr viel größere bis absolut dominierend9 Extreme strong importance absolut dominierend
Eine Zeitreihe ist eine Reihe von Beobachtungen, die gewonnen werden, indem einzelne Variable regelmäßig über einen Zeitraum beobachtet werden.
Daher ist die Art der Daten für eine typische Zeitreihe eine einzelne Sequenz oder Liste von Beobachtungen, die in regelmäßigen Abständen durchgeführte Messungen repräsentieren.
Eines der wichtigsten Ziele bei der Durchführung einer Zeitreihenanalyse ist der Versuch, die zukünftigen Werte der Zeitreihe vorherzusagen.
Ein Modell der Zeitreihe, das die früheren Werte erklärte, kann möglicherweise auch vorhersagen, ob und wie stark die nächsten Werte zu- bzw. abnehmen.
Unterscheidungsmerkmal zwischen GIS Geometrische Operationen sind vorhanden
- Flächenverschneidung als absolutes Minimum Topologische Operationen eher eingeschränkt, aber problembezogen vorhanden Mengenmethoden wie Sortieren, Suchen, Abfragen etc. vorhanden, typische Db-
Operationen Einfache beschreibende Statistik vorhanden, Interpolationen und Geostatistik
zuehmend Temporale Methoden sind im Kommen Modelle sind eher speziell auf Anwendungsebene zumeist außerhalb von GIS