Algorithmen und Applikationen zur interaktiven Visualisierung und Analyse chemiespezifischer Datensätze Den Naturwissenschaftlichen Fakultäten der Friedrich-Alexander-Universität Erlangen-Nürnberg zur Erlangung des Doktorgrades vorgelegt von Frank Oellien aus Oldenburg
246
Embed
Algorithmen und Applikationen zur interaktiven Visualisierung und Analyse chemiespezifischer Datensätze
PhD Thesis Frank Oellien, Naturwissenschaftlichen Fakultäten der Friedrich-Alexander-Universität Erlangen-Nürnberg
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Algorithmen und Applikationen zur interaktiven
Visualisierung und Analyse chemiespezifischer Datensätze
Den Naturwissenschaftlichen Fakultäten der
Friedrich-Alexander-Universität Erlangen-Nürnberg
zur
Erlangung des Doktorgrades
vorgelegt von
Frank Oellien
aus Oldenburg
Als Dissertation genehmigt von
den Naturwissenschaftlichen Fakultäten der Universität Erlangen-Nürnberg
Tag der mündlichen Prüfung: 17.02.2003
Vorsitzender der Promotionskommission: Prof. Dr. A. Magerl
Erstberichterstatter: Prof. Dr. J. Gasteiger
Zweitberichterstatter: PD Dr. T. Clark
Mein besonderer Dank gilt meinem DoktorvaterHerrn Prof. Dr. Johann Gasteiger
für die herzliche Aufnahme in seinen Arbeitskreis, für die vielen anregenden Diskussionen undfür die stete und engagierte Unterstützung und Betreuung.
Mein besonderer Dank gilt ferner meinem ProjektleiterHerrn Dr. Wolf-Dietrich Ihlenfeldt
für die vielfältige Unterstützung in wissenschaftlichen und programmiertechnischen Fragen,für die wertvollen Anregungen sowie die engagierte Betreuung, ohne die diese Arbeit nichtmöglich gewesen wäre.
Für die sehr erfolgreiche Zusammenarbeit danke ich meinen Projektpartnern des DFG-Projekts"ChemVis" Prof. Dr. Thomas Ertl, Dr. Klaus Engel und Guido Reina. Mein Dank gilt darüberhinaus dem Initiator des DFG-Schwerpunktprogramms "Verteilte Verarbeitung undVermittlung digitaler Dokumente" (V3D2) Prof. Dr. Dieter Fellner sowie allen Kolleginnenund Kollegen der anderen V3D2-Projekte.
Weiteren Dank schulde ich allen ehemaligen und augenblicklichen Mitarbeiterinnen undMitarbeitern unseres Arbeitskreises, insbesondere
Frau Ulrike Burkhard, Herrn Dr. Thomas Engel, Frau Dr. Sandra Handschuh, HerrnMarkus Hemmer, Herrn Achim Herwig, Frau Angelika Hofmann, Herrn Dr. RobertHöllering, Herrn Alexander von Homeyer, Herrn Norbert Karg, Herrn ThomasKleinöder, Herrn Dr. Thomas Kostka, Herrn Dr. Giorgi Lekishvili, Frau Gisela Martinek,Herrn Jörg Marusczyk, Herrn Udo Ottmann, Herrn Dr. Matthias Pförtner, Herrn MartinReitz, Herrn Dr. Oliver Sacher, Herrn Dr. Christian Scholten, Herrn Dr. Axel Schunk,Herrn Dr. Christof Schwab, Herrn Dr. Paul Selzer, Herrn Markus Sitzmann, Herrn Dr.Joao de Sousa, Herrn Simon Spycher, Herrn Dr. Alexei Tarkov, Herrn Dr. AndreasTeckentrup, Herrn Dr. Lothar Terfloth, Herrn Dr. Jaroslaw Tomczak, Herrn Dr. DietrichTrümbach, Herrn Jörg Wegener und Frau Dr. Ai-Xia Yan
für ihre Hilfsbereitschaft in wissenschaftlichen und technischen Fragen, für die Bereitstellungund Pflege einer stabilen und effektiven Hard- und Softwareumgebung sowie für diefreundliche Arbeitsatmosphäre.
Meinen Kolleginnen und Kollegen vom Laboratory of Medicinal Chemistry, National CancerInstitute, NCI Herrn Dr. Marc Nicklaus, Herrn Dr. Bruno Bienfait und Herrn Dr. JohannesVoigt möchte ich für die freundliche Aufnahme und die Möglichkeit der Mitarbeit in ihrerArbeitsgruppe sowie den wissenschaftlich und privat anregenden Aufenthalt danken.
Für die finanzielle Unterstützung dieser Arbeit im Rahmen des DFG-Schwerpunktprogramms"Verteilte Verarbeitung und Vermittlung digitaler Dokumente" (V3D2) danke ich derDeutschen Forschungsgemeinschaft DFG.
und CUBE [29]. Diesen Techniken erfordern für die Darstellung begehbare, geschlossene
Räume. Mit Hilfe von Projektionskanonen werden dabei auf die vier Wände, die Decke und
den Boden des Raumes Bilder einer dreidimensionalen Szene projiziert. Der Benutzer kann
alleine oder in der Gruppe diese virtuelle Welt betreten und betrachten. Im Allgemeinen wird
der virtuelle Effekt dabei noch durch Shutter-Brillen verstärkt. Durch weitere Peripherie wie
beispielsweise Cyber-Handschuhen ist der Benutzer auch in der Lage Manipulationen an der
dargestellten Szene vorzunehmen. Den Vorteilen, die ein solches System bietet, stehen sehr
hohe Kosten und Rechenanforderungen gegenüber, die den Einsatz solcher Technologien nur
auf sehr spezielle Problemfälle einschränkt. Diese Situation hat sich in den letzten Jahren
durch die Verfügbarkeit preisgünstiger und leistungsfähiger Spielegraphikkarten noch
verschärft.
Als letzte Technologie sei noch auf direkte Volumenvisualisierungssysteme hingewiesen.
Die modernste Lösung auf diesem Sektor stellt zur Zeit die prototypische Perspecta Spatial
3D Plattform dar [30]. Das System besteht aus einer Glaskugel, dessen Durchmesser ca.
50 cm beträgt. Im Inneren dieser Kugel zirkuliert ein Hochgeschwindigkeitsprojektor, der
die dreidimensionale Szene auf die Kugel projiziert. Dem Benutzer wird dabei ohne Einsatz
weiterer Hilfsmittel wie Brillen oder HMDs der Eindruck vermittelt, dass er tatsächlich ein
räumliches Objekt betrachtet und mit ihm interagieren kann.
16
2.2 Internet-Techniken
2.2 Internet-Techniken
Bei der Entwicklung der in dieser Arbeit vorgestellten Methoden und Applikationen wurde
besonderer Wert auf die Plattformunabhängigkeit gelegt. Die Einbettung der Visualisierungs-
applikationen in digitale Dokumente wurde dabei durch den Einsatz von Technologien und
Programmiersprachen, die sich an aktuellen Internetstandards orientieren, sichergestellt.
Diese Technologien werden im Folgenden beschrieben.
2.2.1 Multipurpose Internet Mail Extension (MIME)
Die Entwicklung dieses Standards geht auf das Jahr 1992 zurück, als das Internet noch am
Anfang seiner Entwicklung stand und vor allem zum Verschicken von elektronischen Mails
diente [31]. Heute ist diese Erweiterung nicht nur auf elektronische Post beschränkt, sondern
wird allgemein im Internet zur Identifizierung der Form und Struktur übertragener Daten ver-
wendet. Der entsprechende Datentyp wird dabei durch einen allgemeinen Teil (z.B. video,
audio, application) und einen spezifischen Teil identifiziert. Je nach Einstellung des Web-
browsers wird dann ein Plugin (vgl. Abschnitt 2.2.2) oder eine entsprechende Standardappli-
kation gestartet, welche die übertragenen Daten interpretieren kann.
Erste MIME-Typen zur Kennzeichnung von chemischen Austauschformaten wurden 1994
eingeführt [3, 6]. Da in dieser Arbeit vor allem die Vermittlung von graphischen Daten im
Vordergrund stand, kamen chemische MIME-Typen nur selten zum Einsatz. Häufiger wurden
die entsprechenden MIME-Typen zur Interpretation von VRML-Szenen (vgl. Abschnitt
2.2.5) oder zum Start des Java2-Plugins (vgl. Abschnitt 2.2.4) eingesetzt.
2.2.2 Plugins
Als Plugins bezeichnet man kleine, plattformabhängige Applikationen, die die Darstel-
lungsfähigkeiten von konventionellen Webbrowsern in Abhängigkeit von bestimmten Daten-
typen erweitern. Empfängt der Client einen bestimmten Datentyp, der vom Browser
standardmäßig nicht interpretiert aber von dem vorher installierten Plugin gehandhabt werden
kann, so wird das Plugin innerhalb des Browser-Fensters gestartet und für die eingebettete
Repräsentation der Daten in der Webseite verwendet. Bis vor kurzem unterstützten die wich-
tigsten Browser diese von Netscape entwickelte Plugin API. Microsofts Bemühungen diese
Technologie durch die eigene ActiveX-Technologie zu ersetzen, haben dazu geführt, dass
neuere Versionen des Internet Explorers die Plugin-Technik nicht mehr unterstützen.
Der bekannteste chemische Vertreter dieser Klasse von Anwendungen ist zweifellos das
von MDL vertriebene Chime-Plugin [32].
17
2 Grundlagen
2.2.3 JavaScript
JavaScript ist eine von Webbrowsern interpretierbare Skriptsprache, die aber keinen, wie
der Name eventuell vermuten lässt, Bezug zu der objektorientierten Programmiersprache
Java hat. Durch Einbettung von JavaScript-Tags in HTML-Seiten können beispielsweise
Benutzereingaben in Webformularen interpretiert und weiterverarbeitet werden.
2.2.4 Java
Die objektorientierte Programmiersprache Java [33] wurde 1995 von der Firma Sun
Microsystems entwickelt und seitdem ständig erweitert. Java ist in starkem Maße an die Pro-
grammiersprache C++ angelehnt, aber im Gegensatz dazu sowohl betriebssystem- als auch
plattformunabhängig. Die Erfüllung der Systemunabhängigkeit ermöglicht den Einsatz von
Java-Programmen im Internet. Java-Programme können in Form von Java-Applets auf belie-
bige Rechner transferiert und anschließend ausgeführt werden, wenn ein entsprechender,
Java-fähiger Webbrowser zur Verfügung stehen. Darüber hinaus können Java-Programme
auch als Standalone-Applikationen ausgeführt werden, wenn eine entsprechende Java-Lauf-
zeitumgebung (virtuelle Maschine) auf dem System installiert ist.
Heute hat sich Java als de-facto Standard für die Programmierung von Internet-Applikatio-
nen durchgesetzt und ist für fast alle wichtigen Betriebssysteme und Plattformen erhältlich.
Viele der in dieser Arbeit vorgestellten Applikationen und Methoden nutzen Java in Form
von Applets aber auch als eigenständige Java-Programme.
2.2.5 VRML und X3D
Die Virtual Reality Modeling Language (VRML) [34] ist ein plattformunabhängiges, fle-
xibles Dateiformat zum Austausch und zur Beschreibung von dreidimensionalen Szenen.
VRML existiert in zwei Varianten - als VRML 1.0 und als VRML 2.0. Die letztere Version
wurde 1997 von der International Organization for Standardization und von der International
Electrotechnical Commission unter den Namen VRML97 als Standard verabschiedet und hat
mittlerweile die ältere Version weitgehend ersetzt.
Die dreidimensionale Szene wird dabei in Form eines Szenengraphen beschrieben, der aus
speziellen sogenannten Knoten besteht. Ähnlich wie HTML-Dateien ist auch das VRML-For-
mat in einer ASCII-Syntax implementiert. Die übertragenen VRML-Daten können entweder
durch Standalone-Programme oder durch spezielle Plugins (vgl. Abschnitt 2.2.2) visualisiert
werden.
18
2.2 Internet-Techniken
Neben der Möglichkeit zur Beschreibung von statischen Objekten, die auch schon in
VRML 1.0 möglich war, erlaubt VRML97 auch ereignisbasierte Dynamik. Durch Annähe-
rungssensoren, Berührungssensoren und zyklischen Zeitsensoren sowie deren Verknüpfung
mit anderen Szenenknoten mittels sogenannte Router können einfache Benutzerinteraktionen
und Animationen realisiert werden. Darüber hinaus können VRML-Skripte in Form von spe-
ziellen Skript-Knoten in die Szene integriert werden. Diese an JavaScript angelehnte Skript-
sprache kann ebenfalls mit den VRML-Knoten verknüpft werden und gestattet somit
beispielsweise die Weiterverarbeitung und Berechnungen von Benutzereingaben.
Im Gegensatz zu anderen Szenengraphenschnittstellen wie zum Beispiel Java3D (vgl.
Abschnitt 2.2.6) ist VRML primär zur reinen Vermittlung von 3D-Information und weniger
zur Programmierbarkeit ausgelegt. Dieses Defizit kann mit Hilfe des External Authoring
Interface (EAI) [35] behoben werden. Mit Hilfe des EAI kann beispielsweise ein Java-
Applet, das mit einem VRML-Plugin in eine HTML-Seite eingebettet ist, direkt den Szenen-
graphen beobachten und manipulieren. Der Einsatz dieser Technik wird in Kapitel 3 beschrie-
ben.
Der Nachfolger von VRML97 wird zur Zeit von einem internationalem Industrieverband,
dem Web3D-Konsortium entwickelt. Diese als X3D (Extensible 3D) bezeichnete Szenenbe-
schreibungssprache basiert dabei auf der Extensible Markup Language (XML). Diese Tech-
nik kam im Rahmen der Arbeit nicht zum Einsatz, da bis dato kein verabschiedeter Standard
dieser Technik verfügbar ist.
2.2.6 Java3D
Die von Sun Microsystems entwickelte high-level Programmierschnittstelle Java3D [36]
ist eine Erweiterung von Java und ermöglicht die Entwicklung von 3D-fähigen Applikationen
und Java-Applets. Die von Java3D dargestellten Szenengraphen basieren dabei direkt auf den
bereits in Abschnitt 2.1.3.2 vorgestellten low-level Graphikschnittstellen OpenGL bzw.
Direct3D/DirectX. Im Gegensatz zu VRML dient Java3D nicht zum Austausch von dreidi-
mensionalen Szenen. Vielmehr erlaubt Java3D die Programmierung von Applikationen zur
dreidimensionalen Darstellung von Information. Der entwickelte Szenengraph kann dabei
über die Java3D API komfortabel und im wesentlich größeren Umfang als bei VRML pro-
grammiert werden.
Das in Kapitel 6 beschriebene InfVis-Programm zum graphischen Datamining basiert auf
der Java3D-Technologie.
19
2 Grundlagen
2.3 Verwendete Programme
Die im Folgenden beschriebenen Programme wurden zur Generierung, Speicherung und
zum Management von chemischen Daten benötigt. Dem offenen chemischen Managementsy-
stem CACTVS kam dabei insbesondere bei der Entwicklung der Internet-Anwendungen eine
zentrale Bedeutung zu.
2.3.1 Das chemische Managementsystem CACTVS
Das Chemical Algorithms Construction, Threading and Verification System, kurz
CACTVS [37, 38] wurde als Server-seitiges Programmsystem bei der Entwicklung der in
Kapitel 3 beschriebenen, Web-Applikationen eingesetzt. Dabei wurde es durch eine Reihe
von Dateileseroutinen und Modulen erweitert, auf deren Implementation ebenfalls in Kapitel
3 genauer eingegangen wird. Dieser Abschnitt soll einen allgemeinen Eindruck von der
Zielsetzung und Architektur dieses offenen Managementsystems vermitteln.
2.3.1.1 Zielsetzung
Chemische Industriefirmen insbesondere im Bereich der Pharmaforschung verwalten
heutzutage Unmengen an experimentellen und berechneten Daten. Die in den Daten
enthaltene Information ist im Gegensatz zu anderen Wissenschaften für die Entwicklung
zukünftiger Produkte von großer Bedeutung. Deshalb muss ein rascher, unkomplizierter und
vollständiger Zugriff auf die Daten sowie eine nachfolgende effiziente Verarbeitung
sichergestellt werden. Im Zeitalter des Intra- und Internets sollte dieser Zugriff darüber hinaus
mit maximaler Flexibilität und minimalen Hemmschwellen bezüglich Formaten, Plattformen
und Betriebssystemen stattfinden können.
Die Realisierung eines solchen Informationssystems stellt sich jedoch als schwierig dar.
Wie bereits erwähnt existiert in der Chemie eine Reihe von typischen Datenobjekten, wie
Spektren, Strukturen, Reaktionen usw. Durch die Entwicklung von computergestützten
Methoden zur Analyse, Berechnung und Weiterverarbeitung dieser Daten, steht dem
Chemiker heute eine fast unüberschaubare Anzahl von Datenbankanwendungen und
Programmen zur Lösung einzelner Problemstellungen zur Auswahl. Aufgrund fehlender
Kompatibilität zwischen den einzelnen Softwarelösungen ist der Datenaustausch und die
Weiterverarbeitung von Information stark eingeschränkt oder überhaupt nicht möglich.
Das CACTVS-Toolkit ist das erste, offene, netzwerkorientierte System, dass die ganze
Bandbreite der chemischen Information mit ihren spezifischen Charakteristika ausdrücken,
verwalten und vermitteln kann. Dabei wurde es vor allem zur Realisierung von drei wichtigen
Einsatzgebieten ausgelegt: zum Rapid Application Development von Chemie-Anwendungen
20
2.3 Verwendete Programme
mit graphischen Nutzerinterface, zur allgemeinen Integration und Management von
chemieorientierten Daten und Rechenverfahren und letztendlich zum sogenannten
chemischen Scripting. Die beiden letzten Einsatzbereiche sind dabei vor allem im Rahmen
dieser Arbeit zum Einsatz gekommen. Dank dieser spezifischen Ausrichtung eignet sich das
CACTVS-System als Bindeglied und zur Kommunikation zwischen einzelnen chemischen
Programmen und Anwendungen. Darüber hinaus erlaubt die flexible, netzwerkorientierte
Architektur von CACTVS auch den Einsatz als Middleware und damit einen einfachen,
browservermittelten Zugriff auf alle erforderlichen Datenobjekte in einem firmeninternen,
standortübergreifenden Intranetsystem.
2.3.1.2 Die Architektur
Um die Funktionsweise des Systems zu verstehen, ist die Vermittlung eines kurzen
Überblicks der CACTVS-Architektur notwendig. Abbildung 2-4 zeigt den schematischen
Aufbau des CACTVS-Programmsystems.
Abb. 2-4: Schematische Darstellung des CACTVS-Programmsystems.
Tool-Definitionen
Eigenschafts-Definitionen
Berechnungs-Skripte
Berechnungs-Module
Quellen vonModulen, Servern,
Erweiterungen
I/O Format-Erweiterungen
Moleküle undberechneteErgebnisse
Darstellungs-Definitionen
Rechner- undDarstellungs-
Server
Dynamische ge-ladene Operatoren
& I/O Module
Kommando-Sprachen-
Erweiterung
Datenformat-Erweiterung
Kern-Bibliothek
Kommandosprachen - Interface
Graphical User Interface
21
2 Grundlagen
Herzstück des Systems ist die CACTVS-Kernbibliothek, welche als flexibler,
objektorientierter Datenmanager fungiert. Der Datenmanager verwaltet dabei einen offenen,
beliebig erweiterbaren Satz von Beschreibungen der Eigenschaften von chemischen Objekten
wie Molekülen, Atomen und Bindungen sowie Methoden, um die zu den Eigenschaften
gehörigen Daten voneinander abzuleiten und zu verknüpfen. Alle Aspekte der Daten-
beschaffung, -management, -analyse, -manipulation und -ausgabe werden durch das
Kernsystem gehandhabt. Die wichtigsten Eigenschaften der Kernbibliothek sowie das
Kommandosprachen-Interface werden im Folgenden näher betrachtet.
Unbegrenzte Datentyp-Erweiterung. Eine generelle Forderung bei der Entwicklung von
CACTVS war die nahezu unbegrenzte Erweiterbarkeit des Systems. Diese Zielsetzung wird
dadurch erreicht, dass jede Form von chemischer Information vollkommen unabhängig von
der Kernbibliothek in externen Eigenschaftsdeskriptoren beschrieben wird. Dabei enthalten
die Eigenschaftsbeschreibungen Daten wie beispielsweise eine ausführliche Beschreibung
des Datentyps, Information über Abhängigkeiten von anderen Eigenschaften, Methoden zur
Informationsgenerierung und Metainformation. Das System verfügt bereits über eine große
Anzahl an implementierten Deskriptoren. Diese Bibliothek lässt sich aber ohne Probleme für
einen bestimmten Datentypen erweitern. Die Implementation (Programmiersprache) und die
Lokalisation (Systempfad) der Deskriptoren ist dabei auch vollkommen offen gestaltet. So
muss beispielsweise ein Deskriptor nicht auf dem gleichen System vorliegen, sondern kann
aus Dateien, aus Datenbanken, aus einem lokalen Netzwerk oder von einem entfernten Server
mittels Internet-Protokolle während der Laufzeit des Programms angefordert werden. Das
System unterstützt darüber hinaus die Speicherung identischer Informationsbeschreibungen,
beispielsweise bei unterschiedlicher Herkunft der Daten, durch Anlegen multipler Instanzen
der Eigenschaftsbeschreibung. Mittels sogenannter "synthetischer" Deskriptoren kann
CACTVS sogar Daten speichern und verwalten, für die zur Laufzeit keine geeigneten
Informationsbeschreibungen vorliegen.
Automatische Lookup- und Generierungs-Mechanismen. Der notwendige Zugriff
seitens der Kernbibliothek auf die externen Eigenschaftsbeschreibungen erfolgt mittels
automatischer Lookup-Mechanismen. Dabei ermittelt das System nicht nur die benötigten
Eigenschaftsdeskriptoren anhand von frei definierbaren Systemvariablen sondern überprüft
darüber hinaus auch die Abhängigkeit zu anderen Eigenschaftsbeschreibungen und veranlasst
die definierte Generierung von chemischen Daten, falls diese nicht vorhanden sind. Dieser
Vorgang läuft für den Benutzer vollkommen transparent ab. Eine detaillierte Beschreibung
dieses Vorgangs wird anhand von einigen Applikationen in Kapitel 3 erläutert.
22
2.3 Verwendete Programme
Automatische Aktualisierung von Eigenschaftswertigkeiten. Durch das Vorliegen von
definierten Abhängigkeiten zwischen verschiedenen Eigenschaftdeskriptoren gewährleistet
das System die Korrektheit der in einer Beschreibung abgelegten Daten. Ändert sich der
Inhalt einer Eigenschaftsbeschreibung zum Beispiel durch Neuberechnung der chemischen
Information, so werden auch alle von diesem Deskriptor abhängigen Eigenschaften neu
berechnet oder gelöscht.
Flexibles I/O-Modell. Neben der Erweiterbarkeit von Modulen zur Datenbeschreibung
kann das System zur Laufzeit auch mit dynamisch ladbaren Modulen zur Behandlung des I/O
von Dateien in verschiedenen Formaten, zur Anbindung an diverse Datenbanken, zur
Implementation von Rechenverfahren (zur automatischen Generierung chemischer
Information), zur Objektdarstellung und Repräsentation oder zur Verwaltung von Datentypen
ergänzt werden.
Very high-level Scripting Language. In den meisten Fällen erfolgt der Zugriff auf die
Kernbibliothek mittels mächtiger Skriptsprachen. Obwohl verschiedene Skriptsprachen zum
Einsatz kommen können, wird in der Praxis derzeit der Industriestandard TCL (Tool
Command Language) [39], das graphische Toolkit Tk sowie einige Erweiterungen
verwendet. Diese Skriptsprache wurde um einen umfangreichen Satz an chemischen Daten-
und Strukturmanipulations-Kommandos ergänzt. Durch das Kommandosprachen-Interface
können alle Objekte innerhalb der Kernbibliothek angesprochen und manipuliert werden.
Das Skriptspracheninterface von CACTVS kann darüber hinaus in Common Gateway
Interface (CGI)-Skripten eingesetzt werden und dient dabei nicht nur zur Kommunikation
zwischen Client und Server, sondern erlaubt gleichzeitig den Zugriff auf die Kernbibliothek.
Somit lassen sich sehr kurze und einfach aufgebaute CGI-Skripte erstellen (vgl. Kapitel 3).
Da die GUI-Applikationen wie beispielsweise der CACTVS-Browser oder der CACTVS-
Editor im Rahmen dieser Arbeit nicht zum Einsatz kamen, soll auf diese Applikationen des
CACTVS-Programmpakets nicht näher eingegangen werden.
2.3.2 Der 3D-Strukturgenerator CORINA
Die Visualisierung dreidimensionaler Datenobjekte der Chemie, erfordert im Regelfall das
Vorliegen von dreidimensionalen Strukturdaten. Die notwendige dreidimensionale
Molekülkonformation wird dabei mit dem im Arbeitskreis Gasteiger entwickelten
Strukturgenerator CORINA [40, 41] berechnet. Aus geschwindigkeitstechnischen Gründen
und zur vereinfachten Generierung der Daten wurde in dieser Arbeit nicht die Standalone-
Version des Strukturgenerators sondern das korrespondierende und im Funktionsumfang
23
2 Grundlagen
identische CACTVS-Modul von CORINA verwendet. Durch diese Architektur konnte der
umständliche Datenaustausch mittels Dateien vermieden werden.
Ein Satz von Regeln, welche aus Erfahrungswerten mit Kraftfeldrechnungen, kristallogra-
phischen Daten und geometrischen Überlegungen erstellt wurden, sowie einige standardi-
sierte Daten wie Bindungslängen, Bindungswinkel und Ringgeometrien dienen als Grundlage
bei der Generierung der dreidimensionalen Struktur. Durch eine möglichst allgemein gehal-
tene Definition dieser Regeln kann das Programm prinzipiell die gesamte strukturelle Vielfalt
der organischen Chemie, sowie große Teile der metallorganischen Komplexe handhaben.
Zur Berechnung der dreidimensionalen Struktur benötigt der Generator eine Konnektivi-
tätstabelle der entsprechenden Verbindung. Während in der Standalone-Version die Eingabe
der Bindungsverhältnisse über chemische Austauschformate wie Sybyl Molfile, MOL oder
SDF erfolgt, kann in der CACTVS-Version die Konnektivitätsinformation direkt an das Modul
übergeben werden. Die Rückgabe der 3D-Daten erfolgt anschließend über die gleichen
Schnittstellen.
Die Generierung erfolgt durch eine Reihe von Einzelschritten. Nachdem in einem ersten
Schritt alle Bindungslängen und Bindungswinkel mit standardisierten Werten belegt wurden,
erfolgt zur weiteren Berechnung die Aufspaltung des Moleküls in cyclische und acyclische
Systeme. Die cyclischen Systeme werden je nach Größe und Eigenschaften unterschiedlich
behandelt. Während kleinere Ringsysteme (bis acht Atome) durch vordefinierte Ring-
schablonen beschrieben werden, wird zur Ermittlung der Superstrukturen von großen Ringsy-
stemen auf regelbasierte Methoden zurückgegriffen. Acyclische Molekülteile werden mit der
Methode des längsten Pfades analysiert. Dabei werden die offenkettigen Fragmente entlang
der längsten Kette durch anti-Stellung aller frei drehbaren Torsionen gestreckt. In einem
abschließenden Schritt werden die cyclischen und acyclischen Fragmente kombiniert, wobei
das System hinsichtlich möglicher Atomüberlagerungen oder zu kurzer Atomabstände über-
prüft wird. Mögliche Konflikte werden dabei durch eine eingeschränkte Konformationsana-
lyse gelöst.
2.3.3 Das semiempirische MO-Programm VAMP
Neben der dreidimensionalen Struktur setzen einige der in dieser Arbeit beschriebenen
Applikationen auch quantenchemisch berechnete Daten wie Orbitalkoeffizienten oder Spek-
trendaten voraus. Zur Generierung dieser Daten wurde das semiempirische Molecular Orbital
Package VAMP [42] eingesetzt. Um den Datenaustausch mit diesem Programmpaket zu
erleichtern, wurden im Rahmen dieser Arbeit einige CACTVS-basierte Leseroutinen und
Eigenschaftsdeskriptoren für VAMP entwickelt.
24
2.3 Verwendete Programme
VAMP wurde 1983 zunächst als vektorisierte Version von AMPAC im Arbeitskreis Clark
entwickelt. Mittlerweile hat sich VAMP zu einem vollkommen eigenständigen, zu AMPAC
und MOPAC Input-kompatiblen, semiempirischen Molecular Orbital Package entwickelt.
Das Natural Atomic Orbital / Point Charge (NAO-PC) Modell zur Berechnung von mole-
kularen, elektrostatischen Eigenschaften ist in VAMP implementiert und steht für die Stan-
dard-Hamiltonian-Methoden MNDO, AM1 und PM3 zur Verfügung. Diese Funktionalität
wurde unter anderen von der MolSurf-Applikation (vgl. Abschnitt 4.1.5) in Anspruch genom-
men.
Darüber hinaus wurden zum Teil auch die in VAMP implementierten Methoden zur Geo-
metrie-Optimierung genutzt, wobei in der Regel mit CORINA generierte 3D-Koordinaten als
Eingabe dienten.
VAMP verfügt darüber hinaus über eine ganze Reihe von weiteren Funktionalitäten, die im
Rahmen dieser Arbeit nicht zum Einsatz kamen und daher an dieser Stelle unerwähnt bleiben.
25
2 Grundlagen
26
Kapitel 3
Visualisierung chemischer Datenobjekte
Im vorausgehenden Kapitel wurden die allgemeinen Grundlagen der dreidimensionalen
Visualisierung vermittelt. Dieses Kapitel widmet sich speziell der Darstellung chemischer
Datenobjekte, wobei vor allem die portablen Ansätze zur Visualisierung chemischer Informa-
tion im Vordergrund stehen. Nach einem kurzen Rückblick auf die historische Entwicklung
molekularer 3D-Modelle werden die wichtigsten chemischen Darstellungsformen wie bei-
spielsweise Strukturmodelle oder Modelle zur Visualisierung molekularer Oberflächen und
Eigenschaften beschrieben.
Der zweite Teil beschreibt die Bedeutung des Internets innerhalb der Chemie sowie die
rasante Entwicklung chemischer, Internet-Applikationen. Dabei stehen auch hier vor allem
die portablen Visualisierungsanwendungen im Vordergrund.
Schließlich werden die drei grundsätzlichen, Client-Server-basierten Ansätze zur Vermitt-
lung und Visualisierung chemischer Daten erläutert. Dabei wird vor allem der im Rahmen
dieser Arbeit zum Einsatz gekommene Graphiktransferansatz näher beschrieben.
3.1 Molekulare Modelle und ihre Repräsentation
3.1.1 Ein historischer Rückblick
Das menschliche Gehirn kann räumliche Beziehungen wie Abstände und Winkel wesent-
lich besser erfassen, wenn diese Information nicht als tabellarische Listen numerischer Daten
vorliegt, sondern in Form von graphischen Modellen dargestellt wird. Seit fast einem halben
Jahrhundert repräsentieren Chemiker deshalb molekulare Information in Form von Molekül-
modellen. Vor der Einführung des Computers wurden molekulare Modelle in mühevoller und
zeitaufwendiger Handarbeit aus Holz, Papier, Draht, Gummi, Plastik und auch anderen Mate-
rialien gefertigt. So modellierten beispielsweise Kendrew et al. 1958 das erste Messingmo-
dell einer durch Röntgenkristallographie ermittelten Myoglobinstruktur [43]. In den darauf
folgenden Jahren wurde eine Reihe weiterer Modelle entwickelt, von denen die von Byron
27
3 Visualisierung chemischer Datenobjekte
Rubin entwickelten Byrons’s Bender am häufigsten verbreitet waren [44]. Diese Drahtmo-
delle repräsentierten das Backbone von Proteinstrukturen. Der wissenschaftliche Nutzen die-
ser Modelle zeigte sich nicht zuletzt bei einem wissenschaftlichen Treffen in den Siebziger-
Jahren als der Vergleich zweier mit Byron’s Bender-Modellen dargestellter Proteine das erste
Indiz für die Existenz von Superfamilienstukturen lieferte [45].
Trotz der vielen Vorteile zeigten die physischen Modelle auch gravierende Mängel und
Schwächen. Mit zunehmender Größe der dargestellten Strukturen erwiesen sich die Modelle
als zunehmend unhandlicher und komplizierter im Aufbau. Darüber hinaus war die Ermitt-
lung von Messgrößen wie Atomabstände und Atomwinkel sehr schwierig bis unmöglich.
Durch die Entwicklung erster Computersysteme standen auch auf dem Gebiet des Molecu-
lar Modellings neue Wege zur Repräsentation struktureller Daten zur Verfügung. Dies war der
Beginn der interaktiven molekularen Graphik. Die ersten dynamischen Molekülbilder wurden
dabei 1964 von Levinthal im Projekt MAC am Electronic Systems Laboratory des Massachu-
setts Institute of Technology generiert [46, 47]. Die Moleküle wurden dabei auf einem selbst-
gebauten Display in Form von Linienzeichnungen dargestellt. Darüber hinaus besaß das
System diverse Peripheriegeräte, die eine Modifikation der dargestellten Szene erlaubten. Das
Kernstück war jedoch der sogenannte Crystal Ball, mit dem das Molekül um alle drei ortho-
gonalen Achsen gedreht werden konnte. Die Kosten für dieses prototypische System waren
mit 2.000.000 US Dollar entsprechend hoch.
Während das MAC-System nicht nur zur Visualisierung von Molekülen entwickelt wurde,
folgten in den darauf folgenden Jahren die ersten reinen Molecular Graphics-Systeme. Eines
der ersten Systeme wurde 1970 von Langridge an der Princeton University
aufgebaut [48, 49]. Das System basierte auf dem Picture System 2 von Evans & Sutherland
und konnte neben den Bindungen auch farbige Atome anzeigen.
Ein weiterer Meilenstein gelang Richardson et al. im Jahre 1977. Sie waren erstmals in der
Lage eine komplette durch Röntgenkristallographie ermittelte Proteinstruktur zu
visualisieren [50]. Eine Vielzahl von weiteren Strukturen folgte in den kommenden Jahren.
Neben der ansteigenden Zahl an visualisierten Strukturen, nahmen auch die graphischen
Fähigkeiten der Computersysteme zu. Durch Einführung der Rastergraphik (1974) und kurz
darauf der farbfähigen Rastergraphik (1979) waren jetzt auch andere molekulare Repräsenta-
tionen möglich [51-53]. Neben der Darstellung von CPK-Modellen (vgl. Abschnitt 3.1.2.3)
konnten man nun auch farbcodierte Bindungen und molekulare Oberflächen visualisieren.
28
3.1 Molekulare Modelle und ihre Repräsentation
Die Ära der Evans & Southerland Computersysteme endete in der ersten Hälfte der Acht-
ziger Jahre mit der Einführung der leistungsstärkeren und kostengünstigeren Workstations.
Trotz fortlaufender Fortschritte in der Computergraphik und bei den Rechenleistungen
bestimmen sie noch heute den Alltag im Molecular Modelling.
Durch die rasante Entwicklung der 3D-Fähigkeiten von low-budget Graphikkarten inner-
halb der letzten Jahre ist eine Hochleistungsvisualisierung von Molekülmodellen jetzt auch
auf PC-Systemen möglich geworden. Einige der bis dato nur für Workstation-Plattformen
erhältlichen Molecular Modelling-Programme werden mittlerweile auch als PC-basierte Ver-
sionen angeboten [54]. Die in dieser Arbeit vorgestellten Entwicklungen basieren ebenfalls
auf dieser neuen Technologieform.
3.1.2 Struktur-Modelle
3.1.2.1 Wireframe-Modell
Das bekannteste und zugleich älteste, computergestützte Modell zur Repräsentation mole-
kularer Strukturen ist das Wireframe-Modell (Abbildung 3-1b). Dieses Modell ist auch unter
anderen Namen wie beispielsweise Linienmodell oder Dreiding-Modell bekannt [55]. Dabei
werden die Bindungen eines Moleküls durch farbcodierte Vektorlinien repräsentiert. Die
Atome können mit dieser Methode nicht direkt angezeigt werden, sondern müssen aus den
End- und Verzweigungspunkten des Linienmodells abgeleitet werden. Die Farbcodierung der
Bindungen beruht im Allgemeinen auf der Art der Atomtypen oder des Bindungstyps. Dar-
über hinaus kann die Bindungsordnung durch die Anzahl der Linien zwischen zwei Atomen
ausgedrückt werden.
3.1.2.2 Ball & Stick-Modell
Eine für das menschliche Auge angenehmere Repräsentation stellt das Ball & Stick-Modell
dar (Abbildung 3-1a). Im Gegensatz zum Wireframe-Modell werden hier Atome in Form von
Kugeln und Bindungen in Form von Zylindern dargestellt. Die Größe und Farbe der Kugeln
wird im Allgemeinen dazu benutzt um atomare Eigenschaften wir Atomradien, -typen und
-ladungen darzustellen. Wie im Wireframe-Modell können die Bindungszylinder in Farbge-
bung und/oder Anzahl variieren, um Bindungstypen oder atomare Eigenschaften auszudrük-
ken. Der entscheidende Vorteil dieser Repräsentation basiert jedoch auf einer wesentlich
besseren räumlichen Darstellung. Vom Benutzer weiter entfernte Teile des Moleküls können
besser identifiziert werden, da sie durch Atome und Bindungen, die näher zum Betrachter
ausgerichtet sind, verdeckt werden. Dieser Eindruck wird durch den Einsatz von Techniken
wie dem Gouraud-Shading [56] noch verstärkt.
29
3 Visualisierung chemischer Datenobjekte
Abb. 3-1: Strukturdarstellungen von 3,5-Diaminophenol (generiert mit VRML File Creator (vgl. Abschnitt 4.1.2)): a) Ball & Stick-Repräsentation, b) Wireframe-Repräsentation, c) CPK-Modell, d) Capped-Darstellung (Farbabbildung: Anhang A, Abbildung A-1).
3.1.2.3 Space filling-Modell
Das von Corey, Pauling und Koltun entwickelte Space-filling-Modell ist besser unter dem
Namen CPK-Modell bekannt [53] (Abbildung 3-1c). Wie in der Ball & Stick-Repräsenta-
tion werden die Atome in Form von Kugeln ausgedrückt. Da die Kugelradien den korrespon-
dierenden van der Waals-Radien entsprechen und sich im Allgemeinen überschneiden kann
auf die Repräsentation der Bindungen verzichtet werden. Das CPK-Modell ist im Gegensatz
zu den anderen Modellen in der Lage, einen ersten Eindruck von den räumlichen Ausmaßen
einer Struktur zu vermitteln.
3.1.2.4 Capped Sticks-Modell
Das Capped Sticks-Modell kann als gegensätzliches Modell zum Space filling-Modell
angesehen werden, da die molekulare Struktur nur durch die Bindungszylinder repräsentiert
wird (Abbildung 3-1d). Die Kugeln sind auf die Größe der Zylinderdurchmesser zusammen-
geschrumpft und dienen lediglich zum Glätten der Zylinderenden. Analog zum Ball & Stick-
Modell vermittelt auch das Capped Sticks-Modell einen verbesserten räumlichen Eindruck
im Vergleich zum Wireframe-Modell.
30
3.1 Molekulare Modelle und ihre Repräsentation
3.1.2.5 Modelle für biologische Makromoleküle
Die Visualisierung biologischer Makromoleküle, die aus Hunderten oder Tausenden von
Atomen bestehen, ist mit Hilfe der bereits beschriebenen Molekülmodelle nur bedingt mög-
lich. Zum einen werden diese Modelle ab einigen Hundert Atomen sehr schnell unübersicht-
lich und zum anderen sind die erforderlichen Rechenleistungen zur interaktiven
Visualisierung solcher Modelle zu hoch. Zur Lösung dieser Problematik wurden einige ver-
einfachte Molekülmodelle entwickelt, die in erster Linie zur Darstellung der Sekundärstruk-
tur von Proteinen dienen [57].
Cylinder-Modell. Das Cylinder-Modell wird zur Kennzeichnung von Helices in Protein-
strukturen verwendet.
Ribbon-Modell. Während helikale Sekundärstrukturen mit der Cylinder-Darstellung
repräsentiert werden, hat sich zur Visualisierung von Faltblattstrukturen das Ribbon-Modell
etabliert. Ribbon-Modelle ähneln in ihrem Aussehen flachen Bändern. Die Oberseite dieser
Bänder ist dabei parallel zur Peptidbindung ausgerichtet. In weiterentwickelten Repräsenta-
tionen werden die flachen Bänder durch flache Pfeilstukturen ersetzt.
Tube-Modell. Die Tube-Struktur besteht aus kleinen röhrenförmigen Gebilden, die zur
Darstellung von sogenannten coils und turns verwendet wird.
3.1.2.6 Kristallographische Modelle
Anorganische Verbindungen können häufig ebenfalls nicht mit den allgemeinen Struktur-
modellen dargestellt werden, da sie auf komplexen Kristallstrukturen (Raumgruppen), Aggre-
gaten oder Metallgittern basieren. Diese Verbindungen werden daher durch individuelle
Polyeder wie beispielsweise Oktaeder und Tetraeder dargestellt.
3.1.3 Molekulare Oberflächen
Zum Verständnis der diversen molekularen Wechselwirkungen reicht eine Betrachtung der
Strukturdaten alleine nicht aus. Vielmehr muss dazu die räumliche Gestalt bzw. Hülle des
Moleküls betrachtet werden. Die erste Definition einer solchen molekularen Hülle geht dabei
auf Richards [58] zurück, der die molekulare Oberfläche als eine wasserzugängliche Hülle
beschrieb. Darüber hinaus kann die molekulare Oberfläche aber auch in Abhängigkeit von
der elektronischen Dichte betrachtet werden. Die Repräsentation der molekularen Oberflä-
chen erfolgt dabei in der Regel in Form von Punktwolken, Gitternetzen (Meshes oder Chik-
ken-Wire) oder soliden Hüllen, deren Transparenz beliebig variiert werden kann
(Abbildung 3-2).
31
3 Visualisierung chemischer Datenobjekte
Abb. 3-2: SES-Oberflächendarstellungen von Trinitrotoluol (generiert mit MolSurf (vgl. Abschnitt 4.1.5)): a) Semitransparente Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation (Farbabbildung: Anhang A, Abbildung A-6a-c).
Die folgenden Modelle beschreiben im Detail die verschiedenen Definitionen von moleku-
laren Oberflächen.
3.1.3.1 Van der Waals-Oberfläche
Die van der Waals-Oberfläche, die Solvent Accessible Surface (vgl. Abschnitt 3.1.3.3)
und die Connolly-Oberfläche (vgl. Abschnitt 3.1.3.2) basieren auf der Definition von
Richards. Die van der Waals-Oberfläche stellt dabei den einfachsten Vertreter dieser Ober-
flächen dar. Im Prinzip wird dabei die Oberfläche des CPK-Modells (vgl. Abschnitt 3.1.2.3)
betrachtet, die sich durch Aufaddieren der einzelnen Atomsphären ergibt. Die
van der Waals-Oberfläche stellt auch aus der Sicht der computergestützten Methoden die
einfachste Oberflächenform dar, da sie sehr einfach zu generieren ist.
3.1.3.2 Connolly-Surface
Die Connolly-Oberfläche [59, 60] zeichnet sich im Gegensatz zur van der Waals-Ober-
fläche durch eine ebenmäßigere Oberflächenstruktur aus. Die spitzen Übergänge zwischen
den einzelnen Atomradien werden vermieden, indem man eine Kugel mit definiertem Radius
(schematisch Darstellung des Lösungsmittels) über die CPK-Oberfläche rollt. Der Radius
dieser Sphäre entspricht dabei im Allgemeinem dem effektiven Kugelradius des Wassermole-
küls (1,4 Å). Die resultierende Oberfläche setzt sich dabei aus zwei Oberflächenarten zusam-
men: a) dem Teil der van der Waals-Oberfläche, der im direkten Kontakt zum Lösungsmittel
(Kugel) steht und b) dem Teil der Lösungsmittel-Sphäre, der beim Kontakt mit zwei oder drei
Atomen der Struktur vorliegt. Connolly-Oberflächen werden heute standardmäßig im
Molecular Modelling eingesetzt, da sie den quantitativen und qualitativen Vergleich von ver-
schiedenen Molekülen zulassen.
32
3.1 Molekulare Modelle und ihre Repräsentation
3.1.3.3 Solvent Accessible Surface (SAS)
Unter den Solvent Accessible Surfaces versteht man im Allgemeinen eine bestimmte
Klasse von Oberflächen, zu denen auch die Connolly-Oberfläche zählt. Darüber hinaus steht
die Bezeichnung Solvent Accessible Surface auch für ein ganz bestimmtes, eigenständiges
Modell einer Oberfläche. Dieses Oberflächenmodell geht dabei auf die Arbeiten von Lee und
Richards zurück [61]. Während im Connolly-Verfahren die Kontaktflächen als Grundlage für
die molekulare Oberfläche dienen, bestimmt im SAS-Verfahren das Zentrum der Lösungsmit-
telkugel die Gestalt der molekularen Oberfläche. Zum einen ist die Ausdehnung der resultie-
renden Oberfläche größer, zum anderen treten die Übergänge zwischen den einzelnen
Atomen deutlicher hervor.
3.1.3.4 Solvent Excluded Surface (SES)
Oberflächen großer Moleküle wie beispielsweise Proteinen können mittels der beschriebe-
nen Methoden nicht mehr effektiv berechnet und dargestellt werden. Zur Darstellung der
Oberfläche greift man daher auf weniger rechenintensive, harmonische Näherungsmethoden
wie dem Solvent Excluded Surface-Ansatz zurück [62].
3.1.3.5 Bindungstaschen-Oberflächen
Diese molekulare Oberfläche leitet sich nicht wie in den anderen Fällen von der strukturel-
len Information eines Moleküls ab, sondern repräsentiert die Form der Active Site eines Prote-
ins, die einen Liganden umgibt. Diese Repräsentionsform wird daher vor allem im
Wirkstoffdesign eingesetzt, um die Volumen von Bindungstaschen oder molekulare Wechsel-
Bei dem in Kapitel 2 vorgestellten Begriff der Visualisierungspipeline wurde zunächst
angenommen, dass die einzelnen Verarbeitungsstufen von den Rohdaten bis hin zur Reprä-
sentation auf einem einzigen System ausgeführt werden. Eine Erweiterung dieses lokalen
Ansatzes wurde in Kapitel 3 vorgestellt (vgl. Abschnitt 3.3.3). Dabei wurden die diversen
Visualisierungsstufen flexibel zwischen Client und Server verteilt, wodurch die Nutzung von
sowohl Client- als auch Server-seitig vorhandenen Rechen- und Graphikkapazitäten gewähr-
leistet wird. Dieses Kapitel beschreibt die im Rahmen dieser Arbeit entwickelten Applikatio-
nen, die eine verteilte Verarbeitung und Visualisierung chemischer Daten auf Client- und
Server-Systeme erlauben. Dabei werden neben den Aspekten der Implementierung auch die
Vor- und Nachteile der vorgestellten Anwendungen gegenüber Internet-Standardapplikatio-
nen diskutiert.
Der erste Teil des Kapitels widmet sich zunächst den sogenannten hybriden Ansätzen.
Nach einer kurzen Erläuterung der Prinzipien der hybriden Strategie werden vier entspre-
chende, Internet-fähige Anwendungen vorgestellt: Der VRML File Creator for Chemical
Structures dient zur plattformunabhängigen Berechnung und Darstellung chemischer 3D-
Strukturen. Der VRML-Animationsgenerator ermöglicht eine portable Visualisierung moleku-
larer Animationen. ComSpec3D erlaubt die Berechnung und Visualisierung von Raman- und
IR-Spektren und gestattet die animierte Darstellung der korrespondierenden Normalschwin-
gungen. MolSurf dient zur Berechnung und Visualisierung molekularer Oberflächen.
Im zweiten Teil werden Applikationen beschrieben, die auf sogenannten Client-seitigen
Strategien basieren. Dabei wird die OrbVis-Applikation vorgestellt, die zur Berechnung und
Visualisierung von Molekülorbitalen dient.
Der letzte Teil des Kapitels erläutert schließlich die Prinzipien der Server-seitigen Visuali-
sierungsstrategien. Abschließend werden die Vor- und Nachteile der einzelnen Visualisie-
rungsstrategien diskutiert.
45
4 Client-Server-basierte Visualisierung
4.1 Hybride Strategien
4.1.1 Definition
Eine möglichst günstige Verteilung der Visualisierungsaufgaben zwischen Client und Ser-
ver ist das Ziel hybrider Ansätze (Abbildung 4-1). Durch die Aufteilung der Aufgaben sollen
sowohl Client- als auch Server-seitige Speicher- und Rechenkapazitäten optimal genutzt wer-
den. Dabei wird gleichzeitig die Minimierung der Netzwerklast angestrebt.
Abb. 4-1: Hybride Strategien.
Die Aufteilung der Visualisierungspipeline kann dabei auf vielfältige Weise geschehen.
Einige Beispiele sowie ihre Vor- und Nachteile werden auf den folgenden Seiten erläutert.
Dabei werden vor allem VRML-Ansätze besprochen, die ebenfalls zu den hybriden Ansätzen
zu zählen sind. Die VRML-Szene wird dabei in der Regel auf dem Server generiert und
anschließend auf dem Client gerendert.
4.1.2 VRML-Generator für chemische Austauschdateien
4.1.2.1 Zielsetzung
Neben den Arbeitsgruppen von Brickmann und Rzepa beschäftigte sich auch die
Arbeitsgruppe von Gasteiger früh mit dem Medium VRML. Das Resultat war ein generischer
VRML-Szenengenerator für Moleküldaten [103]. Der Online-Dienst akzeptierte die
wichtigsten chemischen Austauschformate als Eingabeformat sowie zahlreiche
Visualisierungsoptionen und produzierte eine statische VRML1.0-Szene.
Im Rahmen dieser Arbeit wurde dieser Service vollkommen überarbeitet. Die generierten
3D-Szenen basieren auf den weiterentwickelten VRML97-Standard und zeigen, welche
Filter Mapper Renderer
Darstellung
Simulation
Datenbank
Sensoren
Rohdaten BilderVideo
Interaktion
Visualisierungspipeline
Server Client
46
4.1 Hybride Strategien
Optionen in Hinsicht auf Benutzerinteraktion und Dynamik mit Hilfe des neuen Formats
möglich sind. Der Service soll zudem als Basis für weitere Entwicklungen dienen.
4.1.2.2 Funktionsbeschreibung
Abb. 4-2: VRML-Dateigenerator: Eingabeformular.
Abbildung 4-2 zeigt das Eingabeformular des Online-Dienstes. Im oberen Teil des Formu-
lars (Structure Source) kann der Benutzer die chemischen Strukturdaten eingeben. Dabei
kann grundsätzlich zwischen zwei Alternativen gewählt werden. Das obere Eingabefeld
akzeptiert die sehr kompakte und lineare Notation SMILES der Firma Daylight [104]. Benut-
zer mit entsprechender Erfahrung im Umgang mit der Syntax von SMILES können auf diese
Weise einfache Strukturbeschreibungen eingeben. Im Regelfall benutzen Chemiker jedoch
Struktureditoren wie ChemWindow [105] oder ChemDraw [106]. Da diese Applikationen
47
4 Client-Server-basierte Visualisierung
das SMILES-Format als Ausgabe unterstützen, kann durch Copy & Paste der SMILES-
String in das Eingabefeld kopiert werden. Der Online-Dienst wurde zudem mit einem Java-
basierten Struktureditor [12] ausgestattet, der eine schnelle und unkomplizierte 2D-Struktur-
eingabe sowie eine nachfolgende 3D-Strukturgenerierung auf dem Server ermöglicht.
Die zweite Möglichkeit zur Struktureingabe bietet eine Upload-Funktion zur Übermittlung
eigener chemischer Dateien. Der Service unterstützt zur Zeit über vierzig gängige Austausch-
formate, die sowohl zweidimensionale als auch dreidimensionale Koordinaten enthalten kön-
nen. Liegen in einer Datei dreidimensionale Koordinaten vor, so werden diese für die
Generierung der VRML-Szene herangezogen. Im Fall der SMILES-basierten Eingabe oder
bei der Vorlage zweidimensionaler Austauschformate werden die dreidimensionalen Struktu-
ren automatisch mit CORINA generiert.
Viele der bekannten chemischen Austauschformate wie beispielsweise das PDB-Format
enthalten keine Information über die in der Verbindung enthaltenen Wasserstoffatome. Bei
der Betrachtung der Struktur wird daher oft nicht deutlich, ob ein bestimmtes Atom als Radi-
kal, Carben oder gesättigtes Atom vorliegt. Aus diesem Grunde vervollständigt die Applika-
tion die Wasserstoffpositionen automatisch. Diese Funktion kann bei Bedarf auch deaktiviert
werden.
Neben der Struktureingabe verfügt die Anwendung über zahlreiche Visualisierungspara-
meter. Die wichtigste Option stellt dabei die Wahl des Molekülmodells dar. Neben der Aus-
wahl einzelner in der Chemie üblicher Standard-Visualisierungen (Ball & Stick, Capped,
Wireframe und CPK) kann auch eine Repräsentation gewählt werden, die einen interaktiven
Wechsel zwischen den vier Modellen erlaubt. Dieser Wechsel wird mit Hilfe eines dreidimen-
sionalen Knopfes in der VRML-Szene realisiert (siehe Abbildung 4-3a).
Neben der Wahl der Moleküldarstellung können zudem weitere Visualisierungsparameter
definiert werden. Der Benutzer hat die Möglichkeit Bindungsfarbe und Bindungsradien zu
definieren und kann entscheiden, ob die Bindungsordnung ebenfalls dargestellt werden soll.
Beim Vorliegen von Mehrfachbindungen wird dabei ein spezieller Algorithmus zur Anord-
nung der Bindungen eingesetzt. Die Bindungen werden unterhalb und oberhalb der Fläche
positioniert, die sich aus der Anordnung der Bindungsatome und der Atome in α-Stellung
ergibt. Diese Ausrichtung entspricht in erster Näherung der Anordnung der π-Orbitale.
Der Online-Dienst ist nicht nur in der Lage, dreidimensionale Strukturen zu repräsentieren.
Die dargestellten Moleküle können nach Belieben mit einfachen atomaren Eigenschaften wie
Atomsymbolen, Ordnungszahlen, Polarisierbarkeit oder σ-Ladung versehen werden. Diese
Eigenschaften werden automatisch berechnet, soweit sie noch nicht bekannt sind
(Abbildung 4-3b).
48
4.1 Hybride Strategien
Abb. 4-3: VRML-Szene mit Strukturdarstellungen von 3,5-Diaminophenol: a) Ball & Stick-Repräsentation, interaktiver Schalter zum Umschalten der Strukturdarstellung; b) Wireframe-Repräsentation mit σ-Ladungen; c) CPK-Modell; d) Capped-Darstellung (Farbabbildung: Anhang A, Abb. A-1).
VRML wurde für den Transport von dreidimensionalen Szenen im Internet entworfen.
Daher enthalten VRML-Szenen keine Angaben über Atome und Bindungen sondern lediglich
graphische Objekte. Um dennoch eine chemische Weiterverarbeitung der VRML-Szenen zu
gewährleisten, wurde der Online-Dienst mit einer speziellen Funktion ausgestattet. Mit Hilfe
dieser Funktion wird die chemische Information über das dargestellte Molekül direkt in der
VRML-Szene abgelegt. Die Daten werden dazu mit Hilfe der xdr-Bibliothek von CACTVS
(vgl. Abschnitt 2.3.1) plattformunabhängig kodiert und anschließend im Base64-Format in
einem spezifischen, selbstdefinierten VRML-Knoten gespeichert.
VRML-Viewer bieten im Gegensatz zu traditionellen Molekülgraphikprogrammen keine
Standardoptionen wie das Vermessen von Bindungsabständen und -winkeln sowie Torsions-
winkeln. Der VRML-Strukturgenerator stellt diese Funktionalität bereit. Mit Hilfe in die
VRML-Szene integrierter Skripte können die notwendigen Berechnungen direkt in der Szene
auf der Clientseite vorgenommen werden (Abbildung 4-4). Durch Anklicken der entsprechen-
den Atome erhält der Benutzer Auskunft über die Koordinaten des selektierten Atoms, den
Bindungsabstand der beiden zuletzt selektierten Atome, den Bindungswinkel der letzten drei
Atome und dem Torsionswinkel zwischen den vier zuletzt gewählten Atomen.
49
4 Client-Server-basierte Visualisierung
Abb. 4-4: VRML-Szene: Ball & Stick-Modell mit Berechnungsfunktion (Farbabbildung: Anhang A, Abbildung A-2).
Der Online-Dienst verfügt über weitere Optionen, die jedoch lediglich der graphischen
Manipulation der Szene dienen und daher an dieser Stelle nicht näher erläutert werden.
4.1.2.3 Implementierung
Der VRML-Strukturgenerator wurde wie viele der in dieser Arbeit vorgestellten Anwen-
dungen nicht als Standalone-Applikation entwickelt, sondern als Visualisierungsmodul des
chemischen Managementsystems CACTVS. Dieser Ansatz birgt eine Reihe von Vorteilen, die
im Folgenden näher beschrieben werden.
Herzstück der Anwendung ist das im Rahmen dieser Arbeit weiterentwickelte CACTVS-
Modul E_VRML. Das Modul setzt sich dabei aus drei wichtigen Teilen zusammen: dem
Beschreibungsabschnitt, dem Methodenabschnitt und den Parameterabschnitt. Der Beschrei-
bungsteil dient dabei zur Kommunikation mit der CACTVS-Kernbibliothek und liefert Infor-
mationen über die verwendete Methodensprache, den Datentyp, die Funktion des Moduls und
vor allem über die Abhängigkeiten von anderen CACTVS-Modulen. Die definierten Abhän-
gigkeiten des VRML-Moduls besagen, dass eine VRML-Szene nur dann generiert werden
kann, wenn die Kernbibliothek Kenntnis von den dreidimensionalen Koordinaten, den Atom-
typen und den Bindungsordnungen des vorliegenden Moleküls hat. Die Methoden des
Moduls dienen dabei lediglich der Generierung des VRML-Szenengraphen, da das Modul
nicht für das Einlesen und das Management der chemischen Daten zuständig ist.
Alle dafür notwendigen Daten wie 3D-Koordinaten, Atomtypen etc. als auch Information,
die sich aus den bereits bekannten Daten ableiten lassen wie beispielsweise die Farbcodie-
50
4.1 Hybride Strategien
rung eines Atoms oder die σ-Ladung, werden direkt von der Kernbibliothek abgefragt. Der
dritte Teil des Moduls enthält alle Parameter zur Steuerung der Szenengraphen-Generierung.
Diese Parameter entsprechen dabei den Parametern im HTML-Formular.
Abb. 4-5: Schematische Darstellung einer VRML-Strukturgeneratorsitzung.
Das VRML-Modul ist wie alle anderen Module des CACTVS-Systems über die Tcl-Kom-
mandosprache des CACTVS-Systems zugänglich (vgl. Abschnitt 2.3.1.2). Diese Architektur
erlaubt die Entwicklung von sehr kleinen, auf der CACTVS-Kommandosprache basierenden
CGI (Common Gateway Interface)-Skripten, welche die HTML-basierten Benutzereingaben
direkt an die Kernbibliothek weiterleiten können (Abbildung 4-5).
Der Vorteil dieser Architektur wird bei der Betrachtung einer typischen Visualisierungssit-
zung des Online-Dienstes deutlich. Nachdem das CGI-Skript die Strukturdaten als auch die
Visualisierungsparameter aus dem HTML-Formular entgegengenommen hat, werden in
einem initialen Schritt die Strukturinformation an die Kernbibliothek weitergeleitet. Sowohl
im Fall von SMILES-Strings als auch beim Vorliegen von chemischen Austauschformaten
erfolgt dies durch einen einzigen Befehl. Während der SMILES-String direkt in die interne
Repräsentation der Kernbibliothek umgewandelt werden kann, muss die chemische Format-
datei noch erst gelesen und analysiert werden. Das Kernsystem ermittelt dabei vollkommen
automatisch, um welches Austauschformat es sich handelt, sucht nach einer entsprechenden
Leseroutine und lädt schließlich sämtliche dort enthaltenen Daten in das System.
In einem zweiten Schritt modifiziert das CGI-Skript die Parametereinstellungen des
VRML-Moduls. Diese Einstellungen wie beispielsweise die Wahl der Darstellungsform
TCL
CGI-
Skript
HTML-
Formular
Eingabe
VRML-
Szene
Ausgabe
Strukturdaten
VRML-Szene
Parameter
CACTVS-System
Einlesen & Analyseder
chem. Information
VRML-Modul(E_VRML)
3D
3D
2D
3D-Koord.Modul
CORINA-Modul(3D-Struktur-
generator)
Client Server
51
4 Client-Server-basierte Visualisierung
entsprechen dabei wie bereits erwähnt den Benutzereinstellungen im HTML-Formular und
lassen sich ebenfalls durch ein paar Zeilen CGI-Code realisieren. Damit wurden alle
wichtigen Daten an das System übergeben. Das CGI-Skript fordert nun nur noch die
entsprechende VRML-Szene von der Kernbibliothek an. Alle dafür notwendigen Schritte
laufen dabei vollkommen automatisch und im Hintergrund ab. Das System prüft in einem
ersten Schritt, ob es ein Modul findet, welches VRML-Szenen generieren kann. Nachdem es
das Modul lokalisiert hat, überprüft es die im Modul definierten Abhängigkeiten und stellt
fest, dass zur Generierung von VRML-Szenen unter anderem dreidimensionale Koordinaten
notwendig sind. Falls dem System von CGI-Skript eine Austauschdatei mit
dreidimensionalen Daten übergeben wurde, hat das Kernsystem bereits Kenntnis über die 3D-
Information und das VRML-Modul wird entsprechend seiner Parametereinstellungen
ausgeführt. Falls dem System jedoch nur SMILES-Strings oder zweidimensionale
Austauschformate übergeben wurden, sucht das System durch automatische Lookup-
Mechanismen nach einem Modul, das für die Generierung dreidimensionaler Daten geeignet
ist. Dieses Modul startet nach seiner Identifizierung den 3D-Strukturgenerator CORINA (vgl.
Abschnitt 2.3.2) und liefert die geforderten 3D-Koordinaten an das System. Im Anschluss
erfolgt auch hier die Generierung der VRML-Szene. Nochmal zur Verdeutlichung: Alle
zuletzt beschriebenen Schritte innerhalb der Kernbibliothek erfolgen vollkommen
automatisch nach Aufruf eines einzigen Kommandos im CGI-Skript, dessen Rückgabewert
die temporäre VRML-Szene ist. Die generierte VRML-Szene wird letztendlich an den
Browser übermittelt.
4.1.2.4 Diskussion
Seit Einführung der Virtual Reality Modelling Language nutzt die Chemie diesen Internet-
Standard als alternatives Medium zur plattformunabhängigen Darstellung chemischer
Information. Bei näherer Betrachtung der aktuellen VRML-basierten Standardlösungen in der
Chemie fällt jedoch auf, dass der Großteil der im Internet befindlichen VRML-Dateien
statische Szenen mit geringen oder keinen Möglichkeiten an Interaktivität repräsentieren. Die
Generierung dieser Szenen wird dabei in der Regel durch moderne, plattformabhängige
Modelling-Programme bewerkstelligt, die über eine entsprechende VRML-Exportfunktion
verfügen. Diese Darstellung ermöglicht dem Betrachter zwar Einblick in die Problematik des
Autors, erlaubt jedoch weder weitergehende interaktive Modifizierungen der repräsentierten
chemischen Daten noch die Lösung eigener Problemstellungen.
Die Generierung von VRML-Szenen zur Darstellung eigener chemischer
Problemstellungen kann insbesondere innerhalb der wissenschaftlichen Ausbildung häufig
nicht durch den Einsatz kostspieliger, kommerzieller Programme realisiert werden. Darüber
hinaus stellt der Einsatz solcher Programmpakete zur Generierung von VRML-Szenen auch
52
4.1 Hybride Strategien
im Bereich der Forschung einen unerwünschten Umweg dar. Vorhandene firmeninterne,
Intranet-fähige Informationssysteme sollten vielmehr in der Lage sein, die chemischen Daten
direkt und interaktiv in einer VRML-Szene zu repräsentieren.
Der vorliegende VRML-Strukturgenerator stellt nach unserer Erkenntnis die modernste
und umfangreichste Lösung zur interaktiven Generierung von VRML-Szenen dar. Ein Vorteil
des Online-Dienstes gegenüber anderen VRML-Strukturgeneratoren liegt dabei vor allem in
der Vielzahl der möglichen chemischen Eingabeformate begründet. Diese Fähigkeit erlaubt
die direkte Eingabe fast aller gängigen und auch exotischeren Dateiformate und macht somit
eine umständliche und zeitaufwendige Umformung der chemischen Daten überflüssig. Der
pdb2vrml-Dienst [9] der Arbeitsgruppe Brickmann unterstützt lediglich das PDB-
Dateiformat, während das CyberMol-System [107] auf ein eigenes Datenformat und das
XYZ-Format limitiert ist. Die Eingabe der Daten wird in beiden Online-Diensten darüber
hinaus durch die Form der Eingabe kompliziert. Die Daten können im Gegensatz zum
VRML-Strukturgenerator nicht mittels einer Upload-Funktion direkt an den Service
übergeben werden, sondern müssen durch umständliche Copy & Paste-Aktionen in die
Webseite integriert werden. Eine Dateneingabe mittels eines Struktureditors ist ebenfalls
ausgeschlossen.
Beide alternativen Ansätze sind nur in der Lage statische VRML-Szenen zu generieren.
Der pdb2vrml-Dienst ist zudem nur auf die Generierung von VRML1.0-Szenen ausgelegt und
schließt somit die Darstellung dynamischer Prozesse aus. Eine Betrachtung der aktuellen
VRML-Viewer zeigt darüber hinaus, dass das veraltete VRML1.0-Format in der Regel nicht
mehr unterstützt wird und eine Betrachtung der Szenen somit ausgeschlossen ist. Das auf
MOLDA2.0-basierende [108] CyberMol-System ist zwar in der Lage VRML2.0-Szenen zu
generieren, es hat sich allerdings bei einer aktuellen Überprüfung des Online-Dienstes
gezeigt, dass die Server-seitigen Berechnungsskripte nicht mehr zugänglich sind und der
Benutzer daher nur Fehlermeldungen erhält.
Im Gegensatz zu chemischen Austauschformaten enthält eine VRML-Datei keinerlei
chemische Information, sondern nur ein dreidimensionales Abbild dieser Information. Eine
Rückgewinnung der chemischen Information ist daher in der Regel nicht oder nur sehr
schwer möglich. Bei der Entwicklung des VRML-Strukturgenerators wurde dieser
Problematik Rechnung getragen. Neben der zusätzlichen Darstellung chemischer Information
wie atomaren Eigenschaften ermöglicht die eingebettete Berechnungsfunktion auch
weitergehende Untersuchung durch den Benutzer wie beispielsweise die Berechnung von
Atomabständen und -winkeln.
Trotz den erweiterten Möglichkeiten zur Untersuchung der Szene, ist eine vollständige
Extraktion der chemischen Originaldaten aus einer VRML-Szene im Allgemeinen nicht
53
4 Client-Server-basierte Visualisierung
möglich. Diese Problematik wurde im Arbeitskreis Gasteiger intensiv im Rahmen einer
Diplomarbeit untersucht [109]. Um dennoch einen ununterbrochenen Datentransfer zu
gewährleisten, bettet der Online-Dienst alle wichtigen chemischen Daten in Form einer
kodierten String-Repräsentation in der VRML-Szene ein ("Serialized Objects"). Diese nicht
sichtbare Information kann anschließend wieder durch das CACTVS-System aus einer
VRML-Szene extrahiert und in chemische Daten rückkonvertiert werden.
Die Verwendbarkeit des Online-Dienstes wird am ehesten bei der Betrachtung der
statistischen Zahlen deutlich. Der Online-Dienst steht sowohl auf dem Server der
Arbeitsgruppe Gasteiger als auch auf einem Server des US Krebsforschungsinstituts zur
Verfügung und wurde seit seiner Einführung im Oktober 1998 bereits über 49.400 mal
genutzt. Weltweit verweisen über 260 Online-Verweise auf den Service. Der Online-Dienst
wird als Standardwerkzeug im Projekt Molecule of the Month der Universität Bristol [110]
eingesetzt. Die allgemeine und offene Verwendbarkeit des Service wird vor allem bei der
Betrachtung des Datenbankinterfacees des amerikanischen Krebsforschungsinstituts
deutlich [93]. Suchresultate können direkt an den VRML-Strukturgenerator weitergereicht
werden ohne dass eine Zwischenspeicherung und Konvertierung der chemischen Daten nötig
ist.
4.1.3 VRML-Animationsgenerator
4.1.3.1 Zielsetzung
Während die Zielsetzung des VRML-Strukturgenerators in der Realisierung eines
Höchstmaßes an Benutzerinteraktion lag, wurden mit Hilfe des VRML-Animationsgenerators
die neuen Funkionen des VRML97-Standards zur Darstellung dynamischer Prozesse in der
Chemie untersucht. Das Ziel war die Entwicklung eines Online-Dienstes, der übliche
Austauschformate zur Speicherung von Trajektorieninformation einlesen und in Form von
animierten VRML-Szenen darstellen konnte.
4.1.3.2 Funktionsbeschreibung
Mit Hilfe einer Upload-Funktion kann der Benutzer ein multiples XYZ-Austauschformat
an den Service übergeben. Dieses Dateiformat wird von zahlreichen Molecular Modelling
und Moleküldynamik-Programmen als Ausgabeformat angeboten. Zu
Demonstrationszwecken kann der Benutzer anstelle eigener Austauschformate eine
vordefinierte Beispieldatei als Struktureingabe wählen (Abbildung 4-6).
54
4.1 Hybride Strategien
Abb. 4-6: VRML-Animationsdienst: Eingabeformular.
Neben der bereits aus dem VRML-Strukturgeneratordienst bekannten Wahl der
Molekülrepräsentation (Ball & Stick, Capped, Spacefill), der Bindungsparameter und
einiger graphischer Parameter erlaubt der VRML-Animationsservice auch einige
animationsspezifische Einstellungen. Zum einen kann der Benutzer die Dauer des
Animationszyklus festlegen. Zum anderen hat der Benutzer die Möglichkeit eine
Stop & Play-Funktion in die VRML-Szene zu integrieren (Abbildung 4-7, letztes Bild). Mit
Hilfe dieses Werkzeugs kann der Benutzer jederzeit die Animation stoppen und fortsetzen.
Zudem kann mit Hilfe einer Step-Funktion die Animation schrittweise betrachtet werden.
Abb. 4-7: VRML-Animationssequenz: Initialisierung einer kationischen Polymerisation von 2-Methyl-buten-1 mit Ethanol und Bortrifluorid; unten rechts: Eingebettete Stop/Play/Step-Option.(Farbabbildung: Anhang A, Abbildung A-3).
55
4 Client-Server-basierte Visualisierung
Abbildung 4-7 zeigt Screenshots der Beispielanimation. Die Animation zeigt die
Initiierung einer kationischen Polymerisationsreaktion. Neben der Darstellung der in der
Austauschdatei vorhandenen Atomkoordinaten und Bindungen ergänzt und repräsentiert der
Online-Dienst automatisch Atomabstände, die einen bindungsähnlichen Charakter aufweisen
(gelbe Linien in Abbildung 4-7). Mit Hilfe dieser Darstellungsform können beispielsweise
stabilisierende bzw. aktivierende Wechselwirkungen zwischen funktionellen Gruppen
repräsentiert werden.
Wie auch im VRML-Strukturgeneratordienst hat der Benutzer zum einen die Möglichkeit
sich die Animation direkt im Browserfenster zu betrachten. Darüber hinaus kann die Ausgabe
auch so definiert werden, dass die generierte VRML-Szene lokal auf dem Client gespeichert
werden kann. Dem Benutzer bietet sich somit die Gelegenheit eigene Moleküldynamik-
Ergebnisse in Form von VRML-Szenen auf einer Internetseite anzubieten.
4.1.3.3 Implementierung
Der VRML-Animationsdienst basiert wie alle in diesem Kapitel vorgestellte Online-
Dienste im Grundsatz auf dem gleichen in Abbildung 4-5 beschriebenen Prinzip (HTML-
Formular/CGI-Skript/CACTVS-Kernsystem). Je nach Datentyp und Aufgabenstellung variiert
dabei die Anzahl und die Art der verwendeten CACTVS-Module in der Kernbibliothek. Im
Fall des VRML-Animationsdienstes wird jedoch das gleiche VRML-Modul wie im VRML-
Strukturgeneratordienst verwendet. Aus diesem Grund werden im Folgenden nur die
wichtigsten Unterschiede zwischen den Implementierungen der beiden Anwendungen
skizziert.
Ein entscheidender Unterschied kann bereits beim Einlesen der Strukturdaten beobachtet
werden. Das CACTVS-System bzw. die Leseroutine für das XYZ-Dateiformat erkennt beim
Lesen der Daten das Vorliegen multipler, dreidimensionaler Koordinatensätze. Daher wird
neben der Speicherung der 3D-Koordinaten auch für jedes Atom der molekularen Szene eine
Eigenschaftsbeschreibung namens A_TRAJECTORY definiert. Dieser Datencontainer enthält
nach dem Lesevorgang alle in der Austauschdatei definierten 3D-Koordinaten des
entsprechenden Atoms. Diese Information wird vom VRML-Modul genutzt, um die
Koordinaten in einen speziellen VRML-Knoten den sogenannten PositionInterpolator
einzusetzen. Die VRML-Szene wird schließlich noch mit einem Zeitgeberknoten versehen.
Bei der Client-seitigen Animation wird die Szene durch den zentralen Zeitgeberknoten und
durch Transformation der Objektkoordinaten entlang der Interpolationspunkte gesteuert. Die
optionale Stop & Play-Funktion kann dabei direkt auf den Zeitgeberknoten Einfluss nehmen
und erlaubt somit eine Steuerung der Animation druch den Benutzer.
56
4.1 Hybride Strategien
4.1.3.4 Diskussion
Animationen stellen für das Verständnis komplexer Vorgänge insbesondere in der
wissenschaftlichen Ausbildung ein wichtiges Werkzeug dar. So kann beispielsweise die
zeitliche, geometrische und stereochemische Komplexität einer chemischen Reaktion durch
Einsatz animierter Darstellungen besser verstanden werden.
Bei der Betrachtung aktueller, Internet-fähiger Visualisierungsapplikationen fällt auf, dass
bis auf wenige Ausnahmen wie das Chime-Plugin keine Anwendung in der Lage ist,
dreidimensionale Animationen zu visualisieren. MPEG-basierte Videofilme oder animierte
GIF-Sequenzen werden bei dieser Betrachtung nicht berücksichtigt, da sie keine
Benutzerinteraktion zulassen und es sich bei diesen Medien nicht um dreidimensionale
Darstellungsformen handelt.
Bei einer näheren Betrachtung des Chime-Plugins wird schnell der rudimentäre Charakter
der Animationsfähigkeit sowie die vergleichbar schlechte Qualität der Animation deutlich.
Die Ursache für die eingeschränkte Animationsfähigkeit liegt dabei in der
Visualisierungstechnik von Chime begründet. Chime wurde in erster Linie zur Visualisierung
von Strukturen entwickelt. Um Animationen zu realisieren, schaltet die Applikation zwischen
den einzelnen molekularen Szenen, die sich aus dem multiplen Koordinatensätzen ergeben,
hin und her. Je nach Anzahl der Koordinatensätze ergibt sich damit eine mehr oder weniger
unruhige Bildfolge. Beim Vorliegen von nur zwei oder drei Koordinatensätzen ist eine
brauchbare Animation nicht möglich. Darüber hinaus stehen dem Benutzer nur sehr limitierte
Optionen zur Beeinflussung der Animation zur Verfügung.
Als graphisches Datenformat bietet VRML97 sehr komfortable Optionen zur Realisierung
hochaufgelöster Animationen. Die Qualität der vom Online-Dienst generierten Szenen hängt
dabei nicht von der ursprünglichen Anzahl der Koordinatensätze ab. Die Koordinaten dienen
lediglich als Eckpunkte für die eingebetteten Interpolatoren. Während der Animation werden
alle Objekte (Atome, Bindungen) dynamisch zwischen diesen Eckdaten verschoben, rotiert,
skaliert und umgeformt. Durch den Interpolationsmechanismus lassen sich somit sehr
hochaufgelöste Animationen erstellen, selbst wenn die Originaldaten nur über zwei
Koordinatensätze verfügen. Ein weiterer Vorteil dieser Technik ist, dass nur ein konstanter
Satz an Objekten anstelle von zahlreichen einzelschrittbasierten Objekten verwaltet werden
muss.
Der VRML-Animationsgenerator ist nach unserer Erkenntnis der einzige interaktive
Online-Dienst seiner Art. Er wurde in den letzten zwei Jahren über 5.000 mal verwendet und
ist wie der VRML-Strukturgenerator in vielen chemischen Hyperlinksammlungen vertreten.
57
4 Client-Server-basierte Visualisierung
4.1.4 ComSpec3D
4.1.4.1 Zielsetzung
Die Quantenchemie ist eines der Felder in der Chemie, welches aufgrund des theoretischen
und mathematischen Charakters sowohl von vielen Studenten als auch von Chemikern, die
auf diesem Gebiet nicht spezialisiert sind, als schwer zugänglich angesehen wird. Zu den
Eigenschaften, die über quantenchemische Rechnungen vorhersagbar sind, gehören die
Infrarot- und Raman-Spektren. Zu jedem Absorptionspeak gehört dabei eine
Molekülschwingung, die sogenannte Normalschwingung, die sich aus der Kräftematrix der
Auslenkung der Atome aus der Ruheposition ableiten lässt. Im Widerspruch zu den einfachen
Modellen, die vielfach zur Spektreninterpretation herangezogen werden (im Sinne von
CO Schwingung bei x cm-1) handelt es sich dabei um Schwingungen des gesamten
Gerüstes, die nicht immer vorwiegend einer einzelnen Bindung oder funktionellen Gruppe
zugeordnet werden können. Die praktische Vorstellungskraft versagt rasch, wenn es um das
Verständnis dieser Schwingungen aus Zahlentabellen geht. Werden diese Schwingungen
jedoch in Form animierter 3D-Szenen angezeigt, wird die Logik hinter ihnen schnell
verständlich.
Das Ziel war daher die Entwicklung einer Internet-Anwendung, die für beliebige Moleküle
Infrarot- und Ramanspektren vorhersagen kann und eine animierte Darstellung der zu den
Das Eingabeformular des Online-Dienstes setzt sich zum einen aus einem
Struktureingabeteil und zum anderen aus einem Teil zur Eingabe von
Visualisierungsparametern zusammen (Abbildung 4-8). Mit Hilfe eines Java-basierten
Struktureditors bietet sich dem Benutzer die Möglichkeit, beliebige Strukturen zu zeichnen
und zur Berechnung von Spektren und Normalschwingungen an den Service zu übergeben.
Alternativ dazu kann der Benutzer SMILES-Strings als Struktureingabeform benutzen. Da
die quantenchemische Berechnung der Spektren (VAMP) trotz Verwendung von durch
CORINA generierter, voroptimierter 3D-Koordinaten sowie Einsatz der einfachen AM1-
Methode sehr rechenintensiv sein kann, wird die Anzahl der Atome bei der Struktureingabe
auf dreißig begrenzt. Darüber hinaus darf sich die Verbindung nur aus
Hauptgruppenelementen zusammensetzen. Diese Limitierung stellt sicher, dass die
notwendigen Berechnungen in der vom Benutzer erwarteten und für das Internet typischen
Antwortzeiten realisiert werden können.
58
4.1 Hybride Strategien
Abb. 4-8: ComSpec3D: Eingabeformular.
Die neben der Struktureingabe implementierten Optionen ermöglichen dem Benutzer eine
komfortable Beeinflussung der animierten Normalschwingungen nach chemischen als auch
graphischen Gesichtspunkten.
Da Spektrenpeaks mit sehr kleinen Intensitäten für das Verständnis von
quantenchemischen Vorgängen eine geringe Bedeutung haben, kann die Anzahl der
dargestellten Normalschwingungen mit Hilfe eines Intensitätsgrenzwertes eingeschränkt
werden. Dieser Grenzwert kann vom Benutzer frei gewählt oder auch deaktiviert werden. Des
Weiteren kann der Benutzer die Darstellung der graphischen Szene beeinflussen, in dem er
die Zeitdauer eines Animationszyklus, die Anzahl der zugrunde liegenden Einzelschritte als
auch das relative Maß der Schwingungsauslenkung (Skalierung der berechneten Werte)
innerhalb eines sinnvollen Wertebereichs bestimmen kann.
Die Schwingungsfrequenz einer Normalschwingung hängt unmittelbar von der
Kraftkonstante ab. Hohe Kraftkonstanten führen zu hohen Wellenzahlen bzw. zu niedrigen
Schwingungsfrequenzen, kleine Kraftkonstanten zu hohen Schwingungsfrequenzen. Dieser
Umstand wird im Spektrum durch die verschiedenen Wellenzahlen ausgedrückt. ComSpec3D
bietet die Möglichkeit diese Abhängigkeit auch in der Animation widerzuspiegeln. Die
Animationsgeschwindigkeit der Normalschwingung wird dabei in Abhängigkeit von der
Kraftkonstante dargestellt. Die Repräsentation von Normalschwingungen bei großen
Wellenzahlen kann dabei zu sehr schnellen, nur noch schlecht zu verfolgenden
Animationssequenzen führen. Aus diesem Grund kann als Alternative auch eine
Standardgeschwindigkeit für alle Animationen gewählt werden.
59
4 Client-Server-basierte Visualisierung
Abb. 4-9: ComSpec3D: HTML-Seite mit quantenchemisch berechneten Spektren und selektierbaren Wellenzahlen (Link zu den korrespondierenden Normalschwingungsanimationen).(Farbabbildung: Anhang A, Abbildung A-4).
60
4.1 Hybride Strategien
Nachdem der Benutzer alle erforderlichen Eingaben vorgenommen hat, werden die 3D-
Koordinaten mit CORINA berechnet und anschließend zur quantenchemischen Berechnung
(AM1) an VAMP übergeben Die resultierenden Spektren sowie die Wellenzahlen der
Normalschwingungen werden schließlich in einer HTML-Seite dargestellt (Abbildung 4-9).
Die dynamisch generierte HTML-Seite besteht dabei aus drei Abschnitten. Im obersten
Abschnitt werden zunächst die für die eingesetzte Struktur berechneten Raman- und
Infrarotspektren dargestellt. Alle wichtigen Daten bezüglich der eingesetzten
Strukturinformation als auch der quantenchemischen Berechnung können der nachfolgenden
Tabelle entnommen werden. Die Tabelle enthält unter anderem die Summen- und
Strukturformel der berechneten Verbindung, Angaben über das eingesetzte quantenchemische
Programm als auch die verwendete Methode.
Im letzten Abschnitt befindet sich schließlich die Tabelle mit der Information über die
Normalschwingungen. Der Benutzer kann dabei der Tabelle Daten wie Namen, Wellenzahl
und Intensitäten der einzelnen Normalschwingungen entnehmen. Durch Anklicken einer
Wellenzahl kann der Benutzer ein zweites Browserfenster öffnen, in dem die entsprechende
Normalschwingung als animierte 3D-Szene dargestellt wird (Abbildung 4-10).
Abb. 4-10: ComSpec3D: VRML-Animationssequenz: -OH Deformationsschwingung von Phenol bei 1383 cm-1 (Farbabbildung: Anhang A, Abbildung A-5).
4.1.4.3 Implementierung
Aufgrund der zusätzlich benötigten quantenchemischen Information ist die Realisierung
des ComSpec3D-Dienstes im Gegensatz zum VRML-Animationsgenerator wesentlich
aufwendiger. Während der Implementierung des Online-Services wurden über fünfzehn
zusätzliche CACTVS-Module entwickelt. Da eine detaillierte Beschreibung der einzelnen
Vorgänge den Rahmen dieser Arbeit sprengen würde, wird im Folgenden nur auf die vier
E_RAMANIRGIF und A_NORMAL_VIBRATIONS) und ihr Zusammenwirken eingegangen.
Ein wesentlicher Unterschied zu den beiden bereits erwähnten Anwendungen wird bei der
Betrachtung der schematischen Darstellung einer ComSpec3D-Sitzung deutlich
61
4 Client-Server-basierte Visualisierung
(Abbildung 4-11). Die Berechnung der Raman- und Infrarotspektren und die Darstellung der
animierten Normalschwingungen findet dabei in einem zweistufigen Prozess statt. Im ersten
Schritt werden alle notwendigen quantenchemischen Daten berechnet und in einer
aufbereiteten Form an den Benutzer zurückgeliefert. Mit Hilfe dieser Information kann der
Benutzer in einem zweiten Schritt die zu visualisierenden Normalschwingungen auswählen.
Abb. 4-11: Schematische Darstellung einer ComSpec3D-Sitzung.
Wie bei allen in diesem Kapitel vorgestellten Anwendungen werden auch in der
ComSpec3D-Applikation zunächst vom Benutzer definierte Strukturinformation an das
System übergeben. Nach der Übergabe der Strukturdaten fordert das CGI-Skript die
Spektreninformation, genauer gesagt die graphische Spektrenrepräsentation
(E_RAMANIRGIF), von der Kernbibliothek an. Alle dazu notwendigen Prozeduren laufen
dabei wiederum vollkommen automatisch und für den Benutzer unsichtbar im Hintergrund
ab. Die wichtigsten Mechanismen dieser Prozedur werden im Folgenden erläutert.
HTML-
Formular
Eingabe
VRML-
Szene
Ausgabe
Strukturdaten
Spektren-Information
CACTVS-System
Einlesen & Analysechem. Information
CORINA-Modul(3D-Struktur-
generator)
Client Server
3D Koordinaten
HTML-
Formular
Auswahl
VRML-Modul(E_VIBRATION_VRML)
Spektren-Module(E_RAMANSPECTRUM
E_IRSPECTRUMA_NORMAL_VIBRATIONS)
VAMP(quantenchem.Berechnungen)
CGI-Skript
temporäreSpeicherung
der Daten
VRML-Szene
Auswahl
62
4.1 Hybride Strategien
Bei der Abfrage des Spektrenbildes sucht das Kernsystem zunächst nach der dafür
notwendigen Eigenschaftsbeschreibung E_RAMANIRGIF. Da die entsprechenden Bilddaten
zu diesem Zeitpunkt noch nicht vorliegen, muss das Spektrum durch die im Modul
implementierten Funktionen zuerst gezeichnet werden. Dies ist aber nicht ohne das
Vorhandensein der eigentlichen Spektreninformation möglich. Das Modul verweist das
Kernsystem deshalb auf die Spektrendatenmodule E_RAMANSPECTRUM und
E_IRSPECTRUM. Auch diese Module enthalten zu diesem Zeitpunkt noch keine Information,
sind jedoch in der Lage diese Daten zu generieren bzw. generieren zu lassen. Um die
benötigten Spektrendaten zu berechnen, müssen vorher 3D-Koordinaten vorliegen. Die
Generierung der dreidimensionalen Struktur erfolgt dabei analog zu den bereits beim VRML-
Generator beschriebenen Mechanismen mit dem Strukturgenerator CORINA (vgl.
Abschnitt 4.1.2.3).
Nachdem die 3D-Information an das Spektrenmodul weitergeleitet wurde, generiert das
Modul eine Eingabedatei für das externe, semi-empirische MO-Programm VAMP (vgl.
Abschnitt 2.3.3) und startet das Programm zur Berechnung der notwendigen Daten
(VAMP-Befehlszeile: AM1 FORCE SPECTRUM XYZ GNORM=0.04). Nach Beendigung
der VAMP-Berechnung werden die Daten automatisch aus der Ausgabedatei und der
Spektrendatei extrahiert und in die entsprechenden Datencontainer eingefügt. Bei diesem
Vorgang werden sowohl die Module E_IRSPECTRUM als auch die Datencontainer
E_RAMANSPECTRUM, A_NORMAL_VIBRATIONS und eine ganze Reihe weiterer Module
mit den berechneten Daten beladen. Nach dieser automatischen Prozedur ist schließlich auch
das vom CGI-Skript aufgerufene Modul E_RAMANIRGIF in der Lage, die Spektren zu
zeichnen.
Neben der Anforderung der Spektreninformation veranlasst das CGI-Skript darüber hinaus
die temporäre Speicherung aller berechneten und eingelesenen Daten. Diese
Zwischenspeicherung verhindert, dass für die nachfolgende Generierung der animierten
Normalschwingungen eine erneute Berechnung der quantenchemischen Information
notwendig wird.
Mit der Repräsentation der wichtigsten Daten in Form einer dynamischen HTML-Seite
endet schließlich die erste Stufe der ComSpec3D-Sitzung.
Durch Wahl einer beliebigen, in der HTML-Seite dargestellten Wellenzahl kann der
Benutzer in der zweiten Stufe die Generierung und Visualisierung der korrespondierenden
Normalschwingungsanimation starten. Zu diesem Zweck wurden die einzelnen Wellenzahlen
mit Hyperlinks versehen, die das zweite CGI-Skript aktivieren. Dabei wird dem CGI-Skript
jede notwendige Information wie der Pfad zu den temporären Daten, der Index der
gewünschten Normalschwingung als auch die vom Benutzer definierten
63
4 Client-Server-basierte Visualisierung
Visualisierungsparameter übermittelt. Das CGI-Skript leitet diese Information an das
Kernsystem weiter und ruft anschließend das VRML-Modul E_VIBRATION_VRML zur
Generierung der entsprechenden Normalschwingungsanimationen auf. Die generierte
VRML-Szene wird abschließend vom CGI-Skript an den Client übermittelt und dort in einem
zweiten Browserfenster visualisiert.
4.1.4.4 Diskussion
Die Spektroskopie spielt in der chemischen Ausbildung eine wichtige und grundlegende
Rolle. In den vergangenen Jahren wurden daher eine Vielzahl an Plugins und Applets
entwickelt, die alle möglichen Spektrenformen plattformunabhängig darstellen können.
Neben dem eigentlichen Spektrum bekommen aber vor allem die zu den Intensitätspeaks
korrespondierenden Normalschwingungen eine bedeutende Rolle beim Verständnis der
theoretischen Grundlagen. Eine ansprechende Repräsentation der Normalschwingungen stellt
jedoch hohe Ansprüche hinsichtlich der Generierung und Visualisierung der hierfür
notwendigen Daten. Die Zahl der Web-Anwendungen ist aus diesem Grund sehr limitiert und
die Qualität der einzelnen Applikationen variiert dabei stark.
In einigen Online-basierten Spektroskopiekursen werden die Normalschwingungen in
Form animierter GIF-Sequenzen [111] oder als MPEG-kodierte Filme [112] dargestellt.
Diese statischen Lösungen stellen durchaus einen Vorteil gegenüber üblichen papierbasierten
Darstellungsformen dar, erlauben jedoch keine Interaktion durch den Betrachter. Eine
dreidimensionale, animierte Darstellung von Normalschwingungen in Abhängigkeit von
Intensitätspeaks in Infrarotspektren konnte jedoch mit Hilfe des Chime-Plugins [8] als auch
durch Verwendung von VRML [85, 86] demonstriert werden. Diese Ansätze dienen jedoch
lediglich zu Demonstrationszwecken und sind daher auf einen speziellen Einzelfall limitiert.
Durch Auswahl von Intensitätspeaks in einem als GIF dargestellten Spektrum können dabei
die korrespondierenden Normalschwingungen angezeigt werden. Die für die Animation
notwendigen quantenchemischen und strukturellen Daten werden zu diesem Zweck
vorberechnet und als statische Information auf dem Server abgelegt.
Eine Weiterentwicklung der Chime-basierten Darstellung animierter Normalschwingungen
wurde von Lancashire et al. vorgestellt [113]. In diesem Ansatz wird das Chime-Plugin
sowohl zur Visualisierung der Spektren als auch zur Animation der Normalschwingungen
eingesetzt. Beide Repräsentationen können dabei auch miteinander verknüpft werden.
Darüber hinaus wurden Programme zur Extraktion der notwendigen Daten aus GAUSSIAN-
berechneten Ausgabedateien entwickelt und zur Verfügung gestellt. Trotz dieser
Weiterentwicklung ist die Methode nicht universell einsetzbar. Der Anwender muss zur
Realisierung des Ansatzes sowohl über Strukturdaten, quantenchemische Programme zur
64
4.1 Hybride Strategien
Berechnung der entsprechenden Normalschwingungen als auch Dateiformate mit den
entsprechenden Spektren verfügen. Die Methode ist daher auf eine sehr begrenzte
Benutzergruppe, welche die oben genannten Programme und Dateien besitzt, limitiert und
darüber hinaus mit einem erheblichen Zeitaufwand verbunden.
Eine interaktive, Web-fähige Lösung stellt die WebMO-Anwendung dar [114]. WebMO ist
eine Internetanwendung zur Bedienung gängiger quantenchemischer Programme sowie zur
Analyse und Visualisierung der berechneten Ergebnisse.
WebMO erlaubt unter anderem die Bedienung einer komfortablen Benutzeroberfläche und
damit der darunter liegenden Programme zur Berechnung der Normalschwingungen und
Spektren. Die berechneten Spektren und Normalschwingungen können anschließend mit
Hilfe von Java-basierten Applikationen betrachtet werden. Die Normalschwingungen werden
dabei jedoch nicht in animierter Form sondern lediglich durch ausgerichtete Pfeile an den
entsprechenden Atomen repräsentiert. Da WebMO nicht als eigenständiger Online-Dienst
entwickelt wurde, existiert nur eine stark eingeschränkte Demoversion, welche die
Fähigkeiten der Benutzeroberfläche beschreibt.
Ein für die interaktive Darstellung von Normalschwingungen entwickelter Online-Dienst
ist CyberMol [107]. Die qunatenchemische Berechnung beliebiger Moleküle ist mit
CyberMol ebenfalls nicht möglich. Vielmehr muss der Benutzer eigene GAUSSIAN-
Ausgaben in ein entsprechendes Textfeld im Online-Dienst kopieren. Die resultierende
VRML-basierte Darstellung der Normalschwingungen erfolgt wie bei WebMO durch
Pfeilbeschreibungen und nicht durch Animation der Szene. Darüber hinaus scheint der
Service wie bereits beschrieben nicht mehr aktiv zu sein.
Die in dieser Arbeit entwickelte ComSpec3D-Anwendung stellt zur Zeit das
komfortabelste und am weitesten entwickelte, interaktive Werkzeug zur Berechnung und
Darstellung von Infrarot- und Raman-Spektren sowie den korrespondierenden
Normalschwingungen dar. Der Online-Dienst setzt weder zusätzliche lokale Programmpakete
noch das Vorliegen chemischer Daten voraus. Die Anwendung kann daher von jedermann
benutzt werden und eignet sich somit für den unkomplizierten Einsatz in der chemischen
Ausbildung an Schulen und Universitäten.
Neben der bereits erwähnten besseren Qualität von VRML-Animationen im Vergleich zu
Chime-Darstellungen sind die Möglichkeiten zur Beeinflussung der Animation ebenfalls
wesentlich größer. Dieser Vorteil äußert sich bei ComSpec3D unter anderem in der Fähigkeit
Animationsgeschwindigkeiten in Abhängigkeit von der jeweiligen Frequenz darzustellen.
65
4 Client-Server-basierte Visualisierung
ComSpec3D wird von diversen Schulen und Universitäten im In- und Ausland benutzt.
Der Online-Dienst wurde dabei seit April 1999 über 22.100 mal benutzt. Der Web-Service
wurde darüber hinaus von der Multimedia Educational Resource for Learning and Online
Teaching (MERLOT) begutachtet und hinsichtlich seines Potentials zum verbesserten Lernen
mit Höchstnoten ausgezeichnet.
4.1.5 MolSurf
4.1.5.1 Zielsetzung
Die Repräsentation molekularer Oberflächen hat in der Chemie und hier besonders in der
Pharmaforschung große Bedeutung erreicht. Viele aktuelle Fragestellungen lassen sich heute
ohne die Kenntnis der molekularen "Gestalt" sowie den auf ihr abgebildeten molekularen
Eigenschaften nicht mehr lösen. Dieser Umstand hat in den letzten Jahren zu einer rasanten
Entwicklung von leistungsfähigen Programmen zur Generierung und Visualisierung von
Moleküloberflächen geführt. Der Nutzen der Oberflächenvisualisierung ist aber längst nicht
mehr nur auf die chemische Forschung limitiert. Auch in der chemischen Ausbildung wurde
das Potential dieser Darstellungsform erkannt [115].
Ein großes Problem bei der Nutzung von Oberflächenrepräsentationen in der Ausbildung
liegt jedoch in dem Umstand, dass aktuelle Standardprogramme zur Berechnung von
Oberflächen nicht für den Einsatz im Unterricht konzipiert sind. Zum einen sind Schüler als
auch Lehrer oft nicht in der Lage, die mächtigen Molecular Modelling-Programme zu
bedienen. Zum anderen stellt aber auch der im Allgemeinen hohe Preis dieser Softwarepakete
ein nicht zu unterschätzendes Problem dar. Darüber hinaus wurden die kommerziellen
Applikationen für wesentlich komplexere Strukturen und Problemstellungen entworfen und
bieten aus diesem Grund keine vereinfachten Funktionen zum qualitativen Vergleich von
einfachen Molekülen.
Die MolSurf-Anwendung wurde speziell für die Bedürfnisse von Schulen und
Universitäten in enger Absprache mit Dozenten und Lehrern entwickelt. Das Ziel war dabei
die Realisierung eines einfach zu bedienenden Programms zur Darstellung molekularer
Oberflächen, welches die speziellen, oben beschriebenen Forderungen erfüllt.
4.1.5.2 Funktionsbeschreibung
Für die chemische Ausbildung werden vor allem kleine und einfache Verbindungen
benötigt. Die dafür notwendigen Strukturdaten stehen jedoch im Allgemeinen den Lehrern
und Dozenten nicht zur Verfügung und können in der Regel auch nicht aus Online-
66
4.1 Hybride Strategien
Datenbanken bezogen werden. Aus diesem Grund wurde die MolSurf-Anwendung mit einem
Struktureditor ausgestattet (Abbildung 4-12). Die benötigten Verbindungen können auf diese
Weise leicht erstellt und zur weiteren Berechnung an den Service übergeben werden.
Alternativ dazu kann die Strukturinformation auch als SMILES-String eingegeben werden.
Die Struktureingabe ist dabei in beiden Fällen aus den bereits in Abschnitt 4.1.4.2
beschriebenen Gründen auf Verbindungen mit maximal dreißig Atome (inkl.
Wasserstoffatome) begrenzt. Für den alltäglichen Einsatz im Chemieunterricht ist diese
Limitierung jedoch vollkommen ausreichend. Eine dritte Option erlaubt die Eingabe von
Datenformaten, die bereits berechnete Oberflächeninformation enthalten. Zur Zeit wird dabei
lsowohl das VAMP- als auch das COSMO-Format unterstützt (42, 249).
Abb. 4-12: MolSurf: Eingabeformular.
Nach Eingabe der Strukturdaten kann der Dozent bzw. der Schüler die Darstellungsform
der Moleküloberfläche wählen. Der Service unterstützt dabei die wichtigsten
Repräsentationsarten wie Solid, Chicken Wire bzw. Mesh und Dot Cloud (Abbildung 4-13 a-
c). Darüber hinaus können auch alle Darstellungsformen in der VRML-Szene integriert und
dort interaktiv geändert werden. Bei der Repräsentation der Strukturdaten stehen dem
67
4 Client-Server-basierte Visualisierung
Benutzer die gleichen Darstellungsformen wie beim VRML-Generator zur Verfügung (vgl.
Abschnitt 4.1.2.2). Auch diese Darstellungen können vom Benutzer interaktiv in der VRML-
Szene ausgetauscht werden (Abbildung 4-13 d-f).
Abb. 4-13: MolSurf: VRML-Szene mit Strukturen und SES-Oberflächen (semitransparent) von TNT: a) - c): Rainbow-Farbskalierung einer a) Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation; d)-f): Blau-Weiß-Rot-Farbskalierung einer Solid-Oberflächen-Repräsentation mit unterschiedlichen Strukturmodellen: d) Capped, Ball & Stick und f) Wireframe (Farbabbildung: Anhang A, Abbildung A-6).
Der Online-Dienst unterstützt zur Zeit nur die Abbildung des molekularen
elektrostatischen Potentials auf der Moleküloberfläche. Dies reicht jedoch für die Lösung
didaktischer Problemstellungen meist aus.
Es stehen dem Benutzer drei gebräuchliche Farbpaletten zum Einfärben der molekularen
Oberfläche zur Verfügung. Neben der Regenbogen-Farbpalette (21 Farben) und der gröberen
ASA-Farbpalette (9 Farben) steht auch noch eine Rot-Weiß-Blau-Farbskala zur Verfügung.
Für den Fall, dass keine molekulare Eigenschaft auf der Oberfläche abgebildet werden soll,
kann die Farbcodierung auch deaktiviert werden.
Eine wichtige Funktion für den Einsatz im Chemieunterricht stellt die Skalierbarkeit des
Farbwertebereichs dar. Bei dieser durch den Benutzer definierten Skalierung können für das
elektrostatische Potential frei definierbare Maxima und Minima angegeben werden, die als
Grenzwerte für den Farbverlauf dienen. Den berechneten, molekularen Eigenschaftswerten
wird anschließend ein durch diese Farbskala definierter Farbwert zugeordnet. Die vom
Benutzer definierte Farbskala kann anschließend für eine Reihe von Molekülen eingesetzt
68
4.1 Hybride Strategien
werden, womit ein Vergleich der unterschiedlichen, molekularen Eigenschaften ermöglicht
wird. So können mit Hilfe dieser Skalierung molekulare Effekte wie beispielsweise der
Einfluss einer Säuregruppe in unterschiedlichen Carbonsäuren vermittelt werden. Darüber
hinaus ermöglicht die Skalierung auch die Angabe von Grenzwerten. Dabei werden
Eigenschaftswerte mit größeren bzw. kleineren Werten als der definierte Maximal- bzw.
Minimalwert in der gleichen Farbe wie der Maximal- bzw. Minimalwert dargestellt. Neben
der Skalierung kann auch die Originalskalierung (berechnete Maxima und Minima definieren
die Grenzen der Farbskala) oder eine relative Skalierung (größter, absoluter Wert der
berechneten Maxima/Minima definiert die Grenzen der Farbskala) gewählt werden.
Nach Eingabe der Strukturinformation werden zunächst die 3D-Koordinaten der
Verbindung mit Hilfe von CORINA berechnet. Die dreidimensionale Struktur wird
anschließend zur quantenchemischen Berechnung an VAMP übergeben (AM1, SCF), wobei
die Gitterpunkte der Solvent-Excluded-Surface-Oberfläche sowie die Oberflächenwerte des
elektrostatischen Potentials berechnet werden. Aus den berechneten Daten wird schließlich
eine VRML-basierte, dreidimensionale Szene erstellt und diese an den Benutzer
zurückgeliefert (Abbildung 4-13, 4-14).
Abb. 4-14: MolSurf: VRML-Oberfläche (Solid-Repräsentation) von Trinitrotoluol mit integriertem HUD-Menü (Farbabbildung: Anhang A, Abbildung A-7).
Mit Hilfe eines semitransparenten Head-Up-Display-Menüs (HUD-Menü), das in der
VRML-Szene integriert ist, kann der Benutzer die Szene interaktiv manipulieren
(Abbildung 4-14). So kann mit Hilfe des Menüs die dargestellte Oberflächenrepräsentation
verändert oder die Strukturdarstellung ein- oder ausgeblendet werden. Darüber hinaus kann
69
4 Client-Server-basierte Visualisierung
mit Hilfe einer Slider-Funktion die Transparenz der Oberfläche beliebig variiert werden. Die
Legende für die Farbgebung ist ebenfalls im HUD-Menü integriert.
Die generierten SES-Oberflächen können über eine zusätzliche Speicheroption auch lokal
auf dem Client abgespeichert werden.
4.1.5.3 Implementierung
Für die Generierung und Speicherung der molekularen Oberflächendaten und
Eigenschaften wurden sechs neue Eigenschaftsbeschreibungen bzw. Module sowie eine
Leseroutine für das quantenchemische Programm VAMP entwickelt.
Die Generierung der 3D-Koordinaten und der VRML-Repräsentation für die molekulare
Struktur erfolgt dabei nach den bereits vorgestellten Mechanismen (vgl. Abschnitt 4.1.2.3)
und wird daher an dieser Stelle nicht mehr näher erläutert. Das zentrale Modul bei der
Generierung der Oberflächendaten ist die Eigenschaftsbeschreibung O_POINT. Dieses Modul
enthält, wie der Name schon sagt, die 3D-Koordinaten der Raumpunkte, welche die
molekulare Oberfläche beschreiben. Nachdem die 3D-Koordinaten in gewohnter Weise
(CORINA) generiert wurden, erstellt das Oberflächenmodul zunächst eine VAMP-
Eingabedatei. Durch die in der Eingabedatei enthaltenen Befehle MAP und SES wird VAMP
veranlasst, eine Solvent Excluded Surface (vgl. Abschnitt 3.1.3.4) für das vorliegende
Molekül zu erstellen (VAMP-Befehlszeile: AM1 1SCF NOZ XYZ MAP). Die triangulierten
Oberflächendaten als auch die Werte des darauf abgebildeten molekularen elektrostatischen
Potentials werden von VAMP in eine Ausgabedatei geschrieben und mit Hilfe der VAMP-
Leseroutine in das CACTVS-System eingelesen. Nach dem Einlesevorgang steht die
Oberflächeninformation in den CACTVS-internen Oberflächenmodulen zur Verfügung.
Im Gegensatz zu den bereits beschriebenen Anwendungen wird die übergeordnete VRML-
Szene nicht durch ein spezielles CACTVS-Modul generiert. Lediglich die dreidimensionale
Molekülstruktur wird mit Hilfe des bereits bekannten E_VRML-Moduls erstellt. Die
Generierung der VRML-basierten Oberfläche wird in der MolSurf-Anwendung direkt vom
CGI-Skript unter Verwendung der in den Oberflächen-Modulen enthaltenen Daten realisiert.
Die bereits zuvor generierte VRML-Datei der Molekülstruktur wird anschließend in die vom
CGI-Skript generierte VRML-Szene integriert.
4.1.5.4 Diskussion
Zur Generierung und Visualisierung molekularer Oberflächen und Eigenschaften steht
dem Chemiker heute eine große Anzahl an kommerziellen und kostenfreien,
plattformabhängigen Programmen zur Verfügung. Während vor einigen Jahren die
70
4.1 Hybride Strategien
Darstellung molekularer Oberflächen nur auf diese Standalone-Applikationen begrenzt war,
existieren heute auch einige Web-Anwendungen zur Repräsentation entsprechender
Datenobjekte. Einige dieser Programme sind Plugins wie beispielsweise WebLab Viewer [79]
und Chime [32]. Diese Plugins sind in der Lage, Solvent Accessible Surfaces als auch das
molekulare elektrostatische Potential zu generieren und zu visualisieren. Die Qualität der
Darstellung variiert zwischen den Plugins sehr stark. Aufgrund seiner eingeschränkten
Farbdarstellungsfähigkeiten weist das Chime-Plugin die schlechteste Repräsentation auf.
Darüber hinaus unterstützt diese Anwendungen nur sehr rudimentäre Optionen zur
Beeinflussung der Oberflächendarstellung. Ein weiterer Nachteil dieser Plugins begründet
sich durch ihren plattformabhängigen Charakter. In der Regel können die Applikationen nur
auf Windows- und eingeschränkt auf Mac-Plattformen zum Einsatz kommen. Der Einsatz des
Chime-Plugins in Verbindung mit der neuen Generation an Webbrowsern wird darüber hinaus
zur Zeit nicht unterstützt, was dessen Einsatz stark einschränkt. Obwohl durch diese Systeme
in der Regel keine zusätzlichen Kosten entstehen ist deren Einsatz im Chemieunterricht daher
nur bedingt möglich. Das liegt unter anderem auch an dem Umstand, dass die Plugins nicht
auf die Lösung spezieller didaktischer Problemstellungen wie die Skalierbarkeit der
Farbwerte ausgerichtet sind. Zum anderen fordern diese Programme das Vorliegen
entsprechender 3D-Austauschformate, die in der Regel den Lehrern bzw. Schülern nicht zur
Verfügung stehen.
Die in den Plugins implementierten Funktionen zur Generierung der Oberflächen und der
Moleküleigenschaften erlauben in der Regel nur vereinfachte bzw. genäherte Ausgaben.
Qualitativ höherwertige Ergebnisse erfordern den Einsatz spezieller Programme. Die
Ausgaben dieser Programme können sehr leicht mit dem plattformunabhängigen VRML-
Standard visualisiert werden. Der Einsatz von VRML erlaubt dabei eine im Gegensatz zu den
Plugins höherwertige Darstellungsqualität. Darüber hinaus bietet sich mit Hilfe dieses
Austauschsformat auch die Möglichkeit einer verbesserten Interaktion.
Eine sehr einfache VRML-basierte Darstellung molekularer Elektronendichten erlaubt die
Waltz-Applikation des National Center for Supercomputing Applications [116]. Das
Programm ermöglicht die Eingabe von Elementen über ein HTML-basiertes Periodensystem
und visualisiert die resultierenden Elektronendichten mit Hilfe statischer oder animierter
Bilder. Alternativ zu dieser 2D-Repräsentation kann der Benutzer auch eine einfarbige
VRML-Oberfläche zur Darstellung der Elektronendichte betrachten. Die stark
eingeschränkten und limitierten Eingabemöglichkeiten sowie die sehr einfachen
Darstellungsformen (keine Strukturdaten, keine molekularen Eigenschaften) sind für die
Nutzung dieser Anwendung in der chemischen Ausbildung unzureichend.
71
4 Client-Server-basierte Visualisierung
Einen weiterentwickelten Ansatz stellt das Web-Interface des Programms MSMS
dar [117]. MSMS wurde speziell für die schnelle Berechnung von molekularen Oberflächen
entwickelt. Der Service bietet einige Optionen mit denen die Oberflächendarstellung
beeinflusst werden kann. Unter anderem kann der Benutzer dabei den Repräsentationsstil der
Oberfläche wählen (Solid, Chicken Wire, Points). Leider unterstützt MSMS nur den veralteten
VRML1.0-Standard, der von vielen aktuellen VRML-Viewern nicht mehr dargestellt werden
kann. Darüber hinaus ist auch bei MSMS die Eingabe bereits vorliegender 3D-
Strukturinformation notwendig.
Das zur Zeit am weitesten entwickelte Online-Werkzeug zur Analyse und Visualisierung
molekularer Strukturen und Oberflächen ist GRASS [118]. GRASS ist ein Web-fähiges
Frontend des Programms GRASP und vor allem für den Einsatz mit Proteinen konzipiert.
GRASS unterstützt den VRML97-Standard und ist in der Lage, beliebig definierte
Oberflächen sowie eine Vielzahl molekularer Eigenschaften wie beispielsweise das
elektrostatische Potential, die Hydrophobizität oder Atomladungen zu visualisieren. Das
Benutzerinterface ist aus diesem Grunde auch entsprechend komplex und teilweise sehr
kompliziert. Der Online-Dienst setzt als Eingabe Strukturdaten im PDB-Format voraus.
Obwohl diese Dateien aus Online-Datenbanken bezogen werden können, sind einfache für
den Unterricht relevante Moleküle in der Regel nicht in diesen Datenbanken enthalten.
Darüber hinaus bietet auch GRASS keine Möglichkeit zur Skalierung der Werte. Aufgrund
seiner Ausrichtung auf große Molekülsysteme und dem damit verbundenen hohen Maß an
Komplexität ist GRASS für den Einsatz an Schulen oder Universitäten nicht geeignet.
MolSurf wurde speziell für den Einsatz im Chemieunterricht entwickelt und bietet daher
nur die für den didaktischen Einsatz notwendigen Funktionalitäten. Eine Fehlbedienung
durch einen Schüler oder Lehrer kann aufgrund des einfachen und intuitiven Aufbaus
ausgeschlossen werden. Der Benutzer kann ohne spezielle Vorkenntnisse einfache Moleküle
zeichnen und per Mausklick visualisieren. MolSurf berücksichtigt dabei nach unserer
Erkenntnis als einzige Applikation eine Benutzer-definierte Skalierung des Wertebereichs, so
dass der für den Unterricht wichtige qualitative Vergleich verschiedener Verbindungen
(„Welches Molekül ist welchem Molekül am ähnlichsten?“) einfach zu realisieren ist. Durch
den Einsatz des Struktureditors können alle Moleküle selbst erstellt werden, wodurch das
Vorliegen von Strukturaustauschformaten entfällt. Die interaktiven Werkzeuge innerhalb der
Szene (HUD-Display) ermöglichen dem Schüler darüber hinaus zusätzliche Freiheitsgrade
bei der Analyse der Szene. Aus diesen Gründen stellt MolSurf nach unserer Auffassung das
für die chemische Ausbildung geeignetste Werkzeug zur Visualisierung molekularer
Oberflächen dar. Obwohl MolSurf von allen in diesem Kapitel vorgestellten Applikationen
die jüngste Entwicklung darstellt (Februar 2001), wurde der Online-Dienst bereits ca. 4.100
mal genutzt. Die Anwendung hat zudem in der internationalen Fachpresse [119]
72
4.1 Hybride Strategien
Anerkennung gefunden und wurde darüber hinaus auch für die Gestaltung des neuen Römpp-
Online [120] sowie von Abbildungen in einem anorganischen Lehrbuch [124] benutzt.
4.1.6 Weitere hybride Ansätze
Im Rahmen des ChemVis-Projekts wurden von unseren Projektpartnern (Dr. Klaus Engel,
Prof. Thomas Ertl, Abteilung Visualisierung und interaktive Systeme, Institut für Informatik,
Universität Stuttgart) einige weiterentwickelte, hybride Applikationen vorgestellt. Die
Ansätze befassen sich vor allem mit der Visualisierung sehr großer Volumendatensätze wie
beispielsweise elektronenmikroskopischen Volumendaten. Aufgrund der enormen Größe der
Datensätze müssen diese Techniken sicherstellen, dass einerseits eine hohe Netzlast
verhindert und andererseits die Graphikhardware des Clients nicht überlastet wird. Dies kann
durch die Begrenzung der Anzahl der geometrischen Primitive (Punkte, Linien, Kugeln,
Zylinder, etc.) sichergestellt werden. Im Rahmen unseres Projektes wurden dabei zwei
Verfahren verfolgt [102].
Die sogenannte progressive Übertragungstechnik basiert auf unterschiedlichen
Auflösungsstufen (Multi-Resolution-Repräsentationen) einer Oberfläche, die durch
hierarchische Zerlegungsalgorithmen erhalten werden. Die resultierenden Auflösungsstufen
können komprimiert und progressiv an einen Client übermittelt werden. Auf diese Weise läßt
sich sowohl die Visualisierung beschleunigen als auch die Netzlast verringern. Ein
entsprechender, Online-Dienst wurde von unseren Projektpartner vorgestellt [125]. Die
Anwendung basiert zum einen auf einem Visualisierungsserver, der bereits über diverse,
vorverarbeitete Multi-Resolution-Repräsentationen ausgesuchter Datensätze verfügt. Zum
anderen besteht die Anwendung aus einem Client-seitigen Java-Applet, das dem Benutzer die
Auswahl und Darstellung der Server-seitigen Datensätze ermöglicht. Nach Selektion eines
Datensatzes extrahiert der Server eine Isofläche in der gewünschten Auflösung aus dem
Datensatz und transferiert die entsprechenden Polygone an den Client. Die Polygone werden
auf der Client-Seite mittels Java3D oder VRML dargestellt. Der Benutzer kann die nun in
grober Auflösung vorliegende Szene weiter verfeinern, in dem er zusätzliche
Isoflächendetails vom Server abruft. Dieser Vorgang läßt sich so lange wiederholen, bis der
Datensatz in der höchsten Auflösung dargestellt wird (Abbildung 4-15). Im Gegensatz zu den
in dieser Arbeit entwickelten Applikationen muss die graphische Szene nicht vollständig an
den Client übermittelt werden, um eine Darstellung der Szene und Interaktion mit den Daten
zu gewährleisten. Vielmehr kann der Benutzer bereits mit einer grobaufgelösten
Darstellungsform interagieren, während die fehlende Isoflächeninformation automatisch über
das Internet nachgeladen und in die graphische Szene integriert wird. Der Ansatz birgt jedoch
auch Nachteile. Wenn der Benutzer an Detailinformationen wie beispielsweise der ActiveSite
73
4 Client-Server-basierte Visualisierung
auf einer Proteinoberfläche interessiert ist, muss er warten bis alle Isoflächendaten an den
Client übermittelt worden sind und die komplette Szene in hochaufgelöster Form vorliegt.
Darüber hinaus können bei der hochaufgelösten Darstellung zu viele Polygone auf dem Client
vorliegen, was schließlich wieder zu einer drastischen Verminderung der Interaktions- und
Neben diesen grundsätzlichen Funktionen bietet der untere Formularteil einige zusätzliche
Selektionsoptionen. Zum einen kann zu jedem Zeitpunkt die graphische Darstellung der bio-
logischen Aktivitätsdaten von einer relativen in eine absolute Darstellung bzw. umgekehrt
geändert werden. Darüber hinaus kann der Benutzer für die selektierten Verbindungen und
Krebszelllinien die zugrundeliegenden biologischen Aktivitätsdaten (GI50, LC50, TGI) aus-
tauschen, um so beispielsweise Unterschiede im cytotoxischen und cytostatischen Verhalten
einer Verbindung zu identifizieren. In einigen Fällen ermöglicht das Formular auch den
Wechsel der Substanzkonzentration. Dies ist dann der Fall, wenn eine als hoch aktive Sub-
stanz identifizierte Verbindung in verschiedenen Verdünnungsgraden im in-vitro Screening-
test eingesetzt wurde. Liegt die entsprechende Information für den selektierten Datensatz in
der Datenbank vor, so werden alle entsprechenden Konzentrationen automatisch zur Auswahl
123
6 Visuelle Data Mining-Applikationen
gestellt. Der Online-Dienst informiert den Benutzer darüber hinaus, für wieviele der darge-
stellten Verbindungen die gewählte Konzentration relevant ist.
6.1.3 Implementierung
Wie auch die im ersten Teil der Arbeit beschriebenen Online-Dienste basiert das NCI
Datenbank-Interface auf dem chemischen Datenmanagementsystem CACTVS (vgl. Abschnitt
2.3.1). Darüber hinaus kamen zum einen die Datenbank (spezifisches CACTVS-Format) des
Enhanced CACTVS NCI Database Browser mit molekularen Eigenschaften und Strukturin-
formationen der über 250.000 Verbindungen der NCI Datenbank als auch eine MySQL-Daten-
bank [207] mit den NCI in-vitro Screeningdaten von 41.000 (Stand: April 2002) chemischen
Verbindungen zum Einsatz.
Im Gegensatz zu den im ersten Teil der Arbeit beschriebenen Visualisierungsansätzen wur-
den bei der Implementierung des Web-fähigen Datenbank-Interfaces keine zusätzlichen
CACTVS-Module entwickelt. Vielmehr diente das CACTVS-System zur Ausführung der auf-
wendigen Substruktur- und Ähnlichkeitssuchen sowie für den Zugriff auf die CACTVS-
Datenbank des Enhanced CACTVS NCI Database Browser. Die einzelnen Prozessabläufe der
in Abbildung 6-5 schematisch dargestellten Datenvisualisierungssitzung werden im Folgen-
den näher beschrieben.
Nachdem der Benutzer die gewünschten Suchparameter zur Auswahl der chemischen Ver-
bindungen und Krebszelllinien angegeben und die Datenbankrecherche gestartet hat, über-
prüft das CGI-Skript in einem ersten Schritt die Syntax der übermittelten Parameter.
Anschließend wird je nach Benutzereinstellung (CAS, NSC, Substruktur- oder Ähnlichkeits-
suche) die Datenbank des Enhanced CACTVS NCI Database Browser durchsucht und die
relevanten Treffer in Form von NSC-Nummern an das CGI-Skript zurückgeliefert. Die Suche
ist dabei durch Angabe zusätzlicher Suchparameter nur auf solche Verbindungen limitiert, für
die auch Antitumor-Screeningdaten vorliegen (41.000 von 250.000 Verbindungen). Die vom
CACTVS-System gefundenen NSC-Nummern werden anschließend mit den vom Benutzer
selektierten Krebszelllinien in Form einer SQL-Datenbankanfrage kombiniert und diese zur
Abfrage der biologischen Aktivitätsdaten an die MySQL-Datenbank übergeben. Darüber hin-
aus entnimmt das CGI-Skript der Datenbank die verschiedenen Konzentrationsangaben, die
für die entsprechende Kombination zur Verfügung stehen. Mit Hilfe der zurückgelieferten
Daten generiert das CGI-Skript schließlich zum einen die VRML-Szene zur graphischen Dar-
stellung der biologischen Aktivitäten und zum anderen das temporäre HTML-Formular zur
Selektion von Teildatensätzen.
124
6.1 NCI Antitumor-Datenbank-Interface
Abb. 6-5: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI-Datenbank-Interface. Der rautierte Bereich kennzeichnet Elemente des Enhanced CACTVS NCI Database Browser [93], welcher nicht Teil dieser Arbeit war.
Der Benutzer kann im Folgenden Verbindungen und Krebszelllinien, welche er vorher
anhand auffälliger Aktivitätsmuster in der graphischen VRML-Darstellung ausgemacht hat,
im dynamisch generierten HTML-Formular selektieren bzw. die uninteressanten Einträge
löschen und die Daten zur Aktualisierung an den Server übermitteln. Im Gegensatz zur ersten
Datenbanksuche muss dabei kein erneuter Zugriff auf die Datenbank des Enhanced CACTVS
NCI Database Browser erfolgen, da zu diesem Zeitpunkt bereits alle relevanten NSC-Daten
dem CGI-Skript bekannt sind. Die neuselektierten Daten werden wieder zur Generierung
einer MySQL-Datenbankanfrage verwendet und die resultierende, neue VRML-Szene sowie
das aktualisierte HTML-Formular an den Benutzer übertragen. Dieser Vorgang kann beliebig
oft wiederholt werden.
HTML-
Formular
Eingabe
Strukturen
Hitlist
CACTVS-System
Einlesen, AnalyseDatenbanksuche(Substruktursuche,
Ähnlichkeitssuche, etc.)
Client ServerCGI-Skript
VRML-Szene
Auswahl
Detail-Information
HTML-
Formular
Auswahl
Ausgabe
Einlesen, AnalyseDatenbanksuche(Substruktursuche,
Ähnlichkeitssuche, etc.)
MySQL-NCI-Datenbank
41.000Screening-
daten
CACTVS-System
Selektion
Kreb szellen
Strukturen
2346, 2569, 2890, 102020,
102200, 105000, 190230,
654666, 656743,...
1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
11, 12, 13, 14, 15, 16, 17,
18, 19, 20 - 28, 60,...
Detail
HTML-
Formular
N
NR2
VRML
CACTVS-NCI-Datenbank
>250.000Strukturdaten,
MolekulareEigenschaften
125
6 Visuelle Data Mining-Applikationen
Wie bereits erwähnt, ist die VRML-Szene mit sogenannten VRML-Ankerknoten ausge-
stattet, um dem Benutzer die Abfrage von Detailinformation zu erlauben. Diese Ankerknoten
enthalten dabei einen Hyperlink zum Enhanced CACTVS NCI Database Browser mit einer
kodierten NSC-Nummer der entsprechenden Verbindung. Durch Anklicken der entsprechen-
den, roten Kugeln wird dann eine reguläre Online-Sitzung des Database Browsers gestartet
und die korrespondierende Detailinformation in einem dritten Browserfenster dargestellt. Da
letztere Funktionalität nicht durch das NCI Datenbank-Interface realisiert wird, wurden die
entsprechenden Teile in Abbildung 6-5 besonders hervorgehoben (rautiert).
6.1.4 Diskussion
Während zum Implementierungszeitpunkt des graphischen Datenbank-Interfaces bereits
zahlreiche Web-Applikationen zur Visualisierung verschiedener Datentypen wie beispiels-
weise Volumen vorlagen, gab es kaum portable Informationsvisualisierungs-Anwendungen,
die zur Darstellung großer Datensätze und somit zur Analyse und Suche nach Mustern und
Beziehungen geeignet waren. Darüber hinaus erlaubte der Großteil der wenigen, verfügbaren
Applikationen lediglich die Präsentation aber nicht die für visuelles Data Mining essentielle
Exploration von Datensätzen.
Erste Arbeiten auf dem Gebiet der portablen, explorativen Informationsvisualisierung
wurden in der National Security Agency (NSA, USA) entwickelt und basierten auf der Virtual
Reality Modeling Language [208]. Der Visualisierungsansatz diente zur Darstellung hierar-
chischer Daten und Graphen wie beispielsweise der Organisationsstruktur der NSA und
nutzte deshalb spezielle Visualisierungstechniken wie die Cone Tree-Technik (vgl. Abschnitt
5.4.2.4). Wie auch im vorliegenden Datenbank-Interface wurde in diesem frühen Ansatz die
VRML-eigene Ankerknotentechnik eingesetzte, um Hyperlinks in die VRML-Szene zu inte-
grieren und somit zusätzliche Zugriffsmöglichkeiten in Form von statischen HTML-Seiten
oder CGI-vermittelten Datenbanksuchen zu erlauben. Obwohl mit Hilfe dieses Ansatzes eine
Visualisierung, Analyse und Navigation innerhalb großer Datensätze möglich war, fehlten
essentielle Funktionen wie beispielsweise Filter- und Selektionswerkzeuge, die für ein effek-
tives visuelles Data Mining nötig sind.
Ein anderer mehr zur Präsentation als zur explorativen Analyse geeigneter Ansatz wurde
von der Firma StockSmart, einem Provider von Online-Analysewerkzeugen für Finanz- und
Investmentdaten, entwickelt [209]. Durch einen auf VRML basierenden, dreidimensionalen
Liniengraphen (vgl. Abschnitt 5.4.2.1) wird der zeitliche Verlauf von Firmenbilanzen darge-
stellt. Die VRML-Szene wurde mit Berührungs-Sensoren sowie Skriptknoten ausgestattet,
die zur Darstellung von Detailinformationen innerhalb der VRML-Szene dienen. Der Benut-
zer kann dabei mit dem Mauszeiger über bestimmte Regionen des Liniengraphen fahren, was
126
6.1 NCI Antitumor-Datenbank-Interface
zu einer farblichen Hervorhebung der einzelnen Bereiche und zur textuellen Darstellung der
korrespondierenden Detailinformation führt. Weitere Funktionalitäten sind nicht vorhanden.
Da die im VRML-Standard vorhandenen Interaktionstechniken für ein effektives visuelles
Data Mining im Allgemeinen nicht ausreichen, wurden verschiedene Ansätze zur Erweite-
rung der Benutzerinteraktionsfähigkeiten entwickelt. Eine Möglichkeit bietet dabei die
bereits im ersten Teil dieser Arbeit vorgestellte Kombination von VRML und Java über das
External Authoring Interface. Eine auf dieser Technik basierende Demonstrationsapplikation
wurde von Roskothen vorgestellt [210]. Die Online-Demo besteht dabei aus einer VRML-
Szene mit einer Balkendiagramm-Darstellung sowie einem Java-Applet, an das ein Datenar-
ray übergeben wird. Durch Betätigung eines Schiebereglers kann der Benutzer nun direkt die
Histogramm-Darstellung beeinflussen. Eine konkrete Nutzung dieser Technik innerhalb einer
visuellen Data Mining-Anwendung ist uns nicht bekannt.
Ein anderer Weg zur Verbesserung der Interaktionsfähigkeiten wurde von der Firma EM7
beschrieben und stellt darüber hinaus die wahrscheinlich erste kommerzielle, VRML-basierte
Softwarelösung im Bereich der Informationsvisualisierung dar [211]. Zum einen beinhaltet
die auf einer Client-Server-Architektur aufbauende Anwendung ein ActiveX-basiertes Appli-
cation Programmable Interface (API), mit dessen Hilfe die Server-seitige Anbindung an
externe Programmpakete als auch an verschiedene Datenbankformate möglich ist. Darüber
hinaus entwickelte EM7 eine umfassende Sammlung an VRML-Erweiterungen, das soge-
nannte ProtoPac, das die limitierten Funktionen des VRML-Standards durch diverse, speziell
für die Bedürfnisse der Informationsvisualisierung angepasste Funktionen ergänzte. Diese
Sammlung enthält dabei Werkzeuge zur Navigation, Interaktion und Datenbankkommunika-
tion. Leider schliesst die Nutzung des Microsoft-Standards ActiveX den Einsatz dieser Tech-
nik auf nicht-Windows-basierten Systemen aus. Darüber hinaus zeigte ein kürzlicher Besuch
auf der Homepage von EM7, dass es innerhalb der letzten ein bis zwei Jahre keine Aktualisie-
rungen der Technik gegeben hat und daher offensichtlich auch keine neuen Webbrowser- und
VRML-Plugin-Generationen unterstützt werden. Dieser Verdacht bestätigte sich bei der Aus-
führung der EM7-Demonstrationsanwendungen, die unter Verwendung des CORTONA-
VRML-Plugins [212] und Netscape 6.2 keine sinnvollen Darstellungen ergab.
Schließlich sollen an dieser Stelle noch zwei besondere VRML-basierte Programme zur
Exploration und Analyse von Datensätzen erwähnt werden – RInvoice und 3D Active Chart
[213]. Die beiden von der Firma First Information Systems entwickelten Programme stellen
jedoch im Gegensatz zu den anderen hier beschriebenen Ansätzen keine portablen WWW-
Applikationen dar. Dennoch nutzen sie den VRML-Standard zur Visualisierung der Daten-
sätze. Im Gegensatz zu den Web-fähigen Ansätzen werden in diesem Fall die VRML-Szenen
durch die ActiveX-Schnittstelle des VRML-Players CORTONA [212] in Standalone-Win-
127
6 Visuelle Data Mining-Applikationen
dows-Applikationen eingebunden. Dies ermöglicht auf der einen Seite ein Maximum an
Datenzugiffsmöglichkeiten und interaktiver Datenmanipulation, aber beschränkt auf der
anderen Seite die Nutzung dieser Programme auf Einzelplatzrechner mit Windows-Betriebs-
systemen.
Das NCI Datenbank-Interface stellt nach unserem Wissen die erste VRML-basierte
Anwendung dar, die speziell zur Visualisierung und Analyse chemischer, multidimensionaler
Datensätze im Internet entwickelt wurde. Darüber hinaus ist uns bis dato kein anderer Online-
Dienst bekannt, der den VRML-Standard zur Darstellung und Exploration von Datensätzen
der Chemie (ausgenommen molekulare Modelle wie Strukturen und Oberflächen) verwendet.
Der Einsatz der Virtual Reality Modeling Language birgt dabei sowohl Vor- als auch Nach-
teile. Zum Zeitpunkt der Implementierung stellte der VRML-Standard die einzige standardi-
sierte Technologie zur Vermittlung dreidimensionaler Szenen über das Internet dar. Ein
wesentlicher Vorteil dieses Standards basiert auf der leichten Verfügbarkeit. VRML-Szenen
können durch diverse, frei verfügbare VRML-Plugins in fast allen wichtigen Webbrowsern
sowie nahezu auf allen Plattformen und Betriebssystemen dargestellt werden. Darüber hinaus
baut VRML auf low-level Graphikschnittstellen wie OpenGL oder Direct3D auf und nutzt
daher die Fähigkeiten moderner 3D-Graphikhardware.
Ein wesentlicher Nachteil des VRML-Standards stellen die begrenzten Interaktions- und
Dynamik-Fähigkeiten des VRML-Formates dar. Obwohl mit Hilfe der implementierten Funk-
tionen einige grundsätzliche, explorative Werkzeuge wie beispielweise weiterführende, auf
Hyperlink-Technik basierende Detail- und Datenbankabfragen realisiert werden können, sind
zur Realisierung effektiver, visueller Data Mining-Applikationen zusätzliche Interaktions-
werkzeuge nötig. Im vorliegenden Fall wird dieses Defizit durch die Kombination der
VRML-Darstellung mit dynamisch generierten HTML-Formularen gelöst, wodurch dem
Benutzer die Selektion von Datenpunkten bzw. interessanter Muster ermöglicht wird.
Die typische Client-Server-Architektur von VRML-basierten Online-Diensten kann eben-
falls zu Nachteilen bei der Visualisierung großer Datensätze führen. Dabei wird im Allgemei-
nen die VRML-Szene auf der Serverseite durch entsprechende Data Mining-Applikationen
aus den Originaldaten generiert und an den Client übermittelt. Während dieser Graphiktrans-
fer von Daten (vgl. Abschnitt 3.3.3) bei kleinen Datensätzen problemlos zu realisieren ist,
werden mit zunehmender Datensatzgröße die Übertragungszeiten zwischen Server und Client
immer größer was letztendlich eine effektive Arbeit unmöglich macht. Die Ursache für dieses
Problem liegt dabei nicht unmittelbar in der Größe der relativ kompakten, tabellarischen Ori-
ginaldaten begründet, sondern basiert auf der Größe der VRML-Dateien, die in der Regel um
ein Vielfaches größer sind als die korrespondierenden Rohdaten. Im Fall des NCI Datenbank-
Interfaces fällt dieser Sachverhalt weniger ins Gewicht, da zum einen die Datenbankrecher-
128
6.2 Das InfVis-Programm
che auf maximal einhundert Verbindungen limitiert ist und zum anderen der Benutzer nach
spezifischen Struktur- und Krebszellen-Kombinationen sucht, die in der Regel zu kleineren
Datensätzen führen.
Der generelle Einsatz von VRML zur Realisierung Web-fähiger Applikationen des visuel-
len Data Minings ist nach unserer Auffassung nur bei Vorlage relativ kleiner Datensätze und
innerhalb spezifischer, auf bestimmte Problemstellungen ausgerichteter Applikationen zu
empfehlen. Mit zunehmender Datensatzgröße und vor allem steigendem Unbekanntheitsgrad
der zugrundeliegenden Daten wird der Einsatz von VRML in der explorativen Visualisierung
zunehmend ungünstig und letztendlich sinnlos. Schlussfolgernd eignet sich VRML daher vor
allem zur Datenpräsentation und zur konfirmativen Datenanalyse aber nur im begrenzten
Umfang und unter Berücksichtigung spezieller Rahmenbedingungen für explorative Analyse-
ansätze.
Im Gegensatz zu den in Kapitel 4 beschriebenen Applikationen wurde das NCI Daten-
bank-Interface nicht als offizieller Online-Dienst betrieben. Vielmehr diente der Service zum
internen Gebrauch am Computer-Chemie-Centrum sowie am Laboratory of Medicinal Che-
mistry des NCI. Das VRML-Interface soll in die nächste Version des Enhanced CACTVS NCI
Database Browser integriert werden. Darüber hinaus wurde im Rahmen dieser Arbeit ein
weiterentwickeltes, auf der Programmiersprache Java basierendes Interface entwickelt, das
als Online-Dienst zur Verfügung steht (vgl. Abschnitt 6.3).
Neben VRML-Ansätzen wurden in den letzten Jahren auch Java-Applikationen sowie spe-
zielle auf Microsoft-Technologien aufbauende Applikationen zur explorativen Informations-
visualisierung entwickelt. Diese Ansätze werden in den Abschnitten 6.2 und 6.3 vorgestellt.
6.2 Das InfVis-Programm
6.2.1 Zielsetzung
Da die für visuelle Data Mining-Ansätze essentiellen, interaktiven Werkzeuge mit Hilfe
von VRML-Applikationen nur sehr begrenzt oder garnicht zu realisieren sind, war ein primä-
res Ziel des InfVis-Programms die Entwicklung und Einbettung interaktiver und dynamischer
Funktionen, die dem Benutzer unter anderem die Identifikation und Extraktion von Mustern
ermöglichen. Die Benutzung dieser Funktionen sollte darüber hinaus zu einer unmittelbaren
Aktualisierung der Datendarstellung führen, da nur so eine effektive, visuelle Exploration
sichergestellt werden kann. Eine Aufteilung der Data Mining-Mechanismen auf Client und
Server wie im Fall des NCI Datenbank-Interfaces kam aus diesem Grund nicht in Frage. Viel-
mehr musste die Client-seitige Applikation in der Lage sein, Rohdaten direkt zu importieren
129
6 Visuelle Data Mining-Applikationen
und zu speichern sowie die entsprechende graphische Darstellung zu generieren und zu mani-
pulieren. Das Programm sollte darüber hinaus nicht nur auf einen Datensatz wie beispiels-
weise die NCI Antitumor-Datenbank festgelegt sein, sondern die Darstellung und
orange, braun und lila. Die ersten vier Farben sowie schwarz und weiß stellen dabei soge-
137
6 Visuelle Data Mining-Applikationen
nannte Grundfarben dar und erlauben die beste Unterscheidung von Variablen. Sie sollten
daher auch vor den nachfolgenden sechs Farben zum Einsatz kommen. Obwohl das InfVis-
Programm dieser Farbsequenz folgt, ist diese nur als Vorschlag zu verstehen. Der Benutzer
hat zu jedem Zeitpunkt die Möglichkeit, die Farben für die einzelnen Variablen nach seinem
eigenen Ermessen anzupassen.
Im Fall kontinuierlicher Datenwerte sollte auch der Farbverlauf möglichst kontinuierlich
erfolgen. InfVis unterstützt daher sowohl weitverbreitete Farbpaletten wie das HUE-Modell,
das kontinuierliche Spektrum-Modell und das Primary Color-Modell, als auch Farbesequen-
zen mit zwei oder drei Grenzwertfarben, die durch den Benutzer frei definiert werden können
(Abbildung 6-10b) [220]. Darüber hinaus kann der Benutzer bei Vorlage numerischer Daten-
werte auch Grenzwerte definieren, um die Farbskala zu beeinflussen.
6.2.5.4 Form
In der derzeitigen Version kann der Benutzer keine Einstellungen zur Beeinflussung der
Objektform vornehmen. Das Programm unterstützt darüber hinaus auch nur das Abbilden dis-
kreter Datendimensionen, wobei maximal vier einzelne Datenwerte innerhalb der Dimension
vorliegen dürfen. Diese werden entsprechend ihrer Reihenfolge im Datensatz auf die graphi-
schen Objekte Kugel, Würfel, Kegel und Zylinder abgebildet. Der Einsatz der Objektform zur
Darstellung kontinuierlicher Daten ist nach unserer Ansicht nicht sinnvoll, da dies vor allem
den ungeübten Benutzer überfordert und den Mustererkennungsprozess deutlich erschwert.
6.2.6 Interaktive und dynamische Techniken
Im Gegensatz zu klassischen Data Mining-Ansätzen kann visuelles Data Mining das Ver-
trauen und Verständnis des Benutzers in identifizierte Muster und Modelle maßgeblich erhö-
hen. Zur Realisierung dieses Vorteils müssen visuelle Data Mining-Applikationen jedoch
über geeignete, intuitive Interaktionswerkzeuge verfügen. Im Gegensatz zu dem zuvor
beschriebenen, VRML-basierten Datenbank-Interface (vgl. Abschnitt 6.1) konnte durch die
Verwendung von Java und Java3D eine Vielzahl interaktiver und dynamischer Techniken in
das InfVis-Programm integriert werden. Bei der Entwicklung dieser Werkzeuge wurden dabei
folgende Richtlinien berücksichtigt [27]:
− Realisierung einfacher und logischer Interaktionssequenzen
− Vermeidung von unübersichtlichen und zu vieler verschiedener Funktionen
− Permanenter Zugriff auf alle wichtigen Funktionen zu jedem Zeitpunkt der Interaktion
− Verfügbarkeit geeigneter Feedback-Mechanismen
− Undo-Funktionalität bei irrtümlichen Benutzereingaben
138
6.2 Das InfVis-Programm
Das InfVis-Programm verfügt sowohl über interaktive Funktionen, die direkt innerhalb der
dreidimensionalen Szene ausgeführt werden können, als auch über Interaktionswerkzeuge,
die in einem separaten Werkzeugfenster zur Verfügung stehen. Dabei kann grundsätzlich zwi-
schen interaktiven und dynamischen Funktionen unterschieden werden. Unter interaktiven
Techniken versteht man dabei Benutzereingaben, die direkt und unmittelbar zu einer Verän-
derung beispielsweise einer Aktualisierung der graphischen Datendarstellung führen. Dyna-
mische Techniken erlauben im Gegensatz dazu die Änderung diverser Parameter ohne einen
unmittelbaren Effekt. Die neudefinierten Einstellungen werden erst dann wirksam, wenn der
Benutzer dies durch eine bestimmte Funktion, zum Beispiel in Form eines Aktualisierungs-
knopfes veranlasst. Die verschiedenen in der InfVis-Applikation zum Einsatz kommenden
Interaktionswerkzeuge werden im Folgenden näher beschrieben.
6.2.6.1 Navigationswerkzeuge
Neben den Java3D-basierten und durch Zeigergeräte (z.B. Maus) vermittelten Navigati-
onsmöglichkeiten wie Zoom, Rotation und Translation wurde das InfVis-Programm mit
zusätzlichen Navigationshilfen ausgestattet. Diese ermöglichen dem Benutzer die Ausrich-
tung der Szene auf definierte Standardaufsichten und erweisen sich vor allem dann als nütz-
lich, wenn der Benutzer die Orientierung innerhalb der dreidimensionalen Szenenlandschaft
verloren hat. Darüber hinaus erlauben diese Funktionen ein schnelles und unkompliziertes
Umschalten zwischen den verschiedenen Ansichten.
6.2.6.2 Filterwerkzeuge (Dynamic Queries)
Die wichtigste Interaktionstechnik des InfVis-Programms stellen die sogenannten Dynamic
Queries (DQ) dar [196 - 198, 221, 222]. Die Dynamische Query-Technik kann dabei als eine
visuelle Alternative zur SQL-vermittelten Datenbankabfrage verstanden werden. Im Gegen-
satz zu SQL-basierten Datenbanksuchen erfordern dynamische Queries allerdings kein Spezi-
alwissen. Darüber hinaus erlaubt diese Technik eine schnellere und unkompliziertere Abfrage
und ist das Mittel der Wahl, wenn die resultierenden Daten in graphischer Form dargestellt
werden sollen. Dynamic Queries führen zu einer unmittelbaren Aktualisierung der dargestell-
ten Datenlandschaft und stellen daher eine der wichtigsten Techniken des visuellen Data
Mining dar. Im Prinzip können alle graphischen Standardeingabeelemente wie Slider (Schie-
beregler), Checkboxes und Radiobuttons als graphische Benutzerschnittstellen für
Dynamic Query-Werkzeuge verwendet werden. Diese Frontends werden im Anschluss vom
Benutzer mit Datendimensionen verknüpft und die einzelnen Variablenwerte auf den Aus-
wahlelementen beispielsweise in Form von Einheiten auf dem Schieberegler oder einer Liste
von Checkboxes abgebildet. Diese Form der Selektion von Werten durch die DQ-Werkzeuge
führt schließlich zur Aktualisierung der graphischen Darstellung. Dem Anfänger ermöglichen
139
6 Visuelle Data Mining-Applikationen
sich somit Wege, um auch komplexe Datenbankrecherchen auf Basis visueller Suchstrategien
durchzuführen. Der Anwender kann schnell Informationsmuster in Daten erkennen und
erlernt in kürzester Zeit fast spielerisch die Definition effektiver Dynamic Queries. Darüber
hinaus können Benutzer, die bereits über SQL- bzw. Datenbankerfahrung verfügen, mit Hilfe
von diversen Kombinationen der dynamischen Filter schnell und einfach komplizierte
Suchenanfragen realisieren und die resultierenden Datenpunkte betrachten.
Abb. 6-11: Diverse Dynamic Query-Filterfunktionen des InfVis-Programms.
Die Dynamic Query-Technik erfüllt somit eine Reihe der oben geforderten Vorgaben für
die Realisierung von Interaktionswerkzeugen, wie beispielsweise die schnelle und reversible
Kontrolle oder das unmittelbare Benutzer-Feedback.
Das InfVis-Programm unterstützt Dynamic Query-Techniken in Form von Checkboxes,
Radiobuttons, Slidern und Range Slidern, wobei die beiden letzten Werkzeuge zu den effek-
tivsten Varianten zählen (Abbildung 6-11). So kann beispielsweise mit Hilfe von Range
Slidern und bei Vorlage entsprechender Daten die Lipinsky’s Rule of 5 [223] einfach auf einen
Datensatz angewendet werden. Der Benutzer kann für jede beliebige Dimension des Daten-
satzes (außer Metainformation) einen DQ-Filter definieren und auch zu jedem Zeitpunkt der
Analyse wieder entfernen.
6.2.6.3 Selektionswerkzeuge
Neben der Filterung von Datensätzen durch Dynamic Querys verfügt das InfVis-Programm
auch über Werkzeuge, die eine direkte Selektion von Datenpunkten durch den Benutzer erlau-
140
6.2 Das InfVis-Programm
ben (Abbildung 6-12). Diese Funktionalität ist insbesondere zur Extraktion identifizierter
Muster bzw. Informationen hilfreich. Die Selektion kann dabei auf zwei verschiedenen
Wegen erfolgen. Zum einen kann der Benutzer sogenannte Selektionsboxen in die Szene inte-
grieren. Diese dreidimensionalen Auswahlrahmen können mit Hilfe achsenabhängiger
Range Slider zum einen in x-, y- und z-Richtung vergrößert oder verkleinert und zum anderen
innerhalb des Datensatzes verschoben werden (Abbildung 6-12a).
Abb. 6-12: Selektionswerkzeuge der InfVis-Applikation: a) Selektion mittels Selektionsboxen, b) Maus-vermittelte Selektion einzelner Datenpunkte (Farbabbildung: Anhang A, Abb. A-14 a, b).
Nachdem der Benutzer mit Hilfe eines oder mehrerer Auswahlrahmen die gewünschten
Datenpunkte erfasst hat, kann er die selektierten Werte in einen neuen Datensatz überführen.
Alternativ dazu kann der Benutzer mit dem Mauszeiger direkt einzelne Datenpunkte selektie-
141
6 Visuelle Data Mining-Applikationen
ren (Abbildung 6-12b). Da in der Glyph-Repräsentation diverse Datenpunkte überlagert oder
zum Teil verdeckt sind, wurde das Selektionstool mit einer Auswahlliste erweitert, welche
alle unter dem Mauszeiger befindlichen Datenpunkte enthält und die Selektion der gewünsch-
ten Datenpunkte ermöglicht. Alle selektierten Datenpunkte werden in einer Selektionsliste
verwaltet (Abbildung 6-12b, rechts) und können bei Bedarf beispielsweise bei einer irrtümli-
chen Selektion wieder von der Selektion ausgeschlossen werden. Darüber hinaus ist eine
Kombination der beiden Selektionswerkzeuge möglich.
6.2.6.4 Detailwerkzeuge
Im Gegensatz zum NCI Datenbank-Interface (vgl. Abschnitt 6.1) kann die InfVis-Applika-
tion Detailinformationen zu den einzelnen Datenwerten direkt darstellen. Der Benutzer kann
dazu mit Hilfe des Mauszeigers einen Datenpunkt innerhalb der 3D-Szene selektieren. Das
entsprechende Datenobjekt wird daraufhin in der Szene graphisch hervorgehoben und die
korrespondierende Detailinformation im Detailfenster angezeigt (Abbildung 6-13). Wie auch
bei den Selektionswerkzeugen kann beim Vorliegen überlagerter oder verdeckter Daten-
punkte eine Auswahlliste aufgerufen werden.
Abb. 6-13: Detailwerkzeug des InfVis-Programms (Farbabbildung: Anhang A, Abbildung A-14 c).
142
6.2 Das InfVis-Programm
Das Detailfenster enthält alle Variablenwerte des entsprechenden Datenpunktes, wobei die
Reihenfolge der Dimensionsabfolge im Datensatz entspricht. Darüber hinaus können auch
Metainformationen wie Hyperlinks oder Bilder dargestellt werden. So werden im Stringfor-
mat kodierte Bilder automatisch erkannt, dekodiert und im Detailfenster eingebettet. Hyper-
links werden in Form von Knöpfen zur Verfügung gestellt, die beim Anklicken einen
Webbrowser mit der entsprechenden URL starten.
6.2.7 Implementierung
Wie bereits erwähnt, wurde das InfVis-Programm mit der Programmiersprache Java ent-
wickelt. Um eine möglichst komfortable und ansprechende Bedienungsoberfläche zu gewähr-
leisten kam dabei die in Java2 (Version 1.2 oder höher) enthaltene SWING-Bibliothek zum
Einsatz. Die dreidimensionale Darstellung der Datenpunkte wurde mit der Java3D-Erweite-
rung realisiert, wodurch auch die potentiellen 3D-Graphikfähigkeiten moderner Personal-
computer genutzt werden können. Da die Programmiersprache Java vom Betriebssystem und
den zahlreichen Computerplattformen unabhängig ist, kann die Applikation auf nahezu allen
Computern eingesetzt werden.
Während der Entwicklung von InfVis wurde darauf geachtet, dass das Programm nicht nur
als Standalone-Variante sondern auch als Applet in Web-Anwendungen zum Einsatz kommen
kann. Die Applet- und Standalone-Version unterscheiden sich daher auch nur minimal durch
ihre Frontends und hinsichtlich der Unterstützung des lokalen Dateizugriffs (Standalone-Ver-
sion) bzw. von Applet-Parametern (Applet-Version). Obwohl die Applikation 106 Klassen
und über 39.000 Zeilen Quellcode umfasst, ist das Programm in komprimierter Form nur ca.
160 KB groß und ein Softwaretransfer über das Internet somit problemlos möglich.
Zur Ausführung der Standalone-Applikation muss eine Java2-unterstützende Java Virtual
Machine sowie die Java3D-Erweiterung auf dem Client installiert sein. Analog dazu benötigt
die Applet-Version das Java-Plugin, welches von aktuellen Browserversionen standardmässig
unterstützt wird und in einigen Versionen wie Netscape 6 oder Mozilla bereits integriert ist,
sowie die Java3D-Bibliothek.
6.2.8 Diskussion
Visuelles Data Mining ist in den letzten zwei bis drei Jahren zu einer bedeutenden Technik
im Bereich der LifeScience- und Wirkstoffforschung geworden. Dies ist vor allem auf die ste-
tig wachsende Zahl an generierten Daten und der daraus resultierenden Problematik der
Datenanalyse zurückzuführen. Während in der chemischen und pharmazeutischen Chemie
anfänglich nur das Programm Spotfire [214, 215] zum Einsatz kam, haben in jüngster Zeit
143
6 Visuelle Data Mining-Applikationen
auch andere Firmen das enorme Marktpotential des LifeScience-Sektors erkannt und zahlrei-
che, alternative Applikationen zum visuellen Data Mining entwickelt. Im Folgenden sollen
die wichtigsten, für die chemische Forschung relevanten Programme vorgestellt und im Ver-
gleich zur InfVis-Applikation diskutiert werden.
Das bereits erwähnte Programm Spotfire zählt nicht nur zu den ersten kommerziellen,
visuellen Data Mining-Applikationen, sondern wurde auch zum erfolgreichsten und weitver-
breitesten Vertreter innerhalb der Wirkstoffforschung und im HTS-Bereich. Obwohl Spotfire
generell zur Analyse großer Datensätze und nicht speziell zur Verwendung in der Chemie ent-
wickelt wurde, führte der enorme Zuspruch von Seiten der chemischen Industrie in den nach-
folgenden Jahren zur Einbettung zusätzlicher chemischer Module wie beispielsweise
Strukturbetrachtern. Aktuelle Produkte der gleichnamigen Firma sind heute speziell auf die
Bedürfnisse des High Throughput Screening und der Wirkstoffforschung ausgerichtet. Ein
Grund für den unerwarteten Erfolg der Anwendung war und ist die intuitive Dynamic Query-
Technik, die durch Spotfire erstmals in kommerzieller Form zum Einsatz kam.
Trotz der starken Verbreitung der Anwendung in der chemischen Industrie war die Akzep-
tanz insbesondere der Laborchemiker zum Teil sehr verhalten. Viele Chemiker fühlten sich
durch die vielfältigen Funktionen des Programms überfordert und lehnten eine langwierige
Einarbeitungszeit aufgrund des in der chemischen Forschung vorherrschenden Zeitdrucks ab
[216]. In anderen vergleichenden Studien zeigten sich darüber hinaus weitere Schwächen
[224]. Die in Spotfire übliche Verfügbarkeit und parallele Darstellung verschiedener Visuali-
sierungstechniken erwies sich in zahlreichen Fällen nicht wie geplant als Stärke des Pro-
gramms, sondern stellte insbesondere für unerfahrene Benutzer ein ernstes
Orientierungsproblem dar. Um eine gegebene Problemstellung zu lösen, war in der Regel nur
eine der zur Verfügung stehenden Darstellungsformen sinnvoll. Die Benutzer benötigten
daher sehr viel Zeit, um diese optimale Darstellung zu finden und eine vernünftige Zuord-
nung der Datendimensionen für die entsprechende Darstellungsform zu gewährleisten. Des
Weiteren wurde beobachtet, dass Benutzer, die sich anfänglich für eine weniger geeignete
Visualisierungstechnik entschieden, diese trotz enormer Schwierigkeiten nur widerwillig oder
auch garnicht verwarfen, um sie gegen eine geeignetere Technik zu ersetzen. Diese Verhal-
tensweise verstärkte sich insbesondere bei Problemstellungen, deren Lösungsweg mehrere
Einzelschritte umfasste [224]. Weitere Probleme ergaben sich durch die unzureichende
Datenintegration sowie die Limitation auf zweidimensionale Scatterplots, was insbesondere
bei hochdimensionalen Datensätzen eine schnelle und unkomplizierte Datenanalyse aus-
schloss. Diese letztgenannten Einschränkungen wurden jedoch in aktuellen Spotfire-Versio-
nen durch Implementierung geeigneter Datenschnittstellen und Verwendung der 3D-Glyph-
Technik weitgehend beseitigt. Spotfire kann sowohl als Standalone-Version als auch als Cli-
ent-Server-Applikation in Microsoft-Netzwerken betrieben werden. Aufgrund des plattform-
144
6.2 Das InfVis-Programm
abhängigen Charakters ist jedoch der Einsatz als Web-Applikation im Gegensatz zum InfVis-
Programm ausgeschlossen.
Einen ähnlichen Ansatz wie Spotfire verfolgt das relativ neue Programm Partek von der
gleichnamigen Firma [225]. Partek basiert auf einer interaktiven Spreadsheet-Darstellung
und erlaubt darüber hinaus eine dreidimensionale Scatterplot-Darstellung der Datenpunkte.
Als eines der ersten kommerziellen Programme erweiterte die Applikation den visuellen Data
Mining-Ansatz durch klassische Data Mining-Techniken. Dabei werden neben statistischen
Methoden wie der Principal Component Analysis (vgl. Abschnitt 5.2.1.1) oder dem Multidi-
mensional Scaling (vgl. Abschnitt 5.2.1.2) auch Techniken aus dem Bereich des Machine
Learnings wie beispielsweise Neuronale Netze (vgl. Abschnitt 5.2.2) oder genetische Algo-
rithmen (vgl. Abschnitt 5.2.3) unterstützt. Detailinformationen können mit Hilfe des Internet
Explorers dargestellt werden. Neben zahlreichen Schnittstellen zum Datenaustausch mit aktu-
ellen Datenbanken verfügt die Applikation auch über diverse chemische Module, die von der
Firma MDL im Rahmen eines Kooperationsvertrages zur Verfügung gestellt wurden. Wie
auch Spotfire basiert Partek auf Microsoft Windows-Betriebssystemen. Während Spotfire
jedoch in einem Microsoft-Netzwerk als Client-Server-Applikation betrieben werden kann,
existiert Partek lediglich als Standalone-Version. Bei der Evaluierung des Programms erwie-
sen sich vor allem die Navigationswerkzeuge als außerordentlich gewöhnungsbedürftig.
Miner3D [226] ist eine weitere Applikation die 3D-Glyphen und dynamische Filterfunk-
tionen zur Exploration von Datensätzen verwendet. Im Gegensatz zu den beiden zuvor
erwähnten Applikationen ist Miner3D jedoch speziell für den Einsatz mit dem Tabellenkalku-
lationsprogramm Excel der Firma Microsoft entwickelt worden. Dementsprechend einge-
schränkt stellen sich die vorhandenen Eingabemöglichkeiten dar. Neben einem eigenen
Datenformat erlaubt Miner3D nur den Import von Excel-Daten. Die Darstellung der Daten-
punkte erfolgt primär durch eine 3D-Glyph-Szene. Allerdings unterstützt Miner3D auch
andere Visualisierungstechniken wie Balkendiagramm-Ansichten. Im Gegensatz zu den
bereits erwähnten Programmen und der InfVis-Applikation gestattet Miner3D ein Abbilden
der Datendimensionen auf fast alle erdenklichen retinalen Eigenschaften wie Größe, Farbe,
Form (inkl. Dimensions-abhängige Änderung entlang der x- und y-Achsen), Orientierung,
Transparenz und Texturen. Darüber hinaus werden auch diverse akkustische Attribute wie
Ton- und Spracherkennung zur Kodierung von Datendimensionen eingesetzt. Wie auch das
InfVis-Programm kann Miner3D die 3D-Fähigkeiten moderner Personalcomputer nutzen, da
es auf den OpenGL-Standard aufsetzt. Neben den integrierten dynamischen Filterfunktionen
verfügt die Applikation über keine Werkzeuge, die eine direkte Selektion von Datenpunkten
durch den Benutzer zulassen, wodurch die Extraktion identifizierter Muster stark einge-
schränkt ist. Die Ergebnisse des Mining-Prozesses können in Form statischer HTML-Seiten
exportiert werden. Des Weiteren können mit dem Miner3DSite-Plugin auch interaktive Dar-
145
6 Visuelle Data Mining-Applikationen
stellungen im Internet Explorer realisiert werden. Letztere Möglichkeit dient jedoch lediglich
einer interaktiven Präsentation der Daten und weniger zum visuellen Data Mining. Aufgrund
seiner beschränkten Mining-Werkzeuge und vor allem dem stark an Excel angelehnten Ein-
satz ist Miner3D weniger gut als universell einsetzbare, visuelle Data Mining-Applikation
nutzbar.
Ein vollkommen anderes Prinzip zur Darstellung chemischer Datensätze kommt im Pro-
gramm LeadScope zum Einsatz [227]. LeadScope wurde im Gegensatz zu den bisher erwähn-
ten Applikationen speziell für die Bedürfnisse der medizinischen Chemie entwickelt und
basiert auf molekularen Spreadsheets sowie zweidimensionalen Balkendiagrammen. Die
Applikation hilft dem medizinischen Chemiker bei der Visualisierung und Interpretation che-
mischer und biologischer Screeningdaten. Die chemischen Daten werden dabei hinsichtlich
struktureller Gemeinsamkeiten hierarchisch geclustert und zur Auswertung in 2D-Balkendia-
grammen dargestellt. Durch spezifische, strukturorientierte Filter kann die Darstellung
anschließend interaktiv eingeschränkt werden. Dieser hochspezialisierte Ansatz birgt jedoch
nicht nur Vorteile. So kann die Applikation aufgrund ihrer Ausrichtung auf bestimmte chemi-
sche Teilgebiete und dem Charakter der implementierten Fragmentbibliothek nicht generell
für chemische Problemstellungen und Datensätze verwendet werden. Des Weiteren gestaltet
sich die Darstellung hochdimensionaler Datensätze aufgrund der begrenzten Darstellungsfä-
higkeiten der zweidimensionalen Spreadsheets und Balkendiagramme als problematisch.
Obwohl LeadScope vollständig mit der Programmiersprache Java entwickelt wurde, unter-
stützt das Programm nur den Standalone-Betrieb und kann daher nicht als Applet in Web-
Anwendungen zum Einsatz kommen.
Schließlich soll noch die High Throughput Experimentation Data Applikation (HTE) der
Firma Unilever erwähnt werden [228]. HTE wurde speziell für die Analyse von HTS-Daten-
sätzen entwickelt und basiert im Kern auf OpenVis [229], einer kommerziellen Graphikbiblio-
thek zum visuellen Data Mining der Firma Advanced Visual Systems, die alle grundsätzlichen
Funktionen zur Analyse, Visualisierung und Import der Daten bereitstellt. HTE kann sowohl
als Standalone- als auch als Netzwerk-Version auf Microsoft-Plattformen betrieben werden.
Um HTE ausführen zu können, müssen neben der Applikation selbst auch MS ActiveX8.0
sowie die OpenViz-Bibliothek auf dem Client installiert sein. HTE stellt die chemischen
Daten in Form von Parallel Coordinates (vgl. Abschnitt 5.4.2.1), 3D-Scatterplots und einer
speziellen Mikrotiterplattendarstellung dar. Obwohl HTE nur als Standalone- bzw. Netzwerk-
version zum Einsatz kommt, können mit OpenViz generell auch ActiveX- und Java-basierte
Web-Applikationen entwickelt werden. Diese sind jedoch aufgrund ihrer Architektur nur auf
Systemen mit Microsoft-Betriebssystemen realisierbar.
146
6.2 Das InfVis-Programm
Der wichtigste Unterschied und Vorteil des InfVis-Programms im Gegensatz zu den
erwähnten kommerziellen Applikationen basiert auf der vollkommen plattformunabhängigen
Architektur der Anwendung. Das Programm kann sowohl als Standalone-Version auf diver-
sen Rechnersystemen als auch in Applet-Form in Web-Anwendungen zum Einsatz kommen.
Die Applet-Version kann dabei in aktuellen Browser-Versionen mit Hilfe des Java-Plugins
ausgeführt werden. Dieser portable Charakter der Applikation wurde dabei sowohl anhand
der Standalone- als auch der Applet-Version auf diversen Microsoft- und SGI/Irix-Plattfor-
men getestet. InfVis stellt daher nach unseren Kenntnisstand die erste 3D-Hardware-unterstüt-
zende Web-Applikation zum dreidimensionalen, visuellen Data Mining dar. Darüber hinaus
zählt InfVis neben dem SRS3D-Modul der Firma LionBioscience [92] zu den ersten Chemie-
applikationen, die den neuen Java3D-Standard nutzen.
Ein wichtiger Aspekt bei der Entwicklung von InfVis war die einfache und intuitive
Bedienbarkeit des Programms. Benutzerprobleme, wie sie beispielsweise beim Einsatz von
Spotfire berichtet wurden, sollten von vorneherein ausgeschlossen werden. Aus diesen Grund
wurde im InfVis-Programm bewusst auf zusätzliche Funktionalitäten wie beispielsweise stati-
stischen Methoden oder Clustering-Algorithmen verzichtet. Die Applikation wurde vielmehr
als alternatives visuelles Data Mining-Werkzeug für Laborchemiker entwickelt, die im Allge-
meinen nicht über das nötige Spezialwissen zum Betreiben klassischer Data Mining-Ansätze
verfügen. Das Abbilden der Datendimensionen sowie das Finden der optimalen Datenreprä-
sentation sollte daher ebenfalls leicht und ohne größere Einarbeitungszeiten möglich sein. Da
der Mensch von Natur aus mit dreidimensionalen Welten vertraut ist und viele Chemiker all-
gemeine Erfahrungen im Umgang mit Scatterplot-Darstellungen besitzen, kam deshalb in der
InfVis-Applikation die dreidimensionale Glyph-Technik zum Einsatz. Darüber hinaus stellt
diese Visualisierungstechnik nach unserer Auffassung insbesondere für unerfahrene und nicht
spezialisierte Benutzer ein geeignetes Instrument zur Darstellung multidimensionaler Daten-
sätze dar. Diese Idee wird unter anderem auch durch die Beobachtung bekräftigt, dass Scat-
terplot-Techniken (und somit auch die 3D-Glyph-Technik) vor allem für unerfahrene
Anwender das geeignete Werkzeug zur Identifikation von Mustern und Beziehungen darstel-
len [224]. Im Gegensatz zu Spotfire ist in InfVis die Datendarstellung auf Scatterplot- bzw.
Scatterplot-ähnliche Techniken begrenzt, so dass der Benutzer nicht erst in einem zeitaufwen-
digen Prozess die optimale Visualisierungstechnik finden muss. Darüber hinaus wurde die
Zahl der möglichen retinalen Eigenschaften im Gegensatz zu Miner3D streng limitiert, da
nach unserer Überzeugung zu viele graphische Attribute zu einer Überladung der Szene füh-
ren können. Dies kann insbesondere unerfahrene Anwendern verwirren und letztendlich zu
einer ablehnenden Haltung gegenüber dem Programm führen. Des Weiteren ist die Verwen-
dung der graphischen Attribute bzw. retinalen Eigenschaften auch stark von den jeweiligen
Datensätzen und der entsprechenden Fragestellung abhängig. So ist in vielen Fällen der Ein-
147
6 Visuelle Data Mining-Applikationen
satz aller zur Verfügung stehenden Attribute nicht sinnvoll, sondern führt vielmehr zu einem
Tab. 6-1: Zuordnung der Datendimensionen auf retinale Eigenschaften.
153
6 Visuelle Data Mining-Applikationen
Hyperlinks. Mit Hilfe dieser Hyperlinks können für jeden Datenpunkt detaillierte Informatio-
nen zu der jeweiligen Verbindung aus dem Enhanced CACTVS NCI Database Browser in
einem zweiten Browserfenster dargestellt werden.
Abb. 6-17: InfVis-Applet mit ausgewählten Daten aus dem Datenselektionsformular.
6.3.3 Implementierung
Da der NCI Screening Data 3D Miner zum gleichen Zweck wie das NCI Datenbank Inter-
face (vgl. Abschnitt 6.1) entwickelt wurde, weisen die zugrundeliegenden Prozessabläufe
starke Parallelen auf. Die schematische Prozessdarstellung des NCI Screening Data 3D Miner
in Abbildung 6-18 hebt deshalb vor allem die grundsätzlichen Unterschiede zwischen den
beiden Online-Diensten hervor. Die Prozesse zur Detaildarstellung durch den Enhanced
CACTVS NCI Database Browser werden zur Vereinfachung nur angedeutet. Wie auch das
NCI Datenbank Interface basiert die vorliegende Online-Anwendung sowohl auf der
154
6.3 NCI Screening Data 3D Miner
CACTVS-Datenbank (250.000 Verbindungen mit molekularen Eigenschaften) als auch auf der
MySQL-Datenbank (41.000 Verbindungen mit Screeningdaten). Während der Online-Dienst
aus Abschnitt 6.1 eine Verbindungssuche ausschliesslich mit Hilfe der in der CACTVS-Daten-
bank enthaltenen molekularen Eigenschaften erlaubt, können im vorliegenden Fall auch die
biologischen Aktivitäten der MySQL-Datenbank zur Ermittlung der Struktur-Trefferliste her-
angezogen werden. Dieser optionale Suchmechanismus ist in Abbildung 6-18 durch eine
gepunktete Linie dargestellt.
Abb. 6-18: Schematische Darstellung einer Datenvisualisierungssitzung mit dem NCI Screening Data 3D Miner. Die gepunkteten und gestrichkelten Pfade stellen optionale Prozesse dar.
Nach der Selektion der chemischen Verbindungen, Krebszellen und biologischen Aktivi-
tätsdaten werden vom CGI-Skript die entsprechenden Daten mittels einer SQL-Abfrage aus
der MySQL-Datenbank abgerufen und der resultierende Datensatz als temporäre Datei abge-
speichert. Im Gegensatz zum NCI Datenbank Interface können darüber hinaus weitere mole-
Strukturen
Softwaretransfer
CACTVS-System
Einlesen, AnalyseDatenbanksuche(Substruktursuche,
Ähnlichkeitssuche, etc.)
Client ServerCGI-Skript
Datentransfer
MySQL-NCI-Datenbank
41.000Screening-
datenSelektion
CACTVS-NCI-Datenbank
>250.000Strukturdaten,
MolekulareEigenschaften
HTML-
Formular
Auswahl
HTML-
Formular
Eingabe
Ausgabe
Applet
temporäreSpeicherung
der Daten
InfVis-Applet
Hyperlink zum externen ServiceEnhanced CACTVS
NCI Database Browser
155
6 Visuelle Data Mining-Applikationen
kulare Eigenschaften wie beispielsweise das Molgewicht oder der logP-Wert in den Datensatz
integriert werden. Dabei fragt das CGI-Skript die entsprechenden Daten zu den jeweiligen
Verbindungen aus der CACTVS-NCI-Datenbank ab. Diese ebenfalls optionale Funktion wird
in Abbildung 6-18 durch eine gestrichelte Linie dargestellt.
Schließlich erfolgt die Übertragung und Visualisierung der Daten. Dieser Schritt stellt
dabei den maßgeblichen Unterschied zum VRML-Ansatz dar. Im Fall des NCI Datenbank
Interfaces werden die ermittelten Daten vom CGI-Skript in eine VRML-Szene umgewandelt
und diese anschließend an den Client übertragen. Im Gegensatz zu diesem auf einem Gra-
phiktransfer basierenden Ansatz kommt im NCI Screening Data 3D Miner eine Kombination
aus Datentransfer (temporärer Datensatz) und Softwaretransfer (InfVis-Applet) zum Einsatz.
Während der visuelle Data Mining-Prozess dadurch komplett auf der Clientseite durchgeführt
werden kann, ist im VRML-Datenbank-Interface eine visuelle Datenanalyse nur durch Inter-
aktion von Client und Server (hybrider Ansatz) möglich. Die Vorteile des Client-seitigen
Ansatzes gegenüber einer Client-Server-verteilten Data Mining-Sitzung werden im nächsten
Abschnitt erläutert.
Der durch Hyperlinks vermittelte Aufruf des Enhanced CACTVS NCI Database Browser
zur Darstellung zusätzlicher Detailinformation ist auch im vorliegenden Online-Dienst mög-
lich. Die schematische Darstellung dieser Funktionalität ist in Abbildung 6-18 nur andeu-
Während im Abschnitt 6.1.4 die VRML-Ansätze im visuellen Data Mining vorgestellt und
im Vergleich mit dem NCI Datenbank Interface diskutiert wurden, sollen im Folgenden die
auf Java basierenden Web-Applikationen sowie deren Vergleich mit dem NCI Screening Data
3D Miner im Vordergrund stehen.
Eine sehr umfangreiche Sammlung an Java-basierten Datenvisualisierungstechniken stellt
das Programmpaket NetCharts der Firma VisualMining zur Verfügung [232]. Die Applet-
Sammlung umfasst dabei zahlreiche Darstellungen wie beispielsweise Balkendiagramme,
Box Charts, Pie Charts, Combo Charts, Linien- und Kurven-Graphen oder 2D-Scatterplots.
Des Weiteren können die Diagramme durch einige interaktive Basisfunktionen wie Scrolling,
Zooming und Rotation beeinflusst werden. NetCharts wurde vor allem für eine komfortable
und interaktive Datenpräsentation und weniger zur interaktiven Exploration bzw. zum visuel-
len Data Mining von Datensätzen entwickelt. Aus diesem Grund stehen auch keine speziel-
len, für visuelles Data Mining essentiellen Interaktionswerkzeuge wie zum Beispiel
Dynamic Query-Filter zur Verfügung.
156
6.3 NCI Screening Data 3D Miner
Ein höheres Maß an Interaktion bieten zum Teil die Softwareprodukte (Data Vista Explo-
erer, Data Vista Screener, VantagePoint) der Firma Visualize [233]. Die Programmpakete
basieren auf einer Client-Server-Architektur und enthalten ein auf die jeweilige Aufgaben-
stellung angepasstes Applet zur Visualisierung und Analyse der Daten. Leider variieren die
verfügbaren Funktionalitäten zwischen den einzelnen Applikationen sehr stark, wobei entwe-
der die Datenvisualisierung oder die Datenfilterung im Vordergrund steht. So unterstützen der
Data Vista Explorer und die VantagePoint-Applikation diverse Visualisierungstechniken wie
Balkendiagramme, Scatterplots oder HeatMaps. Allerdings verfügen diese beiden Pro-
gramme nur über einfache Interaktionstechniken. Da hier bevorzugt hierarchische Daten im
Fokus des Interesses liegen, sind vor allem die implementierten Drill-Down-Funktionalitäten
komfortabel. Dynamische Filterfunktionen stehen aber auch hier nur in sehr rudimentärer
Form oder garnicht zur Verfügung.
Fortgeschrittenere Techniken sind hingegen im Data Vista Screener enthalten. Allerdings
stellt diese Applikation die Daten lediglich in tabellarischer Form oder als Ein-Balkendia-
gramm dar, wobei keine weiteren Navigations- und Interaktionsmöglichkeiten zur Verfügung
stehen. Darüber hinaus ist die Bedienung der Filterfunktion umständlich, wenig intuitiv und
nicht dynamisch. Die Filterung wird in einem separaten Fenster zur Verfügung gestellt. Aller-
dings muss der Benutzer dazu die zu filternde Dimension aus einer Liste heraussuchen und
die Grenzwerte manuell in Textfelder eintragen. Dynamische Schieberegler für die einzelnen
Datendimensionen werden nicht unterstützt. Aufgrund der fehlenden Dynamik, der dieser
Ansatz birgt, kann der Benutzer nicht unmittelbar die Folgen seiner Interaktion beobachten
und gegebenenfalls darauf reagieren. Vielmehr muss der Anwender nach Betrachtung der
Szene erneut das Filterfenster aufrufen, um seine Auswahl zu korrigieren. Der für visuelles
Data Mining notwendige Feedback-Mechanismus entfällt somit. Warum die Darstellungsfä-
higkeiten des Data Vista Explorers nicht mit den Filterfunktionen des Data Vista Screeners
kombiniert werden, ist mir unverständlich. Darüber hinaus können nur numerische Daten mit
Hilfe der Programme dargestellt werden.
VisMine von Hewlett Packard basiert ebenfalls auf einer Client-Server-Architektur [234].
Die Applikation besteht zum einen aus einer auf einem Server installierten Data Mining
Engine und zum anderen aus einem Java-Benutzerinterface, das auf dem Client ausgeführt
wird. Im Gegensatz zu den anderen, in diesem Kapitel erwähnten Applikationen enthält Vis-
Mine keine eigenen Techniken bzw. Anwendungen zur Visualisierung der Datenpunkte. Viel-
mehr erfolgt die Visualisierung der Daten mit externen portablen
Informationsvisualisierungs-Werkzeugen, die mit dem Client-seitigen Interface verbunden
werden können. Dabei kommen unter anderem das Star Tree-Applet der Firma Inxight (Dar-
stellung hierarchischer Datensätze) [235] sowie die 3D Master Suite der Firma Template Gra-
phics Software (TGS) [236] zum Einsatz. Die Client-seitige VisMine-Schnittstelle ermöglicht
157
6 Visuelle Data Mining-Applikationen
zum einen den Datentransfer zu den externen Visualisierungsapplikationen und zum anderen
die Rückgabe von Benutzerinteraktionen innerhalb der externen Applets an die VisMine-
Architektur. Da VisMine ebenfalls über keine zusätzlichen Interaktionswerkzeuge verfügt,
kann zur Analyse der Datensätze nur auf die in den Visualisierungsapplets implementierten
Funktionalitäten zurückgegriffen werden.
So erlaubt das Star Tree-Applet nur die Navigation durch eine hyperbolische Baumstruktur
sowie die Abfrage von Detailinformationen. Letztere Funktionalität wird von VisMine ver-
wendet, um einen entsprechenden Data Mining Prozess zu starten und die resultierenden
Daten an das Applet zurückzusenden. Die 3D Master Suite ist eine in Java implementierte,
OpenGL-unterstützende OpenInventor-Variante und ermöglicht daher im Gegensatz zum Star
Tree-Applet eine Vielzahl verschiedener Visualisierungstechniken. Darüber hinaus können
die Daten durch diverse Techniken modifiziert werden. Da OpenInventor in erster Linie zur
Datenvisualisierung und nicht zum visuellen Data Mining entwickelt wurde, fehlen auch hier
spezielle, explorative Interaktionswerkzeuge. VisMine kann daher vor allem zur "bestätigen-
den" Informationsvisualisierung eingesetzt werden und entspricht im Grunde dem Ansatz aus
Abbildung 5-3a. Eine explorative Informationsvisualisierung ist hingegen nur bedingt mög-
lich.
Eine Applikation, die alle Voraussetzungen einer visuellen Data Mining-Anwendung
erfüllt, ist die Java-Applikation Parallel Coordinate Tool von Haller et al. [237]. Wie der
Name schon zu erkennen gibt, basiert die Anwendung auf der Parallel Coordinates-Technik
(vgl. Abschnitt 5.4.2.1). Obwohl diese Technik hervorragend zur Darstellung hochdimensio-
naler Datensätze geeignet ist, setzt diese spezielle Visualisierungsform ein gewisses Maß an
Erfahrung voraus. Insbesondere der im Umgang mit Visualisierungstechniken ungeübte
Benutzer muss unter Umständen erst an die auf dem ersten Blick abstrakte Technik herange-
führt werden.
Wie auch die Parallel Coordinate-Applikation enthält das InfVis-Applet alle notwendigen
Funktionen zur Datenvisualisierung als auch eine Vielzahl essentieller Data Mining-Werk-
zeuge. Damit zählt das InfVis-Applet zu den seltenen WWW-fähigen Web-Applikationen, die
nicht nur auf die Präsentation limitiert sind, sondern ein komfortables, visuelles Data Mining
ermöglichen. Im Gegensatz zum Parallel Coordinates-Applet basiert InfVis auf der 3D-
Glyph-Technologie, die nach unserer Überzeugung eine intuitive und natürliche Datenvisuali-
sierung ermöglicht und daher auch von unerfahrenen Benutzern ohne zusätzliche Vorkennt-
nisse eingesetzt werden kann. Des Weiteren verwendet InfVis die plattformunabhängige
Graphikschnittstelle Java3D. Dieser Ansatz ermöglicht zum einen die Realisierung portabler,
Hardware-unterstützter 3D-Hochleistungsgraphiken und erlaubt zum anderen die Nutzung
des enormen Graphikpotentials heutiger Personalcomputer. Die bereits erwähnte 3D Master
158
6.3 NCI Screening Data 3D Miner
Suite von TGS verfolgt das gleiche Ziel. Jedoch kommt hier anstelle der Java3D-Erweiterung
die OpenInventor-Bibliothek zum Einsatz, die ebenfalls auf OpenGL aufbaut und damit Gra-
phikfunktionen der Client-Hardware nutzen kann. Während Java3D frei und für alle aktuellen
Rechnerplattformen erhältlich ist, handelt es sich bei der OpenInventor-Bibliothek um ein
kommerzielles Produkt, welches nur für Windows-, Solaris- und Linux-Systeme zur Verfü-
gung steht. Darüber hinaus wird die aktuelle Java-Version 1.4 nicht unterstützt.
Im Gegensatz zu anderen Client-Server-basierten Data Mining-Ansätzen, sind im InfVis-
Applet alle zum visuellen Data Mining notwendigen Funktionalitäten integriert. Diese rein
Client-seitige Strategie birgt dabei viele Vorteile. Ein entscheidender Vorteil ist, dass die rela-
tiv kompakten Rohdaten direkt an den Client übermittelt werden können, während bei einem
Graphiktransfer-Ansatz wie beispielsweise dem auf VRML basierenden NCI Datenbank
Interface die Rohdaten zunächst auf der Serverseite in eine wesentlich größere, graphische
Form überführt werden müssen, was zum einen zeitaufwendig ist und zum anderen zu länge-
ren Übertragungszeiten führt. Des Weiteren kann durch einen Client-seitigen Ansatz ein
Maximum an Interaktivität realisiert werden. Da die Rohdaten direkt auf dem Client zur Ver-
fügung stehen, können alle Operationen ohne eine zeitaufwendige Serveranfrage interaktiv
und unmittelbar durchgeführt werden. Somit ist die InfVis-Applikation weder von der Netz-
werklast noch von der Bandbreite des Netzwerkes abhängig.
Das InfVis-Applet ist nach unserem Kenntnisstand einzigartig, da es sowohl Visualisie-
rungs- als auch Interaktionstechniken, die bis dato nur auf einigen wenigen, plattformabhän-
gigen Standalone-Programmen zur Verfügung standen, in einer portablen,
plattformunabhängigen Form realisiert.
Der Online-Dienst zeigt, dass durch die offene Architektur (Handhabung beliebiger nume-
rischer und kategorischer Datensätze) der InfVis-Applikation auf bestimmte Problem- und
Aufgabenstellungen ausgerichtete Anwendungen realisiert werden können. So erlaubt der
NCI Screening Data 3D Miner zunächst eine leistungsfähige, Server-seitige Datenbanksuche
und eine anschließende Client-seitige Analyse des vorselektierten Datensatzes durch das Inf-
Vis-Applet. Die Funktionalitäten des Online-Dienstes übertreffen sowohl die des NCI Daten-
bank Interfaces (vgl. Abschnitt 6.1), als auch die der Online-Werkzeuge des amerikanischen
Krebsforschungsinstituts [202]. Vor allem die Möglichkeit zusätzliche molekulare Eigen-
schaften mit in den Data Mining-Prozess zu integrieren, war bis dato nur den klassischen, auf
Standalone-Applikationen basierenden Data Mining-Verfahren vorbehalten. Der NCI Scree-
ning Data 3D Miner stellt deshalb nach unserem Wissen das umfangreichste Online-Analyse-
Tool für die Antitumor-Datensätze des National Cancer Institutes dar.
159
6 Visuelle Data Mining-Applikationen
Der Online-Dienst wurde vor wenigen Monaten auf unserem Web-Server eingerichtet,
allerdings noch nicht durch Bekanntmachungen in entsprechenden Mailinglisten und Foren
einem breiteren, wissenschaftlichen Publikum vorgestellt.
6.4 Ausblick
Die im Rahmen dieser Arbeit verwendeten, dreidimensionalen Visualisierungstechniken
wie Balkendiagramme, Scatterplots und die 3D-Glyph-Technik erlauben eine intuitive Dar-
stellung und Analyse tabellarischer Datensätze. Insbesondere der Glyph-Ansatz eignet sich
dabei aufgrund der Vielzahl verfügbarer, graphischer Attribute wie Form, Farbe oder Größe
der graphischen Objekte zur Darstellung multidimensionaler Datensätze. Da diese Ansätze
die 3D-Fähigkeiten aktueller Graphikkarten nutzen, hängt die Anzahl der darstellbaren
Datenpunkte unmittelbar von der Graphikleistung des Clients ab. So können bei Verwendung
einfacher 2D-Graphikkarten lediglich einige Hundert Datenpunkte dargestellt werden, wäh-
rend spezielle 3D-Graphikkarten wie die GeForce-Serie die Visualisierung einiger Tausend
Datenpunkte ermöglichen. Eine Visualisierung extrem großer Datensätze (10 Tausend bis 1
Million Datenpunkte) ist aufgrund der enormen, hierfür notwendigen Rendering-Kapazitäten
auch nicht mit aktueller 3D-Graphikhardware mit der gewünschten und notwendigen Interak-
tionsrate möglich. Aus diesem Grund wurde von unseren ChemVis-Projektpartner an der Uni-
versität Stuttgart ein alternativer, Textur-basierter Informationsvisualisierungsansatz
entwickelt [238].
Texturen setzen im Gegensatz zu Isoflächen-Darstellungen keine speziellen Rendering-
Kapazitäten voraus. Vielmehr nutzt diese Technologie vorhandene Rasterisierungs- und Mul-
titexturing-Verfahren moderner Graphikkarten. Während auf Rendering aufbauende Techni-
ken wie der 3D-Glyph-Ansatz unmittelbar von der Anzahl der durch Polygone dargestellten
Datenpunkte abhängen, ist die Auflösung des Textur-Ansatzes nur durch die Größe der Textur
und somit letztendlich durch die Speicherkapazitäten der Graphikhardware limitiert. Eine
direkte Abhängigkeit von der Anzahl der Datenpunkte besteht nicht. Textur-basierte Techni-
ken erlauben daher auch die Darstellung mehrerer Millionen Datenpunkte. Die Anzahl der
darstellbaren Datendimensionen ist jedoch im Gegensatz zur Glyph-Visualisierungstechnik
eingeschränkt. In Textur-Ansätzen wird ein Datenpunkt durch ein sogenanntes Voxel (dreidi-
mensionales Analogon zum Pixel) dargestellt (vgl. Abschnitt 5.4.2.3). Deshalb stehen nur die
drei orthogonalen Achsen sowie die Farbe und Transparenz als mögliche graphische Attribute
zur Verfügung.
Dieser Ansatz wird zur Zeit im Rahmen einer Doktorarbeit an der Universität Stuttgart
weiterentwickelt. Nach der Entwicklung einer entsprechenden Applikation soll schließlich
eine Schnittstelle zum InfVis-Ansatz implementiert werden. So kann der Benutzer beispiels-
160
6.4 Ausblick
weise zunächst den Textur-Ansatz nutzen, um einen Überblick über den vorliegenden Daten-
satz zu erhalten. Mit Hilfe der dort vorhandenen Data Mining-Werkzeuge ist der Anwender in
der Lage, interessante Datenpunkte oder Regionen zu selektieren und zu einer weiterführen-
den Analyse an das InfVis-Programm zu übermitteln. Hier kann dann der Datensatz auf
gewohnte Weise einem weiterführenden, visuellen Data Mining unterzogen werden.
161
6 Visuelle Data Mining-Applikationen
162
Kapitel 7
Anwendungsbeispiele
Während in den beiden vorausgegangenen Kapiteln die theoretischen Grundlagen sowie
die im Rahmen dieser Arbeit entwickelten Ansätze und Applikationen des visuellen Data
Minings vorgestellt wurden, sollen im Folgenden die Möglichkeiten des visuellen Data
Mining im Allgemeinen als auch die Fähigkeiten der InfVis-Applikation im Speziellen
anhand ausgewählter chemischer Datensätze und Fragestellungen beschrieben werden.
Der erste Teil des Kapitels basiert auf der neuartigen Datenbank chemischer Reaktionen
der Firma ChemCodes [239]. Dabei wird zunächst auf die Charakteristika der Datenbank
sowie auf die Unterschiede zu anderen aktuellen Reaktionsdatenbanken eingegangen.
Anhand ausgewählter Datensätze wird anschließend der visuelle Data Mining-Prozess an
zwei Anwendungsbeispielen erläutert.
Grundlage für das Anwendungsbeispiele des zweiten Kapitelteils ist die bereits erwähnte
Antitumor-Screening-Datenbank des amerikanischen Krebsforschungszentrums [202]. Nach
einer kurzen Einführung wird der Einsatz des InfVis-Programms zur visuellen Exploration
von Struktur-Aktivitäts-Beziehungen demonstriert.
7.1 ChemCodes-Reaktionsdatenbank
7.1.1 Zielsetzung und Aufbau der Datenbank
Während chemische Verbindungen und Strukturdaten bereits sehr früh in computergestüt-
zen Datenbanken archiviert wurden, begann man erst relativ spät mit der elektronischen Spei-
cherung publizierter Reaktionsdaten. Um einen möglichst effektiven Zugriff auf die bis dahin
bereits zahlreich vorhandenen Reaktionsdaten zu ermöglichen, wurden sogenannte Reakti-
onsdatenbanken aufgebaut, die eine elektronische Recherche der Information erlaubten. Zu
den bekanntesten Vertretern zählen dabei die ChemInform RX-Datenbank des FIZ Chemie
[240] sowie die CrossFireplusReactions-Datenbank von Beilstein Information Systems [241].
163
7 Anwendungsbeispiele
Obwohl Reaktionsdatenbanken heute standardmäßig in zahlreichen Anwendungsgebieten
wie beispielsweise der Syntheseplanung oder der Reaktionsvorhersage eingesetzt werden,
müssen diese Informationsreserrvoire sehr kritisch und mit Vorsicht betrachtet werden. Eines
der größten Probleme der in den Datenbanken enthaltenen Information liegt darin begründet,
dass für eine Vielzahl der archivierten Reaktionen nicht alle Reaktionsbedingungen angege-
ben sind. Ein weiteres Problem stellt der Umstand dar, dass die betrachteten Reaktionen unter
ganz unterschiedlichen Bedingungen durchgeführt wurden und somit ein Vergleich zwischen
den einzelnen Datenwerten kaum möglich ist. Des Weiteren werden in der Regel Nebenreak-
tionen aber auch solche Reaktionen, die zu unerwünschten Ergebnissen führen, nicht doku-
mentiert. Diese Fehldaten bzw. Negativergebnisse sind jedoch für eine Mustererkennung oder
zur Vorhersage neuer Reaktionsmodelle ebenso wichtig wie positive Reaktionsdaten. Ein
weiteres Problem von Reaktionsdatenbanken stellt die unvollständig Funktionelle-Grup-
pen(FG)-Kompatibilitätsinformation der publizierten Reaktionsdaten dar. So kann mit Hilfe
der Datenbankinformation in der Regel keine Aussage darüber getroffen werden, ob ein
bestimmtes Eduktderivat, welches sich vom Originaledukt durch zusätzliche oder veränderte
funktionelle Gruppen unterscheidet, in gleicher Weise reagiert oder ob eine Nebenreakion
bevorzugt wird.
Stellt man die in aktuellen Reaktionsdatenbanken enthaltene Information in Form einer
Funktionellen-Gruppen-Reaktivitäts-Matrix dar, so ergibt sich die in Abbildung 7-1a darge-
stellte Auftragung. Bei der Betrachtung der Matrix wird dabei deutlich, dass ein sinnvolles
Data Mining aufgrund des hohen Anteils an Fehlinformation sowie der häufig unzuverlässi-
gen Reaktionsdaten nur bedingt oder überhaupt nicht zu realisieren ist. Eine vernünftige
Mustererkennung bzw. zuverlässige Reaktionsmodellvorhersage fordert daher eine möglichst
umfassende Erschliessung des chemischen Reaktionsraums sowie eine hohe Konsistenz und
Zuverlässigkeit der enthaltenen Reaktionsdaten (Abbildung 7-1b). Der Aufbau einer entspre-
chenden Reaktionsdatenbank ist ein Ziel der Firma ChemCodes. Um dieses Ziel zu erreichen,
hat ChemCodes ein (an dieser Stelle nicht näher beschriebenes) Synthese- und Analyse-Ver-
fahren entwickelt, welches eine High-Throughput-Vermessung von Reaktionen ermöglicht.
Dabei sollen zahlreiche für chemische Problemstellungen wichtige funktionelle Gruppen bei
unterschiedlichen Reaktionsbedingungen umgesetzt werden. Mit Hilfe einer aus diesen
Ergebnissen generierten Reaktionsdatenbank können erstmals die Grenzen von Standardreak-
tionen aber auch die FG-Kompatibilität ermittelt werden. Darüber hinaus erlaubt der Daten-
satz die Generierung von Regeln sowie die Vorhersage chemischer Reaktionen.
Im Rahmen dieser Arbeit wurden zwei von der Firma ChemCodes zur Verfügung gestellte
Datensätze aus dieser Reaktionsdatenbank mit Hilfe der InfVis-Applikation analysiert. Dabei
stand zum einen die Optimierung einer ausgewählten Reaktion und zum anderen eine Reakti-
onsplanung im Vordergrund.
164
7.1 ChemCodes-Reaktionsdatenbank
Abb. 7-1: Matrix-Darstellung der Funktionellen-Gruppen-Reaktivität in a) aktuellen Reaktionsdatenbanken und b) in einer idealen Reaktionsdatenbank (ChemCodes-Ansatz) [14].
7.1.2 Reaktionsoptimierung
7.1.2.1 Zielsetzung
Grundlage des ersten ChemCodes-Datensatz ist die gemischte Aldolkondensation von
Benzaldehyd mit Acetophenon, die sogenannte Benzalacetophenon- bzw. Chalcon-Synthese
(Abbildung 7-2).
Abb. 7-2: Gemischte Aldolkondensation von Benzaldehyd und Acetophenon.
Die einzelnen Paralleldurchläufe der 63 Reaktionsansätze sollten zunächst gruppiert und
die entsprechenden Ausbeuten gemittelt werden. Dazu wurden die 364 Dateneinträge
nochmals überarbeitet, wobei vor allem Ausreisserdaten (stark abweichende Ausbeutenwerte)
und missglückte Reaktionsansätze (Tabelle 7-1, Kategorie 7) entfernt wurden. Da die im
Datensatz angegebenen Ausbeutewerte lediglich Faktoren des ChemCodes-internen
Analyseprogramms darstellen, mussten die gemittelten Werte im Anschluss auf eine 100
Prozentskala normiert werden, um allgemein übliche, prozentuale Reaktionsausbeuten zu
erhalten. Die so aufbereiteten Daten wurden schließlich mit dem InfVis-Programm visuell
analysiert.
7.1.2.3 Visuelles Data Mining
Nach dem Einlesen der Daten wurden die einzelnen Datendimensionen auf die
graphischen Attribut-Eigenschaften des InfVis-Programms abgebildet. Dabei wurde die
ChemCodes-Reaktionskategorie auf die x-Achse, die Lösungsmittel auf die y-Achse sowie
die Trägerharze auf die z-Achse aufgetragen (Abbildung 7-3, links).
Abb. 7-3: InfVis-Programm; 364 Reaktionen aus der ChemCodes-Datenbank.
Abb. 7-4: Legende für die Abbildungen 7-3 bis 7-7.
Kategorie 1
Kategorie 2
Kategorie 4
Kategorie 7
23 °C
60 °C
167
7 Anwendungsbeispiele
Die Reaktionsausbeute wurde durch die Größe der graphischen Objekte und die
Temperatur durch die Objektform repräsentiert (Abbildung 7-4). Die Objektfarbe diente
ebenfalls zur Darstellung der Reaktionskategorie (Abbildung 7-4). Darüber hinaus wurde
jeweils ein graphischer Filter in Form eines Schiebereglers für Basen, Temperatur und
Trägerharze eingefügt (Abbildung 7-3, rechts).
Bei der visuellen Exploration des Datensatzes konnten zunächst zwei grundsätzliche Ten-
denzen festgestellt werden. So zeigten zum einen Reaktionen, die bei höheren Temperaturen
(60 °C) durchgeführt wurden, deutlich niedrigere Ausbeuten als Ansätze bei Raumtemperatur
(Abbildung 7-5a). Zum anderen konnte beobachtet werden, dass Reaktionen auf Polystyrol-
harz ebenfalls zu kleineren Ausbeuten bzw. zu höheren Nebenproduktanteilen (kleine Objekt-
größen bzw. Ausbeuten in Kategorie 1) führten als die entsprechenden Reaktionen auf
Tentagel-Trägerharz (Abbildung 7-5b).
Abb. 7-5: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen bei 60 °C, b) Reaktionen auf Polystyrol-Harz (Farbabbildung: Anhang A, Abbildung A-15a, b).
168
7.1 ChemCodes-Reaktionsdatenbank
Abb. 7-6: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Kaliumhydroxid bei 23 °C auf Tentagel, b) Reaktionen mit Lithiumhydroxid bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15c, d).
Mit Hilfe des Basenfilters wurde anschließend der Einfluss der diversen Basen sowie der
Lösungsmitteleffekte genauer betrachtet. Dabei konnte eine Abnahme der Produktausbeuten
für die Basenreihenfolge KOH > NaOMe > LiOH > kein Base > iPr2EtN beobachtet werden
(Abbildung 7-6 und 7-7).
Die höchsten Aubeuten wurden im ChemCodes-Experiment mit Kaliumhydroxid in einem
4:1-Gemisch aus Ethanol und Wasser sowie mit reinem Ethanol als Lösungsmittel bei 23 °C
und unter Verwendung von Tentagel erzielt (Abbildung 7-6). In DMSO waren die Ausbeuten
aufgrund von Nebenreaktionen wesentlich geringer und in Dioxan wurde das Edukt schließ-
lich nur noch in geringen Maße umgesetzt (Abbildung 7-6a, grüne Kugel).
Der Einsatz von Lithiumhydroxid in Ethanol/Wasser zeigte im Gegensatz zu Kaliumhy-
droxid eine deutliche Zunahme der Nebenprodukte während die Reaktion in reinem Ethanol
zu unvermindert hohen Ausbeuten führte. Der Einsatz von Dioxan und DMSO zeigte hinge-
169
7 Anwendungsbeispiele
gen keine nennenswerte Umsetzung der Edukte (Abbildung 7-6b). Im Gegensatz zu mit Kali-
umhydroxid aktivierten Reaktionen konnten mit Lithiumhydroxid in Ethanol auch noch bei
hohen Reaktionstemperaturen moderate Ausbeuten erzielt werden.
Bei der Verwendung von Natriummethanolat konnten insbesondere in Ethanol/Wasser
sowie in DMSO hohe Ausbeuten erzielt werden. Entsprechende Reaktionen in Ethanol und
Dioxan führten allerdings zu geringeren Umsätzen sowie einer höheren Nebenproduktrate
(Abbildung 7-7a). Während diese Beobachtungen auf Ansätzen mit Tentagel beruhten, zeig-
ten die analogen Ansätze auf Polystyrol nur geringe Ausbeuten.
Abb. 7-7: InfVis-Programm mit gefilterten Reaktionsdatensatz: a) Reaktionen mit Natriummethanolat bei 23 °C auf Tentagel, b) Reaktionen ohne Zugabe von Basen bei 23 °C auf Tentagel (Farbabbildung: Anhang A, Abbildung A-15e, f).
Chalcon-Synthesen ohne Zugabe von Basen führten lediglich in DMSO bei 23 °C auf
Polystyrol zu einer Produktbildung (Abbildung 7-7b). Die Ansätze mit Diisopropylethylamin
wurden nicht näher betrachtet, da die entsprechenden Ansätze extrem fehlerbehaftet waren
170
7.1 ChemCodes-Reaktionsdatenbank
und große Unterschiede in den Ausbeuten zeigten. Die genaue Ursache hierfür ist uns nicht
bekannt.
7.1.2.4 Diskussion
ChemCodes nutzt zur Analyse und Auswertung der generierten Datensätze eine Vielzahl
sowohl externer Programme als auch eigene computergestützte Analysemethoden. Dennoch
gestaltet sich die Auswertung dieser Datensätze aufgrund der Datenmenge, aber vor allem
auch aufgrund des multidimensionalen Charakters der Daten oft umständlich und schwierig.
So wurde in der Vergangenheit der oben beschriebene Datensatz mit Hilfe von zweidimensio-
nalen Scatterplot-Darstellungen visualisiert und analysiert. Um eine gleichzeitige Darstellung
aller sechs Dimensionen (Lösungsmittel, Base, Temperatur. Trägerharz, Ausbeute und Reak-
tionskategorie) zu ermöglichen, war ein paralleles Abbilden mehrerer Datendimensionen auf
den x- und y-Achsen notwendig (z. B. Lösungsmittel und Reaktionskategorie auf der x-
Achse), was zu unübersichtlichen Darstellungen führte und letztendlich die visuelle Identifi-
kation der gewünschten Ergebnisse erschwerte (Abbildung 7-8).
Abb. 7-8: Spreadsheet-Darstellung (Spotfire [214]) mit ChemCodes-Datensatz [14].
171
7 Anwendungsbeispiele
Im Gegensatz zu solchen Standardvisualisierungsansätzen ist die Darstellung und Analyse
multidimensionaler und multivariater Datensätze im InfVis-Programm problemlos zu realisie-
ren. So können mit Hilfe der drei Raumdimensionen als auch durch die diversen Objekteigen-
schaften zahlreiche Dimensionen gleichzeitig dargestellt werden, ohne dabei den Benutzer
visuell zu überfordern. Der Einsatz aller zur Verfügung stehenden retinalen Eigenschaften ist
dabei nicht immer zwingend erforderlich und kann in einigen Fällen sogar unzweckmäßig
sein. So werden beispielsweise im obigen Ansatz nicht alle graphischen Eigenschaften
genutzt, um jeweils eine Datendimension abzubilden. Vielmehr dient sowohl die Objektfarbe
als auch die x-Achsenauftragung zur Vermittlung der Reaktionskategorie, während die unter-
schiedlichen Basen nicht durch ein eigenes graphisches Attribut symbolisiert werden. Eine
solche Entscheidung kann in einigen Fällen zu einer übersichtlicheren Darstellung der Daten-
punkte führen. Obwohl die Baseninformation auf diese Weise nicht direkt dargestellt werden
kann, steht mit Hilfe der Dynamic Query-Filter-Technologie ein geeignetes, alternatives
Werkzeug zur Verfügung, das eine Darstellung der Baseneinflüsse in der graphischen Szene
erlaubt. Dabei führen die vom Benutzer vorgenommenen Änderungen der Filtereinstellungen
zu einer unmittelbaren Aktualisierung der dargestellten Datenpunkte. Auf diese Weise kön-
nen auch mehr als die durch die sechs graphischen Eigenschaften darstellbaren Datendimen-
sionen visualisiert werden. Die Dynamic Query-Filter eignen sich nicht nur zur Analyse von
multidimensionalen Datensätzen, sondern erlauben auch eine schnelle Exploration großer
Datenmengen. So reichte im oben geschilderten Fall lediglich ein Mausklick auf dem Tempe-
ratur- bzw. Trägerharz-Filter aus, um die allgemeine Ausbeutenabnahme bei höheren Tempe-
raturen bzw. bei Verwendung von Polystyrol-Harz zu erkennen. Komplizierte
Fragestellungen, wie beispielsweise die Suche nach Reaktionsausbeuten unter Verwendung
von Kaliumhydroxid bei 23 °C auf Tentagelharz sind einfach durch Kombination der entspre-
chenden Filter möglich. Der oben geschilderte visuelle Data Mining-Prozess der 364 Einzel-
reaktionen benötigte daher lediglich ein paar Minuten.
Obwohl das Anwendungsbeispiel in erster Linie zur Darstellung der InfVis-Fähigkeiten
diente, sollen im Folgenden auch kurz die Ergebnisse des Data Mining-Prozesses diskutiert
werden. Der verwendete Datensatz zählte zu den ersten experimentellen Studien der Firma
ChemCodes und diente vor allem zur Evaluierung und Feinabstimmung des experimentellen
Workflows. Dies zeigt sich vor allem anhand der stark abweichenden Ergebnisse zwischen
Tentagel- und Polystyrol-basierten Reaktionen, was auf damalige, grundsätzliche Probleme
bei den Reaktionen auf Polystyrol-Trägerharzen schließen lässt. Darüber hinaus konnten zum
damaligen Zeitpunkt auch einige Reaktionen mit bestimmten Basen wie beispielsweise Diiso-
propylethylamin nicht in der gewünschten Form umgesetzt werden. Trotz dieser Probleme,
die heute zum größten Teil behoben sind, zeigt die visuelle Exploration des Datensatzes, dass
der Großteil der durchgeführten Reaktionen den veröffentlichten Daten entspricht bzw. allge-
172
7.1 ChemCodes-Reaktionsdatenbank
mein gültigen, chemischen Tendenzen wie den Lösungsmitteleffekten folgt. So lassen sich
beispielsweise die nicht bzw. nur in geringen Ausbeuten beobachteten Reaktionen in Dioxan
durch den unpolaren Charakter des Lösungsmittels erklären. Dieser führt zum einen zu einer
schlechteren Löslichkeit der ionischen Basen und verhindert zum anderen die Stabilisierung
der ionischen Zwischenstufe. Die im Vergleich mit Ethanol bzw. Ethanol/Wasser schlechteren
Ausbeuten von Reaktionen in Dimethylsulfoxid können auf die starke Solvatation der Metall-
atome durch Dimethylsulfoxid zurückgeführt werden. Die Solvatation erschwert dabei die
Bildung des cyclischen Übergangszustands, der sich aus dem Carbonyl- und dem Enolat-Sau-
erstoffatom sowie aus dem als Lewis-Säure fungierenden Kation zusammensetzt [244].
7.1.3 Reaktionsplanung
7.1.3.1 Zielsetzung
Neben der umfassenden Analyse spezifischer Reaktionsklassen erlaubt die ChemCodes-
Reaktionsdatenbank nach ihrer Fertigstellung ebenfalls die Lösung des Funktionelle-Grup-
pen-Kompatibilitätsproblems. Das Wissen über die Funktionelle-Gruppen-Kompatibilität
(FG-Kompatibilität) erlaubt eine hochselektive Reaktionsplanung. So kann der Syntheseche-
miker bei Vorlage eines Eduktes bzw. einer Vorstufe mit mehreren, reaktiven funktionellen
Gruppen genau die Reaktionsbedingungen aus der Datenbank abfragen, die lediglich zu einer
Umsetzung der gewünschten funktionellen Gruppe führen, während die anderen funktionel-
len Gruppen nicht beeinflusst werden. Auf diese Weise kann die Reaktion in einem einstufi-
gen Prozess durchgeführt werden und der aufwendige, mehrstufige Einsatz von
Schutzgruppen entfällt.
Da diese Information erst in einigen Jahren zur Verfügung stehen wird, wurde von
ChemCodes ein prototypischer Datensatz generiert, der das Potential eines solchen Ansatzes
verdeutlichen soll. Im vorliegenden Datensatz wurden dazu die 48 wichtigsten funktionellen
Gruppen mit 37 gängigen Reagenzien und 6 sogenannten Quenchern in 11 Lösungsmitteln
bei 25 °C umgesetzt. Die Reagenzien dienen dabei zur Aktivierung des reaktiven Zentrums
bzw. der funktionellen Gruppe, wobei die Reagenzienpalette so zusammengestellt wurde,
dass eine abgestufte Aktivierung beispielsweise durch unterschiedliche Säurestärken
gewährleistet ist. Auf diese Weise lassen sich Aussagen darüber treffen, wann eine bestimmte
funktionelle Gruppe noch aktiviert wird und wann nicht mehr.
Die aktivierten Gruppen werden schließlich durch die Quencher – prototypische,
hochreaktive Gegenreagenzien (elektrophil, nucleophil, etc.) – abgefangen und auf diese
Weise detektiert.
173
7 Anwendungsbeispiele
Die 126.115 Einzelreaktionen umfassende Datenbank wurde im vorliegenden Fall dazu
verwendet, um solche Reaktionsbedingungen zu identifizieren, die für eine beliebige Amino-
benzaldehyd-Verbindung nur zu einer Reaktion der enthaltenen Aminogruppe und nicht der
Aldehydgruppe oder des aromatischen Systems führten (Abbildung 7-9). Die Reaktionsbe-
dingungen sollten darüber hinaus jedoch mild genug sein, um nur die Bildung eines einzelnen
Hauptproduktes und keiner Nebenprodukte zu bewirken.
Abb. 7-9: Aminobenzaldehyd. Nur die markierte Aminogruppe soll umgesetzt werden.
7.1.3.2 Datenaufbereitung
Die experimentellen Daten der zahlreichen Einzelreaktionen wurden zunächst in Form
einer MySQL-Datenbank gespeichert. In einem zweiten Schritt wurden anschließend mit
Hilfe eines SQL-Befehls alle Reaktionsansätze gesucht, in denen die Aldehydgruppe, der
Phenylring oder auch die Aminogruppe umgesetzt wurden. Dieser 7.326 Einzelreaktionen
umfassende Datensatz wurde schließlich in die InfVis-Applikation eingelesen und visuell aus-
gewertet.
7.1.3.3 Visuelles Data Mining
Zur visuellen Analyse des Datensatzes wurden die Produktanzahl auf die x-Achse, die
Lösungsmittel auf die y-Achse und die drei funktionellen Gruppen auf die z-Achse des Koor-
dinatensystems aufgetragen. Während die Objektform ebenfalls die Anzahl der Produkte und
die Objektfarbe die jeweilige funktionelle Gruppe symbolisierte, wurde die Objektgröße nicht
zum Abbilden einer Datendimension genutzt (Abbildung 7-10). Vielmehr wurden alle Daten-
punkte durch graphische Objekte mit einer definierten Standardgröße dargestellt (Abbildung
7-11).
Neben den einzelnen graphischen Attributen kamen des Weiteren zwei dynamische Filter
zum Einsatz – zum einen ein Filter für die Reagenzien, der durch einen Schieberegler gesteu-
ert wird, sowie ein Checkbox-basiertes Filterwerkzeug für die unterschiedlichen Quencher.
N
H
H
O
H
174
7.1 ChemCodes-Reaktionsdatenbank
Abb. 7-10: Legende zur Abbildung 7-11.
Abb. 7-11: InfVis-Applikation mit gefilterten Reaktionsdatensatz: Reaktionen mit 1,3-Diisopropylcarbodi-amid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln. Alleinige Umsetzung der Aminogruppe nur in Toluol und N,N-Dimethylformamid (Farbabbildung: Anhang A, Abb. A-16).
Mit Hilfe der Filterfunktionen wurden im Folgenden alle Reagenzien-Quencher-Kombina-
tionen dargestellt und in den resultierenden 3D-Szenen nach solchen Lösungsmitteln gesucht,
in denen das gewünschte Produktverhältnis (Aminogruppe = 1 Produkt sowie Aldehyd und
Phenylring = kein Produkt) zwischen den drei funktionellen Gruppen vorlag. Abbildung 7-11
Aldehyd-Gruppe
Phenylring
Amino-Gruppe
Kein Produkt
Hauptrodukt
Produkt undNebenprodukt
175
7 Anwendungsbeispiele
zeigt eine solche Kombination. Dabei können für 1,3-Diisopropylcarboamid als Reagenz und
1-Phenyl-2-thioharnstoff als Quencher zwei Lösungsmittel (Toluol und N,N-Dimethylforma-
mid) identifiziert werden, in denen nur die Aminogruppe reagiert während der Phenylring
und die Aldehydgruppe unbeeinflusst bleiben.
Insgesamt konnten auf diese Weise 23 Reaktionen bzw. Reaktionsbedingungen für die
Aminogruppe identifiziert werden (Tabelle 7-2). Zwei entsprechende, visuelle Data Mining-
Ansätze für die Aldehyd- bzw. Phenylgruppe führten zur Identifikation von 17 bzw. 104
geeigneten Reaktionsbedingungen.
Lösungsmittel Reagenz QuencherWasser Kein Reagenz TrifluormethansulfonylchloridMethanol 1,3-Diisopropylcarbodiimid Kein QuencherN,N-Dimethylformamid 1,3-Diisopropylcarbodiimid 1-Phenyl-2-thioharnstoffToluol 1,3-Diisopropylcarbodiimid 1-Phenyl-2-thioharnstoffWasser Essigsäure PhenylisocyanatN,N-Dimethylformamid Ammoniak, 2.0 M in Ethanol 1-Phenyl-2-thioharnstoffPyridin Ammoniak, 2.0 M in Ethanol 1-Phenyl-2-thioharnstoffN,N-Dimethylformamid Ammoniak, 2.0 M in Ethanol TrifluormethansulfonylchloridTetrahydrofuran Ammoniumchlorid Kein QuencherEssigsäure Bortrifluoriddiethyletherate ButylaminAcetonitril Chlortrimethylsilan Kein QuencherMethanol Diisobutylaluminiumhydrid 1-Phenyl-2-thioharnstoff
Tetrahydrofuran Thionylchlorid 1-Phenyl-2-thioharnstoffPyridin Triethylamin TrifluormethansulfonylchloridEssigsäure Wasser Trifluormethansulfonylchlorid
Tab. 7-2: Reaktionsbedingungen die nur zur Umsetzung der Aminogruppe (Abbildung 7-9) führten.
176
7.1 ChemCodes-Reaktionsdatenbank
7.1.3.4 Diskussion
Für die Auswertung des Experiments wurde bis dato ein Online-Dienst eingesetzt, der in
Zusammenarbeit zwischen der Firma ChemCodes und dem Computer-Chemie-Centrum ent-
wickelt wurde. Die Datenbankausgaben wurden dabei in Form einer farblich gestalteten
Tabellendarstellung repräsentiert und konnten je nach Anzahl der eingesetzten funktionellen
Gruppen sowie der Auswahl der diversen Reaktionsbedingungen einige zehn bis hundert Sei-
ten umfassen. Trotz der farblichen Bewertung der Ergebnisse war eine Analyse großer Daten-
sätze wie beispielsweise des oben aufgeführten, 7.326 Datenpunkte umfassenden Datensatzes
extrem schwierig.
Im Gegensatz zur tabellarischen HTML-Darstellung konnten im InfVis-Programm alle
7.326 Reaktionsansätze kompakt und übersichtlich im dreidimensionalen Koordinatensystem
dargestellt werden. Beim Mapping der unterschiedlichen Datendimensionen auf die graphi-
schen Eigenschaften wurden wie auch beim Reaktionsdatensatz aus Abschnitt 7.1.2 nicht alle
in InfVis implementierten graphischen Dimensionen bzw. Eigenschaften verwendet. Tatsäch-
lich wurden lediglich drei der fünf Datendimensionen durch graphische Attribute repräsen-
tiert. Da keine Datendimension mit typischen "Größenwerten" wie beispielsweise Ausbeuten
oder Meßwerten existierte, wurde auf eine Nutzung der Objektgröße als retinale Eigenschaft
verzichtet. Auf diese Weise blieb die Szene übersichtlich und auf das Wesentliche nämlich
das Vorliegen oder Fehlen von Datenpunkten beschränkt. Dieses Beispiel zeigt auf anschauli-
che Weise, dass der Abbildungsvorgang stark vom Datensatz und der mit ihm verbundenen
Fragestellung abhängt. Natürlich spielen dabei auch persönliche Vorlieben des Benutzers eine
entscheidende Rolle. So könnte ein anderer Anwender eine andere Auftragung der Daten
bevorzugen.
Das ChemCodes-Experiment basierte lediglich auf Einzelreaktionen der eingesetzten
funktionellen Gruppen, so dass die in Tabelle 7-2 aufgelisteten Reaktionsbedingungen nur
mit Vorsicht zu betrachten sind. Induktive oder elektronische Effekte zwischen den einzelnen
funktionellen Gruppen oder zwischen den funktionellen Gruppen und dem aromatischen
Ringsystem konnten durch den experimentellen Ansatz nicht berücksichtigt werden. Aus die-
sem Grund wurde auch die Stellung (ortho, meta, para) der funktionellen Gruppen zueinander
nicht berücksichtigt. Obwohl die chemische Reaktivität der funktionellen Gruppen nur unzu-
reichend und stark verallgemeinert repräsentiert wird, zeigt der Datensatz sowie dessen visu-
elle Analyse das eigentliche Potential der ChemCodes-Reaktionsdatenbank. Nach der
Fertigstellung der Datenbank werden auch aufwendige Fragestellungen sowie komplexe
Wechselwirkungen zwischen den funktionellen Gruppen berücksichtigt werden können.
177
7 Anwendungsbeispiele
7.2 NCI Antitumor-Screening-Datenbank
7.2.1 Zielsetzung und Aufbau der Datenbank
Die Bekämpfung von Krebs zählt zu den größten Anliegen der modernen Medizin. Ein
Ansatz zur Identifikation neuer Wirkstoffe war und ist dabei das sogenannte Screening von
Naturstoffen und synthetischen Verbindungen, bei dem die biologische Aktivität der entspre-
chenden Verbindung gegen bestimmte Krebszelllinien ermittelt wird. Vor 1985 wurde der
Screeningprozess an Mäusen durchgeführt, welche die Leukämie-P388-Zelllinie trugen. Ein
Hauptproblem dieses Ansatzes war jedoch die Unsicherheit, ob die gefundenen potentiellen
Wirkstoffe auch gegen menschliche Krebsarten wirkten.
Zwischen 1985 und 1990 wurde deshalb am amerikanischen Krebsforschungsinstitut ein
alternativer Screeningansatz zum üblichen in vivo Experiment entwickelt – der NCI in vitro
Anticancer Drug Discovery Screen [203, 204]. Dieses im April 1990 von Drug Therapeutics
Program [202] fertiggestellte in vitro Experiment umfasste dabei verschiedene menschliche
Krebszelllinien, die sowohl eine repräsentative Auswahl der wichtigsten Krebsarten wie
Brust-, Lungen-, Eierstock-, Prostata-, Augen- und Darmkrebs, Leukämie, Melanome und
Krebsarten des Zentralen Nervensystems als auch der diversen biochemischen Wirkungsme-
chanismen darstellte. Nach einer dreijährigen Erprobungsphase wurden weitere acht Brust-
krebsarten sowie zwei Prostatakrebszelllinien in den Screeningtest integriert. Um weiterhin
eine konstante Gesamtzahl von 60 Zelllinien zu gewährleisten, wurden im Gegenzug zehn
Krebszelllinien entfernt, die entweder redundant oder technisch schwierig zu handhaben
waren. Eine Übersicht der aktuellen Krebszelllinien kann Anhang C entnommen werden. Seit
seiner Einführung wurden über 80.000 chemische Verbindungen analysiert, von denen 41.000
öffentlich zugänglich sind (Stand: April 2002).
Die Ermittlung der drei bereits in Kapitel 6 (vgl. Abschnitt 6.1.2) beschriebenen biologi-
schen Aktivitäten (GI50, TGI, LC50) für alle 60 Krebszelllinien erlaubt die Generierung
eines eindeutigen, hochspezifischen Wirkungsvektors, der daher auch als Fingerabdruck
(engl. Fingerprint) bezeichnet wird. Diese für eine bestimmte Verbindung charakteristischen
Fingerprints spiegeln das Wirkungsverhalten einer Substanz wider und werden unter anderen
in quantitativen Struktur-Aktivitäts-Beziehungs-Studien (engl.: quantitative structure activity
relations, QSAR) eingesetzt. Grundlage solcher Untersuchungen ist die Annahme, dass struk-
turell ähnliche Verbindungen über ähnliche molekulare Eigenschaften verfügen und somit
auch ähnliche biologische Effekte hervorrufen können [245]. Zahlreiche QSAR- und Data
Mining-Studien wurden in den letzten Jahren mit den Daten der NCI-Datenbank durchgeführt
und führten unter anderen zur Identifikation neuer Wirkstoffverbindungen in bereits definier-
178
7.2 NCI Antitumor-Screening-Datenbank
ten Klassen mit bekannten biochemischen Mechanismen. Darüber hinaus konnten durch diese
Studien aber auch neue mechanistische Klassen identifiziert werden.
7.2.2 QSAR-Studien mit Platin-Verbindungen
7.2.2.1 Zielsetzung
Wie bereits im vorausgegangenen Abschnitt erläutert wurde, können strukturell ähnliche
Verbindungen ein ähnliches Wirkungsmuster aufweisen. Trotz dieser allgemein gültigen
Struktur-Wirkungs-Beziehung wurden auch Verbindungsklassen identifiziert, die trotz eines
ähnlichen bzw. identischen Aktivitätsmechanismus (engl.: mechanism of action, MOA) sich
aus strukturell diversen Verbindungen zusammensetzen. Analog dazu wurden ebenfalls struk-
turell ähnliche Verbindungen klassifiziert, die unterschiedliche Wirkungsmuster aufweisen.
Die unterschiedlichen Ausprägungen von Struktur-Aktivitätsbeziehungen sollen anhand
der in der NCI-Datenbank enthaltenen Platin-Verbindungen veranschaulicht werden. Ähnli-
che Wirkungsmuster sollen dabei mit Hilfe des InfVis-Programms identifiziert und zu eigen-
ständigen Teildatensätzen zusammengefasst werden. Die gefundenen Aktivitätscluster sollen
schließlich unter Berücksichtigung der zweidimensionalen Strukturinformation interpretiert
werden. Die Klasse der Platinverbindungen wurden gewählt, weil die NCI-Datenbank sowohl
hochwirksame Platin-Cancerostatika als auch biologisch inaktive Platinverbindungen enthält.
7.2.2.2 Datenaufbereitung
Grundlage für die visuelle Analyse und Clusterung der Platinverbindungen waren die zwei
im vorangegangenen Kapitel erwähnten NCI-Datenbanken (CACTVS-basierte und MySQL-
basierte NCI-Datenbank). In einem ersten Schritt wurden von den 1381 in der NCI-Daten-
bank enthaltenen Platinverbindungen solche Strukturen isoliert, zu denen auch biologische
Aktivitätsdaten in der MySQL-Datenbank vorlagen. Da nicht für alle resultierenden 346 Ver-
bindungen alle drei Aktivitätswerte (GI50, LC50 und TGI) vorhanden waren, wurde der
Datensatz erneut auf die Verbindungen eingegrenzt, die sowohl über GI50-, LC50- und TGI-
Werte verfügten.
Zu den 150 verbliebenen Strukturen wurden in einem zweiten Schritt die zugehörigen bio-
logischen Aktivitätsdaten für alle 60 Krebszelllinien aus der MySQL-Datenbank entnommen.
Der auf diese Weise erhaltene Datensatz wurde im Anschluss von allen Aktivitätsdaten bzw.
Verbindungen befreit, die nicht bei der Standardkonzentration (0.001 mol/l) vermessen wur-
den. Durch diese Vorgehensweise war ein problemloser Vergleich aller Aktivitätsdaten
sichergestellt. Da für die vergleichende Betrachtung der Aktivitätsdaten vor allem der wachs-
179
7 Anwendungsbeispiele
tumshemmende Effekt von Bedeutung ist, wurden die entsprechenden GI50-Werte aus dem
Datensatz extrahiert. Diese Werte wurden jedoch nicht direkt bei der visuellen Analyse ver-
wendet sondern vorher in einem letzten Aufarbeitungsschritt in die Mean-Graph-Repräsenta-
tion [206] überführt. Diese relative bzw. "Fingerprint"-Darstellung der Aktivitätsdaten hebt
dabei die spezifischen Effekte einer einzelnen Verbindungen gegenüber einer bestimmten
Krebszelllinie im Gegensatz zur direkten (absoluten) Auftragung hervor und ermöglicht
somit eine bessere Klassifizierung der Wirkungsmuster.
7.2.2.3 Visuelles Data Mining
Zur visuellen Mustererkennung und Clusterung der Aktivitätsdaten wurden die Platinver-
bindungen auf die x-Achse, die Krebszelllinien auf die z-Achse und die relativen Aktivitäten
auf die y-Achse aufgetragen. Die Objektfarbe wurde ebenfalls zur Hervorhebung der relati-
ven Aktivitätswerte verwendet (Abbildung 7-13). Objektgröße und Objektform wurden nicht
zum Abbilden von Datendimensionen eingesetzt (Abbildung 7-12).
Abb. 7-12: InfVis-Programm mit 2939 GI50-Aktivitätswerten. Aufsicht auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene, Auftragung der Verbindungen verläuft in Blickrichtung des Betrachters)(Farbabbildung: Anhang A, Abbildung A-17).
Abb. 7-13: Legende für die Abbildungen 7-12, 7-14 - 7-18.
ÜberdurchschnittlicheAktivität
UnterdurchschnittlicheAktivität
180
7.2 NCI Antitumor-Screening-Datenbank
Mit Hilfe eines dynamischen, Checkbox-Filters wurden die Aktivitätsmuster der einzelnen
Verbindungen bewertet und Strukturen mit ähnlichen Wirkungsmuster zu Teildatensätzen
zusammengefasst.
Um die spezifischen Aktivitäten einer einzelnen Verbindung gegenüber allen Krebszellli-
nien zu identifizieren, wurde die dreidimensionale Szene so ausgerichtet, dass eine Aufsicht
auf die zy-Ebene (Krebszelllinien-Aktivitätswert-Ebene) gewährleistet war. Die Auftragung
der einzelnen Verbindungen verlief dabei in Blickrichtung des Betrachters. Überdurchschnitt-
lich hohe Aktivitäten gegenüber spezifischen Krebszellen wurden bei der relativen Aktivitäts-
darstellung durch graphische Objekte oberhalb der y-Achsen-Nullpunktebene dargestellt,
während Objekte unterhalb der Ebene unterdurchschnittliche Aktivitäten symbolisierten
(Abbildung 7-12). Diese Darstellungsform gewährleistete ebenfalls einen bestmöglichen Ver-
gleich der Verbindungs-spezifischen Wirkungsmuster. Neben der relativen GI50-Darstellung
wurden auch die absoluten Werte der GI50-, LC50- und TGI-Aktivitäten der isolierten Clu-
ster dargestellt (Abbildungen 7-14-7-18).
Bei der visuellen Analyse des Datensatzes konnten zunächst drei Ausreisserdaten aufgrund
ihrer unverhältnismässigen Aktivitäten identifiziert werden, die vor einer weiteren Bearbei-
tung des Datensatzes entfernt wurden. Die verbliebenen 2936 Datenpunkte wurden anschlie-
ßend hinsichtlich ihrer Aktivitätsähnlichkeiten in fünf Verbindungsklassen unterteilt. Die
einzelnen Cluster sowie die Auswahlkriterien, die zu ihrer Isolierung führten, werden im Fol-
genden näher beschrieben.
In einem ersten Schritt wurden zunächst solche Verbindungen isoliert, die gegenüber allen
Krebszelllinien keine nennenswerte Wachstumsinhibition (GI50-Aktivitäten) zeigten (Abbil-
dung 7-14a (relative Aktivitäten) und 7-14b (absolute Aktivitäten)). Dieses Ergebnis konnte
auch, wie erwartet, anhand der Aktivitäten der korrespondierenden LC50- und TGI-Werte
bestätigt werden (Abbildung 7-14c,d). Der Cluster umfasste dabei insgesamt 33 inaktive Ver-
bindungen (vgl. Anhang D).
Im Anschluss wurden 15 weitere Verbindungen identifiziert, die ebenfalls gegenüber dem
Großteil der getesteten Krebszellen keine Aktivität aufwiesen. Im Gegensatz zu den Struktu-
ren aus der ersten Gruppe zeigten diese Verbindungen jedoch gegenüber ein bis zwei verein-
zelten Krebszelllinien hohe Aktivitätswerte. Interessanterweise wies dabei jede Verbindung
gegenüber einer anderen Krebsart dieses Verhalten auf, was das Vorliegen von Meßfehlern
vermuten ließ (Abbildung 7-15a,b). Da jedoch auch die entsprechenden LC50- und TGI-
Werte dieses Verhalten teilweise bestätigten (Abbildung 7-15c,d), wurden die identifizierten
Verbindungen in einen eigenständigen Cluster zusammengefasst, um eine spätere Analyse
mit Hilfe der Strukturinformation zu gewährleisten.
181
7 Anwendungsbeispiele
Abb. 7-14: InfVis-Programm mit Cluster 1 (33 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18a).
Abb. 7-15: InfVis-Programm mit Cluster 2 (15 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18b).
182
7.2 NCI Antitumor-Screening-Datenbank
Abb. 7-16: InfVis-Programm mit Cluster 3 (50 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18c).
Abb. 7-17: InfVis-Programm mit Cluster 4 (26 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18d).
183
7 Anwendungsbeispiele
Abb. 7-18: InfVis-Programm mit Cluster 5 (14 Verbindungen): a) relative GI50-Werte (Auftragung der Substanzen in Blickrichtung, Krebszelllinien von links nach rechts), b) absolute GI50-Werte, c) absolute LC50-Werte, d) absolute TGI-Werte (Farbabbildung: Anhang A, Abbildung A-18e).
Im Gegensatz zu den beiden zuvor isolierten Verbindungsklassen zeigten die verbliebenen
Strukturen sowohl über- als auch unterdurchschnittliche Wachstumsaktivitäten gegenüber
allen getesteten Krebszelllinien. Dabei konnten jedoch keine hochselektiven Effekte gegen-
über spezifischen Krebszellen, wie sie von anderen Verbindungsklassen bekannt sind [246],
festgestellt werden. Vielmehr variierten die Aktivitätswerte sehr stark über das gesamte
Krebszellenspektrum. Um dennoch eine weitere Unterteilung der verbliebenen 109 Verbin-
dungen zu ermöglichen, wurden bestimmte Grenzwerte für ausgewählte Krebszelllinien defi-
niert, die für die Zugehörigkeit zu einem Cluster nicht über- bzw. unterschritten werden
durften. Als besonders geeignet erschienen dabei die beiden Leukämiezelllinien SR (2. verti-
kale Kugelreihe von links, Abbildung 7-16a,b) und K-562 (16. Reihe von links, Abbildung 7-
16a).
Zunächst wurden dabei solche Verbindungen identifiziert, die sowohl überdurchschnitt-
liche Aktivitäten für SR als auch für K-562 aufwiesen. Darüber hinaus sollten die jeweiligen
Aktivitäten der restlichen Krebszellen zwischen den einzelnen Verbindungen tendenziell
übereinstimmen und in einem begrenzten Wertebereich vorliegen. Strukturen mit hohen Akti-
vitäten für SR und K-522 aber stark abweichenden Aktivitätswerten für eine andere Zelllinien
wurden deshalb nicht im dritten Teildatensatz berücksichtigt. Auf diese Weise konnten
schließlich 50 weitere Platinverbindungen isoliert werden (Abbildung 7-16, vgl. Anhang D).
184
7.2 NCI Antitumor-Screening-Datenbank
Die entsprechenden LC50- und TGI-Werte waren erwartungsgemäß kleiner und zeigten zum
Teil ein leicht verändertes Wirkungsprofil (Abbildung 7-16c,d).
Analog zu der für Cluster 3 beschriebenen Vorgehensweise wurden 26 weitere Platinver-
bindungen isoliert, welche über überdurchschnittliche Aktivitätswerte gegenüber SR und
unterdurchschnittliche GI50-Werte für K-562 verfügten (Abbildung 7-17, vgl. Anhang D).
Dabei wurden auch in diesem Fall Verbindungen mit stark abweichenden Aktivitätswerten für
andere Krebszelllinien nicht im Teildatensatz berücksichtigt.
Die 14 restlichen Verbindungen wurden schließlich zu einer fünften Verbindungsklasse
zusammengefasst (Abbildung 7-18, vgl. Anhang D). Nach Abschluss der visuellen Cluste-
rung wurden die jeweiligen Verbindungsgruppen mit Hilfe der zweidimensionalen Strukturin-
formation (vgl. Anhang D) bewertet und interpretiert.
7.2.2.4 Auswertung und Diskussion
Der cytostatische bzw. cytotoxische Effekt einiger Platinverbindungen wie beispielsweise
cis-Diaminodichloroplatin(II) (cis-Platin, DDP) oder 1,2-Cyclohexandiamintetrachloroplatin
(Tetraplatin) wurde früh erkannt und bereits Ende der Siebziger Jahre zur therapeutischen
Behandlung von Krebspatienten genutzt [247, 248]. Die Platinverbindungen zählen dabei zu
der Klasse der alkylierenden Cancerostatika und wirken, indem sie direkt an die Nukleoside
(vor allem Guanosin) der DNA binden und diese somit schädigen. Aus diesem Grund wirken
Platinverbindungen nicht selektiv gegen bestimmte Zelllinien sondern auf das ganze Spek-
trum an Zelllinien, was auch bei der Betrachtung der Wirkungsmuster im vorangegangenen
Abschnitt deutlich wurde. Dieses unspezifische Wirkungsverhalten kann bei vielen DNA-
schädigenden Verbindungsklassen beobachtet werden [246]. Obwohl einige Platinverbindun-
gen zu den wirksamsten Cancerostatika zählen und daher auch zu den Standardwirkstoffen in
der Chemotherapie zählen, zeigen nicht alle Vertreter dieser Verbindungsklasse einen cytosta-
tischen Effekt. Besonders auffällig ist dabei die unterschiedliche Wirksamkeit der cis- und
trans-Form von Diaminodichloroplatin(II).
Unter Verwendung der zweidimensionalen Strukturinformation wurden die mit Hilfe des
InfVis-Programms generierten Cluster qualitativ analysiert. Dabei wurde hinterfragt, ob mit
Hilfe des visuellen Clusterings eine Trennung der aktiven und inaktiven Strukturen möglich
ist und ob dieser Prozess darüber hinaus eine weitere Unterteilung der aktiven Verbindungen
gestattet.
Zu den Verbindungen des ersten Clusters (vgl. Anhang D) zählt zum einen die nicht wirk-
same trans-Form des Diaminodichloroplatins (NSC131558). Darüber hinaus enthält der Clu-
ster diverse Strukturen mit großen und käfigartigen Ringsystemen (z.B. NSC631895,
185
7 Anwendungsbeispiele
NSC532607, NSC685548), die wahrscheinlich aus sterischen Gründen eine Schädigung der
DNA verhindern. Eine weitere Gruppe inaktiver Strukturen stellen Platinkomplexe dar, in
denen das Platin durch Amino- und/oder Hydroxygruppen von Phosphon- und Aminophos-
phonsäurederivaten koordinativ gebunden ist (z.B. NSC627008, NSC632612, 639614). Des
Weiteren zeigen auch Bisaminoethylsilanderivate keine biologische Aktivität (NSC643120,
NSC643121). Allerdings konnten aktive, kürzerkettige Silanderivate in den nachfolgenden
Clustern identifiziert werden. Schließlich enthält der Cluster noch eine Gruppe von 1,2-Dia-
mincyclohexan-Derivaten (z.B. NSC623314, NSC623321). Da von dieser Verbindungsklasse
auch aktive Vertreter bekannt sind, liegt die Vermutung nahe, dass es sich bei den isolierten
Strukturen um inaktive Konformere handelt.
Bei der Betrachtung der Strukturen aus Cluster 2 (vgl. Anhang D) können vor allem Ver-
bindungsklassen wie Phosphonsäure- (z.B. NSC632614), Diamincyclohexan- (z.B.
NSC623320) und Silanderivate (z.B. NSC643122) identifiziert werden, die auch in Cluster 1
vertreten sind. Diese Beobachtung bestätigt somit die anfängliche Vermutung, dass es sich bei
den Strukturen aus Cluster 2 ebenfalls um inaktive Substanzen handelt, deren beobachtete,
selektive Aktivität für einzelne Krebszelllinien auf experimentelle Meßfehler zurückzuführen
sein dürfte. Diese Vermutung wird auch durch das generell unspezifische Wirkungsverhalten
von Platin enthaltenen Cancerostatika bekräftigt. Neben den bereits erwähnten Verbindungs-
klassen wurde noch eine weitere interessante Verbindung identifiziert – NSC644190. Die
inaktive, DMSO enthaltene Verbindung ist deshalb interessant, da auch in diesem Fall aktive,
strukturell ähnliche Verbindungen isoliert werden konnten (siehe Cluster 3). Der Aktivitäts-
unterschied ist dabei wahrscheinlich auch auf konformative Unterschiede zurückzuführen.
Bei der Analyse des ersten Clusters mit aktiven Verbindungen (Cluster 3) können zunächst
zwei große Strukturklassen identifiziert werden – Aminocyclohexanderivate (11 Verbindun-
gen) und Aminomethylsilanderivate (12 Verbindungen). Im Gegensatz zu den in Cluster 1
und 2 enthaltenen Cyclohexanverbindungen scheinen die analogen Strukturen dieses Clusters
in der aktiven Konformerform vorzuliegen. Allerdings scheinen einige dieser Derivate jedoch
sowohl in der cis- als auch in der trans-Form aktiv zu sein, was die parallele Existenz der bei-
den Verbindungen NSC265459 und NSC265460 im Cluster erklärt. Leider lässt sich diese
Fragestellung aufgrund fehlender genauerer struktureller Information nicht endgültig klären.
Die Strukturklasse enthält darüber hinaus zwei bekannte Vertreter der Antitumor-Standard-
wirkstofftabelle des DTP (NSC271674 und NSC363812). Bei den Derivaten der Aminosilan-
verbindungen scheint die Aktivität von der Länge der am Platin koordinierten
Aminoalkanketten abzuhängen. Während die Aminoethylsilane aus dem ersten und zweiten
Cluster noch keine Aktivität zeigten, können für die Aminomethylsilane (z.B. NSC603577)
des dritten Clusters hohe Aktivitäten festgestellt werden. Ob die Koordination des Platina-
toms dabei über zwei offenkettige Monoaminomethylsilane oder durch ein einzelnes Bis(ami-
186
7.2 NCI Antitumor-Screening-Datenbank
nomethyl)silan erfolgt, scheint dabei keine Rolle zu spielen. Neben den beiden großen
Substanzklassen können des Weiteren fünf Chinolin- (z.B. NSC632790), drei Thiazol- (z.B.
NSC641054) und drei Phosphinderivate (z.B. NSC685468), einige DMSO- (z.B.
NSC644188) und Anilin-haltige Komplexe sowie einige Schwefelderivate wie Thiocarbon-
säuren und Sulfoxide identifiziert werden. Die Aktivität der Platin-DMSO-Komplexe scheint
dabei auch in diesem Fall auf konformative Unterschiede zu basieren, da strukturell ähnliche
Verbindungen in Cluster 1 und 2 keine biologische Aktivität zeigten.
Der vierte isolierte Cluster enthält unter anderen den wohl bekanntesten, cancerostatischen
Vertreter der Platinverbindungen – das cis-Platin (NSC119875). Neben ähnlich kleinen Kom-
plexen wie dem Diaminodibromoplatin (NSC141523) und dem Bis(aziridin)dichloroplatin
(NSC170896) beinhaltet der Cluster auch diverse Platin-Sauerstoff-koordinierte Verbindun-
gen wie beispielsweise die beiden Antitumor-Standardwirkstoffe 1,1-Cyclobutandicarboxyla-
toplatin (NSC241240) und 2-Propanamindichlorodihydroxoplatin (NSC256927). Darüber
hinaus enthält der Cluster auch einige größere Komplexsysteme und Käfigstrukturen (z.B.
NSC683426), ionische Verbindungen sowie Zinn- und Selen-Komplexe (z.B. NSC626669).
Allerdings finden sich auch bekannte Verbindungsmotive aus dem dritten Cluster wie bei-
spielsweise eine Phosphin- (NSC615542), eine Silan- (NSC645355) und einige Diamincyclo-
hexan-Verbindungen (z.B. NSC623317). Letztere Vertreter lassen darauf schliessen, dass der
Verlauf der biologischen Aktivitäten zwischen den beiden Clustern verschwommen und eine
eindeutige Zuordnung der Verbindungen daher ausgeschlossen ist. Im Vergleich mit dem drit-
ten Cluster kann in der vorliegenden Gruppierung eine größere Anzahl an kleinen, offenketti-
gen Platinkomplexen festgestellt werden.
Der letzte Cluster enthält unter anderen, bis auf einen Vertreter, alle Imidazolderivate der
untersuchten Platinverbindungen (z.B. NSC647619). Die nicht enthaltene Imidazolverbin-
dung (NSC647615) wurde dem dritten Cluster zugeordnet. Im Gegenzug enthält der fünfte
Cluster eine Thiazolverbindung (NSC641053), während die übrigen Vertreter dieser Verbin-
dungsklasse im dritten Cluster enthalten sind. Dies lässt auf eine enge Beziehung zwischen
Cluster 3 und Cluster 5 schließen. Eine weitere interessante Verbindungsklasse stellen die
beiden Aminosilane des Clusters dar. Während im ersten und zweiten Cluster nur inaktive
Aminoethylsilanderivate und in den Clustern 3 und 4 nur aktive Aminomethylsilane identifi-
ziert werden konnten, handelt es sich bei den vorliegenden Silanen um Platinverbindungen, in
denen das Platinatom sowohl über eine Aminoethyl- als auch über eine Aminomethylkette
koordiniert wird. Wie auch in allen zuvor beschriebenen Clustern enthält Cluster 5 eine Reihe
von Aminocyclohexanderivaten (z.B. NSC255917). Offensichtlich neigt diese Verbindungs-
klasse zu stark unterschiedlichen Aktivitätsmustern, was eine eindeutige Zuordnung der
Strukturen unmöglich macht.
187
7 Anwendungsbeispiele
Obwohl Platinverbindungen aufgrund ihres Wirkungsmechanismus im Allgemeinen
unspezifisch und gleichförmig gegen alle Krebszelllinien wirken, konnten mit Hilfe des visu-
ellen Data Minings fünf Verbindungscluster identifiziert werden. Dabei konnte zum einen
sicher zwischen aktiven und inaktiven Verbindungsvertretern unterschieden werden. Darüber
hinaus konnten die aktiven Platinstrukturen in drei weitere Untergruppen aufgeteilt werden.
Diese visuelle Aufteilung der aktiven Substanzen führte dabei für die in dem Datensatz ent-
haltenen Antitumor-Standardwirkstoffe zu den gleichen Ergebnissen, wie sie auch von ande-
ren Arbeitsgruppen mit klassischen QSAR-Studien erarbeitet wurden [246]. Dies spricht
letztendlich für die Qualität des visuellen Ansatzes. Der postulierte Zusammenhang zwischen
Struktur und Aktivität konnte in vielen Fällen nachgewiesen werden, da bestimmte Strukturen
ausschließlich oder zumindestens mit hohem Anteil in einem einzigen Cluster vorlagen. Bei-
spiele für entsprechende Struktur-Aktivitäts-Beziehungen sind die Thiazol-, Chinolin- und
Pyridinderivate im Cluster 3 sowie die Imidazolderivate in Cluster 5. Allerdings konnten
auch Ausnahmefälle von diesem Prinzip beobachtet werden. So enthielten zum einen biolo-
gisch ähnliche Cluster strukturell stark diverse Verbindungen, während zum anderen ähnliche
Strukturmotive wie beispielsweise die Aminocyclohexanderivate in vielen Clustern wieder-
gefunden wurden und vollkommen unterschiedliche biologische Aktivitäten zeigten.
188
Kapitel 8
Zusammenfassung
Neben der praktischen Labortätigkeit zeichnet sich die chemische Forschung in der Regel
durch die schnelle, zuverlässige und vollständige Abfrage und Analyse von bereits bestehen-
den Literaturangaben, Lehrbuchwissen sowie Struktur- und Aktivitätsdaten aus. Während in
den Anfängen der klassischen Chemie lediglich auf papierbasierte, zweidimensionale Struk-
turdaten und textuelle Information zugegriffen wurde, reichen solche Darstellungsformen und
Medien heute insbesondere in der Pharmaforschung und Biochemie nicht mehr zum Ver-
ständnis und zur Analyse komplexer Sachverhalte aus. Zur Lösung dieser Problematik nutzen
Chemiker daher seit langem die Möglichkeiten der computergestützten Visualisierung, wobei
heute eine fast unüberschaubare Auswahl an kommerziellen und frei verfügbaren Anwendun-
gen zur Darstellung und visuellen Analyse von molekularen Eigenschaften, Oberflächen und
Dynamiken zur Verfügung steht. Diese Applikationen dienen jedoch in der Regel zur Lösung
einzelner, spezifischer Frage- und Problemstellungen und sind im Allgemeinen zueinander
nicht kompatibel, was den essentiellen Informationsfluss und -austausch von chemischen
Daten stark beeinträchtigt oder sogar verhindert. Insbesondere seit der durch automatisierte
Laborsysteme generierten Informationsflut hat diese Situation an Brisanz gewonnen. Um
einen einfachen, standardisierten und Datenzugriff zu gewährleisten, kommen in der chemi-
schen Industrie heute zunehmend portable Informationsmanagement- und Visualisierungs-
Systeme zum Einsatz. Da die bis dato erhältlichen portablen Standardapplikationen zur
Visualisierung chemischer Daten lediglich einfache, rudimentäre Strukturdarstellungen sowie
in Ausnahmefällen auch eine begrenzte Visualisierung komplexer Datenobjekte wie Oberflä-
chen erlauben, ist die Entwicklung plattformunabhängiger Visualisierungsanwendungen
heute dringend erforderlich.
Das Potential interaktiver und portabler Visualisierungssoftware wurde dabei nicht nur in
der chemischen Industrie erkannt, sondern wird in zunehmenden Maße von akademischen
Einrichtungen zur didaktischen Vermittlung von chemischen Daten eingesetzt. Statische und
animierte, dreidimensionale Szenen, die ein hohes Maß an Interaktion erlauben, ermöglichen
189
8 Zusammenfassung
dabei eine wesentlich leichtere Vermittlung von theoretischen, abstrakten und komplexen
Sachverhalten.
In der vorliegenden Arbeit wurden zum einen portable, sich an Internet-Standards orientie-
rende Methoden und Applikationen entwickelt, die eine dynamische und interaktive 3D-
Visualisierung chemischer Datenobjekte erlauben. Im Wesentlichen wurden dabei drei unter-
schiedliche Client-Server-Strategien zur verteilten Vermittlung und Visualisierung von Daten
herausgearbeitet und in Form diverser Applikationen eingesetzt.
Hybride Client-Server-Strategien ermöglichen eine ausgewogene Verteilung der einzelnen
Visualisierungsschritte zwischen Client und Server und gestatten eine optimale Nutzung der
sowohl Client- als auch Server-seitig vorhandenen Hardware-Kapazitäten. Diese Strategie
diente dabei in den Anwendungen VRML File Creator for Chemical Structures, VRML-Ani-
mationsgenerator, ComSpec3D und MolSurf als Grundlage für den Visualisierungsprozess.
Der VRML File Creator ermöglicht eine 3D-Darstellung molekularer Strukturen und Eigen-
schaften unter Verwendung der Virtual Reality Markup Language (VRML), wobei die Ein-
gabe der entsprechenden Strukturinformation durch einen Java-Editor, SMILES-Strings oder
durch diverse, chemische Austauschformate erfolgen kann. Neben der Realisierung verschie-
dener Strukturdarstellungen ermöglicht der Service die codierte Einbettung von chemischen
Originaldaten wie beispielsweise Koordinaten oder molekularen Eigenschaften in die dreidi-
mensionale Szene, wodurch eine Weiterverarbeitung der Information durch andere Applika-
tionen gewährleistet ist. Der VRML-Animationsgenerator gestattet die Generierung von
molekularen VRML-Animationen und erlaubt somit eine plattformunabhängige Darstellung
von Reaktionspfaden und Moleküldynamiken. Die Dateneingabe erfolgt dabei über das mul-
tiple XYZ-Trajektorienformat. Der Online-Dienst ComSpec3D wurde zur Darstellung von
Raman- und IR-Spektren sowie der korrespondierenden Normalschwingungen entwickelt. Er
wurde dabei insbesondere für den Einsatz an Universitäten und Schulen konzipiert. Die
Applikation ermöglicht die Eingabe fast beliebiger Strukturen und berechnet mit Hilfe des
QM-Programms VAMP Raman- und Infrarot-Spektren sowie die entsprechenden Daten der
Normalschwingungen. Der Benutzer kann sich anschließend für jeden Peak die zugehörige
Normalschwingung als animierte VRML-Szene anzeigen lassen, wobei auch der Einfluss der
Kraftkonstante auf die Schwingungsfrequenz dargestellt werden kann. Der Web-Service Mol-
Surf basiert ebenfalls auf einem hybriden Ansatz. MolSurf ermöglicht die Berechnung und
3D-Visualisierung molekularer Oberflächen sowie des elektrostatischen Potentials von fast
beliebigen Molekülen. Die Oberfläche kann dabei zum einen in verschiedenen Darstellungs-
formen als auch mit diversen Farbpaletten dargestellt werden. Darüber hinaus enthält der Ser-
vice Funktionen, die einen normierten Vergleich von Oberflächeneigenschaften zwischen
verschiedenen Molekülen erlauben. Letztere Funktion ist insbesondere im Unterricht zur Ver-
deutlichung von induktiven Effekten vorteilhaft.
190
Client-seitige Strategien verlagern den gesamten Visualisierungsprozess auf den Client.
Dabei müssen sowohl die chemischen Originaldaten als auch die notwendigen Visualisie-
rungsalgorithmen auf das Clientsystem transferiert werden. Der wesentliche Vorteil dieses
Ansatzes ist die Nutzung lokal vorhandener Rechen- und Graphikressourcen, die insbeson-
dere in den letzten Jahren eine enorme Steigerung erfahren haben. Die Strategie bietet darüber
hinaus das größte Maß an Benutzerinteraktion. Ein entsprechender Ansatz wurde im Fall der
OrbVis-Applikation genutzt. OrbVis wurde ebenso wie ComSpec3D zur Darstellung von
quantenchemischen Zusammenhängen entwickelt und erlaubt die portable und interaktive
Berechnung und Visualisierung von Molekülorbitalen. Nach Eingabe der Strukturinformation
durch einen Java-Editor oder mittels SMILES-Strings berechnet der Online-Dienst die zuge-
hörigen Eigenwerte und Orbitalkoeffizienten (VAMP). Diese werden schließlich zusammen
mit einem Java-Applet an den Client übermittelt. Die Berechnung und dreidimensionale Dar-
stellung der Molekülorbitale erfolgt dabei vollständig auf dem Client. Der Benutzer kann dar-
über hinaus den Grenzwert der Elektronendichte interaktiv verändern, was zu einer
unmittelbaren Aktualisierung der dreidimensionalen Szene führt.
In Server-seitigen Strategien erfolgt die Visualisierung vollständig auf dem Server. Die
erzeugten Einzelbilder werden dabei in einem kontinuierlichen Datenstrom an den lokalen
Rechner übertragen. Diese Strategie bietet sich bei leistungsschwachen Clientsystemen, ver-
traulichen Originaldaten und vor allem extrem großen Volumendaten an. Da entsprechend
große Volumendaten zur Zeit nur geringe bis keine Bedeutung in der chemischen Forschung
haben, bestand keine Notwendigkeit zur Implementierung entsprechender Applikationen.
Die durch automatisierte Laborsysteme generierte Informationsflut stellt den Chemiker
heute vor neue Herausforderungen. Insbesondere in der projektorientierten, industriellen For-
schung wird dabei ein einfacher und schneller Datenzugriff sowie eine unkomplizierte und
leichtverständliche Informationsanalyse zunehmend wichtiger. Der Einsatz klassischer Data
Mining-Methoden ist dabei nicht immer sinnvoll, da die entsprechenden Ansätze häufig ein
enormes Maß an Spezialwissen und somit den Einsatz von Fachpersonal voraussetzen. Dar-
über hinaus handelt es sich bei den klassischen Ansätzen häufig um sogenannte Black Box-
Systeme, die nur einen stark begrenzten Einblick sowie eine limitierte Beeinflussung des
Data Mining-Prozesses zulassen. Eine schnelle Analyse setzt jedoch die Intuition und vor
allem das Fachwissen des Experimentators voraus. Die Erfüllung dieser Kriterien sowie ein
einfacher und intuitiver Analyseprozess kann durch Methoden des visuellen Data Minings
gewährleistet werden.
Die Möglichkeiten des visuellen Data Minings wurden anhand des NCI anti-Tumor Scree-
ning Data 3D Interfaces vorgestellt. Der Online-Dienst wurde speziell zur visuellen Analyse
von Struktur-Aktivitäts-Beziehungen in der Antitumor-Screeningdatenbank des amerikani-
191
8 Zusammenfassung
schen Krebsforschungsinstituts entwickelt. Der Service erlaubt unter anderen Substruktur-
und Ähnlichkeitssuchen und stellt die biologischen Aktivitäten der resultierenden Verbindun-
gen gegen einen definierten Satz an Krebszelllinien mit Hilfe einer VRML-Szene dar. Des
Weiteren können in der Szene entdeckte, interessante Aktivitätsmuster mit Hilfe dynamischer
HTML-Formulare gefiltert und selektiert werden. Darüber hinaus erlaubt der Service die Dar-
stellung zusätzlicher Detailinformation.
Eine wesentlich breitere Verwendbarkeit und größere Anzahl spezieller, visueller Data
Mining-Werkzeuge bietet das im Rahmen dieser Arbeit entwickelte InfVis-Programm. InfVis
basiert vor allem auf der 3D-Glyph-Technologie und erlaubt eine komfortable Analyse von
großen, multidimensionalen bzw. multivariaten Datensätzen. Die einzelnen Datendimensio-
nen werden dabei durch sogenannte retinale Eigenschaften repräsentiert und die korrespon-
dierenden Datenpunkte durch graphische Objekte im dreidimensionalen Raum dargestellt.
Die Applikation verfügt über eine breite Auswahl an leistungsfähigen Filter- und Selektions-
werkzeugen, wobei vor allem den sogenannten Dynamic Query-Filtern eine besondere
Bedeutung im visuellen Data Mining-Prozess zukommt. Mit Hilfe dieser Filter kann auch der
unerfahrene Anwender schnell und interaktiv komplexe Data Mining-Fragestellungen beant-
worten. Das InfVis-Programm wurde vollständig in Java/Java3D entwickelt und kann daher
sowohl als Standalone- als auch Applet-Version betrieben werden.
Die portable Verwendbarkeit des InfVis-Programms wurde am NCI Screening Data 3D
Miner gezeigt. Der Online-Dienst wurde als Weiterentwicklung des bereits erwähnten NCI-
Datenbank-Interfaces konzipiert und bietet im Gegensatz dazu eine große Auswahl an unter-
schiedlichen Suchfunktionen. Der Benutzer kann darüber hinaus eine Vielzahl an unter-
schiedlichen Datendimensionen in den visuellen Data Mining-Prozess integrieren. Des
Weiteren können zusätzliche molekulare Eigenschaften mit in das Analyseverfahren einbezo-
gen werden. Die Darstellung und visuelle Exploration der generierten Datensätzte erfolgt
schließlich mit der Applet-Version des InfVis-Programms auf der Client-Seite.
Die Fähigkeiten des visuellen Data Mining im Allgemeinen als auch der InfVis-Applika-
tion im Speziellen wurden im letzten Kapitel anhand von Anwendungsbeispielen demon-
striert. Dabei wurde zum einen mit Hilfe eines Reaktionsdatensatzes die Suche nach
geeigneten Reaktionsbedingungen zur Optimierung einer Reaktion untersucht. In einem
zweiten Beispiel wurde die visuelle Exploration und Identifikation von Reaktionsbedingun-
gen beschrieben, die zur Reaktionsplanung verwendet werden können. Das letzte Anwen-
dungsbeispiel verdeutlichte die Verwendbarkeit des InfVis-Programms zur Analyse von
Struktur-Aktivitäts-Beziehungen in der Pharmaforschung.
192
Kapitel 9
Literaturverzeichnis
[1] Fischer, E., Einfluß der Configuration auf die Wirkung der Enzyme, Ber. Dtsch. Chem.Ges., 27, 1894, 2985 - 2993.
[2] Koshland, D. E. Jr., Protein Shape and Biological Control, Sci. Amer., 229(4), 1973,52 - 64.
[3] Casher, O.; Chandramohan, G. K.; Hargreaves, M. J.; Leach, C.; Murray-Rust, P.;Rzepa, H. S.; Sayle, R.; Whitaker, B. J., Hyperactive Molecules and the World-Wide-Web Information System, J. Chem. Soc. Perkin Trans. 2, 2, 1995, 7 - 11.
[4] Warr, W. A., Communications and Communities of Chemists, J. Chem. Inf. Comput.Sci., 38(6), 1998, 966 - 975.
[5] Rzepa, H. S., A History of Hyperactive Chemistry on the Web: From Text and Imagesto Objects, Models and Molecular Components, Chimia, 52, 1998, 123 - 132.
[6] Rzepa, H. S.; Whitaker, B. J.; Winter, M. J., Applications of the World-Wide-WebSystem, J. Chem. Soc., Chem. Commun., 17, 1994, 1907 - 1910.
[7] Clark, T.; Roth, H., The Journal of Molecular Modeling: Impact, Expectations andExperience, Chimia, 52(11), 1998, 664 - 667.
[8] Rzepa, H. S., Internet-based Computational Chemistry Tools, In: Encyclopaedia ofComputational Chemistry, von Rague-Schleyer, P.; Allinger,N. L.; Clark, T.; Gasteiger,J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.:Chichester, UK, 1998, 1426 - 1438.
[9] Vollhardt, H.; Brickmann, J., 3D Molecular Graphics on the World Wide Web, Pac.Symp. Biocomput., 1996, 663 - 673.
[10] Ihlenfeldt, W. D.; Gasteiger, J., Beyond the Hyperactive Molecule: Search, Salvage andVisualization of Chemical Information from the Internet, Pac. Symp. Biocomput., 1996,384 - 395.
[11] Krassavine, A., Java and JavaBeans for Cheminformatics, Chimia, 52, 1998, 668 - 672.
[12] Ertl, P.; Jacob, O., WWW-based Chemical Information Systems, Theochem, 419(1-3),1997, 113 - 130.
[15] Houghten, R. A.; Blondelle, S. E.; Cuervo, J. H., Development of New AntimicrobialAgents using a Synthetic Peptide Combinatorial Library involving more than 34 Mil-lion Hexamers. In: Innovation and Perspectives in Solid Phase Synthesis: Peptides,Polypeptides and Oligonucleotides, Epton, R., Ed.; Intercept Ltd., Andover, UK, 1992,237 - 239.
[16] Gasteiger, J., Database Mining: From Information to Knowledge, In: Proceedings of1997 Chem. Inf. Conf., Collier, H., Ed.; Infonortics Ltd., Calne, UK, 1997, 1 - 6.
[17] Upson, C.; Faulhaber, T.; Kamins, D.; Laidlaw, D.; Schlegel, D.; Vroom, J.; Gurwitz,R.; van Dam, A., The Application Visualization System: A Computational Environmentfor Scientific Visualization, IEEE Computer Graphics and Applications, 1989, 32 - 40.
[18] ChemSymphony: http://www.chemsymphony.com/
[19] Sayle, R., Glaxo Group Research, Greenford, UK.http://www.umass.edu/microbio/rasmol/
[20] Rezk-Salama, C.; Engel, K.; Bauer, M.; Greiner, G.; Ertl, T., Interactive Volume Rende-ring on Standard PC Graphics Hardware Using Multi-Textures and Multi-Stage Rasteri-zation, In: Proceedings of Eurographics SIGGRAPH, Workshop on GraphicsHardware, 147, 2000, 109 - 118.
[25] Lorensen, W. E.; Cline, H. E., Marching Cubes: A High Resolution 3D Surface Con-struction Algorthm. In: Proceedings of SIGGRAPH, Computer Graphics ConferenceSeries, 1987, 163 - 169.
[26] Engel, K. D., Strategien und Algorithmen zur interaktiven Volumenvisualisierung inDigitalen Dokumenten, Dissertation, Institut für Informatik der Universität Stuttgart,2002.
[27] Foley, J.; van Dam, A.; Hughes, J., Computer Graphics: Principles and Practic, 2ndedition in C, Addison-Wesley, Reading, Massachusetts, USA, 1997.
[28] http://www.cave.vt.edu/
[29] http://www.pdc.kth.se/projects/vr-cube/
[30] Actuality Systems Inc., Burlington, MA, USAhttp://www.actuality-systems.com/
[31] Borenstein, N. S., Upper Layer Protocols, In: Architectures and Applications, Elsevier,Amsterdam, 1992, Vol. 7, Kapitel 37, 461 - 462.
194
9 Literaturverzeichnis
[32] Van-Vliet, B.; Maffet, T., Recent Advances in Structure Search and Retrieval via Nets-cape Navigator and MDL CHEMSCAPE(tm), Abs. Papers Am. Chem. Soc., 212th ACSNational Meeting, Orlando, FL, USA, 212, CINF-29, 1996.
[33] Arnold, K.; Gosling, J., The Java Programming Language, Addison-Wesley, Reading,Massachusetts, USA, 1998.
[34] ISO/IEC 14772-1:1997. The Virtual Reality Modeling Language.http://www.web3d.org/technicalinfo/specifications/vrml97/, 1997.
[36] Sowizral, H.; Nadeau, D.; Bailey, M.; Deering, M., Introduction to Programming withJava3D. ACM SIGGRAPH 98 Course Notes, July 1998, 1998.
[37] Ihlenfeldt, W. D.; Takahashi, Y.; Abe, H.; Sasaki, S. J., Computation and Managementof Chemical Properties in CACTVS: An Extensible Networked Approach towardModularity and Compatibility, J. Chem. Inf. Comput. Sci., 34, 1994, 109 - 116.
[38] Ihlenfeldt, W. D.; Takahashi, Y., Abe, H.; Sasaki, S., CACTVS: A Chemistry AlgorithmDevelopment Environment, In: Proceedings of the 15th Symposium on Chemical Infor-mation and Computer Sciences/20th Symposium on Structure-Activity Relationships;Machida, K.; Nishioka, T., Eds., Kyoto University, Kyoto, Japan, 1992, 102 - 105.
[39] Ousterhout, J. K., Tcl and the Tk Toolkit, Addison-Wesley, Reading, Massachusetts,USA, 1994.
[40] Sadowski, J.; Gasteiger, J., From Atoms and Bonds to Three-dimensional Atomic Coor-dinates: Automatic Model Builders., Chem. Reviews, 93, 1993, 2567-2581.
[41] Sadowski, J.; Gasteiger, J.; Klebe, G., Comparison of Automatic Three-dimensionalModel Builders Using 639 X-Ray Structures, J. Chem. Inf. Comput. Sci., 34, 1994,1000-1008.
[43] Kendrew, J. C.; Bodo, G.; Dintzis, H. M.; Parrish, R.G.; Wyckoff, H.; Phillips, D. C., Athree Dimensional Model of the Myoglobin Molecule obtained by X-ray Analysis,Nature, 181, 1958, 662 - 666.
[44] Rubin, B.; Richardson, J. S., The Simple Construction of Protein Alpha-CarbonModels, Biopolymers, 11(11), 1972, 2381 - 2385.
[45] Richardson J. S.; Richardson, D. C.; Thomas, K. A.; Silverton, E. W. Davies, D. R.,Similarity of three-dimensional Structure between the Immunoglobulin Domain and theCopper-Zinc Superoxide Dismutase Subunit, J. Mol. Biol., 102, 1976, 221 - 235.
[46] Levinthal, C., In: Proceedings of the IBM Scientific Computing Symposium on Compu-ter Aided Experimentation, International Business Machines, Yorktown Heights, NY,USA, 1965, 315 - 321.
[48] Langridge, R., Interactive Three-Dimensional Computer Graphics in Molecular Bio-logy, In: Computers in Life Science Research, Siler, W.; Lindberg, D. A. B., Eds, Ple-num Publishing Corp., New York, USA, 1975, 53 - 59.
195
9 Literaturverzeichnis
[49] Lesk, A. M., Macromolecular Marionettes, Comput. Biol. Med., 7, 1977, 113 - 129.
[50] Beem, K. M.; Richardson, D. C.; Rajagopalan, K. V., Metal Sites of Copper-ZincSuperoxidase Dismutase, Biochemistry, 16, 1977, 1930 - 1936.
[51] Feldmann, R. J., The Design of Computing Systems for Molecular Modelling, Annu.Rev. Biophys. Bioeng., 5, 1976, 477 - 510.
[52] Porter, T. K., Spherical Shading, Comput. Graphics (SIGGRAPH), 12, 1978, 282 - 285.
[53] Porter, T. K., Comput. Graphics (SIGGRAPH), 13, 1979, 234 - 236.
[54] Koradi, R.; Billeter, M.; Wüthrich, K., MOLMOL: A Program for Display and Analysisof Macromolecular Structures, J. Mol. Graphics, 14, 1996, 51 - 55.
[57] Richardson, J. S., The Anatomy and Taxonomy of Protein Structure, Adv. Protein.Chem., 34, 1981, 167 - 339.
[58] Richards, F. M., Areas, Volumes, Packing, and Protein Structure, Annu. Rev. Biophys.Bioeng., 6, 1977, 151 - 176.
[59] Connolly, M. L., Analytical Molecular Surface Calculation, J. Appl. Crystallogr., 16,1983, 548 - 558.
[60] Connolly, M. L., Solvent-Accessible Surfaces of Proteins and Nucleic Acids, Science,221, 1983, 709 - 713.
[61] Lee, B.; Richards, F. M., The Interpretation of Protein Structures: Estimation of StaticAccessibilty, J. Mol. Biol., 55(3), 1971, 379 - 400.
[62] Duncan, B. S.; Olson, A. J., Approximation and Visualization of large-scale Motion ofProteins Surfaces, J. Mol. Graphics, 13, 1995, 250 - 257.
[63] Jain, A. N.; Dietterich, T. G.; Lathrop, R. H.; Chapman, D., Compass: A Shape-basedMachine Learning Tool for Drug Design, J. Comput.-Aided Mol. Design, 8, 1994, 635 -652.
[64] Mezey, P. G., Molecular Surfaces, In: Reviews in Computational Chemistry, Lipkowitz,K.; Boyd, D., Ed., VCH, Weinheim, 1990, 265 - 294.
[65] Kühlbrandt, W.; Williams, A., Analysis of Macromolecular Structure and Dynamics byElectron Cryo-Microscopy, Curr. Opin. in Chem. Biol., 3, 1999, 537 - 543.
[66] Stark, H.; Dube, P.; Luhmann, R.; Kastner, B., Arrangement of RNA and Proteins in theSpliceosomal U1 small nuclear Ribonucleoprotein Particle, Nature, 409(6819), 2001,539 - 542.
[67] Blinn, J. F., Simulation of Winkled Surfaces, Comput. Graphics, 12, 1978, 286 - 292.
[68] Teschner, M.; Henn, C.; Vollhardt, H.; Reiling, S.; Brickmann, J., Texture Mapping: Anew Tool for Molecular Graphics, J. Mol. Graphics, 12, 1994, 98 - 105.
[69] Bonaccorsi, R.; Scrocco, E.; Tomasi, J., Molecular SCF Calculations for the GroundState of Some Three-Membered Ring Molecules, J. Chem. Phys., 54(10), 1970, 5270.
196
9 Literaturverzeichnis
[70] Murray, J. S.; Politzer, P., Electrostatic Potential, In: Encyclopedia of ComputationalChemistry, von Rague-Schleyer, P.; Allinger,N. L.; Clark, T.; Gasteiger, J.; Kollman, P.A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley & Sons, Inc.: Chichester, UK,1998, 912 - 920.
[71] Bernstein, F. C.; Koetzle, T. F.; Williams, G. J. B.; Meyer, E. F.; Brice, M. D.; Rodger, J.R. R.; Kennard, O.; Shimanouchi, T.; Tasumi, M., The Protein Data Bank: A Computer-based Archival File for Macromolecular Structures, J. Mol. Biol., 112(3), 1977, 535 -542.
[72] Dalby, A.; Nourse, J. G.; Hounshell, W. D.; Gushurst, A. K. I.; Grier, D. L.; Leland, B.A.; Laufer, J., Description of Several Chemical Structure File Formats used by Compu-ter Programs developed at Molecular Design Limited, J. Chem. Inf. Comput. Sci., 32,1992, 244 - 255.
[73] XMol, Minnesota Super Computer Center, Minneapolis, MN, USA.
[74] Casher, O.; Rzepa, H. S., Chemical Collaboratories using World-Wide Web Servers andEyeChem Based Viewers, J. Mol. Graphics, 13(5), 1995, 268 - 270.
[75] Casher, O.; Rzepa, H. S., A Chemical Collaboratory using Explorer EyeChem and theCommon Client Interface, Computer Graphics, 95, 1995, 52.
[76] http://molvis.sdsc.edu/protexpl/index.htm
[77] Lancashire, R. J.; Muir, C.; Reichgelt, H., JCAMP-DX Data Viewer for Windows (95,98, ME and NT/2000).http://wwwchem.uwimona.edu.jm:1104/software/jcampdx.html
[78] Hinchcliffe, A., CS Chem3D Pro 3.5 and CS MOPAC Pro (Mac and Windows) UK,Elec. J. Of Theor. Chem., 2, 1997, 215 - 217.
[79] Pear, M.; Bernstein, J.; Li, C. Z.; McDonald, R., Weblab(tm): A Framework for interac-tive Web-based Applications, Abs. Papers Am. Chem. Soc., 212th ACS National Mee-ting, Orlando, FL, USA, 1996, 28-CINF.
[80] Rzepa, H. S.; Tonge, A. P., VChemLab: A Virtual Chemistry Laboratory. The Storage,Retrieval, and Display of Chemical Information Using Standard Internet Tools, J.Chem. Inf. Comput. Sci., 38, 1998, 1048 - 1053.
[81] Suñer, G. A.; Casher, O.; Rzepa, H. S., Studying Perturbation Theory with ExplorerEyeChem and VRML, Electronic Conference on Trends in Organic Chemistry, Rzepa,H. S.; Goodman J.M.; Leach, C., Eds, The Royal Society of Chemistry, 1996.
[82] Casher, O.; Leach, C.; Page, C. S.; Rzepa, H. S., Advanced VRML Based ChemistryApplications: A 3D Molecular Hyperglossary, In: Proceedings of the Second ElectronicComputational Chemistry Conference, 1995.http://www.ch.ic.ac.uk/rzepa/eccc2/
[83] Vollhardt, H.; Henn, C.; Teschner, M.; Brickmann, J., Virtual Reality Modeling Lan-guage in Chemistry, J. Mol. Graphics, 13(6), 1995, 368 - 372.
[84] Moeckel, G.; Keil, M.; Spiegelhalder, B.; Brickmann, J., VRML in Cancer Research:Local Molecular Properties of the p53 Tumor Suppressor Protein-DNA Interface, J.Mol. Model., 2, 1996, 370 - 372.
[88] Tonge, A. P.; Rzepa, H. S.; Yoshida, H., Authentication of Internet-Based DistributedComputing Resources in Chemistry, J. Chem. Inf. Comput. Sci., 39, 1999, 483 - 490.
[89] Krause, S.; Willighagen, E.; Steinbeck, C., JChemPaint - Using the CollaborativeForces of the Internet to Develop a Free Editor for 2D Chemical Structures, Molecules,5, 2000, 93 - 98.
[93] Ihlenfeldt, W. D.; Voigt, J. H.; Bienfait, B.; Oellien, F.; Nicklaus, M. C., EnhancedCACTVS Browser of the Open NCI Database, J. Chem. Inf. Comput. Sci., 42, 2002,46 - 57.http://cactus.nci.nih.gov/ncidb2/http://www2.chemie.uni-erlangen.de/ncidb2/
[94] Brecher, J. S., The ChemFinder WebServer: Indexing Chemical Data on the Internet,Chimia, 52, 1998, 658 - 663.
[95] Murray-Rust, P.; Rzepa, H. S., Chemical Markup, XML, and the Worldwide Web. 1.Basic Principles, J. Chem. Inf. Comput. Sci., 39, 1999, 928 - 942.
[96] Ertl, P., QSAR Analysis through the World-Wide-Web, Chimia, 52, 1998, 673 - 677.
[97] Selzer, P., IR Spectra Simulation and Information Processing on the WWW, Chimia, 52,1998, 678 - 682.
[98] Wiggins, G., Chemistry on the Internet: The Library on Your Computer, J. Chem. Inf.Comput. Sci., 38, 1998, 956 - 965.
[99] Bender, M.; Seck, A.; Hagen, H., A Client-Side Approach towards Platform Indepen-dent Molecular Visualization over the World Wide Web, In: Proceedings ofVisSym ’99, Vienna, 1999.
[100] Bender, M.; Seck, A.; Hagen, H., Using the Web as a Basis for an Efficient, PlatformIndependent Client-driven Molecular Visualization System, In: Proceedings of WWW8,Toronto, 1999.
[101] Moeckel, G.; Keil, M.; Hollstein, M.; Spiegelhalder, B.; Bartsch, H.; Brickmann, J.,VRML in Cancer Research: Local Changes in Binding Properties of Wild Type andMutaded p53 Tumor Suppressor Protein, J. Mol. Model., 3, 1997, 382 - 385.
[102] Engel, K.; Oellien, F.; Ihlenfeldt, W. D.; Ertl, T., Client-Server-Strategien zur Visuali-sierung komplexer Struktureigenschaften in digitalen Dokumenten der Chemie, it+ti, 6,2000, 17 - 23.
[103] Ihlenfeldt, W. D.; Engel, K., Visualizing Chemical Data in the Internet - Data-drivenand Interactive Graphics, Computer and Graphics, 22(6), 1998, 703 - 714.
[104] Weininger, D., SMILES: A Chemical Language and Information System. 1. Introduc-tion to Methodology and Encoding Rules, J. Chem. Inf. Comput. Sci., 28, 1988, 31 - 36.
[107] Yoshida, H.; Matsuura, H., CyberMol: A Molecular Graphics Program System on theWorld Wide Web Using the Common Gateway Interface, J. Chem. Soft., 3, 1997, 157.
[108] Yoshida, H.; Matsuura, H., MOLDA for Java - A Platform-independent MolecularModeling and Molecular Graphics Program Written in the Java Language, J. Chem.Soft., 3, 1997, 81.
[109] Leipold, M., Integrated VRML Molecule Graphics for the WWW, Diplomarbeit, Uni-versität Erlangen-Nürnberg, 1996.http://www2.chemie.uni-erlangen.de/disserstationen/
[111] IR-Tutor, Columbia Universität, NY, USA:http://www.columbia.edu/cu/chemistry/edison/IRTutor.html
[112] Organic Chemistry Online, Universität Illinois, Chicago, USA:http://www.chem.uic.edu/web1/OCOL-II/WIN/SPEC.HTM
[113] Lathi, P. M.; Motyka, E. J.; Lancashire, R. J., Interactive Visualization of Infrared Spec-tral Data: Synergy of Computation, Visualization, and Experiment for Learning Spec-troscopy, J. Chem. Educ., 77(5), 2000, 649 - 653.
[114] WebMO-Homepage: http://www.webmo.net/
[115] Steiner, D., Molecular Modelling als Medium im Chemieunterricht, Nachr. Chemie, 4,2001, 495 - 497.
[117] Sanner, M. F.; Olson, A. J.; Spehner, J.-C., Fast and Robust Computation of MolecularSurfaces, In: Proceedings of the 11th ACM Symp. Comp. Geom., C6 - C7, 1995.
[118] Nayal, M.; Hitz, B. C.; Honig, B., GRASS: A Server for the Graphical Representationand Analysis of Structures, Protein Sci., 8, 1999, 676 - 679.
[119] Dodd, J., Digital Briefs: New Software and Websites for the Chemical Enterprise,C & EN, 2002, 34.
[120] http://www.roempp.com/
[121] Dewar, M. J. S.; Zoebisch, E. G.; Stewart, J. J. P., AM1: A New General Purpose Quan-tum Mechanical Molecular Model, J. Am. Chem. Soc., 107, 1985, 3902.
[122] http://www.cambridgesoft.com
[123] Clark, T.; Koch, R., The Chemist’s Electronic Book of Orbitals, Springer Verlag, Berlin,Deutschland, 1999.
[124] Pfeifer, P.; Reichelt, R., H2O & Co - Anorganische Chemie, Oldenbourg Verlag, Mün-chen, 2002.
[125] Engel, K.; Grosso, R.; Ertl, T., Progressive Iso-Surfaces on the Web. In: Proceedings ofIEEE Visualization, IEEE Computer Society Press, 1998.
[126] Bohne, A.; Lang, E.; von der Lieth, C.-W., Molecular Visualization Programs on theWeb, Drugs of the Future, 25(5), 2000, 489 - 500.
[129] Fayyad, U. M.; Piatetski-Shapiro, G.; Smyth, P., The KDD Process for Extracting Use-ful Knowledge from Volumes of Data, Comm. of the ACM, 39(11), 1996, 27 - 34.
[130] Wold, S.; Sjöström, M.; Andersson, P. M.; Linusson, A.; Edman, M.; Lundstedt, T.;Nordén, B.; Sandberg, M.; Uppgård, L-L., Multivariate Design and Modelling inQSAR, Combinatorial Chemistry, and Bioinformatics, In: Molecular Modeling andPrediction of Bioactivity, Gundertofte, K.; Jorgensen, F. S. (Editoren), Kluwer Acade-mic Press, New York, USA, 2000, 27 - 45.
[131] Wold, S.; Albano, C.; Dunn, W. J.; Edlund, U.; Esbensen, K.; Geludi, P.; Hellberg, S.;Johansson, E.; Lindberg, W.; Sjöström, M., Multivariate Data Analysis in Chemistry,In: Chemometrics: Mathematics and Statistics, Kowalski, B. R. (Editor), D. ReidelPublishing Company, Dordrecht, Holland, 1984, 250 - 300.
[132] Wold, S., Principal Component Analysis, Chemom. and Intell. Lab. Sys., 2, 1987, 37 - 52.
[133] Buydens, L. M. C.; Reijmers, T. H.; Beckers, M. L. M.; Wehrens, R., Molecular Data-Mining: A Challenge for Chemometrics, Chemom. and Intell. Lab. Sys., 49, 1999, 121 - 133.
[134] Bryant, C. H.; Rowe, R. C., Knowledge Discovery in Databases: Application to Chro-matography, Trends in Analyt. Chem., 17(1), 1998, 18 - 24.
[135] Geladi, P.; Kowalski, B., Partial Least Squares Regression: A Tutorial, Analyt. Chim.Acta, 185, 1986, 1 - 17.
[136] Derde, M. P.; Massart, D. L., Supervised Pattern Recognition, Anal. Chim. Acta, 191,1986, 1 - 16.
[137] Varmuza, K., Chemometrics: Multivariate View on Chemical Problems, In: Encyclope-dia of Computational Chemistry, von Rague-Schleyer, P.; Allinger, N. L.; Clark, T.;Gasteiger, J.; Kollman, P. A.; Schaefer, III, H. F.; Schreiner, P. R., Eds.; John Wiley &Sons, Inc.: Chichester, UK, 1998, 346 - 366.
[138] Borg, I.; Groenen, P., Modern Multidimensional Scaling: Theory and Applications,Springer Verlag, New York, USA, 1997.
[139] Crippen, G. M.; Havel, T. F., Stable Calculation of Coordinates from Distance Informa-tion, Acta Crystall., A34, 1978, 282 - 284.
[140] Glunt, W.; Hayden, T. L., Raydan, M., Molecular Conformation from Distance Matri-ces, J. Comput. Chem., 14, 1993, 114 - 120.
[141] Agrafiotis, D., K.; Rassokhin, D. N.; Lobanov, V. S., Multidimensional Scaling andVisualization of Large Molecular Similarity Tables, J. Comput. Chem., 22(5), 2001,488 - 500.
[142] Brause, R, Neuronale Netze, 2.te Auflage, B. G. Teubner Verlag, Stuttgart, 1995.
[143] Zupan, J.; Gasteiger, J., Neural Networks in Chemistry and Drug Design - An Introduc-tion, Wiley-VCH, Weinheim, 1999.
[145] Ritter, H.; Martinez, T.; Schulten, K., Neuronale Netze: Eine Einführung in die Neuro-informatik selbstorganisierender Netzwerke, Addison-Wesley, Bonn, 1990.
[148] Wehrens, R.; Buydens, M. C., Evolutionary Optimization: A Tutorial, Trends Analyt.Chem., 17, 1998, 193 - 203.
[149] Gasteiger, J., Data Mining in Drug Design, In: Rational Approaches to Drug Design,Proceedings of the 13th Europ. Symp. on QSAR, Höltje, H.-D.; Sippl, W., Prous Sci-ence, 2001, 459 - 474.
[150] Wagener, M.; van Geerestein, V. J., Potential Drugs and Nondrugs: Prediction and Iden-tification of Important Structural Features, J. Chem. Inf. Comput. Sci., 40, 2000, 280 -292.
[151] Willett, P., A Comparison of some Hierarchial Agglomerative Clustering Algorithmsfor Structure-Property Correlation, Anal. Chim. Acta, 136, 1982, 29 - 37.
[152] Stanton, D. T.; Morris, T., W.; Roychoudhury, S.; Parker, C. N., Application of Nearest-Neighbor and Cluster Analyses in Pharmaceutical Lead Discovery, J. Chem. Inf. Com-put. Sci., 39, 1999, 21 - 27.
[153] Ware, C., Information Visualization - Perception for Design, Morgan KaufmannPublishers, San Francisco, USA, 1999.
[154] Card, S., K.; Mackinlay, J., D.; Shneiderman, B., Readings in Information Visualization- Using Vision to Think, Morgan Kaufman Publishers, San Francisco, USA, 1999.
[155] Fayyad, U.; Grinstein, G., G.; Wierse, A., Information Visualization in Data Mining andKnowledge Discovery, Morgan Kaufman Publishers, San Francisco, USA, 2002.
[156] Soukup, T.; Davidson, I., Visual Data Mining - Techniques and Tools for Data Visuali-zation and Mining, Wiley Publishing Inc., New York, USA, 2002.
[157] Ankerst, M., Visual Data Mining, Dissertation, Fakultät für Mathematik und Informatikder Ludwig-Maximilians-Universität München, München, 2000dissertation.de - Verlag im Internet GmbH, Berlin, 2001.
[158] Shneiderman, B., The Eyes Have It: A Task by Data-type Taxonomy for InformationVisualization, In: Proceedings of Visual Languages, IEEE Computer Science Press, LosAlamitos, CA, USA, 1996, 336 - 343.
[159] Tufte, E. R., The Visual Display of Quantitative Information, Graphics Press, Cheshire,CT, USA, 1983.
[160] Bertin, J., Graphics and Graphic Information Processing, Walter de Gruyter Verlag,Berlin, 1981.
201
9 Literaturverzeichnis
[161] Wong, P. C.; Bergeron, R. D., 30 Years of Multidimensional Multivariate Visualization,In: Proceedings of the Workshop of Scientific Visualization, IEEE Computer SocietyPress, Los Alamitos, CA, USA, 1995.
[162] Keim, D. A., Visual Exploration of Large Data Sets, Comm. of the ACM, 44(8), 2001,39 - 44.
[163] Keim, D. A., Information Visualization and Visual Data Mining, IEEE Trans. Vis. Com-put. Graph., 8(1), 2002, 1 - 8.
[164] Wills, G.; Keim, D. A., (Editoren), Proceedings of the 1999 IEEE Symposium on Infor-mation Visualization (InfVis’99), IEEE Computer Society Press, Los Alamitos, CA,USA, 1999.
[165] Roth, S. F.; Keim, D. A., (Editoren), Proceedings of the 2000 IEEE Symposium onInformation Visualization (InfoVis 2000), IEEE Computer Society Press, Los Alamitos,CA, USA, 2000.
[166] Andrews, K.; Roth, S. F.; Wong, P. C., (Editoren), Proceedings of the 2001 IEEE Sym-posium on Information Visualization (InfoVis 2001), IEEE Computer Society Press, LosAlamitos, CA, USA, 2001.
[167] Hoffman, P. E.; Grinstein, G. G., A Survey of Visualitations for High-Dimensional DataMining, In: Information Visualization in Data Mining and Knowledge Discovery,Fayyad, U.; Grinstein, G. G.; Wierse, A., (Editoren), Morgan Kaufman Publishers, SanFrancisco, USA, 2002, 47 - 82.
[169] Huber, P. J., Projection Pursuit, The Annals of Statistics, 13(2), 1985, 435 - 474.
[170] Wright, W., Information Animation in the Capital Markets, In: Proceedings Int. Symp.On Information Visualization’ 95, Atlanta, GA, USA, 1995, 19 - 25.
[171] Furnas, G. W.; Buja, A., Prosection Views: Dimensional Inference Through Sectionsand Projections, J. Comput. Stat., 3(4), 1994, 323 - 353.
[172] Andrews, D. F., Plots of High-Dimensional Data, Biometrics, 1972, 69 - 97.
[173] van Wijk, J. J.; van Liere, R., HyperSlice, In: Proceedings IEEE Visualization ’93, SanJose, CA, USA, 1993, 119 - 125.
[174] Alpern, B.; Carter, L., Hyperbox, In: Proceedings IEEE Visualization ’91, San Diego,CA, USA, 1991, 133 - 139.
[176] Hoffman, P. E., Table Visualizations: A Formal Model and its Applications, Disserta-tion, Computer Science Department, University of Massachusetts Lowell, MA, USA,1999.
[177] Microsoft Excel 2002, Microsoft Corporation, Redmond, WS, USA, 2002.http://www.microsoft.com/office/excel/
[178] Statistica 6, StatSoft Incorporate, Tulsa, OK, USA, 2002.http://www.statsoftinc.com/
202
9 Literaturverzeichnis
[179] Ward, M. O., XmdvTool: Integrating Multiple Methods for Visualizing MultivariateData, In: Proceedings IEEE Visualization ’94, Washington, DC, USA, 1994, 326 - 336.http://davis.wpi.edu/~xmdv/
[180] Bertin, J., Semiology of Graphics, The University of Wisconsin Press, Madison, WS,USA, 1983.
[181] Chernoff, H., The Use of Faces to Represent Points in n-Dimensional Space Graphi-cally, Technical Report No. 71, Department of Statistics, Stanford University, CA,USA, 1971.
[182] Chambers, J. M.; Cleveland, W. S.; Kleiner, B.; Tukey, P. A., Graphical Methods forData Analysis, Wadsworth Press, Belmont, CA, USA, 1983.
[183] Pickett, R. M.; Grinstein, G. G., Iconographic Displays for Visualizing Multidimensio-nal Data, In: Proceedings IEEE Conf on Systems, Man and Cybernetics, IEEE Press,Piscataway, NJ, USA, 1988, 514 - 519.
[184] Beddow, J., Shape Coding of Multidimensional Data on a Microcomputer Display, In:Proceedings IEEE Visualization ’90, San Francisco, CA, USA, 1990, 238 - 246.
[185] Levkowitz, H., Color Icons: Merging Color and Texture Perception for IntegratedVisualization of Multiple Parameters, In: Proceedings IEEE Visualization ’91, SanDiego, CA, USA, 1991.
[186] Keim, D. A., Pixel-orientated Database Visualizations, In: Proceedings Tutorial ACMSIGMOD Int. Conf. on Management of Data, Montreal, Canada, 1996, 543.
[187] Keim, D. A.; Kriegel, H.-P.; Ankerst, M., Recursive Pattern: A Technique for Visuali-zing Very Large Amounts of Data, In: Proceedings Visualization ’95, Atlanta, GA,USA, 1995, 279 - 286.
[188] Ankerst, M.; Keim, D. A.; Kriegel, H.-P., Circle Segments: A Technique for VisuallyExploring Large Multidimensional Data Sets, In: Proceedings Visualization ’96, HotTopic Session, 1996.
[189] Becker, B. G., Research Report: Volume Rendering for Relational Data, In: ProceedingsInformation Visualization ’97, Dill, J.; Gershon, N., Editoren, IEEE Computer SocietyPress, Los Alamitos, CA, USA, 1997, 87 - 90.
[190] LeBlanc, J.; Ward, M. O.; Wittels, N., Exploring N-Dimensional Databases, In: Procee-dings IEEE Visualization ’90, San Francisco, CA, USA, 1990, 230 - 239.
[191] Robertson, G. G.; Mackinlay, J. D.; Card, S. K., Cone Trees: Animated 3D Visualizati-ons of Hierarchical Information, In: Proceedings Human Factors in Computing SystemsCHI ’91 Conf., New Orleans, LA, USA, 1991, 189 - 194.
[192] Kraus, M.; Ertl, T., Interactive Data Exploration with Customized Glyphs, In: Procee-dings of WSCG ’01, Plyen, Tschechien, 2001, P20-P23.http://wscg.zcu.cz/wscg2001/Papers_2001/R54.pdfhttp://wwwvis.informatik.uni-stuttgart.de/~kraus/glyphs/
[193] Swayne, D. F.; Cook, D.; Buja, A., User’s Manual for XGobi: A Dynamic GraphicsProgram for Data Analysis, Bellcore technical memorandum, 1992.
[194] Bier, E. A.; Stone, M. C.; Pier, K.; Buxton, W.; DeRose, T., Toolglass and magic Len-ses: The See-Through Interface, In: Proceedings SIGGRAPH ’93, 1993, 73 - 80.
203
9 Literaturverzeichnis
[195] Spoerri, A., Infocrystal: A Visual Tool for Information Retrieval, In: ProceedingsVisualization ’93, 1993, 150 -157.
[196] Ahlberg, C.; Shneiderman, B., Visual Information Seeking: Tight Coupling of DynamicQuery Filters with Starfield Displays, In: Proceedings Human Factors in ComputingSystems CHI’94 Conf., 1994, 313 - 317.
[197] Shneiderman, B., Dynamic Queries for Visual Information Seeking, In: Readings inInformation Visualization - Using Vision to Think, Card, S., K.; Mackinlay, J., D.;Shneiderman, B., Editoren, Morgan Kaufman Publishers, San Francisco, USA, 1999,236 - 243.
[198] Fishkin, K.; Stone, M. C., Enhanced Dynamic Queries via Moveable Filters, In: Rea-dings in Information Visualization - Using Vision to Think, Card, S., K.; Mackinlay, J.,D.; Shneiderman, B., Editoren, Morgan Kaufman Publishers, San Francisco, USA,1999, 253 - 259.
[199] Sarkar, M.; Brown, M., Graphical Fisheye Views, Comm. ACM, 37(12), 1994, 73 - 84.
[201] Carpendale, M. S. T.; Cowperthwaite, D. J.; Fracchia, F. D., IEEE Computer Graphicsand Applications, Sonderausgabe: Informationsvisualisierung, 17(4), 1997, 42 - 51.
[202] http://dtp.nci.nih.gov
[203] Boyd, M. R., Status of the NCI Preclinicalantitumor Drug Discovery Screen. In:Cancer: Principles and Practice of Oncology Update, DeVita, V. T.; Hellman, S.;Rosenberg, S. A., Editoren, J. B. Lippicott, Philadelphia, Vol. 3, 1989, 1 - 12.
[204] Boyd, M. R., The NCI in vitro Anticancer Drug Discovery Screen: Concept, Implemen-tation, and Operation, 1985 - 1995, In: Anticancer Drug Development Guide: Preclini-cal Screening, Clinical Trials, and Approval, Teicher, B. A., Editor, Humana Press,Totowa, NJ, USA, 1997, 23 - 42.
[205] Shi, L., M.; Fan, Y.; Lee, J. K.; Waltham, M.; Andrews, D. T.; Scherf, U.; Paull, K. D.;Weinstein, J. N., Mining and Visualizing Large Anticancer Drug Discovery Databases,J. Chem. Inf. Comput. Sci., 40, 2000, 367 - 379.
[206] Paull, K. D.; Shoemaker, R. H.; Hodes, L.; Monks, A.; Scudiero, D. A.; Rubinstein, L.;Plowman, J.; Boyd, M. R., Display and Analysis of Patterns of Differential Activity ofDrugs against Human Tumor Cell Lines: Development of Mean Graph and COMPAREalgorithm, J. Natl. Cancer Inst., 81, 1989, 1088 - 1092.
[207] http://www.mysql.com
[208] Rohrer, R. M.; Swing, E., Web-Based Information Visualization, IEEE Computer Gra-phics and Appl., 17(4), 1997, 52 - 59.
[210] Roskothen, M., http://www.vruniverse.com/vrml/chart/chart.html[211] http://www.em7.com
[212] http://www.parallelgraphics.com
[213] http://www.rinvoice.com
204
9 Literaturverzeichnis
[214] Demesmaeker, M., Decision Analytics in Life Science Discovery through Visual Inte-gration of Chemical and Biological Information on the Desktop, In: Rational Approa-ches to Drug Design, Proceedings of the 13th Europ. Symp. on QSAR, Höltje, H.-D.;Sippl, W., Prous Science, 2001, 506 - 511.http://www.spotfire.com
[215] Ahlberg, C.; Wistrand, E., IVEE: An Information Visualization and Exploration Envi-ronment, In: Proceedings Information Visualization ’95, IEEE Computer Society Press,Los Alamitos, CA, USA, 1995, 66 - 73.
[217] Persönliche Mitteilung: Zielesney, A., ehemals Bayer AG.
[218] http://java.sun.com/products/jdbc/
[219] http://www.mysql.com
[220] Travis, D., Effective Color Displays: Theory and Practice, Academic Press, London,UK, 1991.
[221] Catarci, T., Interaction with Databases, IEEE Computer Graphics and Applications,1996, 67 - 69.
[222] Ahlberg, C.; Shneiderman, B., The Alphaslider: A Rapid and Compact Selector, In:Proceedings ACM Conference on Human Factors in Computing Systems, CHI’94 Con-ference, ACM Press, New York, USA, 1994, 365 - 371.
[223] Lipinski, C. A.; Lombardo, F.; Dominy, B. W.; Feeney, P. J., Experimental and Compu-tational Approaches to Estimate Solubilty and Permeability in Drug Discovery Settings,Adv. Drug Discovery, 23, 1997, 3 - 25.
[224] Kobsa, A., An Empirical Comparison of Three Commercial Information VisualizationSystems, In: Proceedings of the 2001 IEEE Symposium on Information Visualization(InfoVis 2001), Andrews, K.; Roth, S. F.; Wong, P. C., (Editoren), IEEE ComputerSociety Press, Los Alamitos, CA, USA, 2001, 123 - 130.
[225] http://www.partek.com
[226] http://www.miner3d.com
[227] Roberts, G.; Myatt, G. J.; Johnson, W. P.; Cross, K. P.; Blower, P. E. Jr., LeadScope:Software for Exploring Large Sets of Screening Data, J. Chem. Inf. Comput. Sci., 40,2000, 1302 - 1314. http://www.leadscope.com
[234] Hao, M. C.; Dayal, U.; Hsu, M.; Baker, J.; D’Eletto, R., A Java-based Visual MiningInfrastructure and Applications, In: Proceedings of th 1999 IEEE Symposium on Infor-mation Visualization (InfVis’99), Wills, G.; Keim, D. A., (Editoren), IEEE ComputerSociety Press, Los Alamitos, CA, USA, 1999, 124 - 127.
[235] Munzner, T., Exploring Large Graphs in 3D Hyperbolic Space, IEEE Computer Gra-phics, 18(4), 1998, 18 - 23.http://www.inxight.com
[236] http://www.tgs.com
[237] Haller, M.; Jenichl, G.; Küng, J., Data Mining, Multidimensional Databases and theWeb for a Better Interpretation of Data, In: Proceedings 5th International ConferenceIDG’98, Florenz, Italien, 1998, on CDROM.
[240] Parlow, A.; Weiske, C.; Gasteiger, J., ChemInform - An Integrated Information Systemon Chemical Reations, J. Chem. Inf. Comput. Sci., 30, 1990, 400 - 402.
[241] MDL Reaktionsdatenbank Referenz
[242] Claisen, L.; Claparede, A., Ber., 14, 2463, 1881.
[243] Schmidt, J. G., Ber., 14, 1459, 1881.
[244] Carey, F. A.; Sundberg, R. J., Organische Chemie - Ein weiterführendes Lehrbuch,Wiley-VCH, Weinheim, 1995.
[245] Maggiora, G.; Johnson, M. A., Concepts and Applications of Molecular Similarity, JohnWiley, NY, USA, 1990.
[246] Keskin, O.; Ivet, B.; Jernigan, R. L.; Myers, T. G.; Beutler, J. A.; Shoemaker, R. H.;Sausville, E. A.; Covell, D. G., Characterization of Anticancer Agents by Their Growth-Inhibitory Activity and Relationships to Mechanism of Action and Structure, Anti-cancer Drug Design, 15(2), 2000, 79 - 98.
[247] Lippard, S. J., Platinum Complexes: Probes of Polynucleotide Structure and AntitumorDrugs, Acc. Chem. Res., 11, 1978, 211 - 217.
[248] Verheijen, R. H.; Beex, L.; Wagener, D. J.; Kenemans, P., Cis-Platin in Combinationwith low Dose Adriamycin and Cyclophosphoamide in Advanced Ovarian Carcinoma,Eur. J. Gynaecol. Onc., 6(2), 1985, 116 - 120.
Anhang D: Platinverbindungen im NCI In Vitro Screen
Anhang E: Publikationsliste
Anhang F: Lebenslauf
A-1
Anhang
A-2
Farbabbildungen
Anhang A: Farbabbildungen
Abb. A-1: VRML-Strukturdarstellungen von 3,5-Diaminophenol: a) Ball & Stick-Repräsentation, interaktiver Schalter zum Umschalten der Strukturdarstellung; b) Wireframe-Repräsentation mit σ-Ladungen; c) CPK-Modell; d) Capped-Darstellung.
Abb. A-2: VRML-Szene: Ball & Stick-Modell mit interaktiver, VRML-Skript-basierter Bindungswinkel- und Atomabstands-Berechnungsfunktion.
A-3
Anhang A
Abb. A-3: VRML-Animationssequenz: Initialisierung einer kationischen Polymerisation von 2-Methyl-buten-1 mit Ethanol und Bortrifluorid; unten rechts: Eingebettete Stop/Play/Step-Option.
Abb. A-4: ComSpec3D: Quantenchemisch berechnete Raman- (rot) und Infrarotspektren (blau).
Abb. A-5: ComSpec3D: VRML-Animationssequenz: -OH Deformationsschwingung von Phenol bei 1383 cm-1.
A-4
Farbabbildungen
Abb. A-6: MolSurf: VRML-Szene mit Strukturen und SES-Oberflächen (semitransparent) von TNT: a) - c): Rainbow-Farbskalierung einer a) Solid-Repräsentation, b) Dot Cloud-Repräsentation, c) Chicken Wire-Repräsentation; d)-f): Blau-Weiß-Rot-Farbskalierung einer Solid-Oberflächen-Repräsentation mit unterschiedlichen Strukturmodellen: d) Capped, Ball & Stick und f) Wireframe.
Abb. A-7: MolSurf: VRML-Szene mit Oberfläche (Solid-Repräsentation) von Trinitrotoluol und integriertem HUD-Menü.
A-5
Anhang A
Abb. A-8: OrbVis: Auswahlfenster.
Abb. A-9: OrbVis: Java-Applet und VRML-Plugin, HOMO von Anilin.
A-6
Farbabbildungen
Abb. A-10: Visualisierungsansatz mit dreidimensionalen Glyphen [192].
Abb. A-11: NCI anti-Tumor Screening Data 3D Interface: VRML-Szene mit biologischen Aktivitäten (relative Auftragung) in einer Balkendiagramm-Darstellung.
A-7
Anhang A
Abb. A-12: InfVis-Programm.
Abb. A-13: InfVis: Visualisierungstechniken; a) Balkendiagramm, b) Scatterplotdarstellung, c) 3D-Glyph-Technik
A-8
Farbabbildungen
Abb. A-14: InfVis-Selektions- und Detail-Werkzeuge; a) Selektionsboxen, b) Einzelpunktselektion,c) Detailwerkzeug, Darstellung von Datenwerten und Metainformation (Hyperlinks, Bilder).
a)
b)
c)
A-9
Anhang A
Abb. A-15: Reaktionsoptimierungs-Beispiel: a) Reaktionen bei 60 °C; b) Reaktionen auf Poystyrol; c) Reaktionen mit KOH, 23 °C, Tentagel; d) Reaktionen mit LiOH, 23 °C, Tentagel; e) Reaktionen mit NaOMe, 23 °C, Tentagel; f) Reaktionen ohne Reagenzienzugabe, 23 °C, Polystyrol.
a) b)
c) d)
e) f)
A-10
Farbabbildungen
Abb. A-16: Reaktionsplanungs-Beispiel: Reaktionen mit 1,3-Diisopropylcarbodiamid und 1-Phenyl-2-thioharnstoff in verschiedenen Lösungsmitteln.
Abb. A-17: InfVis-Progamm mit 2939 GI50-Aktivitätswerten; Aufsicht auf die zy-Ebene.
A-11
Anhang A
Abb. A-18: Antitumor-Aktivitätsbeispiel: relative Auftragung der GI50-Werte; a) Cluster 1 mit 33 Verbindungen; b) Cluster 2 mit 15 Verbindungen; c) Cluster 3 mit 50 Verbindungen; d) Cluster 4 mit 26 Verbindungen; e) Cluster 5 mit 14 Verbindungen.
a) b)
c) d)
e)
A-12
Hyperlinksammlung
Anhang B: Hyperlinksammlung
Hyperlinks zum ChemVis-Projekt, zu den in dieser Arbeit entwickelten Online-Diensten
und zum InfVis-Manual.
• ChemVis-Projekt:http://www2.chemie.uni-erlangen.de/ChemVis/Das ChemVis-Projekt ist Teil des DFG-Schwerpunktprogramms "VerteilteVerarbeitung und Vermittlung von digitalen Dokumenten" und setzt sich ausMitgliedern des Computer-Chemie-Centrums, Universität Erlangen-Nürnberg sowieder "Interaktive Systeme und Visualisierungsgruppe" des Instituts für Informatik,Universität Stuttgart zusammen.
• VRML File Creator for Chemical Structures:http://www2.chemie.uni-erlangen.de/services/vrmlcreator/http://cactus.nci.nih.gov/services/vrmlcreator/Der Service generiert VRML-Szenen von chemischen Strukturen und molekularenEigenschaften. Die Web-Applikation unterstützt eine Vielzahl von chemischen 2D-und 3D-Dateiformaten und berechnet bei Vorlage von 2D-Koordinaten dienotwendige 3D-Information automatisch.
• VRML-Animationsgenerator:http://www2.chemie.uni-erlangen.de/services/vrmlanim/Die Online-Anwendung erlaubt die portable 3D-Darstellung von animiertenTrajektorien wie beispielsweise Moleküldynamiken.
• ComSpec3D:http://www2.chemie.uni-erlangen.de/services/vrmlvib/Das Ziel von ComSpec3D ist die Berechnung und Visualisierung von Infrarot- undRamanspektren sowie die animierte VRML-Darstellung der korrespondierendenNormalschwingungen.
• MolSurf:http://www2.chemie.uni-erlangen.de/services/molsurf/MolSurf ermöglicht die Berechnung und dreidimensionale Darstellung vonmolekularen Oberflächen und Strukturen sowie des elektrostatischen Potentials.
• OrbVis:http://www2.chemie.uni-erlangen.de/services/orbvis/OrbVis wurde zur interaktiven Berechnung und 3D-Visualisierung vonMolekülorbitalen entwickelt.
A-13
Anhang B
• NCI anti-Tumor Screening Data 3D Interface:http://www2.chemie.uni-erlangen.de/services/ncitumordb/Das NCI anti-Tumor Screening Data 3D Interface ermöglicht die Analyse derAntitumor-Screeningdaten des amerikanischen Krebsforschungsinstituts, NCI, NIH.Der Service unterstützt eine Reihe von Suchoptionen wie beispielsweise Substruktur-und Ähnlichkeitssuchen und ermöglicht die dreidimensionale Darstellung derStruktur-Aktivitätsbeziehungen in einer VRML-Szene.
• NCI Screening Data 3D Miner:http://www2.chemie.uni-erlangen.de/services/nciscreen/Der NCI Screening Data 3D Miner stellt einer Weiterentwicklung des NCI anti-Tumor Screening Data 3D Interfaces dar. Der Service wurde um eine Vielzahl anSuchoptionen erweitert und ermöglicht mit Hilfe des InfVis-Programms das visuelleData Mining der resultierenden Struktur-Aktivitätsbeziehungen.
• InfVis:http://www2.chemie.uni-erlangen.de/research/information_visualization/http://www2.chemie.uni-erlangen.de/research/information_visualization/doc/ Das InfVis-Programm wurde zum visuellen Data Mining und zur Visualisierunggroßer, multidimensionaler Datensätze der Chemie wie beispielsweise High-Throughput-Screening-Daten entwickelt. Die Applikation ist sowohl als Standalone-als auch als Applet-Version erhältlich.
A-14
Krebszelllinien im NCI In Vitro Screen
Anhang C: Krebszelllinien im NCI In Vitro Screen
Liste der 60 humanen Krebszelllinien im In Vitro Screeningtest des amerikanischen Krebs-
Anhang D: Platinverbindungen im NCI In Vitro Screen
D.1 Cluster 1
Pt
Cl
Cl
N
N
H
H
H
H
NSC131558
N
O+
Pt+ S
+
N+
N−
N
O
ClH
H
H
H
NSC613670
Pt
ClSn
N+
SnCl
−Cl
Cl
Cl
ClCl
Cl
NSC615537
Pt
Cl−
Sn
Sn
C
Cl
Cl
Cl
ClCl
Cl
O+
N+
NSC615539
O
O
O
O
N
N
Pt
Cl
Cl
H
H H
HH
H
NSC623314
O
O
N
N
Pt
Cl
Cl
H
H H
H
H
H
H
H
NSC623321
N+
N
O
Pt
Cl
Cl
N+
Br
H
NSC625506
Pt++
NN
O+
O
PO
O−
O+
Na+
H
HH
H
HH
NSC627008
O
O
O
O
O
O
Pt4+Cl
−
Cl−
Cl−
Cl−
NSC631895
Pt++
N
N
N N
O
O
Cl−H
H
H
H
NSC631896
Pt++
N
N
N
N
O
O
Cl−
H
HH
H
NSC631897
NN
N
P
OO
−
O−
O
PO−
O+
Pt++
H
HH
H
H
H
NSC631898
O
OO
O
N+
N+
O
O
Pt−−Cl
Cl
Cl
Cl
H
H
NSC632607
Pt++O
+N
O+
O+
N Cl−
NSC632609
O+
N
O+
O+N
Pt
Cl−
OHH
NSC632611
Pt++
N N
O+
N+
P
O
O−
PO
O−
O−
P
O+
O−
O−
H
H
H
HH
H
NSC632612
O
P
NP
OO−
O−
O−
NN
O+
Pt++
H H
HH
H
NSC632613
NPt
++
PO
O+
N
P
O+
O− O
−
O−
N
H
H
H
H
HH
NSC632615
Pt
Cl
ClN
N
S O
O+
O
S OO
O+
HH
HH
H H
NSC632869
PtCl Cl
N+
N+
OO−
O O−
HH
HH
NSC632870
A-17
Anhang D
O
O
O
O
NN
Pt++O+
O+
H
H
H
H
H HH
HH
HH
H
H
NSC634048
N
O
N
O
O+
O
Pt ClCl
O O−
H
H
H
H
HH NSC638370
Pt++
N+
N+
PO
O−
O−
PO
O−
O−
P
O+
O
O− P
O
O−
O−
N+
N+
H
H
HH
H
H
H
H
NSC639594
N
Pt++
NO
+
NPO
O−
N
P
O+
O−
O−
H H
H
H
H
H
H
NSC639614
N
Pt++
N
O+
N+
PO
O−
P
O+ O
−O
−Na
+
N O
H
H
H
H
HH
NSC639615
N
Pt
N
Cl
Cl
Si
H
H
NSC643120
Cl
Pt
S
O
N
N
Si
H
H
NSC643121
C−
Pt++
O+ S
O
O−
FF
FP
HH
NSC646701
Pt
O O
ClCl
N NH H
NSC647059
OP
N+
PO
O−
O−
N+
PO
O−
PO
O−
O−
O−
NN
O+
O+
Pt++
H
H
H
H H
HH
H H
NSC647060
P
Cl
P
ClPt
N
N
H
H
NSC685471
N+
N+
N+
Ru++
N+
N+
N+
N+
N+
Pt
Cl
Cl
Cl−
NSC686548
Pt
O+
ClCl
N
O
N
H+
HH
H
H
H
NSC695782
A-18
Platinverbindungen im NCI In Vitro Screen
D.2 Cluster 2
Br
Br
N+
NN
S+
N
N
O
O
OO
Pt
HH
H
H
H
H
O
S
O
O O
NN
Pt
H H
HH
O+
Pt++
NN
O+
O
S
N
O O
SO+O
O−
O
S
O+
OO−
H
HHHH
H
HH
H
H
ClSn
Cl
Cl
N+
Sn
Cl
Cl
Cl
CO+
Pt
N
NCl
Cl
Pt
O
H
HH
H
H N
NCl
Cl
Pt
O
H
HH
H
H
Pt++
O+
P
O−
O
O
O+
N N
Na+
HH
H H
HH
N
O
O
N
O
O
PtCl Cl
H
H
Pt++
N N
O+
N+
PO
O−
O−
P
O+
O−
O−
O
H
H
H
HH
H
Pt
Cl
ClN
N
OO+
O O+
HH
HH
H
H
H H
H
H
O+
O+
N
NO+O
+Pt Cl
+HH
N
N+
PO
O−
O−
PO
O−
N+
P
O
O−
O−
P
OO−
N
O+
O+
Pt++
H
H
H
H
HH
H
H
Pt++
Cl−
Cl−
Cl−
Cl−
N+
N+
Si
HH
HH
Pt+
C−
S
Cl
O
S
O
HH
O
N
O
O−
N
N
Pt++
O+
H
H
H
A-19
Anhang D
D.3 Cluster 3
Cl
Cl
N
N
Pt
H
HH
H
NSC265459
Cl
Cl
N
N
Pt
H
HH
H
NSC265460
O
O
O
O
NN
Pt
H H
HH
NSC266046
O
O
O
O
NN
Pt
H H
HH
NSC266047
O
O
O
O
O
O
N N
Pt
H
HH
H H
NSC271674N
N
N+
N
N
S+
N+
N
N
S+
N
N
Pt
H
H
H
H
H
H
H
H
NSC276299
O Se
PtO
O
O
ON
N
H
HH
H
H
H
NSC281279
Cl
Pt
Cl
Cl
Cl
N
N
H
H
H
H
NSC363812
SiN
Pt
Cl
Cl
NSi
H
H
NSC600300
Si
N+
Pt++
Cl−
Cl−
Cl−
Cl−
N+
Si
H
H
H
H
NSC600301
Si
N N
Pt
ClCl
H H
NSC603577
Si
N+
N+
Pt++
Cl−
Cl− Cl
−Cl
−
H
H
H
H
NSC603578
N+
N+
Pt
N−
Cl
Cl
S
S+
NSC614802
OS O
N
O
N
N
SO
O
N O
O+
Pt++
O+
H
HH
H
H
H
NSC614887
Pt++N
N O−O−
S
N
OO
+O−
NN
NN
N
SO+
O
O−
H
H
H
H
H H
H
HH
H
NSC615589
N
S+
S+
N
S+
S+Pt
++H
H
NSC619298
Pt
Cl
Cl
P
P
H
H
NSC624902
C−
Fe++
C−
NN
Pt
ClCl
C−
Fe++
C−
NSC625197
N+
N+
Pt++
Cl−
Cl−
Si
Cl−
Cl−
H
H
H
H
NSC625298
NN
Pt
ClCl
Si
HH
NSC625299 No Name
A-20
Platinverbindungen im NCI In Vitro Screen
Pt
N Si
NSi
Cl
Cl
H
H
NSC626538
N
N
O
O
Pt ClCl
HH
H
NSC631304
N
O
N
O
Pt
Cl
Cl
HH
NSC631305
N
N
O
Pt
Cl
Cl
H
HH
NSC631306
N+
Pt ClCl
S
O
NSC632790
Pt
N+
ClCl
S O
NSC632791
Pt
N+
N+
ClCl
NSC632819
N+
N+
PtCl Cl
NSC632820
ClO
+
O
O
O PtN
+
NN
N
N Cl
Cl
N
Cl
Cl
Cl−
Cl−
HH
H
NSC633053
N+
N+
Pt++
N+
N+Cl
−
NSC633560
N+
O+
O
N−
N
S+
Pt+
ClH
H
H
NSC638284
Se+
N
Pt
Cl
Cl
H
H
H
NSC638726
O
NN
O+
Se
O+
Pt++
H
H
H
H
HH
NSC638728
Pt
ClCl
N+
O−
N+
O−
NSC639083
N+
N+
Pt++
O
O
O+
O
C−
O
H
NSC639222
Pt ClCl
N+
S O
NSC641052
PtCl Cl
N+
S
N+
S
NSC641054
I Pt I
N+
S
N+
S
NSC641055
PtI I
N+
S
N+
S
NSC641056
Pt++
C−
C−
S
O
S
O
HH
HH
NSC644188
A-21
Anhang D
Pt++
C−
C−
SS
O O
NSC644189
Pt++
C−
C−
CO+
S O
NSC644191
Si
N
Pt
Cl Cl
NH H
NSC645351
Si
N+
N+
Cl−
Cl− Cl
−Cl
−
Pt++
H
H
H
H
NSC645352
Si
N
N
Pt
Cl
Cl
H
H
NSC645353
Si
N+
N+
Cl−
Cl−
Cl−
Cl− Pt
++
HH
HH
NSC645354
Si
N+
N+
Cl−
Cl− Cl
−Cl
−
Pt++
H
H
H
H
NSC645356
N
N+
PtI I
N
N+
NSC647615
Pt++P
N P
N
Cl−
H
H
H
H
NSC685468
P
N+
PN
Pt+
Cl
Cl−
H
H
NSC685470
A-22
Platinverbindungen im NCI In Vitro Screen
D.4 Cluster 4
Pt
Cl
Cl
N
N
H
H
H
H
NSC119875
Br
Br
N
N
PtH
H
H
H
NSC141523
N
N
O
OO
O
PtH
HH
H
NSC146067
Cl
Cl
N NPt
NSC170896
Cl
ClN
N
Pt
H
H
NSC215153
OO
O O
N
N
PtH
HH
H
NSC241240
N
Pt
N Cl
Cl
O
O
H
HH
H
NSC256927
S
O
O
O
O S
O
O
N
N
Pt
H
HH
H
NSC263158
Pt
Cl−
Sn
Sn
C
Cl
Cl
Cl
ClCl
Cl
O+
As+
NSC615538
Pt
Sn
SnN+
Cl
Cl
Cl
Cl
Cl
Cl
N+
C
O+
NSC615541
PtP
SnC
P
Sn
O+
Cl
Cl
Cl
Cl
Cl
Cl
HH
NSC615542
O
N
N
S OO
N
NS
N N
O
O
O
O+
O+Pt
++
H
H
H H
H
H
HH
NSC615590
Pt++N+C
N+
CO
SO+O O
−
NNN
NN
N
SO+O
O−
OO
O
O+S
O+
S
H
H H
HH
H
NSC615593
Pt−−Cl
Cl
Cl
Cl
O
N+
N+
H
H
H
NSC620256
O
N+
N+
N
Pt−−Cl
Cl
Cl
Cl
H
H
H
NSC620257
O
O
O
O
N
N
Pt
Cl
Cl
H
H H
HH
H
NSC623315
N
NCl
Cl
Pt
O H
H
HH
H
H
NSC623317
Pt
Se
O
O
O O
Se
O
O
H
H
NSC626669
O+
O+O
+
O+
Pt++
N
N
N
Cl−
HH
H
NSC632608
Pt++O
+N
O+
O+
N Cl−
NHH
H
NSC632610
A-23
Anhang D
D.5 Cluster 5
Cl
Cl
N
N
Pt
H
HH
H
NSC255917
Br
O
Br
S OO
O
N
N
O
Br
O
Br
S
O
OO+
O+
Pt++
H
H H
H H
H
H
H
NSC615592
O
O
O
O
N
N
Pt
Cl
Cl
H
H H
HH
H
NSC623316
N
NCl
Cl
Pt
O H
H
HH
H
H
NSC623318
Si
N
Pt
N
Cl
Cl
H
H
NSC630765
N
O+
O+
NO+ O
+Pt++
Cl−
Cl−
NSC633559
Pt++
Cl−
Cl−
Cl−
Cl−
N+
N+Si
HH
HH
NSC640322
PtCl Cl
N+
S
N+
S
NSC641053
N
N+
PtBr Br
N
N+
NSC647616
N
N+
PtCl Cl
N
N+
NSC647617
N
N+
PtBr Br
N
N+
NSC647618
N
N+
PtCl Cl
N
N+
NSC647619
Pt
Cl−
Cl−
Cl−
Cl−
N+
N+
N+
N+
H
H
NSC647620
N
Pt++
N
O+
O+
O
O
O−
O
O
O
HH
HH
H
H
H
NSC651087
A-24
Publikationsliste
Anhang E: Publikationsliste
[1] Ihlenfeldt, W.-D.; Voigt, J. H.; Bienfait, B.; Oellien, F.; Nicklaus, M. C.Enhanced CACTVS Browser of the Open NCI Database J. Chem. Inf. Comput. Sci., 42, 2002, 46 - 57.
[2] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T. Multi-Variate Interactive Visualization of Data from Laboratory Notebooks ECDL: Workshop "Generalized Documents", Sep. 2001, Darmstadt.
[3] Engel, K.; Oellien, F.; Ertl, T.; Ihlenfeldt, W.-D. Client-Server-Strategien zur Visualisierung komplexer Struktureigenschaften in digitalen Dokumenten der Chemie it+ti, 6, 2000, 17 - 23.
[4] Oellien, F.; Ihlenfeldt, W.-D.; Engel, K.; Ertl, T. Chemische Visualisierung und Datenintegration im Internet Informatik ’99: Workshop "Neue Medien in Forschung und Lehre", Oct. 1999, Paderborn.
Die Publikationen 2), 3) und 4) sind Teil dieser Arbeit.
A-25
Anhang F
Anhang F: Lebenslauf
Name Frank Oellien
Geburtsdatum und -ort 27. Januar 1970 in Oldenburg
Staatsangehörigkeit deutsch
Familienstand ledig
Schulbildung
1976 - 1980 Grundschule Elmendorf / Aschhausen
1980 - 1982 Orientierungsstufe Bad Zwischenahn
1982 - 1986 Realschule Bad Zwischenahn
1986 - 1989 Gymnasium Bad Zwischenahn / Edewecht
Grundwehrdienst
06/1989 - 08/1990
Hochschulausbildung
09/1990 - 04/1993 Studium der Chemie an der Carl von Ossietzky Universität
Oldenburg
09/1993 - 12/1997 Studium der Chemie an der Universität Bayreuth
04/1997 - 12/1997 Diplomarbeit bei Prof. Sprinzl am Lehrstuhl für Biochemie der
Universität Bayreuth zu dem Thema „Terminationsfaktor RF3
von Thermus thermophilus“
seit 08/1998 Anfertigung der Doktorarbeit bei Prof. Gasteiger am Computer-
Chemie-Centrum und Institut für Organische Chemie der
Friedrich-Alexander-Universität Erlangen-Nürnberg
A-26
Lebenslauf
Berufstätigkeit
03/1997 - 07/1997 Wissenschaftliche Zusammenarbeit mit Dr. Hoffmann, Institut
für Algorithmen und Wissenschaftliches Rechnen (SCAI), GMD
Forschungszentrum Informationstechnologie GmbH,
St. Augustin
09/1999 - 10/1999 Gastwissenschaftler am Laboratory of Medicinal Chemistry,
National Cancer Institute, National Institutes of Health,
Bethesda, USA
seit 09/2002 Chemoinformatiker in der Abteilung BioChemInformatics /
Drug Discovery der Firma Intervet Innovation GmbH,