5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug designs am Computer, vor allem dann, wenn keine Strukturinformation über das target (Enzym) vorhanden ist. Erfordert das Vorhandensein von experimentellen Meßdaten für eine Reihe von bekannten Verbindungen, z.B. aus High Throughput Screening QSAR-Gleichungen stellen einen quantitativen Zusammenhang zwischen chemischer Struktur und (biologischer) Aktivität her. n n P k P k P k C 2 2 1 1 ) / 1 log(
44
Embed
5. Vorlesung Modern Methods in Drug Discovery WS05/06 1 QSAR, QSPR, Statistik, Korrelation, Similarität & Deskriptoren Das Handwerkszeug des rational drug.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
5. Vorlesung Modern Methods in Drug Discovery WS05/06 1
log(1/Ki) Bindungskonstante log(1/IC50) Konzentration bei der 50% Wirkung eintritt
Physikalische Größen, wie Siedepunkt, Löslichkeit, …
Ziel: Voraussage von Moleküleigenschaften anhand ihrer Struktur, ohne eine expt. Meßung durchführen zu müßen.
→ in silico anstatt in vitro oder in vivo
Vorteil: Einsparung von Zeit und Resourcen
5. Vorlesung Modern Methods in Drug Discovery WS05/06 3
Zeitliche Entwicklung von QSAR Methoden (I)
1868 A.C.Brown, T.Fraser:Physiologische Aktivität ist eine Funktion der
chemischen Konstitution (Zusammensetzung)
Aber: Eine direkte Beziehung ist nicht gegeben, sodern immer nur über die Unterschiede.
Zur Erinnerung:1865 Strukturvorschlag für Benzol von A. KekuléDie chemische Struktur der meisten organischen Verbindungen ist noch unbekannt !
1893 H.H.Meyer, C.E.OvertonToxizität von organischen Verbindungen steht im Verhältnis zu deren Verteilung zwischen wäßrigem und lipophilen biologischem Medium
5. Vorlesung Modern Methods in Drug Discovery WS05/06 4
Zeitliche Entwicklung von QSAR Methoden (II)
1868 E.FischerSchlüssel-Schloß Prinzip bei Enzymen
Widerum keinerlei strukturelle Information über Enzyme vorhanden !
1964 C.Hansch, J.W.Wilson, S.M.Free, F.FujitaGeburtsstunde der modernen QSAR-MethodenHansch-Analyse bzw. Free-Wilson-Analyse
linear free energy-related approach
nn PkPkPkC 2211)/1log(
Koeffizienten (konstant) Deskriptoren oder Variablen
5. Vorlesung Modern Methods in Drug Discovery WS05/06 5
Deskriptoren
Ansätze eine mathematische Beziehung zwischen numerischen Eigenschaften (Deskriptoren Pi) und physikochemischen Eigenschaften der Verbindung (z.B. biologische Aktivität log(1/C) ) herzustellen, werden als QSAR, bzw QSPR bezeichnet.
nn PkPkPkC 2211)/1log(
Daneben werden Deskriptoren auch zur Beschreibung von Molekülen in der Diversitäts Analyse und in Kombinatorischen Bibliotheken eingesetzt.
Prinzipiell kann jede molekulare Eigenschaft als Deskriptor verwendet werden.
Mehr zu Deskriptoren unter http://www.chemcomp.com/Journal_of_CCG/Features/descrip.html
5. Vorlesung Modern Methods in Drug Discovery WS05/06 6
Informationsfluß in einer drug discovery pipeline
5. Vorlesung Modern Methods in Drug Discovery WS05/06 7
KomponentenauswahlWieviel Information ist über das target vorhanden ?
X-Ray mit Wirkstoff
X-Ray des Proteins
Reihe von wirksamen Verbindungen
Wenige hits aus HTS
Kenntnis der Enzymfunktion
(z.B. Kinase, GPCR)
Zun
ehm
ende
Inf
orm
atio
n
eADME Filter
Erstellen einer virtuellen Bibliothek
combi chem
active site
QSAR, Pharmacophor erstellen
Docking HTS
5. Vorlesung Modern Methods in Drug Discovery WS05/06 8
Molekülbasierte Deskriptoren zurVoraussage der ADME Eigenschaften
logP Wasser/Octanol Verteilungskoeffizient
Lipinski‘s rule
Topologische Indices
Polar surface area
Similarität / Dissimilarität
QSAR quantitative structure activity relationship
QSPR quantitative structure property rel.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 9
„1D“ Deskriptoren (I)
Für einige Deskriptoren benötigt man nur Kenntnisse die sich bereits aus der Summenformel der Verbindung erhält. Bsp.:
Molmasse, Gesamtladung, Anzahl von Halogenatomen
Weitere solcher eindimensionaler Deskriptoren ergeben sich additiv aus atomaren Beiträgen. Bsp.:
Summe der atomaren Polarisierbarkeiten
Refraktivität (Brechungsindex n, molar refractivity, MR)
MR = (n2 –1) MW / (n2 +2) d mit Dichte d, Molekülgewicht MW
Ist abhängig von der Polarisierbarkeit und enthält außerdem
das Molekülvolumen (MW / d)
5. Vorlesung Modern Methods in Drug Discovery WS05/06 10
logP (I)
Der Wasser/n-Octanol Verteilungskoeffizient bzw. der
logarithmierte Wert wird als logP bezeichnet.
Wird oft zur Abschätzung der Membrangängigkeit und der Bioverfügbarkeit einer Verbindung eingesetzt, da ein oral applizierter Wirkstoff lipophil genug sein muß um durch die Lipidschicht der Membrane zu gelangen, andererseits wasserlöslich sein muß um in Blut und Lymphe transportiert zu werden
hydrophil –4.0 < logP < +8.0 lipophil
Zitronensäure –1.72 Iodbenzol +3.25
Typische Wirkstoffe < 5.0
5. Vorlesung Modern Methods in Drug Discovery WS05/06 11
logP (II)
Zur Vorhersage des logP wurde eine Reihe von Methoden entwickelt:
di Anzahl schwerer Atome die an Atom i gebunden sind
5. Vorlesung Modern Methods in Drug Discovery WS05/06 19
Kier und Hall Connectivity Indices
Chi0 0. Ordnung 0 mit eSchweratom allefür 1
0 ii i
dd
Zi Ordnungszahl (H=1, C=6, LP=0)
di Anzahl schwerer Atome die an Atom i gebunden sind
pi Anzahl der s und p Valenzelektronen an Atom i
vi = (pi – hi ) / (Zi – pi – 1) für alle schweren Atome
Chi1 1. Ordnung
ist gebunden an
wenneSchweratom allefür 1
1
ji
ddi ij ji
Chi0v
Valenzindex0mit eSchweratom allefür
10 i
i i
v vv
5. Vorlesung Modern Methods in Drug Discovery WS05/06 20
Kier und Hall Shape Indices (I)
Kappa1
n Anzahl schwerer Atome (Nicht-Wasserstoffatome)
m Anzahl aller Bindungen zwischen den schweren Atomen
Kappa3
2
2
1
)1(
m
nn
p2 Anzahl der Pfade mit Länge 2
p3 Anzahl der Pfade mit Länge 3 aus der Distanzmatrix D
np
nn
np
nn
geradefür )2()3(
ungeradefür )3()1(
23
2
3
23
2
3
Kappa2 22
2
2
)2()1(
p
nn
Kappa3
5. Vorlesung Modern Methods in Drug Discovery WS05/06 21
Kier und Hall Shape Indices (II)
ri Kovalenzradius von Atom i
rc Kovalenzradius eines sp3
Kohlenstoffatoms
KappaA1
Setzt man die Atome in Relation zu sp3-hybridisierten C-Atomen so erhält man die Kappa alpha Indices
n
i c
i
r
r
1
nsm
ssmit
)(
)1(2
2
1
ElementHybridi-sierung
C sp3 0
C sp2 -0.13
C sp -0.22
N sp3 -0.04
N sp2 -0.20
N sp -0.29
O sp3 -0.04
P sp3 +0.43
S sp3 +0.35
Cl +0.29
5. Vorlesung Modern Methods in Drug Discovery WS05/06 22
Balaban, Wiener und Zagreb Indices
Zagreb
n Anzahl schwerer Atome (Nicht-Wasserstoffatome)
m Anzahl aller Bindungen zwischen den schweren Atomen
di Anzahl schwerer Atome die an Atom i gebunden sind
BalabanJ
idi
i Atomeschweren allefür 2
ji
iji Dw Summe der nichtdiagonalen Matrixelemente von Atom i in der Distanzmatrix D
m
ji wwnm
m 1
1
WienerJ (Pfad Nummer) n
iiw2
1
WienerPolarität 3 wenn 21 ij
n
ii Dw
Korreliert mit den Siedepunkten von Alkanen
5. Vorlesung Modern Methods in Drug Discovery WS05/06 23
Was sagen die topologischen Indices aus ?
In der Regel läßt sich eine chemische Eigenschaft nicht
direkt mit einem einzigen Index korrellieren.
Topologische Indices kodieren prinzipiell dieselben Eigenschaften wie fingerprints, jedoch weniger einleuchtend, aber numerisch einfacher aufzustellen.
Topologische Indices sind assoziert mit
Verzweigunsgrad des Moleküls
Größe und räumliche Ausdehnung des Moleküls
Strukturelle Flexibilität
5. Vorlesung Modern Methods in Drug Discovery WS05/06 24
3D Deskriptoren
Bei Deskriptoren die Atomkoordinaten des Moleküls
verwenden spricht man von 3D Deskriptoren.
Diese sind deshalb in der Regel konformationsabhängig.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 28
Smilaritätsdeskriptoren und Indices (I)A erfüllte Eigenschaft von Molekül A
A B Schnittmenge gemeinsamer Eigenschaften von A und B
A BVereinigunsmenge der Eigenschaften von A und B
Euklidische Distanz
A
B
Manhattan Distanz
A
B
Formel
Definition
Bereich
Andere Namen ∞ bis 0 ∞ bis 0
– City-Block, Hamming
N
iiBiABA xxD
1,
N
iiBiABA xxD
1
2,
BABABAD , BABABAD ,
5. Vorlesung Modern Methods in Drug Discovery WS05/06 29
Smilaritätsdeskriptoren und Indices (II)
Soergel Distanz Tanimoto Index
1 bis 0 –0.333 bis +1 (kontinuierliche Werte) 0 bis +1 (binäre on/off Werte)
– Jaccard Koeffizient
N
iiBiA
N
iiBiABA xxxxD
11, ),max(/
N
iiBiA
N
iiB
N
iiA
N
iiBiABA xxxxxxS
11
2
1
2
1, /
BABABABAD /, BABABAS /,
Bei binären (dichotomen) Werten sind Soergel Distanz und Tanimoto Index zueinander komplementär
5. Vorlesung Modern Methods in Drug Discovery WS05/06 30
Smilaritätsdeskriptoren und Indices (III)
Dice Koeffizient Cosinus Koeffizient
–1 bis +1 0 bis +1 (kontinuierliche Werte) 0 bis +1 0 bis +1 (binäre on/off Werte)
Hodgkin Index Carbo Index
Czekanowski Koeffizient Ochiai Koeffizient
Sørensen Koeffizient
Monoton mit dem Tanimoto Index
Hoch korreliert mit dem Tanimoto Index
N
iiB
N
iiA
N
iiBiABA xxxxS
1
2
1
2
1, /2
N
iiB
N
iiA
N
iiBiABA xxxxS
1
2
1
2
1, /
BABABAS /2, BABABAS /,
5. Vorlesung Modern Methods in Drug Discovery WS05/06 31
x
y
hoher Korrelationsgrad r > 0.84
geringer Korrelationsgrad 0< r < 0.84
r < 0.5 anti-korreliert
Korrelation der Deskriptoren (I)Ebenso wie konkrete Moleküleigenschaften sind auch die Deskriptoren oft miteinander korreliert.
Um aus der Vielzahl der Deskriptoren eine möglichst aussage-kräftige Kombination zu erhalten, müssen multivariante Methoden
der Statistik angewandt werden.
]1...1[
1
2
1
2
1
n
ii
n
ii
n
iii
yyxx
yyxxr
Auftragung zweier Variablen x und y im
Craig-Plot
Korrelation nach Pearson
5. Vorlesung Modern Methods in Drug Discovery WS05/06 32
Korrelation der Deskriptoren (II)
Im allgemeinen hat steht man vor dem Problem aus der Vielzahl vorhandener Deskriptoren die statistisch relevanten (und damit die aussagekräftigsten) für die jeweilige QSAR-Gleichung zu finden.
Pro Deskriptor sollten 5 Moleküle (Datenpunkte) vorhanden sein, sonst ist die Gefahr einer zufälligen Korrelation zu hoch
Lösungsansatz: Ermittlung der unkorrelierten Variablen mittels einer principal component analysis (PCA) – siehe unten – oder Anwendung der partial least square (PLS) Technik
5. Vorlesung Modern Methods in Drug Discovery WS05/06 33
Partial least square (PLS)Die Aktivität y wird als spezielle Linearkombination der Variablen bzw. Moleküleigenschaften xi ausgedrückt
wobei
mm tbtbtbtby 332211
nmnmmm
nn
nn
xcxcxct
xcxcxct
xcxcxct
2211
22221212
12121111
Die latenten Variablen ti werden so konstruiert, daß sie zueinander orthogonal, also unkorreliert sind. → Statistikprogramme
D.h. durch Kombination der ursprünglichen Moleküleigen-schaften werden neue Komponenten erzeugt, die unkorreliert zueinander sind.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 34
Principal Component Analysis PCA (I)
Die Hauptkomponentenanalyse erzeugt eine Serie unkorrelierter Variablen aus einem Satz korrelierter Variablen.
Dazu wird eine Koordinatentransformation der Datenmatrix durchgeführt, sodaß die erste Hauptachse (pc1) die größte Streuung (Varianz) der Datenpunkte aufweist.
Die zweite (pc2) und folgende Hauptachsen stehen orthogonal zueinander und deren Komponenten sind unkorreliert zueinander.
Problem: Welche sind die entscheidenden Deskriptoren im Datensatz ?
Lit: E.C. Pielou: The Interpretation of Ecological Data, Wiley, New York, 1984
5. Vorlesung Modern Methods in Drug Discovery WS05/06 35
Principal Component Analysis PCA (II)
Die erste Hauptachse (pc1) weißt die größte Streuung (Varianz) der Datenpunkte auf, während die zweite (pc2) und folgende Hauptachsen orthogonal dazu stehen.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 36
Principal Component Analysis PCA (III)
Die signifikanten Hauptkomponenten haben meistens einen Eigenwert >1 (Kaiser-Guttman Kriterium). Zusätzlich tritt meistens ein Knick zu den weniger relevanten auf (Scree-Test)
5. Vorlesung Modern Methods in Drug Discovery WS05/06 37
Principal Component Analysis PCA (IV)
Durch die so ermittelten relevanten Hauptkomponenten sollte sich mehr als 80% der gesamten Varianz erfassen lassen
5. Vorlesung Modern Methods in Drug Discovery WS05/06 38
Principal Component Analysis (V)
Eigenschaft pc1 pc2 pc3
Dipolmoment 0.353
Polarisierbarkeit 0.504
Mittel des +ESP 0.397 -0.175 0.151
Mittel des –ESP -0.389 0.104 0.160
Variance des ESP 0.403 -0.244
Minimales ESP -0.239 -0.149 0.548
Maximales ESP 0.422 0.170
Molekülvolumen 0.506 0.106
Oberfläche 0.519 0.115
Anteil an derGesamtvariance 28% 22% 10%
Bsp: Durch welche Deskriptoren wird der logP bestimmt ?
Lit: T.Clark et al. J.Mol.Model. 3 (1997) 142
5. Vorlesung Modern Methods in Drug Discovery WS05/06 39
QSAR-Gleichungen (I)
Hat man nun möglichst viele unkorrelierte Eigenschaften, müßen nun noch die Koeffizienten ki bestimmt werden. Dies geschieht durch multiple lineare Regressionsanalyse (least square fit der besten Kombination der Koeffizienten) → Statistikprogramme
Meistens kann man nicht die beste Kombination aller möglichen Kombinationen von Deskriptoren berechnen.
(exponentielle Laufzeit)
In der Regel fängt man deshalb mit dem Deskriptor an der die höchste Einzelkorrelation zeigt und nimmt schrittweise weitere
Deskriptoren hinzu (forward regression).
Oder man fängt mit allen Deskriptoren an und entfernt sukzessive diejenigen die die Korrelation am wenigsten verschlechtern (backward regression).
5. Vorlesung Modern Methods in Drug Discovery WS05/06 40
QSAR-Gleichungen (II)
Die wichtigsten Statistischen Größen zur Beurteilung einer QSAR-Gleichung sind:
Korrelationskoeffizient (quadriert als r2)
Standartabweichung (standard deviation, se, möglichst klein, se<0.4 Einheiten)
Fisher value F (Maß für die Übertragbarkeit der QSAR-Gleichung auf einen anderen Datensatz, sollte möglichst hoch sein, wird aber mit zunehmender Anzahl der Variablen kleiner)
Probability value p einer einzelner Variablen (Maß für zufällige Korrelation, p<0.05 = 95% Sicherheit)
5. Vorlesung Modern Methods in Drug Discovery WS05/06 41
QSAR-Gleichungen (III)Zur Überprüfung der Aussagekraft der QSAR-Gleichung werden vor allem zwei gebräuchliche Möglichkeiten verwendet:
a) willkürliche Vertauschung der tatsächlichen Aktivitäten (falscher Datensatz) sollte die Voraussagefähigkeit (Standardabweichung) der Gleichung zusammenbrechen lassen.
b) Cross-validation
Es werden verschiedene Gleichungen aufgestellt, wobei jeweils eine Klasse von Eigenschaften (Physicochemisch, biologisch, elektronisch, sterisch) weggelassen wird (leave-one-out) und das Ergebnis mit dem vollständigen Modell verglichen wird. Die erhaltene Standardabweichung wird als PRESS (predictive residual sum of squares) bezeichnet.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 42
QSAR-Gleichungen (IV)
Cross-validation
Der Korrelationskoeffizient q2 der aus der cross-validation erhalten wird ist kleiner als der ursprüngliche Wert r2, aber entsprechend aussage-kräftiger.
Einer der besten Tests ist jedoch die Überprüfung mit einem externen Datensatz.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 43
Interpretation von QSAR-Gleichungen (I)
Die Art der enthaltenden Variablen bzw. Deskriptoren sollte Rückschlüße auf die zugrunde liegenden physiko-chemischen Vorgänge zulassen und so das Design neuer Moleküle durch Interpolation ermöglichen
Die mathematische Form der QSAR-Gleichung kann Aufschluß über den biologischen Wirkungsmechanismus geben:
Eine Abhängigkeit der Aktivität von (log P)2 deutet auf einen Transportvorgang des Wirkstoffes zum Rezeptor hin.
Vorsicht ist bei der Extrapolation über die Grenzen des erfaßten Datenbereiches angebracht. Hier können keine zuverlässigen Vorhersagen gemacht werden.
5. Vorlesung Modern Methods in Drug Discovery WS05/06 44
1965 1967 1969 1971 1973 1975 1977 1979 1981
year
500
700
900
1100
1300
1500
1700
1900
2100
am
ou
nt
storksbabies
Interpretation von QSAR-Gleichungen (II)Zwischen den verwendeten Deskriptoren und der Meßgröße sollte ein schlüssiger Zusammenhang stehen.
Hierzu ein Gegenbeispiel: H. Sies Nature 332 (1988) 495.
Wissenschaftlicher Beweis, daß der Storch die Babies bringt
Die Daten hierzu finden sie unter /home/stud/mihu004/qsar/storks.spc