Top Banner
Morphosaurus Statusreport Mai 2005
16

Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Apr 06, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Morphosaurus

Statusreport Mai 2005

Page 2: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Grundidee

• Semantische Indexierung von medizinischern Dokumenten

• Verbesserung des Dokumentenretrievals

• Unterstützung sprachübergreifender Dokumentenrecherche

• Geeignetes Granularitätsniveau:“Subwörter”

Page 3: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Indexierungdurch Subwörter

abdominadenomakutanalysantibiotausmassbasisbiologblutchirurgchronidarmdatendiagnosteingriffempfindlichentzuendepidemiologexpressfamilifapfeinheredithinsichtlichhnpccimmunindikiortitiskarzinklinkolitiskolon

kombinkrankkrohnlymphmodalmolekulmultinonoperation ordnosispankreaspankreatperitonpolypprojektprophylaktpunktresektschwerpunktstellsuppressthematherapueber ulzerversuszeitzielzytzytokin

Page 4: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Indexierungdurch Subwort –

Synonymklassen-IDsqxxqkyyxyqwxyyxqkxzzkqyzyyzqkqkkqkkyqkqzzkyzxqkqqxqxkzqkqxkzkqxqqkkzzkqzyzqyyzyzkkzyxqkzqqyqqqkqxxzxqkzxkqqqqyyyzxkzxqkkkqkzzqkqqzkzyzqkqzzzqqzzyyyyyqkkqyzqqqkqzzkqkyzyyqqkkkkxyzqkzxqkyzkkzqxyqqkqkz

zzyqkkyzxqkzyzzqyzyyzqkqzkqkyzzkqzzkyzqkqqqxxkzyqqxkzxqqkxxqzkqzqzyyyzykykzyqkxzqqqzqkqkqzzxqkyyxkqqqyyyyzxkzxqkkqqkzzqqkzkzqkyqkqzzzqqzzyyqqkzqkqyzqqqqzzkkkyzykqqkkkyqxyzqkqqkqkqy

{entzuend; itis}

{pankreas; pankreat; bauchspeicheldrues}

{periton; bauchfell}

Page 5: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Sprachübergreifende Indexierung

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypothyreose ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypothyreose ...

Orthografische Regeln

Orthografische Normalisierung

#up tsh #value #suggest #diagnost #primar #small #thyre

Interlingua

#up tsh #value #permit #diagnost #primar #small #thyre Subwort-

Thesaurus

Semantische Normalisierung

Page 6: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Morphosaurus - Komponenten

Kernsystem

• Subwort – Lexikon

• Präprozessor

• Segmentierer / Indexer

• Suchmaschine

Werkzeuge

• Lexikon-Editor (Morphoedit)

• Validierungstools

Page 7: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.
Page 8: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Morphosaurus - Komponenten

Experimentelle Komponenten:

• Akronym-Lerner

• Disambiguierer

• Morphoogle

• Dynamisches Dictionary

• Tools zur automatischen Lexikonaquisition

… basierend auf Ko-Okkurenzinformation aus großen mehrsprachigen Medizinkorpora

Page 9: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.
Page 10: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Stand des Lexikons

• Ca. 65 000 Einträge und 25 000 Äquivalenzklassen

• Sprachen:DeutschEnglischPortugiesischSpanischSchwedischFranzösisch

Page 11: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Partner

• Medizinische Informatik Freiburg:Projektleitung, SW-Entwicklung und Pflege, Lexikonentwicklung

• Computerlinguistik JenaHosting, wissenschaftliche Beratung

• PUCPR Curitiba / BrasilienLexikonentwicklung, Entwicklung von Lexikonwerkzeugen

• SemanticMining-PartnerLexikonentwicklung

Page 12: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Aufgabenverteilung

• Projektleitung: Stefan Schulz, Kornel Marko• Lexikon: Philipp Daumke, Susanne Hanser,

Roosewelt Andrade + 4 Hiwis (D) + 3 Hiwis (Brasilien) + 1-2 (Schweden)

• SW-Entwicklung: Kornel Marko, Philipp Daumke, Edson Pacheco, Jan Pätzold + Hiwis

• Wissenschaft: Stefan Schulz, Kornel Marko, Philipp Daumke, Udo Hahn, Edson Pacheco

• Externe Partner / Kunden:Kornel Marko, (Martin Romacker)

Page 13: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Finanzierung

• EU: NoE SemanticMining (bis 12/06)

• DFG: KoMoDoRe (bis 03/06)

• BMBF: Brasilien-Austausch (bis 12 / 06)

Page 14: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Externe Partner

Machbarkeitsstudien (im Gange): • ZbMED, Köln: Indexierung der

Literaturdatenbank CCMed• Rhön-Kliniken (+ Siemens): “EPA-Google”• IS-GBE (Stat. Bundesamt / RKI) :

Retrievalinterface für Materialien zur Gesundheitsberichterstattung

(geplant)• HCPA (Porto Alegre, Brasilien): Recherche und

Wissensextraktion aus elektronischer Patientenakte

Page 15: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Potentielle Partner

Termine mit:

• TEMIS group (Text Mining)

• Novartis (Martin Romacker in Text / Knowledge Management – Gruppe)

• DIMDI

Page 16: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

SWOT - Analyse

• Strengths

• Weaknesses

• Opportunities

• Threats