Top Banner
Termextraktion auf Basis von Wörterbuchdaten tekom Jahrestagung 2014 TERM6 – Fachvortrag
21

Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Jul 25, 2015

Download

Technology

acolada_gmbh
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Termextraktion auf Basis von Wörterbuchdaten

tekom Jahrestagung 2014TERM6 – Fachvortrag

Page 2: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Franz Kaufmann

Wer spricht da?Wer spricht da?

Seite 2

>Tätigkeit: Consultant für Technische Kommunikation / Marketing bei der Acolada GmbH

>Geschäftsfelder der Acolada GmbH:Software, Consulting und IT-Dienstleistungen u.a. aus den Bereichen Terminologie und Content Management für XML

>Persönlicher Fokus: Herausarbeiten der Anforderungen, Features und Arbeitsweisen, die man wirklich braucht.

Page 3: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Youare

here

Worum geht es gleich?Worum geht es gleich?

Seite 3

> Was ist Terminologie? / Warum ist sie wichtig?

> Vergleich von Terminologiesoftware

> Die Bedeutung der Termextraktion

> Übliche Techniken der Termextraktion (Prinzip / Vorteile / Nachteile)

> Nutzung von Wörterbuchdaten zur Termextraktion

Page 4: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

TERMEXTRAKTION…

Seite 4

Page 5: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

……ist die Basis aller Terminologie.ist die Basis aller Terminologie.

Seite 5

Termextraktionin der Ausgangs-sprache

Terminologie der Fremd-sprachen

Übersetzungs-projekte ohne ständige Nachfragen

Terminologieder Ausgangs-sprache

Page 6: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

ÜBLICHE TECHNIKEN (1/2):MANUELLE TERMEXTRAKTION

Seite 6

Page 7: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Manuelle TermextraktionManuelle Termextraktion

Seite 7

Testprinzip:Was ein Terminus ist, entscheidet ein Mensch.

Testergebnis: Ein subjektiver Eindruck des Prüfers

Vorteile:

>Flexibilität

>Rückgriff auf Fachwissen

Nachteile:

>Fehleranfälligkeit

>Subjektiv statt objektiv

>Oft fehlt mindestens eine Voraussetzung.

>Ohne genug Zeit zum Scheitern verurteilt.

Manuelle Termextraktion

Zeit

Übung

Stilgefühl

Fach-wissen

Terminologisches Grundwissen

Page 8: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

ÜBLICHE TECHNIKEN (2/2):AUTOMATISIERTE TERMEXTRAKTION

Seite 8

Page 9: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Automatisierte TermextraktionAutomatisierte Termextraktion

Seite 9

Testprinzip:

>Wörter eines Texts werden in einer Vergleichsliste nachgeschlagen.

>Unbekannte Wörter sind potenzielle Termini.

Testergebnis: Eine Liste potenzieller Termini

Vorteile:

>Hoher Durchsatz / hohe Geschwindigkeit

Nachteile:

>Die Ergebnisliste hat einen minimalen Informationsgehalt.

>Etablierte Zusatztechniken haben eigene Nachteile.

AutomatisierteTermextraktion

Wortlistenvergleich

Stemming

Häufigkeitsanalyse

Lemmatisierung

Page 10: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Wortlistenvergleich…Wortlistenvergleich…

Seite 10

1. …liefert keine Warnungen bei Fehlern oder Mängeln in der Ausgangssprache:

a. Obsoleszenz b. falsches Fachgebiet c. falsche Sprachebened. falscher Sprachraume. Polysemief. Übertragene Bedeutung

2. …liefert keine Zuordnung von Synonymen und Abkürzungen

3. …liefert weniger Information, als ein Terminologie-Eintrag braucht:

Fehlende Information (Wortart, Synonyme usw.) ist manuell einzutragen.

Beispiele:

„Term“ ist im Fachgebiet „Linguistik“ obsolet, im Fachgebiet „Mathematik“ aber nicht (1a/1b).

„kaputt“ (umgangssprachlich)/„defekt“ (1c)

„abeisen“ ist österreichisch-deutsch für „abtauen“ oder „enteisen“ (1d)

„Zug“ als „Eisenbahn“, obwohl „Rauchkanal“, „Zugbeanspruchung“ oder „Drahtzug“ gemeint ist. (1e)

„Katze“ im Sinne von „Laufkatze“„Arm“ im Sinne von „Kranarm“ (1f)

„abrichten“ als Synonym von „justieren“„abrichten“ als Synonym von „schärfen“ (2)

„CMS“ / „Content Management System“ (2)

Page 11: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Zusatztechniken…Zusatztechniken…

Seite 11

…lösen zwar ein Problem…

>Häufigkeitsanalyse findet übertragen verwendete Benennungen als Terminus.

>Stemming ordnet Treffer einander zu und verkleinert die Trefferliste.

…verursachen aber andere Probleme:

>Übertragene Verwendung sollte nicht geben,und wenn, sollte es eine Warnung geben.

>Man braucht einen Textkorpus (meist nur für Englisch frei erhältlich) oder ein Frequenzwörterbuch (gibt es nicht frei).

>Stemming kann sich auch irren: Beispiel: „Schütze“, den Plural von „Schütz“, irrtümlich auf „Schutz“ oder „schützen“ reduzieren.

>Orthografische Varianten und Kompositasollten in der Ergebnisliste enthalten sein: Beispiel: „Schutzmechanismen“/ „Schutz-Mechanismen“.

Page 12: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

WÖRTERBUCHDATEN ZUR TERMEXTRAKTION NUTZEN

Seite 12

Page 13: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Wörterbücher als Wissensquellen (1/2)Wörterbücher als Wissensquellen (1/2)

Seite 13

Professionelle Wörterbücher

>…sind umfangreich(mehrere zehn- bis hunderttausend Einträge)

>…sind fachlich vertrauenswürdig(Verlage engagieren als Autoren Experten)

>…sind terminologisch eindeutig(Fachwörterbücher sind begriffsorientiert)

>…enthalten Wissen über Wörter(Angaben zu Fachgebieten, Sprachebene, Wortart usw.)

>…enthalten Wissen über Beziehungen zwischen Wörtern

(Synonyme und Abkürzungen)

{

Page 14: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Aufbau eines Wörterbuch-DatensatzesAufbau eines Wörterbuch-Datensatzes

Seite 14

Technisch (2 Beispiele aus einem Rechtswörterbuch)Konzeptionelle Struktur

Begriff > Sprache > Benennungen des gleichen Begriffs (= Synonyme / Abkürzungen)

pro Benennung (wenn relevant): > Fachgebiet > Sprachebene > obsolet ja/nein > Sprachraum > Wortart > Übersetzungen …

<Basis> <LO lan="DE"> <ME>Mieter</ME> <Wortart>m</Wortart> </LO>

<LO lan="DE"> <ME>Bestandnehmer</ME>

<Wortart>m</Wortart>

<Aequivalenz>ähnlich</Aequivalenz>

<Sprachraum>A</Sprachraum> </LO>

<LO lan="FR"> <ME>locataire</ME>

<HomNr>1</HomNr> <Nest> <Stichwort>locataire</Stichwort>

<WortartSW>m</WortartSW> </Nest>

<Gebiet> <Rechtsgebiet>SchuldR</Rechtsgebiet> <Rechtskontext>

preneur du bail </Rechtskontext> </Gebiet> </LO></Basis>

<Basis> <LO lan="DE">

<ME> Rauschgiftdezernat und Sittenpolizei </ME> </LO>

<LO lan="DE"> <ME>die Sitte</ME>

<Wortart>m</Wortart>

<Sprachebene>umg</Sprachebene> </LO>

<LO lan="FR"> <ME>brigade des stupéfiants et du proxénétisme</ME>

<Abkuerzung>BSP</Abkuerzung>

<Gebiet> <Rechtsgebiet>

PolizeiR </Rechtsgebiet> </Gebiet> </LO></Basis>

Page 15: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

TestprinzipienTestprinzipien

Seite 15

1. Nachschlagen in zwei „Listen“:

bisherige Wortliste des Wortlistenvergleichs + 1 fachsprachliches Wörterbuch

2. Potenzielle Termini werden bewertet:

>semantisch

>fachlich (Obsoleszenz / Fachgebiet)

>sprachlich (Sprachraum / Sprachebene)

3. Die Menge der tatsächlichen Synonyme und Abkürzungen wird ermittelt

4. Das Ergebnis ist nicht nur eine Wortliste:

>mindestens: Nicht nur Termini, sondern auch Infos oder Korrekturhinweise.

>auch denkbar: Dialog zur Wahl zwischen mehreren Bedeutungen und zur Übernahme der Wörterbuchdaten der Ausgangs- und Fremdsprachen

Page 16: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Semantische Bewertung (1/2)Semantische Bewertung (1/2)(im Beispiel: technisches Fachwörterbuch)

Seite 16

herkömmliche Wortliste Fachwörterbuch Interpretation Beispiel potenz.

Terminus?Ausgangssprache

korrigieren?

Treffer — rein allgemeinsprachliche Benennung

——

——

— —Firmenspezifische Benennung (oder unübliche Verwendung)

Supermaster, enteisen X (X)

— ein Treffer Fachspezifische Benennung Hutschiene, entölen X

— mehrere Treffer Fachspezifische, aber polyseme Benennung Oxid X X

(weil mehrdeutig)

Treffer TrefferHinweis auf übertragene Bedeutung / Polysem / Generalisierung

Arm, Zug, Katze (X)X

(weil ungenau oder mehrdeutig)

Page 17: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Fachlich-sprachliche Bewertung (2/2)Fachlich-sprachliche Bewertung (2/2)

Seite 17

Fachliche Bewertung

>fachlich obsolet?

>falsches Fachgebiet?

Sprachliche Bewertung

>umgangssprachlich?

>falscher Sprachraum?

Bewertung anhand:

Begriff > Sprache > Benennungen des gleichen Begriffs (= Synonyme / Abkürzungen)

pro Benennung: > Fachgebiet > Sprachebene > obsolet ja/nein > Sprachraum …

Page 18: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Synonyme und AbkürzungenSynonyme und Abkürzungen

Seite 18

Fachliche Bewertung

>Welche der möglichen Synonyme potenzieller Termini kommen vor?

>Für welche potenziellen Termini kommen auch Abkürzungen vor?

Suche der möglichen Synonyme und Abkürzungen anhand:

Begriff > Sprache > Benennungen des gleichen Begriffs (= Synonyme / Abkürzungen)

pro Benennung: > Fachgebiet > Sprachebene > obsolet ja/nein > Sprachraum …

Page 19: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Fazit: Wörterbuchvergleich…Fazit: Wörterbuchvergleich…

Seite 19

1. …liefert schon im ersten Schritt qualifizierte Information:

>Eindeutiger oder mutmaßlicher Terminus?

>Hinweise auf Fehler der Ausgangssprache Bsp.: Obsoleszenz, falsches Fachgebiet oder falsche Sprachebene

>Hinweise auf ungenaue oder mehrdeutige Termini

Bsp.: Erkennung von übertragener Bedeutung,Polysemie und Generalisierung.

>Welche Synonyme und Abkürzungen werden tatsächlich verwendet?

2. …hilft dabei, Fehler und Mängel in der Ausgangssprache zu beseitigen.

3. …hilft beim Finden von Vorzugsbenennungen

4. Direkte Übernahme von Daten in die Terminologiedatenbank ist denkbar (auch für die Fremdsprache).

5. …kann mit Zusatztechniken kombiniert werden:

>z. B. mit Lemmatisierung

(Analyse grammatischer Varianten ohne Stemming)

>z. B. mit Morphemanalyse

(Suche nach mehrteiligen oder diskontinuierlichen Termini)

Page 20: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

FRAGEN?

Seite 20

Page 21: Verbesserte Termextraktion auf Basis von Wörterbuchdaten

Ihre Meinung ist uns wichtig!

Sagen Sie uns bitte, wie Ihnen der Vortrag gefallen hat. Wir freuen uns auf Ihr Feedback per Smartphone oder Tablet unter

http://TERM6.honestly.de

oder scannen Sie den QR-Code

Acolada GmbH

Wallensteinstraße 61 - 6390431 Nürnberg / Deutschland

Telefon: +49 (0)911 / 37 66 75 - 0Fax: +49 (0)911 / 37 66 75 - 29E-Mail: [email protected]

Sirius CMS

XML/SGML- Content

Management

UniTerm

Terminologie-Management

UniLex

MehrsprachigeWörterbücher

SIMQIN Editor

Word-ähnlicher XML-Editor

mit einfacher Bedienung

myFabulous Agent

Automatische XML-Verarbeitung in Adobe InDesign

Das Bewertungstool steht Ihnen auch noch nach der Tagung zur Verfügung!