semtracks
Noah Bubenhofer
Korpuslinguistik in der linguistischen
LehreErfolge und Misserfolge
Noah Bubenhofer
18. Januar 2011D-Spin Workshop, BBAW, Berlin
semtracks
Noah Bubenhofer
Inhalt
• Ideen und Resultate
• Hoffnungen und Enttäuschungen
• Bedürfnisse und Probleme
• Ausblick und Wünsche
semtracks
Noah Bubenhofer
Ideen und Resultate
semtracks
Noah Bubenhofer
Eckpunkte Korpuslinguistik in der Lehre
• Belege sammeln
• Muster finden
• statistische Auswertungen machen
• bestehende Korpora nutzen
• eigene Korpora erstellen
• Nutzer mit wenig technischem Know-how
• Nutzer mit viel technischem Know-how
semtracks
Noah Bubenhofer
Typischer Seminarplan
• Grundlagen: Begriffsklärung, korpuslinguistische Denkweise (Arm-Chair Linguist vs. Corpus Linguist), Anwendungen
• Empirisches Arbeiten: Thesenbildung, Operationalisierung
• Korpusaufbau, Korpustypen: Repräsentativität, Korpusgröße, Typen, Annotation
• Bestehende Korpora nutzen: DeReKo, DWDS, Baumbanken
• Methoden: KWiC, Kollokationen, n-Gramme, statistische Auswertungen
• Eigene Korpora aufbauen
semtracks
Noah Bubenhofer
Beispiele für studentische Projekte
semtracks
Noah Bubenhofer
David Papst: klein und winzig. Eine Korpusuntersuchung zur Synonymie
• Korpus: DWDS
• Zufallsauswahl von Belegen (Excel-Script zur Generierung von Zahlen)
• manuelle Kategorisierung der Belege
• keine weiteren Hilfsmittel (Kollokationen etc.)
semtracks
Noah Bubenhofer
Igor Matic: Konzeptuelle Metaphern der Wirtschaftskrise in der NZZ am Sonntag
• Korpus: 53 Zeitungsartikel aus Datenbank
• Kategorisierung von Metaphern
• Frequenzvergleiche der Metaphern
• Software: AntConc
semtracks
Noah Bubenhofer
AntConc
semtracks
Noah Bubenhofer
Paul Rauber: Intellektuelle im Diskurs.Zwischen Hybris und Machtkritik
• Eigenes Korpus: Tages-Anzeiger-Artikel (AntConc)
• Bestehende Korpora:
- DeReKo/COSMAS II: Frankfurter Rundschau
- DWDS
- Wortschatz Leipzig
• Kollokationsanalysen im Vergleich
semtracks
Noah Bubenhofer
Verena Casana: Homosexualität. Analyse der Paradigmengruppe homosexuell – gleichgeschlechtlich anhand der taz
• taz-Korpora 1994-2008 mit Schlagwort
• Software: AntConc
• KWiC-Analyse, sortiert (Kontexte links/rechts etc.)
• Kollokationen
• sehr detailreiche Analysen, aber Standards Datenpräsentation nicht eingehalten
semtracks
Noah Bubenhofer
Tamara Weibel: Mieterinnen oder Mieter – Schweizervolk oder Ausländer? Parteispezifische Personen- und Personengruppenbezeichnungen der SP und SVP im Schweizer Parlament
• Korpus: Parlamentsprotokolle, aufgearbeitet von Kommilitone
• Software: AntConc
• Methoden:
- Keywords
- Kollokationen
- manuelle Kategorisierung/Systematisierung
semtracks
Noah Bubenhofer
Sara Baertschi: Der Berg ruft. Sprachgebrauchsmuster von 1920-1945 in der Literatur des Schweizer Alpen-Clubs
• Korpus: Nutzung des Text+Berg-Korpus
• Theoretische Einbettung: Diskurs-/Kulturanalyse und sprachliche Oberfläche ! Korpuslinguistik als empirische Methode
• Methode; Nutzung von AntConc:
- Evaluation/Kategorisierung von Belegen
- Kollokationen
- statistische Signifikanztests
semtracks
Noah Bubenhofer
Angela Fahrni: Regelmässigkeiten in Kundenrezensionen auf Amazon
• Korpuserstellung: 39.063 Kundenrezensionen mit eigenem Perl-Script von amazon.de heruntergeladen; Filterung, XML Metadaten
• Tokenisierung, Lemmatisierung, Tagging: TreeTagger; Ergänzung um eigene Tags (Emoticons)
• Analyse:
- n-Gramme: Perl-Script, Statistik (Signifikanztests)
- Kookkurrenzen: XAIRA
- Clusteranalyse: gCluto
semtracks
Noah Bubenhofer
Xaira
semtracks
Noah Bubenhofer
Madeleine Ehrensperger: Geschlechts- und Altersspezifisches Sprachverhalten
• Erstellung eines Fragebogens, bei dem Fragen beantwortet werden sollen
• 60 Versuchspersonen (Männer/Frauen, unterschiedliches Alter)
• Untersuchung verschiedener Parameter:
- Satzlänge
- Ich-Aussagen
- Satzklammern
- Abkürzungen
- Ausrufe- und Fragezeichen
• keine technischen Hilfsmittel
semtracks
Noah Bubenhofer
Hoffnungen und Enttäuschungen
semtracks
Noah Bubenhofer
sssssssssssssssssssssesssssssssss
semtracks
Noah Bubenhofer
Hoffnungen und Enttäuschungen
• Hoffnungen
- empirisches Arbeiten mit realen Daten
- Anwendung, nicht primär Theorie
- Bedürfnis nach „wissenschaftlichen Methoden“ der Analyse von Sprachdaten
- schnell zu Ergebnissen kommen
• Enttäuschungen
- technische Hürden und großer Aufwand
- Problem der Operationalisierung von Hypothesen
- (vermeintlich) beschränkte Aussagekraft von korpuslinguistischen Analyseresultaten
semtracks
Noah Bubenhofer
Bedürfnisse und Probleme
semtracks
Noah Bubenhofer
Die Probleme und Bedürfnisse der Nutzerinnen/Nutzer
semtracks
Noah Bubenhofer
Online-Kurs Korpuslinguistik
www.bubenhofer.com/korpuslinguistik/
2010:14.158 Besuche43.319 Seitenaufrufe
Zugriffsquellen:qg q34% direkte Zugriffe21% Verweise45% Suchmaschinen
semtracks
Noah Bubenhofer
Korpuslinguistik-Kurs: Hits (2010)Start
Einführung
Unix-Befehle
Definition
Korpustypen
DeReKo/COSMAS II
Signifikanz 1
Annotation
Möglichkeiten (Visualisierung)
Erstellung (Korpora)
AntConc
Anwendungen (Webkorpora)
Daten analysieren
Web als Korpus
Forschungsprozess
Abfragesysteme
Software
Daten aufbereiten
0 1.500 3.000 4.500 6.000
semtracks
Noah Bubenhofer
Korpuslinguistik-Kurs: Verweildauer
RegExp
Kookkurrenzen
Definition
Unix-Befehle
AntConc
Software
Annotation
Signifikanz 1
IDS gesprochen
Daten aufbereiten
WWW-Interface
CSV-Formatierung
Diskursanalyse
COSMAS II Abfragesprache
Literatur
Korpustypen
0 Min. 1 Min. 2 Min. 3 Min. 4 Min.
semtracks
Noah Bubenhofer
Korpuslinguistik-Kurs: Suchbegriffeantconc
unix-befehle namethemen korpuslinguistik
tagsetkorpuslinguistik tageszeitungen
korpus erstellenkookkurrenzen
log likelihood testkonkordanzprogramme
anwendungsgebiete korpuslinguistikkorpuslinguistik copyright
diskursanalysekorpuslinguistik software
tiger corpustiger korpus
cosmas iilog likelihood testantconc download
dwdskookkurrenzanalyse
treetagger betriebssystemkookkurrenzprofilkorpus definition
annotation korpuslinguistikdefinition korpus
kontingenztabelle signifikanz
0 60 120 180 240 300
semtracks
Noah Bubenhofer
Suchbegriffe: Inhalte
themen korpuslinguistik 130anwendungsgebiete korpuslinguistik 26diskursanalyse 21korpuslinguistik diskursanaylse 11probleme der korpuslinguistik 5
semtracks
Noah Bubenhofer
Suchbegriffe: Software
konkordanzprogramm 5konkordanzprogramm download 5concordance-programme zur analyse von korpora 5korpuslinguistik tools 7konkordanzprogramme 28simple concordance program 12korpuslinguistik software 21textdatei importieren per script filemaker 13
antconc 277antconc anleitung 7antconc regex 6cluster antconc 5t-score antconc 5
treetagger betriebssystem 15
graphviz 12graphviz beispiele 7graphviz dot 7graphviz gui 5
kfngram 12filemaker 8
tigersearch 8tiger search 6
corpus workbench windows 7
regexp 5reguläre ausdrücke antconc 5
software berechnung signifikanz 5
semtracks
Noah Bubenhofer
Suchbegriffe: Korpus(erstellung)
korpus definition 14korpora definition 9definition korpus 13korpuslinguistik tageszeitungen 43korpus erstellen 34filemaker datenbank erstellen 9korpuslinguistik copyright 25textkorpus erstellen download 12deutschsprachige korpora 6korpustyp 6baumbanken 5daten aufbereiten 5erstellung ein korpus 5wie erstelle ich einen korpus 5
tiger corpus 21tiger korpus 20
cosmas ii 19cosmas 2 7ids korpus 9funktionen cosmas 6dereko 5
dwds 15lexis nexis korpus 7
semtracks
Noah Bubenhofer
Suchbegriffe: Annotation
annotation korpuslinguistik 13annotierte korpora 12korpuslinguistik annotation 10korpuslinguistik tagging 5pos tagger online 7tagset 54korpulinguistik tag sets 5dependenz parser 5
semtracks
Noah Bubenhofer
Suchbegriffe: Unix
unix-befehle name 174unix befehle 13unix mehrere befehle 13unix befehle datei erstellen 8unix befehle pipe 5unix befehle übersicht 5wie oft ein wort in eine datei vorkommt unix 8unix befehle mac os x 7unix befehle mac 5mac os x terminal befehle 9mac os befehle 6mac unix befehle 5
semtracks
Noah Bubenhofer
Suchbegriffe: Statistik
kookkurrenzen 32kookkurrenzanalyse 15kookkurrenzprofil 14kookkurrenz 13
log likelihood test 30log-likelihood 10llr wert 8log likelihood-wert 7log likelihood tabelle 6chi quadrat test signifikant 5signifikanz 8signifikanztest excel 8kontingenztabelle signifikanz 13
darstellungsoptionen konkordanz korpuslinguistik 8
semtracks
Noah Bubenhofer
Nutzerwünsche Fazit
• Suche nach Tools für…
- die Recherche in Korpora
- das Erstellen von Korpora
- das Verwalten von Korpora
- die statistische Analyse
- das Tagging
- die Visualisierung von Daten
• Suche nach Hilfen für die Bedienung der Tools
• Suche nach Ideen und Beispielen für korpuslinguistische Analysen
semtracks
Noah Bubenhofer
Ausblick und Wünsche
semtracks
Noah Bubenhofer
Meine Wünsche (als Dozent)
• Software-Module für unterschiedliche Anwendungen in der Korpuslinguistik
- Korpuserstellung (Textaufbereitung, Web-Download etc.), Verwaltung, Annotation, Analyse, Darstellung
- einheitliche Schnittstellen
- unter Windows/Mac/Unix/Browser lauffähig
- GUI
! „Excel“ für die Korpuslinguistik?
- statistische Analysen
- Unix-Funktionen grep, cat, sort, uniq etc.
semtracks
Noah Bubenhofer
Wichtig
• Studierende motivieren, korpuslinguistisch zu arbeiten
• Angst vor technischen Hürden nehmen
• ermutigen, mit statistischen Methoden zu arbeiten, ohne deswegen Statistik-Guru werden zu müssen
• zeigen, was State-of-the-Art ist, ohne Unrealistisches zu fordern
• anschauliche Beispiele für korpuslinguistische Methoden in unterschiedlichen Bereichen geben
• aber, grundlegend: von Hypothese/Operationalisierung ausgehen und dann prüfen, wie das technisch umgesetzt werden kann
semtracks
Noah Bubenhofer
Kontakt
www.bubenhofer.com
www.semtracks.org