Peter Grzybek & Ernst Stadlober http://www-gewi.uni-graz.at/quanta http://quanta.uni- graz.at Austrian Research Fund Project #15485 Quantitative Text Typology
Dec 30, 2015
Peter Grzybek & Ernst Stadlober
http://www-gewi.uni-graz.at/quanta http://quanta.uni-graz.at
Austrian Research Fund Project #15485
Quantitative Text Typology
… A Universe
of Texts
Let‘s suppose there is …
Is the Universe Structured ?
Or Can We Structure it ?
How Can the Text Universe Be Structured?
Corpus Analysis vs. Text Analysis
„Text Mixture“
(Re-)Construction
• of a norm • of a standard• of „language“
TextText
As aAs a
Homogeneous EntityHomogeneous Entity
Complete Text
(„Quasi Text“)Self-regulating System
What is a Text ?
• Complete novel, composed of books ?
• Complete book of a novel, consisting of several chapters ?
• Individual chapters ?
• Dialogical vs. narrative sequences within a text ?
Two Major Problems: 1. Data Homogeneity
2. Definition of Basic Analytical Units
Both problems relevant for quantitative approaches
WHY QUANTITATIVE APPROACHES ?
ASSUMPTION:
• If a ‚text‘ is governed by synergetic processes, these processes can and must be quantitatively described.
• The descriptive models obtained for each ‚text‘, can be compaired to each other, possibly resulting in one or more general model(s).
• Thus, a quantitative typology of texts can be obtained.
Synergetics In a Nutshell –
Frequencies and Dependencies
WHY WORD LENGTH ?
SENTENCE
CLAUSE
WORD / LEXEME
SYLLABLE / MORPHEME
PHONEME / GRAPHEME
SENTENCE
CLAUSE
Frequency WORD / LEXEME
Frequency SYLLABLE / MORPHEME
Frequency PHONEME / GRAPHEME
SENTENCE Length↕
CLAUSE Length↕
Frequency WORD / LEXEME Length↕
Frequency SYLLABLE / MORPHEME Length↕
Frequency PHONEME / GRAPHEME Length
Word Length: Graphemes, Phonemes, Syllables, Morphemes,…
SENTENCE Length Frequency
CLAUSE Length Frequency
Frequency WORD / LEXEME Length Frequency
Frequency SYLLABLE / MORPHEME Length Frequency
Frequency PHONEME / GRAPHEME Length Frequency
TYPES OF TEXT TYPOLOGIES
I. Qualitative
II. Quantitative-Qualitative
a. Tabula Rasa Principle (Clustering Methods)
b. A-priori A-posteriori Principle (Discrimination Methods)
1 Abänderungsvertrag 2001 Lamento 3961 Zustandsdrama2 Abbestellung 2002 Landesliste 3962 Zustellungsurkunde3 Abbruchgenehmigung 2003 Landsknechtslied 3963 Zustellvermerk4 Abdankungserklärung 2004 Landstreicherroman 3964 Zuzugsgenehmigung5 Abecedarium 2005 Langzeitprogramm 3965 Zwanziguhrnachrichten6 Abendblatt 2006 Langzeitstudie 3966 Zweckmeldung7 Abendgebet 2007 Lapidarium 3967 Zweiergespräch8 Abendgespräch 2008 Lastenausgleichsgesetz 3968 Zwiegespräch9 Abendnachrichten 2009 Lastschriftzettel 3969 Zwischenbemerkung10 Abendprogramm 2010 Latrinengerücht 3970 Zwischenbericht11 Abendzeitung 2011 Latrinenparole 3971 Zwischenbescheid12 Abenteuerroman 2012 Laudatio 3972 Zwischenfrage13 Aberkennung 2013 Laufzettel 3973 Zwischenruf14 Abfahrtsplan 2014 Layout 3974 Zwischenschein15 Abfindungserklärung 2015 Lead 3975 Zwischenspiel16 Abgabebewilligung 2016 Leaflet 3976 Zwischentest17 Abgabeordnung 2017 Lebensversicherungsantrag 3977 Zwischentitel18 Abgangsmeldung 2018 Lebensabriss 3978 Zwischenurteil19 Abgangszeugnis 2019 Lebensbericht 3979 Zwischenzeugnis20 Abgeordnetenrede 2020 Lebensbeschreibung 3980 Zyklenroman
… … …
Structuring the Text Universe
(Ia): Text Sorts
Structuring the Text Universe
(Ib): Functional Styles
Funktionalstile
Stil der Alltagsrede
(Umgangssprache)
wissen-schaftlicher
Stil
offiziell-amtlicherStil des öffentlichen
Verkehrs
journalistisch-publizistischer
Stilkünstlerischer
Stil
prosaisch poetisch dramatisch
In a qualitative approach, the text universe is structured with regard to external (pragmatic) factors
(„with reference to the world“)
• general communicative functions of language (functional styles)
• specific situational functions (text sorts)
O F " W O R L D "T E X T S
W O R L D
Broad, General Narrow, specificCategories Few Many
heterogeneous homogeneousItems included tend to be
Top-Down
Bottom-Up
F U N C T I O N A LS T Y L E
T E X T S O R T S
T E X T S
Prosa Poesie Dramatik1 2 3 4 5 6 7
Privatbrief Abstract Anleitung Agenturmeldung Autobiographie Elegie DramaTagebucheintrag Aufsatz Geschäftsbrief Auslandsbericht Biographie Epos Komödie
Witz Autorreferat Gesetzestext Fachartikel Briefroman Gedicht TragödieDiplomarbeit Gutachten Feuilleton Epilog Ode VersdramaDissertation Offener Brief Glosse Erinnerungen Sonett
Referat Parteitagsbeschluss Kolumne Erzählung VerserzählungRezension Predigt Kommentar Fabel Versroman
Tagungsbericht Schreiben Kritik GleichnisVertrag Leserbrief KunstmärchenVortrag Meldung Kurzroman
Sportbericht LegendeWetterbericht Mythos
Zeitschriftenaufsatz NovelleZeitungsartikel Roman
SageSchwank
TagebuchromanVolksmärchen
KunstAlltag Wissenschaft Administration Journalistik
Top-Down Bottom-Up
First and Second Order Cross Comparisons
Prosa Poesie Dramatik1 2 3 4 5 6 7
Privatbrief Abstract Anleitung Agenturmeldung Autobiographie Elegie DramaTagebucheintrag Aufsatz Geschäftsbrief Auslandsbericht Biographie Epos Komödie
Witz Autorreferat Gesetzestext Fachartikel Briefroman Gedicht TragödieDiplomarbeit Gutachten Feuilleton Epilog Ode VersdramaDissertation Offener Brief Glosse Erinnerungen Sonett
Referat Parteitagsbeschluss Kolumne Erzählung VerserzählungRezension Predigt Kommentar Fabel Versroman
Tagungsbericht Schreiben Kritik GleichnisVertrag Leserbrief KunstmärchenVortrag Meldung Kurzroman
Sportbericht LegendeWetterbericht Mythos
Zeitschriftenaufsatz NovelleZeitungsartikel Roman
SageSchwank
TagebuchromanVolksmärchen
KunstAlltag Wissenschaft Administration Journalistik
Intended Emphasis on Letters
‚Letter‘ as a Prototype of Language
1. Located between Oral and Written Communication
2. Result of One Homogeneous Process of Text Generation
Ablassbrief Gautschbrief Musterbrief ZulassungsbriefAdelsbrief Gesellenbrief Pastoralbrief AbschiedsbriefBeileidsbrief Heldenbriefe Pfandbrief BriefBettelbrief Himmelsbriefe Prämienbrief BriefromanBittbrief Hirtenbrief Reisebrief Dankbriefblauer Brief Hörerbrief Scheidungsbrief EmpfehlungsbriefBrandbrief Hypothekenbrief Schlussbrief EntschuldigungsbriefBriefbericht Kaperbrief Schmähbrief GeleitbriefBriefkarte Kartenbrief Schuldbrief GeschäftsbriefBriefkopf Kaufbrief Schutzbrief GlückwunschbriefBriefsteller Kettenbrief Sendbrief GratulationsbriefBriefwechsel Kondolenzbrief Sparbrief LeserbriefDrohbrief Lehnsbrief Sparkassenbrief LiebesbriefEhrenbürgerbrief Lehrbrief Steckbrief PrivatbriefEilbrief Leserbriefdebatte Stiftungsbrief ProtestbriefErpresserbrief Literaturbriefe Studienbrief RundbriefFacharbeiterbrief Mahnbrief UnterrichtsbriefFrachtbrief Meisterbrief WappenbriefFreibrief Minnebrief Werbebrief
FUNCTIONAL STYLE
AUTHOR(S) TEXT TYPE(S) NUMBER
EVERYDAY LANGUAGE
Cankar, Jurčič Private Letters 61
PUBLIC STYLE div. anon. Open Letters 29
JOURNALISM div. anon. Readers‘ Letters,
Comments
65
ARTISTIC STYLE
Prose
Cankar
Švigelj-Mérat / Kolšek
Individual Chapters from Short Novels („povest“)
Letters from an Epistolary Novel
68
93
Poetry Gregorčič Versified Poems 40
Drama Jančar Individual Acts from Dramas 42
Textbasis (398 Slovenian Texts)
1 2 3 4 5 6 70
10
20
30
40
50
Kurzprosa
1 2 3 4 5 6 70
10
20
30
40
50
Vers
1 2 3 4 5 6 70
10
20
30
40
50
Kommentar
A Small World of TextsA Small World of TextsWord Length Frequencies (in %) of Four Word Length Frequencies (in %) of Four
Texts Texts
Literary Prose Text (#256)
Versified Poetic Text (#359)
Journalistic Comment (#324)
1 2 3 4 5 6 70
10
20
30
40
50
Privatbrief
Private Letter (#1)
1 2 3 4 5Gedichte 40 1,7127
Kurzprosa 68 1,8258Privatbrief 61 1,8798
Drama 42 1,8973Briefroman 93 2,0026Leserbrief 30 2,2622
Kommentar 35 2,2883Offener Brief 29 2,4268Signifikanz 1,000 0,366 1,000 0,994 1,000
m1Scheffé-Prozedur
textsort NUntergruppe für Alpha = .05.
Post-Hoc-Tests (Text Sorts)
Groups without significant differences form „homogeneous subgroups“
a. Homogeneous subgroups do exist
b. All four letter types in different subgroups !
Post-Hoc-Analyses Homogeneous Subgroups
Discriminant analyses Cases are attributed to groups, on the basis of specific predictor variables
The variables are submitted to linear transformations in order to arrive at an optimal discrimination of the
individual cases
-7,5 -5,0 -2,5 0,0 2,5 5,0 7,5
Funktion 1
-4
-2
0
2
4
6
8
Fu
nk
tio
n 2
Privatbrief
Offener Brief
Leserbrief Kommentar
Briefroman
Kurzprosa
Gedichte
Drama
textsortPrivatbrief
Offener Brief
Leserbrief
Kommentar
Briefroman
Kurzprosa
Gedichte
Drama
Gruppenmittelpunkte
Kanonische Diskriminanzfunktion
Discriminant Analysis: Eight Text Sorts
Discrimination variables:
m1, m2, v, p1
(56.30%)
Discriminant Analysis: Four Letter Types (n=213)
{Private L.} {Ep. Novel} {Readers‘ L.} {Open L.}
Discrimination variables: m1, v
70.40 %
-4 -2 0 2 4 6
Funktion 1
-4
-2
0
2
4
6
Fu
nkt
ion
2
Privatbrief Offener Brief
LeserbriefBriefroman
textsortPrivatbrief
Offener Brief
Leserbrief
Briefroman
Gruppenmittelpunkte
Kanonische Diskriminanzfunktion
Privatbrief Offener Brief Leserbrief BriefromanPrivatbrief 37 0 2 22 61Offener Brief 0 22 3 4 29Leserbrief 1 9 10 10 30Briefroman 10 0 3 80 93
textsortVorhergesagte Gruppenzugehörigkeit
Gesamt
Discriminant Analysis: Three Letters Types (n=213)
{Private L., Ep. Novel} {Readers‘ L.} {Open L.}
Discrimination variables: m1, p2
86.90 %
-2 0 2 4 6
Funktion 1
-3
-2
-1
0
1
2
3
4
Fu
nkt
ion
2
PB/BR OBLB
poaPB/BR
OB
LB
Gruppenmittelpunkte
Kanonische Diskriminanzfunktion
Distinction of Literary Letters Irrelevant ?
PB/BR OB LB
PB/BR 151 0 3 154
OB 2 20 6 28
LB 12 5 14 31
poa
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Discriminant Analysis: Private vs. Public Letters (n=213)
{Private L., Ep. Novel}, {Readers‘ & Open L.}
Discrimination variables: m1, p2
92.00 %
Distinction of Private vs. Public Styles ?
priv pub
priv 151 3 154
pub 14 45 59
oeffpriv
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Discriminant Analysis: Private vs. Public Texts (n=248)
{Private L., Ep. Novel}, {Readers‘ & Open L., Comments}
Discrimination variables: m1, p2
91.10 %
Public vs. Private Styles ?
priv pub
priv 148 6 154
pub 16 78 94
oeffpriv
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Discriminant Analysis: Private/Oral vs. Public/Written Texts (n=290)
{Private L., Ep. Novel, Drama}, {Readers‘ & Open L., Comments}
Discrimination variables: m1, p2
92.40 %
Oral vs. Written Styles ?
priv pub
priv 190 6 196
pub 16 78 94
oeffpriv
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Towards a New Typology ?
-6 -4 -2 0 2 4 6
Funktion 1
-4
-2
0
2
4
Fu
nkt
ion
2
priv
pub
vers
oeffprivpriv
pub
vers
Gruppenmittelpunkte
Kanonische Diskriminanzfunktion
priv pub vers
priv 191 3 2 196
pub 19 75 0 94
vers 5 0 35 40
oeffpriv
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Discriminant Analysis: Three Text Types (n=330)
{Private / Oral} {Public / Written} {Verse}
Discrimination variables: m1, p2, v
91.20 %
Discriminant Analysis: Four Text Types (n=398)
{Private / Oral} {Public / Written} {Prose} {Verse}
Discrimination variables: m1, p2, v
79.90 %
priv pub vers lit
oeffpriv
priv pub lit vers
priv 183 3 9 1 196
pub 19 75 0 0 94
lit 42 0 26 0 68
vers 1 0 5 34 40
oeffpriv
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Discriminant Analysis: Three Text Types (n=398)
{Private / Oral} {Public / Written / Prose} {Verse}
-6 -4 -2 0 2 4 6
Funktion 1
-4
-2
0
2
4
Fu
nkt
ion
2
priv
pub
vers
oeffprivpriv
pub
vers
Gruppenmittelpunkte
Kanonische Diskriminanzfunktion
priv pub vers
priv 260 3 1 264
pub 19 75 0 94
vers 6 0 34 40
oeffpriv
Vorhergesagte Gruppenzugehörigkeit
Gesamt
Discrimination variables: m1, p2, v
92.70 %
This is the End …