!
!
Leksemet 'indvandrer's semantiske prosodi i den danske
dagbladspresse i
henholdsvis 1997 og 2011
- Et fraseologisk studie af udviklingen af 'indvandrer's
anvendte betydning ved hjlp af korpuslingvistik
!
!
!
Jacob!Hedeager!Olsen!
20061168!
Vejleder:!Frederik!Stjernfelt!
!
!
Antal!anslag:!190.396!
1
INDHOLD
1. INDLEDNING
......................................................................................................................................................
4
2. OVERORDNET TEORI (FORSKNINGSOVERSIGT)
..................................................................................................
9
2.1. FRASEOLOGI
........................................................................................................................................................
10
2.1.1. Forholdet mellem semantik og
pragmatik...............................................................................................
14
2.1.2. Fraseologi fra et kognitivt perspektiv
......................................................................................................
16
2.1.2.1. Semantiske felter
................................................................................................................................................18
2.2. SPROG SOM SPROGBRUG
........................................................................................................................................
21
2.2.1. Leksikalske enheders semantisk-pragmatiske profil
................................................................................
23
2.2.1.1. (Firthianske) kollokationer og kolligationer
........................................................................................................24
2.2.1.2. Semantisk prference og semantisk prosodi (SP)
..............................................................................................26
3. ANVENDT METODE
...........................................................................................................................................30
3.1. KORPUSLINGVISTIK OG KORPUSSEMANTIK
..................................................................................................................
30
3.1.1. Korpustyper
.............................................................................................................................................
30
3.1.2. Korpusopbygning
.....................................................................................................................................
32
3.1.3. Korpussgning
.........................................................................................................................................
34
3.1.3.1. Frekvensliste
.......................................................................................................................................................34
3.1.3.2. Kollokation (teknisk uddybning)
.........................................................................................................................35
3.1.3.2.1. Annotering vs. ren tekst
.............................................................................................................................38
3.1.3.2.2. Statistikken
.................................................................................................................................................40
3.1.3.3. Konkordans (KWIC)
.............................................................................................................................................43
3.2. DATA
.................................................................................................................................................................
44
4. RESULTATER
.....................................................................................................................................................46
4.1. KOLLOKATIONER 1997
..........................................................................................................................................
46
4.1.1.
...................................................................................................................
46
-formers venstre kontekst
......................................................................................
47
-formers hjre kontekst
.........................................................................................
48
-
.......................................................................................
49
-
...........................................................................................
52
4.2. KOLLOKATIONER 2011
..........................................................................................................................................
52
...................................................................................................................
52
-formers venstre kontekst
......................................................................................
53
-formers hjre kontekst
.........................................................................................
53
2
5. ANALYSE
...........................................................................................................................................................54
5.1. 1997
.................................................................................................................................................................
55
5.1.1. Orddannelsernes semantiske prference
...............................................................................................
55
5.1.2. Orddannelsernes semantiske prosodi
......................................................................................................
55
5.1.2.1. Opsummering
.....................................................................................................................................................57
5.1.3. Venstre konteksts semantiske prference
..............................................................................................
58
5.1.4. Venstre konteksts semantiske
prosodi.....................................................................................................
59
5.1.4.1. Opsummering
.....................................................................................................................................................63
5.1.5. Hjre konteksts semantiske prference
..................................................................................................
64
5.1.6. Hjre konteksts semantiske prosodi
........................................................................................................
65
5.1.6.1. Opsummering
.....................................................................................................................................................67
-
............................................................................
68
-
...................................................................................
68
5.2. 2011
.................................................................................................................................................................
69
5.2.1. Orddannelsernes semantiske prference
...............................................................................................
69
5.2.2. Orddannelsernes semantiske prosodi
......................................................................................................
69
5.2.2.1. Opsummering
.....................................................................................................................................................72
5.2.3. Venstre konteksts semantiske prference
..............................................................................................
72
5.2.4. Venstre konteksts semantiske
prosodi.....................................................................................................
74
5.2.4.1. Opsummering
.....................................................................................................................................................77
5.2.5. Hjre konteksts semantiske prference
..................................................................................................
77
5.2.6. Hjre konteksts semantiske prosodi
........................................................................................................
78
5.2.6.1. Opsummering
.....................................................................................................................................................80
5.3. DET OVERORDNEDE
PERSPEKTIV...............................................................................................................................
81
6. VURDERING OG KONKLUSION
..........................................................................................................................92
6.1. PERSPEKTIVERING
.................................................................................................................................................
96
7. LITTERATURLISTE
..............................................................................................................................................97
8. SUMMARY
......................................................................................................................................................
103
9. BILAG
.............................................................................................................................................................
105
3
Formateringsforklaring
I denne opgave vil der blive anvendt flgende formattering:
; at faglige udtryk ); til at fremhve ord
eller fraser som undersgelsesobjekter (eksempe ordet
de til at markere
indledning).
t markere citater og til at fortlle, at noget bliver ytret i
overfrt betydning.
Kursiv bruges til enten at fremhve tekststykker i egen tekst,
eller til at markere kollokationer, hvis tekststykket str i enkelte
anfrselstegn (eksempelvis: ).
Vinkelparentes (< >) anvendes til at markere sgeord.
Sgeord kan ogs vre en frase,
STORE BOGSTAVER markerer lemmaer (eksempelvis i tilflde af at
det ogs er et sgeord: ). Alternative udtr
). STORE BOGSTAVER i enkelte anfrselstegn og kursiv
(eksempelvis: ) markerer dermed et lemma, som er
kollokation.
4
1. Indledning
Der har vret megen polemik omkring indvandrere i danske medier i
de sidste mange r. Der er
mange forskellige opfattelser af, hvordan diskursen tager sig
ud, og hvordan den br vre. Nogle
(eksempelvis Tger Seidenfaden (2004a; 2004b) og Rune Engelbreth
Larsen (2013)) har givet
udtryk for, at den er blevet for hrd og unuaceret, mens andre
(eksempelvis Martin Henriksen
(2010)) mener, at den slet ikke er hrd nok. Denne debat har stet
p i en rrkke, men ingen har
kunnet fremlgge beviser for, hvad der rent faktisk siges om
indvandrere, hvilke konnotationer
begrebet indeholder, og om/hvordan betydningen (eller
forstelsen) af reelt har
ndret sig over tiden. Det er det, denne opgave vil belyse.
I fraseologien1 (hvilket er det teoretiske felt, denne opgave
baserer sig p) er det alment
accepteret, at sprog ikke bestr af en rkke uafhngige ord, der
har sine egne betydninger, uanset
hvordan de anvendes, men at sproget i stedet bestr af fraser,
som giver ord deres specifikke
betydninger i bestemte kontekster (f.eks. Sinclair 1991; Stubbs
2002 1995). Eksempelvis
(noget) rt , men der kan ogs vre
stor forskel p, hvad disse fraser kan betyde alt efter, hvad den
bredere kontekst er. P samme mde
INDVANDRER
kontekster. Men der vil altid vre nogle fraser og kontekster
ethvert ord har mere tendens til at
vlge end andre. Disse tendenser siger noget om ordets anvendte
betydninger som kan smitte af
i form af konnotationer. Disse naboord kaldes kollokationer, og
kan findes ved en statistisk metode,
der hedder korpuslingvistik. Dette begreb vender jeg straks
tilbage til.
Kollokation er et meget anvendt ord i bde teoretisk og empirisk
lingvistik (sidstnvntes
metode er i hj grad KL), og har derfor forskellige anvendte
betydninger. Den, der anvendes i
denne opgave er en praktisk, empirisk betydning fra KL, hvor det
betyder et ord, der inden for et
fastlagt spnd (4-6 ord) optrder sammen med en enhed 2 med en vis
statistisk stringens. Det
vil sige, at deres samforekomst3 lever op til visse statistiske
standarder, som forklares i et
kommende afsnit (afsnit 3.1.3.2.2. Statistikken).
1 Introduceres straks efter indledningen. 2 . 3 Samforekomst: At
optrde sammen inden for det fromtalte spnd.
5
Det er mit ml at finde INDVANDRER semantiske prosodi (SP)
i den forstand, at jeg leder efter den vanlige brug af dette
lemma, hvilket ofte vil vre en skjult
egenskab. Derfor er ikke alle kollokationer lige relevante for
mig, da fokus ligger p isr evaluative
kvaliteter (eksempelvis : positiv; kriminel : negativ). Men
analysen er ogs bredere
end en simpel positiv/negativ-analyse. Mlstningen er at skabe en
semantisk/pragmatisk profil af
lemmaet, der gr ud over den traditionelle ordbogsdefinition, og
pregner den kontekst, som det
normalt optrder i, og den mde det oftest bruges p. Jeg vil bde
undersge denotative
(semantiske) og mere kontekstuelle og konnotative (pragmatiske)
egenskaber af lemmaet.
Undersgelsen gr ud p at afdkke dette lemmas brug i virkelige
kommunikative kontekster i
dette tilflde et bredt udsnit af danske dagblade p to
forskellige tidspunkter (1997 og 2011) for
ogs at kunne sige noget om lemmaets udvikling.
Den empiriske data er valgt ud fra et nske om at f s bredt og
reprsentativt et udsnit af
indvandrerdiskursen som muligt. Derfor er alle dagbladsartikler
p Infomedia fra de pgldende r,
der indeholder lemmaet INDVANDRER
(tekstsamlingerne). Landsdkkende avisjournalistik vurderes at
vre et godt medium for at
INDVANDRER
og vre relevant for alle distrikter i Danmark, og som alle
danske borgere har adgang til at udtrykke
sig i. Aviser vurderes tilmed at vre et medium, hvor en stor del
af den politiske debat foregr, og
indvandrere omtales i hj grad i politiske diskurser.
Derudover har skrevet journalistik den fordel, at det ligger til
fri afbenyttelse p internettet, og
blot skal kopieres og gemmes i et format, som det valgte
korpus-program kan behandle.
I denne opgave anvendes som sagt KL), hvilket er et
lingvistisk
analyseredskab, hvis metode primrt er kvantitativ (i.e.
statistisk), og derfor undersger empirisk
funderede sproglige tendenser (i.e. hvordan sproget rent faktisk
bruges) snarere end deduktive
regler for, hvordan sproget kan/m bruges. KL anvender
forskellige metoder til at behandle og
undersge sprog i autentisk form det vil sige sprog, som er
anvendt i virkelige kommunikative
6
kontekster uden for laboratoriets sterile milj. Empirien er alts
central for denne metode, og i
udgangspunktet er det den, der er styrende for analysen.
KL er specielt velegnet til den indevrende undersgelse, da den
behandler konkret empirisk
sprogdata i store mngder, og derfor kan give et overblik over et
specifikt omrde af sproget p
solid empirisk baggrund grundet computerteknologiens evne til at
sortere og opdele millionvis af
ord hurtigt og effektivt. Dermed kan forskeren forholde sig til
en mere overskuelig, kvantitativt
ordnet mngde data, som let kan undersges kvalitativt ved at
klikke sig ind p de forskellige
resultater (forklares nrmere senere).
Opgavens teoretiske baggrund tager udgangspunkt i specielt J.M.
Sinclair (1966; 1987; 1991;
1996; 1998; 2003; 2004a; 2004b; 2005; 2008) og M. Stubbs (1995a;
1995b; 1996; 2002; 2007a;
2007b; 2009) strengt empiriske tilgang til sproget. Denne er
strkt inspireret af J.R. Firth (Firth
1948; 1957a; 1957b; 1968). Jeg tilslutter mig det rationale, at
sproget bedst undersges empirisk;
alts som et fnomen der er i konstant udvikling og ikke som et
statisk, underliggende universalie,
hvoraf anvendt sprog er et mindre relevant overfladefnomen.
Sprog er med andre ord sprogbrug,
og skal altid anskues i bde sproglig og situationel kontekst. Nr
man opdager, at sprog i den
virkelige verden altid er situeret, og at ethvert mde med et
begreb ndrer ens opfattelse af det
(omend umrkeligt), fr sproget en anden karakter end den
logisk-deduktive, sandhedsbetingede
opfattelse, som traditionelle teorier bygger p (f.eks. Davidson
1967). Idet det lykkedes Sinclair at
pvise, hvordan gentagne sproglige mnstre kunne opdages ved at se
p store mngder sprog p en
gang (Sinclair 1991: 100), er KL brudt igennem som
forskningsmetode (KL), og derigennem er der
opstet mange nye teorier og studier. Man kan hverken se typiske
syntagmatiske eller
paradigmatiske relationer i en individuel tekst. Det kan man ved
hjlp af KL (Tognini-Bonelli
2004: 18).
Sinclair har pvist, at traditionel semantik (studiet af
enkeltords betydning) har undervurderet
sprogets pragmatiske egenskaber. Sproget er i sidste ende et
vrktj for mennesker til at
kommunikere og ikke blot en systematik, der bestr af enkeltdele
bundet sammen af regler. Dermed
har man overset bde menneskets tendens til at vanetnke (det er
nemmere og mere kognitivt
konomisk at konventionalisere nogle udtryk og strukturer, end
det er at finde p nye hele tiden) og
menneskets kreativitet (der kan brydes med disse konventioner,
hvis det er ndvendigt): Resultatet
7
er, at sproget samtidig bde er mere semantisk begrnset i n
forstand (der er flere semi-
prkonstruerede mnstre) og mere fleksibelt i en anden (de mnstre
der er, bruges mere varieret)
end tidligere antaget. Som et eksempel vil jeg hurtigt skitsere
en opdagelse, som jeg gr senere i
opgaven. P dansk har vi ordsproget Man skal ikke kaste med sten,
.
Dette udtryk er idiomatisk, og skal derfor forsts i sammenhng,
for at den rette mening bliver
forstet. Derfor skulle man ikke tro, at man kan ndre p det
overhovedet, uden den intenderede
betydning gr tabt. Men i den lille korpusanalyse, jeg har
foretaget, viser det sig, at der findes
mange variati ... hun harceler , hvilket
viser, at nok er det praktisk med faste og let tilgngelige
holdepunkter, men s lnge vi ved, de er
der, kan vi sagtens overskride dem. Denne proces (der kaldes for
sprogbrug) skaber en
vekselvirkning mellem sproglig konvention og frihed/nybrud, der
driver udviklingen frem.
Nr sprogets strre elementer (fraser, stninger, tekster og
korpusser) kommer i spil, viser der
sig mnstre, som vi ikke var opmrksomme p, fr vi opdagede dem,
men som er svre at
ignorere, nr frst de er fundet. Fraser og deres sproglige milj
kan derfor vre med til at vise,
hvilken forventning (ofte ubevidst) vi har til det, der flger,
samt hvad der er sandsynligt, hyppigt
og typisk (Stubbs 2002: 19-20). Det er det man undersger, nr man
undersger et ords (eller en
frases) SP. Det er med andre ord en undersgelse af konnotationer
(hvad forbinder man det med) og
ikke bare denotation (hvad det henviser til).
Til at understtte denne teori inddrages der derudover kognitive
teorier baseret p empiriske
undersgelser. Som forklaring p, hvorfor sproget opfrer sig, som
fraseologien pviser, anvendes
t er en veldokumenteret model for, hvordan sprogets
semantiske enkeltdele organiserer sig i forhold til hinanden.
Elementer der bliver anvendt sammen
ofte, danner neurale forbindelser til hinanden, og anvendes
dermed med strre sandsynlighed
sammen senere.
Fr selve analysen kan foretages, krver det en temmelig indgende
indfring i feltet, som
opgaven tager sit udgangspunkt i (fraseologi) og de teorier, der
er udviklet heri. Herefter vil den
anvendte metode (KL) blive introduceret, samt hvordan og p
hvilket grundlag undersgelsens data
er indsamlet. Dernst optrder et afsnit, hvor resultaterne fra
den maskinelle, kvantitative
8
kollokationsanalyse prsenteres i sin r form. Dette afsnit tjener
det forml at vise, hvordan dataens
statistiske egenskaber tager sig ud, fr en kvalitativ sortering
foretages. I det flgende afsnit
foretages den kvalitative analyse, hvor resultaterne inddeles i
semantiske kategorier og undersges
yderligere. Sluttelig vurderes analysens validitet samt teoriens
og metodens anvendelighed for
opgavens analyse. Dette flges op af en perspektivering, der
stter undersgelsens resultater i
perspektiv til det felt, de baserer sig p, ppeger de huller, som
min undersgelse efterlader, og
foreslr fremtidig forskning.
9
2. Overordnet teori (forskningsoversigt)
Den moderne fraseologi (studiet af betydningsenheder, der er
strre end ord, i.e. prfabrikerede
eller semi-prfabrikerede fraser) tager specielt udgangspunkt i
Firths ider om sproglig analyse som
et holistisk projekt (de forskellige analytiske niveauer br
tnkes sammen), og er isr
videreudviklet af Sinclair. Denne tradition inddrager begge
traditioner, som nvnes nedenfor, men
bruger ogs KL som metode, og har en udprget empirisk tilgang til
den fraseologiske analyse. Det
er den, som bliver anvendt i denne opgave.
Fraseologien er udviklet igennem flere stadier. Feltet har sit
udspring i Rusland (davrende
ikke-russisk-talende lande via Klappenbach (1968), Weinreich
(1969), Arnold (1973) og Lipka
(1974). Arven efter denne tradtion er primrt en udarbejdelse af
deskriptive kategorier, der er
omfattende, systematiske og velfunderede. Grundstrukturen af
disse danner grundlaget for moderne
fraseologi (Cowie 2001: 4). Fraser kan inddeles i to overordnede
kategorier: Kompositionelle og
ikke-kompositionelle. ( Gries 2008: 37). Kompositionelle fraser
er kendetegnet ved,
at deres betydning svarer til summen af elementernes
individuelle betydninger. Ikke-
kompositionelle frasers betydning svarer til noget andet eller
mere end summen af elementernes
individuelle betydninger. Idiomer hrer til her. En detaljeret
gennemgang af disse kategorier er ikke
relevant i denne opgave.
Teliya (Teliya 1981; 1993) og kollegaer tog med udgangspunkt i
den russiske tradition en
kulturel/antropologisk drejning. Hun mente, at fraser er en god
kilde til kulturel data og derfor et
oplagt fokus i sproglig-kulturel analyse (Cowie 2001: 8). Der er
mange fraser, der ikke forsts uden
en kulturel grundforstelse (hvilke normer et samfund har etc.).
Kulturelle konnotationer kan iflge
Teliya findes igennem fraseologiske analyser. Den russiske
kvivalent til /
(samt et felt af relaterede fraser) dkker eksempelvis over en
samfundsnorm, hvor en
anstndig kvinde ikke gr alene rundt, hvilket afspejles i mange
lignende fraser (ibid.: 9).
I det resterende af dette afsnit vil fraseologien, som den ser
ud i dag, blive udlagt.
10
2.1. Fraseologi Fraseologi er studiet af frasemer. Frasemer er
multi-ord4 (eller multi-morfemiske) ytringer,
hvor mindst n af komponenterne er begrnset af sproglige
konventioner, sledes at den ikke frit
1995). Der er her ikke tale om morfosyntaktiske
(grammatiske)
begrnsninger men semantiske, da de udspringer af en leksikalsk
viden om, hvad ord betyder
sammen, og hvilke lyder godt/rigtigt sammen; viden der
udspringer af den sprogbrug i form af
sproglige mnstre og deres pragmatisk-semantiske anvendelse man
mder (Sinclair 1991: 99-137;
Stubbs 2002: 30-32; Hoey 2005: 1-15). Semantikken og
morfosyntaksen har byttet roller i de senere
r. Hvor grammatikken tidligere (og stadig i nogle traditioner
(f.eks. Chomsky 1997) blev set som
relativt uafhngig af semantikken og som lingvistikkens virkelige
interesseomrde (f.eks. Chomsky
1957: 17),5 er der i dag voksende enighed om, at sprogets
formelle del (syntaks, prosodi, intonation
etc.) har semantik indlejret i sig (f.eks. Langacker 1993;
Fillmore & ; Croft
2001; Goldberg 1995; 2006; Gries & Stefanowitsch 2004;
Lakoff 1987a; 1987b; Bresnan 1985;
Harder 1996; Tomasello 2001), men ogs at den formelle del er
motiveret af indholdsdelen
(semantik og pragmatik), og at indholdsdelen dermed fr forrang i
den lingvistiske analyse (ibid.).
Der bliver i mange teorier ikke lngere sat s skarp en grnse
mellem grammatik og semantik,
fordi sproget frst og fremmest bliver set som noget
kommunikativt og funktionelt, hvor form og
indhold ikke helt kan skilles fra hinanden, idet de har udviklet
sig (og udvikler sig) i sammenhng.
I fraseologien menes det derfor (f.eks. Sinclair 1991: 110-115;
Stubbs 2002: 3-21), at mange ord
udvlges i sammenhng og ikke hver for sig (linirt/syntagmatisk) i
en ytring, som traditionelle
grammatiske modeller hvder (f.eks. Chomsky 1957; Saussure 1974).
Sinclair kalder det princip,
som er gldende i disse modeller, hvor sprogbrugeren fylder
adskilte, relevante ord ind i de af
grammatikken tilrdighed stillede kasser med den eneste
semantiske begrnsning, at stningen skal
vre meningsfuld, for - -princippet (Sinclair 1991: 109-110).
Sinclair mener ikke, at
dette princip kan st alene. Derudover bestr sproget af
prkonstruerederede og semi-
prkonstruerede enheder, og valget af t ord pvirker valget af
andre ord i dets nrhed. Dette
kalder han idiom-princippet. - -princippet er underordnet
idiom-princippet, og trder
kun til, hvor der ikke er frasemer (fraser fremover)6 til
rdighed (Sinclair 1991: 110-115).
4 5 Grunden, til at jeg fremhver Chomsky, er, at han har dannet
skole for stort set alle dem, der tilslutter sig denne model. 6
Selv om enkeltord-ytri - -)ig(-
11
Det er derfor disse fraseologers overbevisning, at det ikke er
ord men fraser, der er sprogbrugens
basale betydningsenheder (Stubbs 2002: 14, 49-50; Sinclair;
2004b: 30, 148; 2008: 409). Ord har
ikke betydninger, der er fikseret n gang for alle i ordbger. De
tilegner sig eller ndrer betydning
alt efter den sociale eller sproglige kontekst, de bruges i. At
forst sprog i brug afhnger af en
balance mellem pragmatisk udledning og konvention (Stubbs 2002:
13). Stubbs forklarer, at en
brugbar men en anelse overdrevet mde at sige det p er, at det
ikke er frasen, der fr sin mening fra
ordene; det er ordene, der fr deres mening fra frasen (ibid.:
14). Med andre ord: Mening er
sprogbrug (ibid.: 13).
Et godt eksempel p at ord ikke har faste betydninger, men drager
meget betydning fra
omgivelserne er det engelske begreb: Round table talks (ibid.:
3). Hver for sig kan round betyde
table
round table
enkelt at kombinere de to individuelle betydninger. Dette kaldes
en kompositionel frase, fordi
betydningen er den samme som summen af de to individuelle ords
betydninger. Men hvis man tager
den lngere frase round table talks
mennesker med interesser og ekspertise inden for et bestemt emne
mdes som ligemnd for at
l viden: Vi ville ikke forst
frasen uddybende, medmindre vi ogs vidste, at den ofte bliver
brugt om diskussioner mellem
ligger i frasen, er motiveret af, at der ikke findes
privilegerede pladser om et rundt bord (som f.eks.
bordenden). Men for at forst hele betydningen af frasen krver
det, at man lrer den som en
helhed. Frasen er en selvstndig leksikalsk enhed ;7 det vil
sige, at den har sin egen betydning, der
ikke ndvendigvis kan forudsiges fra de individuelle ord,
og/eller agerer som en selvstndig
betydningsenhed (ibid.: 30-31).
, , etc.. P
dansk bestr sammensatte navneord (n form for leksikalske
enheder) typisk af t ord, men der
-
or) vil blive brugt som samlebetegnelse for morfemer, ord og
fraser, mens
7
12
ed. En anden
rsag til at en leksikalsk enhed bestr af flere ord kunne vre, at
det er et egen
Margrethe II .
; polyord: etc.;
leksikalske
etc.; a
(Lewis & Gough 1997: 17-43). En leksikalsk enhed kan best af
et
enkelt (frit) morfem ( , et multi-morfem eller en
frase. Leksikalsk enhed vil fremover blive forkortet enhed .
I andre fraser (i relation til det ovenstende -eksempel) har
round og table
helt andre betydninger: A round number, a table wine, a
timetable (Stubbs 2002: 3) etc. De fleste
ord har forskellige anvendelsesmuligheder og forskellige
betydninger. Nogle gange har ord s
mange betydninger, at de ikke synes at have nogen selvstndig
betydning overhovedet. Dette 8 og gr sig gldende for nogle af de
allermest hyppige ord i et sprog; p
engelsk er nogle af eksemplerne take og make (se Stubbs 2002:
32-34; Sinclair 1991: 112-113
for eksempler). Sinclair argumenterer yderligere for, at det
meste almindelige tekst i hj grad er
konstrueret igennem idiom-princippet, og derfor er
afleksikaliseret (ibid.: 113ff). Nr ord nu kan
have s mange potentielle betydninger, kan det undre, at vi
forstr ytringer i det hele taget. Dette
skyldes, at ord normalt ikke optrder i isolation men i lngere
fraser. I dette eksempel er det
tydeligt, hvilke betydninger af round , der er relevante:
They sat round the table; they ran round the table; they came
round to my house; they came round to my way of thinking; a round
dozen; a round of applause; a round of drinks; a round of golf; the
doctor is on her round (Stubbs 2002: 3).
Flertydighed ses af flere fraseologer som et fnomen affdt af
fejlagtig teori snarere end en
virkelig sproglig egenskab (Sinclair 2004a: 297; Stubbs 2002:
14-21). Fejlen bestr i, at den
horisont, man undersger ords betydning i, er for lille;
flertydigheden lser sig (nsten) altid, hvis
konteksten omkring ordet udvides. Derfor er der snarere tale om
differentiering af mening end
flertydighed (Sinclair 2004a: 274). Man forsger analytisk at
bryde mening ned i s sm bidder som
8
13
muligt (morfemer og ord) for at kunne undersge dem i isolation
og lave ordbger, men i
virkelighedens verden udfolder mening sig i kontekst. Mening
skabes p to niveauer: Den generelle
betydning et morfem eller et ord har og den modulation
betydningen fr ved valg af kontekst
(Sinclair 2004a: 282).
Hvad der lyder godt eller rigtigt sammen er et resultat af
vanlig brug, som har skabt sproglige og
kulturelle stereotyper. Eksempelvis hedder det p tysk
(rengre/pudse
tnder), p Litauisk ,
hvorimod det p fransk ( ) og dansk hedder (Heid 1994: 240).
Handlingen er den samme, men det kaldes noget forske og
har integreret sig i hinandens semantiske felter (se afsnit
2.1.2.1. Semantiske felter) p dansk og
ikke eller andre begreber.9
Stubbs bruger som eksempel . Dette er et ord, der p engelsk
lgger sig til kvinder.
Mnd sladrer ogs, men det kalder man andre ting (ssom male
bonding ). Begge kn indgr i
aktiviteten, men ordets kulturelle betydning er p engelsk
-8).
En korpusanalyse (forklares i afsnit 3.) viser, at der lgger sig
positive begreber ( eligible ,
educated etc.) til (ungkarl), hvorimod ordet (ugift kvinde)
er
phftet mere negative begreber ( frustrated , lonely , elderly ,
dried-up , sex-starved etc.)
(Baker 2008).
Mening er alts kontekstafhngig. Mange ord har kun vage
betydninger i sig selv, og er
afhngig af den forventning, en sprogbruger har til deres
betydning i en given kontekst. Nogle
(meget hyppige)10 ord har mange og meget divergerende
betydninger. Andre (mere sjldne) ord har
mere faste betydninger (eksempelvis hyponymer: po ). Ord der
primrt
9 Der skal naturligvis vre en semantisk motivation f
ser ofte ved brug af udtryk, at det handler mere om, hvordan de
frst bliver konventionaliseret, end hvad der giver
10 Funktionsord hvoraf de samme fylder langt det meste af et
menneskes anvendte sprog men en lille del af vokabulariet er lidt
specielle i dette henseende, da der findes s f funktionsord til at
forklare alle former for relationer (prpositioner, konjunktioner
etc.). Dermed er de meget hyppige, samtidig med at nogle af dem har
en meget bred/ben betydning; f.eks. prpositioner (p bordet, p
vrksted, p stoffer), imens andre har meget snvre betydninger;
f.eks. konjunktioner (og, eller etc.).
14
bruges i lukkede fllesskaber (ssom fagvidenskabelige kredse)
eller specielle kontekster (e.g.
konomisk politik) fr ofte hvad enten de er hyppige eller sjldne
i sproget generelt meget
specifikke betydninger inden for disse genrer.11 Nogle ord vil
have disse meget specifikke
betydninger inden for genren, samtidig med at de har mere
lselige hverdagsbetydninger. Inden for
eksempelvis meget mere specifikke og formelle end i
hverdagsbrug. Andre gange bliver disse genrer eksponeret s
meget, at en fagterm bliver gngs
sprogbrug ( global opvarmning , cost-benefit-analyse eller
drivhuseffekten etc.), hvor de igen
mister noget af deres betydning, da den ekspertviden, som
begrebet bygger p inden for genren gr
tabt udenfor. I sidste ende er det frasen, som ordet indgr i,
der afgr, hvilken betydning ordet har i
den specifikke kontekst, stningen der afgr frasens relevante
betydning, og den bredere
(situationelle svel som sproglige) kontekst der afgr stningens
relevante betydning.
Til eksempel kan det nvnes, at selv meget specifikke egennavne
ssom Aarhus eller Aarhus
Kommune kan betyde mange ting. Den relevante side af betydningen
kommer frst frem i den
bredere kontekst: Vi s Her kunne Aarhus betyde et fodboldhold
fra Aarhus,
hvilket mere situationel kontekst ville kunne f Jeg ringede til
Aarhus kommune i gr.
De ville i Her betyder Aarhus kommune beskftigelsesafdelingen
i
den offentlige forvaltnings-institution Aarhus Kommune og for
eksempel ikke Aarhus Kommune
som et geografisk omrde.
Nr fraser er blevet ytret tilstrkkelig mange gange, bliver de
konventionaliserede; nogle gange i
meget rigide, faste konstruktioner og andre gange i mere blde og
tenderende.
Netop dette sammenspil mellem semantik og pragmatik vil blive
behandlet nedenfor.
2.1.1. Forholdet mellem semantik og pragmatik Hvis man tager et
ord som ST , s mener vi at have en god id om, hvad det betyder, og
i
hvilke forbindelser det kan bruges. Et menneske kan st, en vase
kan st, og en bygning kan st.
Alle disse eksempler har at gre med fysiske ting om end meget
forskellige der har
jordforbindelse, og p en eller anden mde holder sig oprejst. Der
er alts en udefineret tendens til
11 Henviser til de fromtalte fllesskaber og kontekster. Begrebet
t senere.
15
at ligge ned, hvis ikke objektet holder sig oprejst, fordi det
ikke hviler p den strst mulige flade.
Men hvorfor der str en tallerken der str ?
Udtrykket kan ogs bruges mere perifert. Tiden kan eksempelvis g
i st. Dette eksempel har
Tiden kan kun g i
st p grund af vor
lnge har det stet
for at bibeholde sin betydning.
ST
begreber, som vi tager for givet, og bruger per refleks, har s
mange betydninger, at en ordbog skal
vre meget omfattende for at prsentere dem alle. Desuden udvikler
sproget sig konstant, og
Pointen er, at det, der kaldes mening, ikke er s fast en
strrelse, som folk ofte er tilbjelige til at
tro. Hver gang sproget anvendes, ndres det, men udviklingen
lgger man ofte ikke mrke til, da
den er s gradvis.
Grnsen mellem pragmatik og semantik er slret, for hvem kan med
sikkerhed sige, hvor den
ene slutter og den anden begynder? Hvis det er individets
sprogbrug i kontekst, der udvikler og
faststter betydningen af sprogets enkeltdele i.e. leksemer,
fraser etc. s kan det siges, at
pragmatikken styrer semantikken. Omvendt er det kun i kraft af
semantikkens dogmer i.e.
leksikalske betydninger at den mere esoteriske og perifere
mening kan uddrages, alts
kontekstuelle betydninger i.e. pragmatik. Derfor mener jeg, at
semantik og pragmatik ikke skal
ses som to helt adskilte kategorier, men snarere som et
kontinuum, hvor semantikken str for den
langsomme udvikling (det faste holdepunkt eksemplificeret ved
ordbogen), mens pragmatikken str
for den hurtige online-udvikling (en ny metafor, implikatur,12
ironi etc.), der mske tager rod, eller
mske blot eksisterer i det tidsrum, det anvendes.
Det kan eksempelvis vre svrt at vide, hvornr et udtryk som
bordben blev dannet. Men det
virker plausibelt at antage, at dette udtryk m vre blevet
opfattet som en art metafor: Bordbenet er
for bordet, hvad benet er for mennesket (eller dyret ikke som
en
metafor, ikke engang som en perifer betydning af ben , men blot
som tingens bogstavelige
betydning.
12 Grice 1975: 41-58.
16
Overvej ogs . Dette er et begreb, som relaterer sig til Jean de
La
Fontaines fabel: Bjrnen, der ville vifte en flue fra sin herres
ansigt, men i stedet for at hjlpe
herren, knuste den hans pande (Fontaine 2010). I de fleste
tilflde er betydningen sandsynligvis
blot blevet tillrt og accepteret ved at hre andre bruge det og
ud af konteksten udlede, at begrebet
. Det er ikke ndvendigt at
have lst fablen for at forst begrebet, hvis man hrer det i den
rette kontekst. Hvis f.eks. ens mor
Jeg ved godt, at du giver Fido bacon af en god mening, men du gr
ham en bjrnetjeneste;
han kan ikke t , s kan man godt regne ud, at det i hvert fald
ikke
betyder at gre Fido en tjeneste. Frste gang det blev brugt,
skulle det uden tvivl forklares, og blev
anset for meget pragmatisk, indforstet og kontekstspecifikt,
hvorefter betydningen har spredt sig i
befolkningen og lbende udviklet sig til at integrere flere
situationer. Det er da ogs blevet
misforstet af flere
stor tjene generationer.13
Det flgende afsnit vil behandle, hvordan disse
konceptualiseringer (i.e. betydningsdannelser)
hnger sammen p et kognitivt plan.
2.1.2. Fraseologi fra et kognitivt perspektiv Nr vi
kategoriserer verden, er det kognitivt mest konomisk at lagre viden
i ordnede
frem for at lagre hver enkelt begreb hver for sig (Erman 2007;
Cowie 2001; Lakoff 1987b; Granger
& Meunier 2008; Rosch 1978). Her taler jeg bde om semantiske
felter (uddybes nedenfor), der
taksonomiske strukturer), og genkaldelsen af disse nr vi bruger
sproget til at ytre et bestemt
budskab til en anden. Et eksempel p dette er, at vi har
konventionaliserede udtryk ssom
i benytter os af automatisk i stedet for at vre kreative med
lyder forkert for et trnet re, fordi man ikke er vant til at hre
det. Nr man skal sige noget i en
fart, og skal forsts med det samme, s er det meget mere praktisk
og energibesparende at holde sig
til konventionerne i stedet for at belaste hjernen undigt. P
denne mde bliver sproget i hj grad
13 http://ordnet.dk/ddo/ordbog?query=bj%C3%B8rnetjeneste (se
bilag 1, s. 105)
http://ordnet.dk/ddo/ordbog?query=bj%C3%B8rnetjeneste
17
indlrt og vedligeholdt i konstruktioner og ikke kun partikulrt
ord for ord, som s forbindes
fuldstndig frit udelukkende begrnset af grammatiske regler samt
det indhold, som sprogbrugeren
nsker at udtrykke. De ord, der indlres sammen, genkaldes sammen
(jf.
Collins & Loftus 1975; Meyer & Schvaneveldt 1976;
McNamara 1992; Schacter, Alpert,
Savage, Rauch & Albert 1996)).
Alle ord (eller s godt som alle ord) har flere betydninger, der
er struktureret af de begreber, som
de normalvis optrder sammen med (kontekst) for ek
semantisk
felt, hvilket skaber en forventning om den sammenhng, som ordet
indgr i, og dermed den
betydning det har, samt hvilke andre ord man kan for
, s vil enhver, der har lidt baggrundsviden straks tnke p en
schferhund og ikke en
chihuahua. Det er konteksten, der frembringer den relevante
betydning; i.e. aktiverer det rette
semantiske felt (Stubbs 2002: 30-50).
I det ovenstende tilflde er det den sproglige kontekst, der
frembringer den relevante
betydning, men andre gange er det den situationelle kontekst.
Hvis det for eksempel bliver ytret:
kan det betyde flere forskellige betydninger alt efter
situationen. Hvis du sidder
i en bil og venter ved en lyskurve, betyder det med stor
sandsynlighed, at lyskurven har skiftet til
grnt lys, og du derfor m kre. Men hvis du lige har spurgt om lov
til noget, er det sandsynligt, at
ytringen betyder, at det forespurgte er godkendt. Det er dog kun
ordenes sproglige kontekst, der er
direkte adgang til indevrende opgave, da den beskftiger sig med
skrevne tekster (modsat
transskriberet tale). Den situationelle kontekst er i et skrevet
medium den strre diskussion
(diskurs), som et indlg (artikel) er en del af. Man kan kun
danne et trovrdigt overblik over denne
ved at undersge store mngder data systematisk og derefter
udlede, hvad den situationelle
baggrund for et bestemt udsagn er.
Den baggrundsviden og/eller kontekst, der er nglen til, hvordan
et udsagn skal forsts, er den
pragmatiske side af mening. Studiet af fraser kan igennem KL (se
afsnit 3.1. Korpuslingvistik og
korpussemantik) analysere, hvordan den vanlige brug af sprog kan
skabe en pragmatisk farvning
(konnotation/forventning) af individuelle begreber. Denne
farvning kan analyseres via en
systematisk, diskursiv kategorisering af kollokationer (se
afsnit 2.2.1.2. Semantisk prference og
semantisk prosodi (SP)), og er ikke altid en bevidst eller
eksplicit del af begrebets betydning. Derfor
kan den mangle i ordbogen sandsynligvis ogs fordi de fleste
ordbger traditionelt set kun var
18
interesseret i enkelte leksemers denotation og ikke fraser og
kontekst. Det er i dag en stadig
hyppigere procedure for leksikografer i ordbger at tilfje
kollokationer, der fortller om leksemets
hyppigste sproglige kontekster, men det er ofte fragmentarisk og
mangelfuldt (Mahlow & Bacher
2011). I nogle tilflde afslrer en korpusanalyse konnotativ
mening, som dkker over sproglig-
kulturelle, stereotypiske egenskaber (f.eks. gossip og spinster
/ bachelor -eksemplet).
Denne baggrundsviden, samt den mde den bruges til at navigere i
forskellige kontekster,
organiserer si .
2.1.2.1. Semantiske felter Begrebet semantisk felt blev
introduceret af Trier (1931), Humboldt (1936), Porzig (1950) og
Weisgerber (1950), og blev yderligere udviklet af Lyons (1963;
1977), Lehrer (1974), Kittay (1987)
og Grandy (1987).
Semantiske felter (Brinton 2000; 2010; Lehrer & Kittay 1992)
er et kognitivt begreb, der sger at
forklare, hvordan vore hjerner inddeler semantisk viden.
Teoretisk set benvner et semantisk felt en
gruppe begreber, der er semantisk relaterede. Ordene i et
semantisk felt deler en eller flere
semantiske egenskaber. De kan vre organiseret p mange
forskellige mder (e.g. hierakisk (e.g.
militrrang), meronymisk (e.g. kropsdele), sekventielt (e.g.
numre), cyklisk (e.g. mneder i ret),
tilmed have adskillige overlap et begreb s er f.eks. homografisk
(substantiv/adjektiv),
samtidig med at disse betydninger har hver deres polysemiske
forgreninger: Lyst (subst.): seksuelt
lyst lyst
har lyst lyst lyst
lyst lyst
De semantiske felter bliver ikke kun udviklet ved sproglig
interaktion men ogs i forbindelse
med praksisfelter. Et r har eksempelvis at gre med bde
lammesteg, hyrde, garn og mange
andre begreber. Dette er i hj grad et produkt af menneskers
praktiske omgang med verden. Fret
bliver spist, bliver/blev drevet af en hyrde, klippet og ulden
bliver bearbejdet til tj, som mennesker
19
brer etc. Praksisser, som er indlejret i samfund, natur med
mere, har en indvirkning p vor
begrebsverden (jf. pragmatik).
Garrett har, p baggrund af et grundigt studie af hvilke talefejl
folk laver, fundet frem til nogle
interessante indikationer p, hvordan semantiske felter er
struktureret (Garrett 1992). De ord, der
fejlagtigt bliver hentet i ens semantiske hukommelse, m vre
forbundet til de ord, man oprindeligt
ville have ytret.
bike to school tomorrow undevoted
. Faktisk
var det ofte det semantisk modsatte ord, som blev ytret. Dette
tyder p, at vi indretter vore
semantiske felter i forhold til modstninger, hvilket betyder, at
begreber relaterer sig til hinanden i
forhold til, hvordan de er forskellige til hinanden. En ndring i
t begreb kan alts meget vel betyde
en forskydning i et andet.
Der er ubegrnset mange forbindelser i sdan et netvrk af
semantiske felter, og et menneske
kan nppe ved introspektion holde styr p alle relationerne af
flere rsager. Heriblandt: (1)
grnserne mellem felterne er slrede. Det vil sige, at ethvert
punkt (begreb) har forbindelser til et
utal af andre punkter, som igen har forbindelser til et utal af
punkter etc., hvorfor en klar skillelinje
ville vre arbitrr taget i betragtning, at nogle forbindelser er
meget ttte, mens andre er meget
(begge tilhrer arten pattedyr),
begreber. I sidste ende er de alle en del af det enorme netvrk,
vi kalder sproget.
(2) Menneskets opmrksomhed har ikke kapacitet til at f adgang
til al den viden, vi lagrer.
Vores opmrksomhed har kun en lille lyskegle til at fokusere p en
meget stor mngde stimuli
(Eysenck & Keane 2010: 153-201). Der er mange undersgelser i
neurovidenskaben (se Graziano &
Kaster 2011; Lamme 2010 for et par af de nyeste), der pviser, at
bevidsthed er et gradssprgsml.
Vi er langt fra opmrksomme p alt det, vi er bevidste om. Det, de
fleste forstr ved bevidsthed,
bliver i psykologien kaldt opmrksomhed, fordi der foregr meget i
bevidstheden, som gr
individ registrerer. Det er kun det, man er opmrksom p, som man
kan
forholde sig eksplicit til, og opmrksomheden er meget begrnset,
hvorimod hukommelsen er stort
set uendelig. Alle stimuli skal igennem flaskehalsen opmrksomhed
(og derefter
20
arbejdshukommelsen) for at n den semantiske langtidshukommelse
(Eysenck & Keane 2010: 211-
223), men der kan godt trnge nogle stimuli forbi opmrksomheden
(ibid.: 227-233). Intuitionen er
et eksempel p en form f
Dette kan (Yoshida et al. 2012; Rees 2008), hvilket er en
tilstand, hvor nogle patienter med specielle hjerneskader blandt
andet kan navigere i forhold til
objekter samt svare statistisk bedre end tilfldigt p en rkke
sprgsml angende et visuelt
stimulus, hvis de bliver tvunget til at svare, selv om de ikke
er opmrksomme p, at de ser noget
(ibid.). Det sam halvsidig reduceret opmrksomhed hvor visse
patienter efter en hjerneskade ikke kan opfatte, hvad der foregr
i det ene (typisk det venstre) syns-,
hre-, berringsfelt etc. (Eysenck & Keane 2010: 170-176).
Dette er ikke det samme som at vre
blind i den ene side, da man normalt er opmrksom p ens handicap
i dette tilflde. Folk med
neglekt konstruerer selv en perceptiv helhed, og er ikke klar
over, at de har et handicap (ibid.). Et
bermt eksperiment havde nogle interessante resultater: Patienter
med neglekt i venstre visuelle felt
fik vist et billede, hvorp der var to identiske huse bortset fra
at det hus p venstre side stod i
flammer og blev spurgt, hvor de helst ville bo. Selv om disse
patienter pstod, at de to huse var
identiske, ville en signifikant del af dem helst bo i huset uden
ild i (Marshall & Halligan 1988).
Sdanne fnomener antyder, at gamle filosofiske dogmer om
bevidstheden som en uafhngig og
transparent (i.e. selvbevidst) strrelse14 for alvor er p retur.
Bevidstheden er kun toppen af
isbjerget, der bestr af alt fra flelser over sanser til basale
kropsfunktioner, og er liges meget (eller
mere) et produkt af disse, som den er herre over dem (Graziano
& Kaster 2011; Lamme 2010).
I relation til semantiske felter kan disse processer
sammenlignes med dem, som en sprogbruger
er ubevidst om, nr en stning formes eller afkodes, kan relateres
til disse undersgelser og
forklares som forbindelser mellem neuronerne, der enten ikke nr
aktiveringstrsklen for eksplicit
opmrksomhed, eller blot omrder i hjernen, der ikke er indrettet
til at skabe eksplicit perciperet
aktivitet (ibid.). Det er et kendetegn ved semantisk hukommelse,
at man modsat episodisk
hukommelse ikke husker en bestemt oplevelse, der er forbundet
med ens viden. Det er i stedet en
lang rkke oplevelser og andenhndsinformationer ssom fortllinger,
medier og definitioner, der
har dannet ens semantiske verdensbillede, og man kan derfor ikke
forklare, hvordan man ved, eller
hvorfor man mener dette og hint (Eysenck & Keane 2010:
263-273). Dermed kan introspektion ikke
14 Descartes 2002; Kant 2008 etc.
21
fortlle os alt, hvad vi ved, og hvilke specifikke oplevelser,
der ligger til grund for vor opfattelse af
en person, et sted eller et begreb.
(3) Den tredje rsag, til at man ikke kan holde styr p semantiske
felter i deres helhed, er
relateret til de to forrige. Som sagt er mange af begrebernes
semantiske egenskaber implicitte og
skjulte for os. Men selv hvis man havde adgang til al den
baggrundsviden, som understttede et
begreb via introspektion, ville listen vre uoverskuelig lang og
for rodet for vor opmrksomhed at
holde styr p; og hvad vrre var: Den ville vre lettere forskellig
for hver person grundet den
forskellige empiri, hver person bygger den p.
Det er blandt andet disse kognitive begrnsninger, som KL kan
hjlpe med at overkomme ved
at danne et overblik over mange forekomster af de samme begreber
p n gang.
Herefter flger en redegrelse for p sprogopfattelse, som ligger
bag den moderne fraseologi.
Derefter flger en oversigt over den semantisk-pragmatiske
analyse af enheder, der vil blive
anvendt i denne opgave.
2.2. Sprog som sprogbrug Firth og Sinclair stod stejlt p, at
sprog s vidt muligt skal undersges empirisk og ikke ud fra
forudbestemte dogmer. Derfor er korpuslingvistik et oplagt
medium, da den beskftiger sig med
data (sprog som det rent faktisk er blevet ytret skriftligt
eller mundtligt) og ikke blot hypotetiske
eksempler. De ngtede at udlede noget om sproget, som ikke var
empirisk baseret.
Chomsky (og andre generative lingvister) er sproglige nativister
(Meyer 2002: 3), og er ikke
srlig interesserede i at beskrive sproget men i hjere grad i at
forklare de bagvedliggende
dybdestrukturer (fundamentale grammatiske principper og
parametre), som er medfdte, i.e.
universel grammatik (UG) (ibid.). Chomsky sprogets
elementer i dem, der er en del af kernen, og dem der er en del
af periferien. Kernen bestr af
og periferien af , som er en konsekvens af
accident, dialect mixture, personal idiosyncracies, and the like
(Chomsky 1997: 19-20). Fordi
variation er begrnset til uvsentlige elementer af sproget og
leksikalske enheders generelle
22
egenskaber (ibid.: 170), bliver de elementer, der hrer til
sprogets periferi, ikke anset for at vre en
del af minimalistprogrammet. Kun de elementer, der er en del af
kernen, bliver anset for at vre
relevante for teoridannelse. Denne indstilling skyldes, at
generativ lingvistik sger efter
(ibid.: 4), alts en teori om hvad menneskets sprogkompetence er
a priori
inden det mder sprogets virkelige verden, og tilegner sig dens
komplekse strukturer (ibid.). Derfor
mener (mange) generative lingvister, at KL ikke viser noget
relevant.
Men det er lige prcis denne strukturkompleksitet
korpuslingvister er interesserede i. De ser
variation som en central del af sprog. Korpuslingvister er
skeptiske over for helt abstrakte og
dekontekstualiserede diskussioner af sproget, fordi sdanne
diskussioner er fjernet fra faktisk
sprogbrug (Meyer 2002: 3).
Det er min overbevisning, at det giver mening at se p sprog i
den kontekst det opstr i og
anvendes i, og ikke mindst hvordan og til hvilket forml det rent
faktisk anvendes. Dette er ikke blot
et overfladeprodukt af en dybereliggende universel struktur
(morfosyntaks), der ikke fortjener
opmrksomhed, fordi det blo og ikke med 1969)
2000) at gre. Denne skelnen er overdrevet, da det
frste er et produkt af det andet (Leech 1992: 108), og man fr
rent faktisk noget information ud af
, som folk laver, og de vanlige mnstre, som folk bruger.
Modersmlstaleres
intuition er ikke en trovrdig kilde for bevis. De kan mske give
et par eksempler p kollokationer
(nogle gange prcist), og de kan mske vurdere disse
kollokationers sandsynlighed meget
omtrentlig, men de kan ikke dokumentere dem med nogen grundighed
eller prcist estimere deres
hyppighed eller fordeling (Stubbs 1995b: 25).
KL er ikke fejlfri. Det er blot en metode, der ligesom alle
andre metoder har potentielle bias, og
er afhngig af dataens validitet, men det er et godt udgangspunkt
for at fundere sin teori i evidens
fra den virkelige verden. I KL er dataen altid et udsnit af en
uvis mngde data, hvis
variationsparametre ikke kendes. Nr udsnittet forstrres,
forstrres diversiteten, men uanset hvor
stort udsnittet laves, vil man aldrig vide, om alle mnstre er
indfanget i deres typiske proportioner.
Derfor kan det vre praktisk at s
Induktion slutter fra det specifikke til det generelle, og
derfor kan en hypotese afvises med et enkelt
modeksempel. Eduktion slutter fra det specifikke til flere
specifikke, og et enkelt modeksempel kan
23
ikke afvise hele hypotesen, da den bygger p sandsynlighed. Mange
observationer af et mnster
leder til forudsigelsen, at lignende mnstre kan forventes i
fremtiden. Men fuldstndig faste
mnstre er ekstremt sjldne, og typiske konklusioner e
men har variationer (Stubbs 2009: 118). En opdagelse, der kommer
fra en KL-analyse, er et godt
basis for videre studier, som kan be- eller afkrfte teorien ved
stringente og gentagne studier (Leech
1992: 112-113).
Sinclair giver et godt billede p, hvorfor der er brug for KL, og
hvorfor empiri, tendenser og
sandsynlighed er vigtige aspekter af sprog: ny by making
artificial
flowers (Sinclair 1991: 6). Denne kommentar understreger hans
dedikation til den empiriske
tilgang.
Den generative lingvist Ray Jackendoff har ligeledes en udtalt
modstand mod syntaks-
tilgang, der findes i generativ lingvistik. Han mener, at den er
for radikal, og forkaster for
mange fnomener som irrelevante, fordi de ikke passer ind i
modellen:
and other fixed expressions for us simply to disregard them as
phenomena on the margin of
(Jackendoff 1997: 177).
Herunder vendes fokus imod den analysemodel, som vil blive
anvendt i denne opgave.
2.2.1. Leksikalske enheders semantisk-pragmatiske profil Dette
afsnit handler om Sinclairs model for, hvordan enheders semantike
profil analyseres.
Semantisk prosodi (SP) er et vigtigt begreb for Sinclairs
sprogforstelse. Han mener, at man kan
skabe et udtmmende overblik over en enheds betydninger ved at
undersge fire aspekter:
Kollokation, kolligation, semantisk prference og SP. Disse fire
fnomener bygger oven p
hinanden og gr fra helt tekstnre overfladefnomen til gradvist
mere abstrakte beskrivelser.
Denne model er meget indflydelsesrig:
24
repeatedly showed that words are interconnected, not isolates,
that meaning is derived from context, and that collocation is key
(Moon 2008).
Som Rosamund Moon her ppeger, har Sinclair inspireret af Firth
fet sat en ny empirisk
dagsorden isr inden for funktionelt orienterede kredse i
lingvistik, hvor konteksten er i centrum,
har fet en central rolle.
En anden ambassadr for at anskue fraser som sprogbrugens primre
betydningsenhed er
. Han udtrykker det sledes:
( Han mener i trd med Sinclair, at hvad vi har brug for ikke er
ordbger for
ord, men ordboger for ord og fraser, da fraser er s betydelig en
del af mening (ibid.).
2.2.1.1. (Firthianske) kollokationer og kolligationer Sinclairs
definition af kollokation har basis i J.R. Firths ider. I Firths
optik har kollokation en
empirisk betydning: Kollokationer er naboord til andre ord.
Hans holistiske15 tilgang til mening fremstr klart i disse to
citater:
the complete meaning of a word is always contextual, and no
study of meaning apart from
(Firth 1957b: 7).
Words must not be treated as if they had isolate meaning and
occurred and could be used in
free distribution (Firth 1968: 18).
Firth taler her om ords indvirkning p hinanden, og hvorfor det
er vigtigt at studere dem i
kontekst. Det han siger i disse citater er meget fremsynet. Han
foregriber p mange mder moderne
fraseologi og mange af de principper, der ligger til grund for
moderne konversationsanalyse (Have
2007: 1. del), idet han tager udgangspunkt i den enkelte ytrings
(og ytrers) kontekst i stedet for at se
ytringen udefra.
Han havde dog ikke nogen formel definition p det.
15 Hans lingvistiske tilgang er holistisk, idet at han sger at
forbinde alle de opdagelser, der gres p forskellige niveauer, i en
strre helhed (jf. kontekstualitet). Selv om man ofte er ndt til at
isolere fnomener i analysefasen, skal der strbes efter at skabe en
helhed, s man f.eks. ikke str med en rkke helt uforenlige felter
eksempelvis fonologi uden syntaks eller syntaks uden semantik
(Ogden 2002).
25
Den kom Sinclair med:
tendency to occur nearby items B, C, D, less strong with items
E, F, slight with G, H, I, and none at
(Sinclair 1966: 417).
(ibid.:
428).
I disse citater lgger Sinclair grunden til begrebet kollokation,
som det anvendes i KL i dag:
associationelle tendenser undersgt inden for et vist spnd af en
sgeenhed ved hjlp af passende
statistiske udregninger.
Herunder vil der blive givet et eksempel p en undersgelse af
kollokationer med udgangspunkt i
Nr man vil man (alt efter eksponering) implicit vide, at man med
stor
af
ordet, hvor det normalt bruges, og hv
En kollokationssgning i Korpus2000 (et referencekorpus (se
afsnit 3.1.1. Korpustyper) p 28
mio. ord med tekster fra 1998-2002, der er et underkorpus af
KorpusDK (Det Danske Sprog- og
Litteraturselskab), og kan anvendes til at finde kollokationer)
viser, at der kun findes 5 signifikante
substantiver (resten er uinteressante funktionsord) n plads til
hjre for . Sorteret efter
signifikans ser de sledes ud: Opvarmning , landsby ,
ansvarlighed , etik og aftale . De har i
stort flertal at gre med ildevarslende klimaforandringer
(undtagen der henviser til at
), og hvis man kigger efter i konkordans-
linjerne (se bilag 2, s. 105-106), kan dette bekrftes.
Kollokationer er den simple
overfladeobservation, at opvarmning , landsby , ansvarlighed ,
etik og aftale er de ord, der
associeres mest med .
26
Kolligation defineres i stedet som en grammatisk observation. I
ovenstende eksempel gr man
ved en kolligationsanalyse et skridt lngere ind i det abstrakte
og observerer eksempelvis, at alle
disse kollokationer er substantiver. Konklusionen kunne evt.
vre, at tiltrkker
substantiver umiddelbart efter sig (hvilket i dette tilflde ikke
er overraskende, da er et
adjektiv).
Identifikationen af kolligationer er ikke relevant i denne
opgave, og vil derfor ikke vil blive
behandlet yderligere. Nogle observationer, der hrer til den
kolligative sfre, vil blive gjort, men en
egentlig analyse af kolligationer vil ikke finde sted.
2.2.1.2. Semantisk prference og semantisk prosodi (SP)
(Firth 1957b: 11).
Som det er blevet forevist i foregende kapitler, kommer sprog i
bidder af forskellig strrelse og
ikke kun ord for ord. Det er ikke tilfldigt, hvilke ord man
vlger i sammenhng med andre ord.
Ethvert sprog er fuld af idiomatiserede (eller delvist
idiomatiserede) udtryk, og ord der vanligt
kollokerer, hvor det ville virke unaturligt bryde med vanlig
sprogbrug.
Semantisk prference er et udtryk for kollokationernes interne
semantiske relationer. Det
betegner st af semantisk relaterede ord, -eksemplet, hvor der er
to st: En der
har at gre med klima/milj-problemer ( opvarmning , ansvarlighed
, etik og aftale ) og en der
har at gre med informationsteknologien ( landsby ). Semantisk
prference ligger et skridt lngere
oppe af kontinuummet mellem konkret og abstrakt end
kolligation.
Helt oppe i den abstrakte ende ligger SP. Her analyseres det,
hvad de semantiske prferencer
siger om sgeordet (jf. Firth-citatet i starten af kapitlet).
Resultatet fra fr siger noget om ikke bare ordets bogstavelige
betydning
men ogs dets konnotationer i kraft af
menneskeskabte klim . Ser man p konkordans-linjerne, str det
klart, at temaet har
27
dystre, ildevarslende og negative undertoner. Men global har kun
en svag tendens (4 ud af 5) til at
kollokere med ord med dette tema, hvilket medfrer en svag SP.
Det virker f.eks. heller ikke forkert
at sige
SP). Andre former (end dem der ligger sig til fllesknnede
substantiver i ubestemt ental) har ikke
denne SP, hvilket mske udvander yderligere.
Desuden har ordets SP sandsynligvis ndret sig siden 2000.
Som alle de foregende kapitler har arbejdet hen imod at pvise,
har leksikalske elementer en
indvirkning p hinanden. Det er i sidste ende det SP betyder: Ord
der kollokerer med hinanden
smitter semantisk af p hinanden.
Det var Bill Louw, der introducerede termen SP. Han
offentliggjorde s frste definition:
[ ] a consistent aura of meaning with which a form is imbued
(Louw 1993:
57). Louw bru betydningen leksikalsk enhed. En enhed fr i kraft
af sine
kollokationer en srlig farvning, som brugeren ikke altid er
eksplicit opmrksom p. Det er en
tovejsrelation, da en enheds kollokationer giver den sin SP),
samtidig med at enheden
er en aktivering af de begreber, der lgger sig til en
bestemt enhed, nr denne anvendes og en forventning om, at de
aktiverede begreber vil flge.
tendensen til at kollokere med bestemte enheder, og hvis
forventningen, om hvilke kollokationer enheden kan kollokere
med, bliver brudt, opleves det som
mrkvrdigt. Eksempelvis lyder det for en indfdt dansker u
.
Det er blevet bekrftet i et studie (Ahmadian, Yazdani &
Darabi 2011), at viden om SP er vigtig
for fremmedsprogstilegnere. Det er ikke nok at lre individuelle
ord og deres betydninger for at
lre et sprog flydende. Man skal ogs vide, hvordan ord kombineres
(kollokationer), hvilke
implikationer dette har for betydningen (SP), og hvordan
usdvanlige kollokationer kan udtrykke
).
betyder det, at enheden
kollokerer med andre enheder med mere eller mindre statistisk
stringens.
28
Herunder nvnes nogle eksempler p tidligere undersgelser af
SP.
Louw undersger enhederne , og . Alle disse udtryk har
negativ SP, idet de bliver efterfulgt af udtryk, der henviser
til ubehagelige/unskede ting ssom
(Zhang 2010: 190).
Sinclairs definition af SP er bredere, og gr ud over simple
positiv/negativ-vurderinger. Hans
ml er at lave en decideret semantisk-pragmatisk analyse af
enheder via en undersgelse af deres
SP, i.e. finde deres semantiske profil ud fra de fire aspekter
omtalt ovenfor.
Sinclair undersger eksempelvis verbet . I ordbogen bliver det
defineret sledes:
(cause to) move a little (Longman Dictionary of Contemporary
English) (Sinclair 1998: 16). Men
iflge Sinclairs analyse er dette ikke en prcis definition, da
der ikke bliver redegjort for den
egenskab, at det (stort set) aldrig bliver brugt i den
ovenstende positive form, men kun i den
Hvis frst det lykkedes at rykke objektet lidt, kan
det muligvis rykkes meget, og dermed ligger ordets egentlige
betydning i kolligationen16
. Konnotationen, at det normalt er noget ting ikke gr, er
udeladt. Det vil sige, at der ikke er
taget hjde for den kontekst, som begrebet bruges i, hvilket er
en del af at bruge et sprog korrekt. En
mere prcis definition ville vre at fortlle, hvilke fraser ordet
normalt indgr i i.e. hvilken
betydning det normalt har s en andetsprogsbruger ikke
uforvarende udtrykker uforstelige eller
emotive konnotationer (ibid.: 16ff). Baseret p Sinclairs
korpusanalyse br en beskrivelse af ordets
profil indeholde en beskrivelse af dets kontekst og anvendelse.
Dets SP involverer en
tilkendegivelse af irritation eller frustration over, at noget
ikke rykker sig. Eksempel Even though
he used all his strength, the door . Tilmed bruges det He had
his
mind made up and refused to budge on the . Herefter kan det
tilfjes, at ordet i sjldne
tilflde anvendes med positivt fortegn.
16
29
bliver studeret af Stubbs. Han finder ud af, at det har en klar
negativ SP.
Resultaterne viser ord ssom: damage , death(s) , disease ,
concern , ca
Ud af alle resultaterne fra ca.
38.000 forekomster af fandtes der kun n positiv kollokation: .
Dermed mener
cause er meget tt p stadiet, hvor ordet i sig selv (uden for
kontekst) fr negative
konnotationer. Begrnsningen af det kollokative udvalg er
(endnu?) ikke kategorisk. Det er
(endn cause en man kan let
forestille sig, hvordan en stigning i hyppigheden af negativ
anvendelse, kunne tippe balancen og
ndre systemet (Stubbs 1995b: 50-55). Undersgelsen cause
leksemet har erhvervet sig (ibid.: 54). Med andre ord har parole
haft en
effekt p langue (ibid.). Hunston har senere fundet ud af, at
denne tendens ikke findes i akademiske
neutral SP (Hunston 2007: 252).
30
3. Anvendt metode
Til at pvise forskelle p og ligheder mellem leksemet INDVANDRER
i 1997 og 2011
anvender KL en rkke teknikker.
I dette afsnit gives der en kort oversigt over, hvad KL rent
praktisk gr.
3.1. Korpuslingvistik og korpussemantik KL er grundlggende en
statistisk metode. Det er en metode, der p baggrund af store
samlinger
af tekster (korpus) statistisk sammenligner sproglige elementer
for at opdage mnstre i sproget p
tvrs af forskellige tekster. Dermed er sigtet for KL frst og
fremmest en undersgelse af
hyppighed. Den bagvedliggende teori er, at man gennem
undersgelse af sprogets rent faktiske
anvendelse kan opdage nye mnstre og derved videreudvikle
sprogvidenskabelige teorier, udvikle
bedre og mere omfattende ordbger, undersge hvordan man bedst
tilegner sig et andetsprog og
lignende. Nr KL bruges til at finde sprogs betydning (som i
leksikografi), kaldes det
korpussemantik (Stubbs 2002: 19-21, 49-51).
Man kan annotere et korpus, hvis man nsker at kode for
forskellige ting, som kan specificeres i
sgningen. Det kan f.eks. vre at markere ordklasser
(part-of-speech- ) eller samle alle
ordformer af et ord under et lemma (lemmatisering). Dette vil
blive taget op senere.
3.1.1. Korpustyper
Der vil her blive givet eksempler p forskellige typer korpus for
at give et overordnet billede af,
hvad interessen bag korpusanalyser kan vre. Dette er ikke en
udtmmende redegrelse, men tjener
til forstelsen af, hvad korpusser kan bruges til.
Det kan eksempelvis vre en generel-sproglig undersgelse af
specifikke sproglige elementer,
man vil lave. For at kunne drage konklusioner om et sprog
generelt skal det korpus som anvendes
vre meget stort, og det skal indeholde tekster fra alle genrer
(se nedenfor) af sproget. British
National Corpus (BNC) er et eksempel p dette, og er 100 mio. ord
stort (University of Oxford
31
2009). Man kalder et sdant generelt korpus for et samplekorpus,
da det er et generelt udsnit af
sproget p et givent tidspunkt. BNC dkker britisk engelsk i den
sene del af det 20. rhundrede. Et
samplekorpus vil typisk blive brugt som referencekorpus. Det vil
sige, at man sammenholder dens
statistik f.eks. med et mere specifikt udsnit af sproget (f.eks.
akademiske tekster) for at finde
genrespecifikke egenskaber ssom gennemgende formuleringer.
En sproglig genre kan defineres ud fra forskellige kriterier.
Alt efter hvad man nsker at
undersge, kan man inddele genrer mere eller mindre fintkornet.
Journalistik kan underindeles i
ledere, kronikker etc.; fiktion kan opdeles efter forfatter,
undergenre (evt. eventyr), begge dele eller
noget tredje.
Diakroniske korpusser har til forml at belyse et sprog p to
(eller flere) forskellige tidspunkter.
For at dette kan lade sig gre skal designet i de to korpusser
vre ens (korpusdesign forklares i
(Francis & ) (1 mio.
ord)17. Det indeholder tekster udgivet i Amerika i (Jantos
&
Mair 2012) (1 mio. ord
tilsvarende kilder til sammenligning med Brown.
Specialiserede korpusser er korpusser, der interesserer sig for
et bestemt sprogfelt. Det kan vre
alt lige fra geografisk bestemt til genrebestemt (fiktion, new
age selvhjlp, matematiske
afhandlinger etc.). Sdan et korpus behver ikke vre specielt
stort, da det forholdsvis nemt
afdkkes p grund af dets afgrnsede undersgelsesfelt (Meyer 2002:
36-38). Det viser sig, at nr
man bevger sig inden for en bestemt genre, skal der frre ord til
at udtmme de forskellige
sproglige mnstre. Specifikke genrer har mere eller mindre
konventionaliserede formuleringer.
Eksempel der var engang en markr for, at der er tale om et
eventyr, ligesom akademiske
tidsskriftsartikler har tendens eller sgar forskrift for at s It
is this
.
Det korpus, jeg har designet til indevrende undersgelse er bde
diakront (har to forskellige
nedslag i tid) og specialiseret (omhandler en bestemt tekstmssig
genre).
17 Det var stort for sin tid, da man ikke havde de samme
elektroniske hjlpemidler.
32
3.1.2. Korpusopbygning
Opgaven at bygge et korpus er helt afhngig af, hvad man vil
undersge. Som det forholder sig
med alle statistiske undersgelser, er det vigtigt, at ens udsnit
reprsenterer den population,18 man
udsnittet, der
analyseres. Hvad populationen er, afhnger af et valg, som
korpusdesigneren foretager, nr
undersgelsen planlgges. Vil vedkommende undersge
amerikansk-engelsk generelt, andetsprogs-
tilegnelse af dansk eller noget tredje? Det glder om nje at
overveje, hvad det er, man vil
undersge, og hvordan man vil undersge det, fr man gr igang med
at bygge sit tekstkorpus.
Hvis man er interesseret i grammatiske analyser kan korpusset
best af tekstuddrag, hvorimod en
analyse centreret om diskursegenskaber krver hele tekster (Meyer
2002: 30).
Reprsentation: Hvad vil det sige, at et korpus er reprsentativt?
Det har at gre med, hvorvidt
korpusdesigneren har medtnkt alle grene af det omrde, som
undersges. Hvis eksempelvis det er
dansk generelt, der er genstand for undersgelsen, skal man se p,
om alle geografiske egne, alle
aldersgrupper, talt svel som skrevet sprog, akademisk tekst,
hndvrkerkommunikation,
klasselokalesnak, nydanskere etc. er reprsenteret. I sidste ende
vil det selvflgelig vre en
vurderingssag, hvad der tller som en individuel kategori. Et
bredt, avanceret korpus som dette
krver en cyklisk opbygningsproces, hvor man igen og igen
vurderer, om det er reprsentativt for
hele populationen, eller om man har overset noget (ibid.).
Balance: Det er ikke nok, at et korpus reprsenterer alle de
forskellige genrer, som hrer ind
under dets population, der skal ogs vre en balance mellem
genrerne indbyrdes. Hvis man bygger
et korpus til at reprsentere amerikansk-engelsk, gr det
eksempelvis ikke at tage 30% af teksten
fra Anders And-blade, da dette ville vre en helt skv fordeling i
forhold til reprsentationen i
populationen. Her har vi igen at gre med en vurderingssag, nr de
indbyrdes mngder af genrer
skal afvejes, men der er forskellige mder at underbygge sit valg
p. Man kan vlge at kigge p,
18 Population er et statistik-begreb for den samlede mlgruppe
(eksempelvis alle personer over 60 eller alle engelske digte
skrevet i 1600-tallet), som analysen sger at beskrive.
33
hvor stort oplaget er, hvis man har med tekst, der udgives, at
gre. Det kan naturligvis ikke altid
lade sig gre, nr det er talt sprog, det drejer sig om. Men hvis
det f.eks. er transskriptioner af tv,
man undersger, kan man vlge at se p seertalsanalyser eller
mlgruppen for udsendelsen.
I nogle tilflde kan det vre svrt at vurdere, hvor meget talt
versus skrevet sprog, et korpus br
indeholde. Det er under alle omstndigheder i de fleste analyser
en god id at adskille talt og
skrevet sprog, da der er stor forskel p disse, og ved at
sammenholde dem, risikerer man at
sammenligne usammenlignelig data.
Strrelse: Hvor stort skal et korpus vre? En generel
tommelfingerregel er: Jo strre, jo bedre.
Der findes som sagt dog forskellige omstndigheder, der
retfrdiggr, at man anvender et mindre
korpus. Eksempelvis kan man vre interesseret i en bestemt
tekstgenre.
I min undersgelse fokuserer jeg specifikt p skrevet journalistik
i form af de landsdkkende
dagblade. Ydermere er jeg kun interesseret i diskursen omkring
indvandrere, hvilket indsnvrer
fokus til et stadie, hvor der faktisk er muligt at lave en
komplet reprsentation af den population,
jeg undersger, i.e. artikler fra landsdkkende dagblade, der
indeholder substantivet
INDVANDRER i hhv. 1997 og 2011. Derfor er det ogs vigtigt at
understrege, at jeg ikke kan
udtale mig om den offentlige diskurs som sdan eller ikke engang
journalistikkens jargon helt
generelt men kun de store dagblades omtale af lige netop dette
leksem p disse bestemte
tidspunkter. Denne undersgelse kan dog danne grundlag for
forudsigelser om diskursen i andre
genrer, som derefter kan testes.
Det er vigtigt at anlgge et forsigtighedsprincip, nr man
foretager sdanne analyser. Min
analyse er sledes ikke en sociologisk eller en antropologisk
undersgelse. Dette ville krve mange
flere variabler og en arbejdsbyrde samt kompetencer, der lgger
uden for mulighederne i dette
speciale. Formlet er dermed udelukkende en sproglig analyse af
det angivne leksem og en interesse
for dets udvikling i de landsdkkende, skrevne medier. Yderligere
konklusioner krver yderligere
analyser baseret p, hvad s end resultaterne af denne undersgelse
mtte vre.
34
3.1.3. Korpussgning Der er flere forskellige mder at sge i et
korpus p, hvilket de flgende underkapitler vil
behandle. Til formlet anvendes et skaldt konkordans-program. I
dette tilflde bruges
Wordsmith.exe (Scott 2013).
Nr korpusset, som man nsker at arbejde med er indlst i
konkordans-programmet, kan man g
igang med den operation, man nsker. Da denne analyse handler om
INDVANDRER , vil
analysen tage udgangspunkt i sgningen p netop denne
bogstavrkke.
I sgningen anvendes wildcard-symbolet19 * (betydende at
sgningen giver alle ordformerne af INDVANDRER ( indvandrere
,
indvandrernes etc.), og alle sammensatte ord de indgr i
eller
mnsterindvandrer ).
Men verbet indvandrer kommer ogs med i sgningen. Da jeg ikke har
part-of-speech-tagget
korpusset, vil Wordsmith ikke skelne imellem ordklasser, og
dermed vil nutidsformen af
verbummet INDVANDRE blive inkluderet. Derfor har jeg manuelt
fjernet alle forekomster af
denne verbumsform fra sgningen, sledes at de ikke optrder i
statistikken eller konkordans-
linjerne.
I de flgende afsnit vil det blive forklaret, hvordan analysen
udfres og hvorfor. Der vil
undervejs blive suppleret med ndvendig baggrundsviden.
3.1.3.1. Frekvensliste I frste omgang kan det vre hjlpsomt blot
at f en frekvensliste, der lister alle ord og deres
hyppighed i korpusset. Dette kan give et frstehndsindtryk af
dataen. Det kan dog vre ret
uoverskueligt at arbejde med en frekvensliste i sin r form, da
den kan vre meget lang, og kan
19
etc.
35
vre svr at uddrage noget af, da den blot bestr af en rkke ord og
deres hyppighed (se bilag 3, s.
106-107) for de frste 30 ord i hhv. 1997- og 2011-korpusset). I
frste kolonne str ordet, i den
nste dets hyppighed, i nste igen hvor mange procent ordet fylder
i hele korpusset. Dernst vises,
hvor mange tekster ordet optrder i, og til sidst hvor mange
procent af teksterne ordet optrder i.
Som det kan ses i bilag 3 udfylder funktionsord de frste mange
pladser med et par hyppige verber
ind i mellem. Dette er meget normalt, men det siger ikke s meget
om, hvor hyppige disse ord er i
forhold til andre korpusser og endnu mindre, hvordan ordene
relaterer sig til hinanden.
En mde at f information om hvilke ord, der kunne vre
interessante i et korpus, er at lave en
- . Dette er en simpel sgning baseret udelukkende p
frekvenslisten og dens
sammenligning med et reference-
reference- -program
sammenligne det med sin egen frekvensliste. Dermed gives der
score til de forskellige ord efter,
hvor ofte de optrder (per f.eks. hver 10.000. ord) i forhold til
det samme ord i reference-korpusset.
De ord med d .
Ofte (og ogs i denne opgaves analyse) bruges frekvenslisten i
stedet til at udregne kollokationer
(alts finde korpussets interne relationer). Den bruges i
konkordans-programmet som
baggrundsviden om hvor mange gange hvert enkelt ord optrder, nr
det vurderes hvor strkt to
ord er associeret. Hvis de ofte optrder hver for sig, er det
ofte ikke nok til at kvalificere dem som
kollokationer, at de ogs optrder sammen mange gange, da deres
samforekomst kan vre et
simpelt udtryk for tilfldig korrelation (se afsnit 3.1.3.2.2.
Statistikken).
3.1.3.2. Kollokation (teknisk uddybning) er som tidligere nvnt
et udtryk for en statistisk relation mellem to enheder i KL.
Kollokationer er baseret p den firthianske observation, at visse
ord har en tendens til at optrde i
sammenhng med et udvalg af bestemte ord, og at disse sammenhnge
er med til at bestemme
enkeltdelene fortrinsvist optrder i.
36
Kollokationer behver ikke at vre direkte naboord. Associationen
m antages at vre strkest
mellem direkte sidestillede enheder, men der er intet i vejen
for, at en udvidet betydningsenhed
(frase) skulle kunne indeholde tre, fire, fem eller flere ord
(Evert 2009: 1213). Det er f.eks. tilfldet
med (nog Man skal ikke kaste med sten, hvis
I det sidste eksempels tilflde vil en kollokationssgning p L1-R1
(1
ord til venstre for sgeenheden og 1 ord til hjre for sgeenheden)
ikke vise relationerne mellem
stede i denne stning. En bredere
L4-R4-sgning (4 ord til venstre for sgeenheden og 4 ord til hjre
for sgeenheden) ville fange
denne relation men ikke fange relatio hvilken mske er endnu
mere
central i ordsproget; sten eget glashus
noget man selv kan eller sten : at fornrme eller
flelsesmssigt
anstde nogen ns eget glashus : . Der er mange
andre mder at forst ordsproget p alt efter kontekst.
Hele denne stning er et idiom og dermed en enhed, som skal
forsts i en helhed. Derfor krver
det en kvalitativ gennemgang af konkordans-linjer at forst
meningen med relationerne mellem
De er en del af en strre betydning
vre en god indikator for dette ordsprog, da det sjldent optrder
i andre sammenhnge.20 Det er
overfrte .
Det varierer endog meget, om der blive ; , ;
; er inkluderet; man fuldstndig udelader ... bor de jo
... hun harcelerer endvidere fra sit
etc. Dette illustrerer, at selv ordsprog er fleksible. S lnge et
sprogfllesskab kender til
den oprindelige frase, kan den varieres p utallige mder og
stadig blive forstet. Sproget balancerer
langs et kontinuum med yderpunkterne (svarer til open-choice -
og
idiom-princippet), men rene versioner af yderpunkterne findes
praktisk talt ikke (selv om nogle
kommer tt p). Denne pointe er vigtig for Sinclair (Sinclair
2004b: 30). P samme mde som ord
vanemssigt klumper sig sammen/danner strre betydningsenheder
oftere end traditionelt antaget,
er selv de mest faste og benlyse af disse (ikke-kompositionelle
fraser) mere fleksible end
traditionelt antaget (ibid.).
20 Se KorpusDK:
http://ordnet.dk/korpusdk/teksteksempler/sogeresultat (bilag 4, s.
108).
http://ordnet.dk/korpusdk/teksteksempler/sogeresultat
37
I tilfldet med kompotionelle fraser vil der ligeledes ofte vre
en tekstmssig adskillelse
mellem en sgeenhed og dens kollokationer. En frase BRSTE
flere
Husk at brste dine/Kaspers/alle brnene i vuggestuens tnder .
Faktisk er det lykkedes at finde signifikant association mellem
sgeenheder og kollokationer, der
er adskilt med op til 50 ord (Clear 1993: 276). Derfor kan det
vre svrt at vurdere prcis, i hvor
stort et spnd, man br sge efter kollokationer. Man har dog
fundet frem til, at 4-6 ord til begge
sider i hj grad viser reelle relationer (Sinclair 1991: 117).
Den normale mde at betegne spndet
p er ved at angive det sledes: L4-R4 (alle ord fra 4 ord til
venstre til 4 ord til hjre); L4-L1 (fra
fjerde ord til venstre til frste ord til venstre), hvilket p
hjre side hedder R1-R4 p grund af
lseretningen; eller blot R2, hvis du er interesseret i lige
netop denne position.
I denne opgave vil der bde blive sgt p L1-
p L4-R4 Desuden er sgningen begrnset af
stningsbrud, sledes at et ord, der str p den anden side af et
punktum, ikke bliver talt med, selv
om det er inden for spndet.
Det er altid svrt at vurdere, om en enkelt samforekomst blot er
en tilfldighed, eller om den
siger noget om tilhrsforholdet mellem to enheder. I et korpus,
der som bekendt kun er et udsnit af
sproget kan en enkel samforekomst vre et udtryk for en reel
association som blot er en af flere i
sproget som helhed, og som ville komme til udtryk i et andet
eller strre korpus eller det kan blot
vre et tilfldigt sammenfald (Evert 2009: 1228-1230). Det kan vre
en god id at stte et
minimum, da man dermed sorterer tilfldige korrelationer fra, og
kun fr strke og sikre
kollokationer. Det er normalt at stte grnsen mellem 3 og 5
samforekomster, da dette fjerner det
ibid.).
Det vurderes i denne opgave, at samforekomster under 5 har en s
lille indflydelse, at de kan
udelades uden betydelig tab af resultater, og sgar kan skabe
misvisende resultater, isr ved MI-
analyse (se afsnit 3.1.3.2.2. Statistikken).
38
Alle interessante kollokationer bliver optalt og udsat for
statistisk analyse: Det vil sige alle
undtaget funktionsord og denne opgave er
kun interesseret i ord, der har en modificerende effekt p
sgeenheden; alts ord der siger noget om
INDVANDRER s omdmme. Det kan de fleste adjektiver gre ( , ,
,
) samt nogle verber og substantiver ( , , , ). Men
ikke alle verber eller substantiver er interessante (f.eks.
siger , , , eller
ikke s meget om INDVANDRER ).
De ord med de hjeste scorer vil blive anset for at vre de mest
kollokationelle, mens dem med
lavest score anses for at vre de mindst kollokationelle eller
ligefrem anti-kollokationelle (negativ
, men indevrende opgave er ikke interesseret i
- ).
Nogle resultater ved en kollokationsanalyse vil som vist ovenfor
pege p idiomer, egennavne,
kulturelle stereotyper/institutionaliserede fraser ( flygtninge
og indvandrere ) med mere, og kan
siges at vre epifnomener (et fnomen der ledsager et andet), idet
de er kollokationer i kraft af
deres egenskab som delelementer af prfabrikerede konstruktioner
(ibid.: 1218-1220). Dette gr
indgr i. Flygtninge og indvandrere viser f.eks., at man i mange
sammenhnge skrer disse over
n kam eller i hvert fald bruger dem meget i tandem, hvilket alt
andet lige m have en afsmittende
effekt.21 Konstruktionen kan nat Det er vigtigt at skelne
mellem
, men nr den optrder s ofte, som den gr (se analysen), siger det
med
stor sandsynlighed noget om komponenternes semantiske
tilhrsforhold.
3.1.3.2.1. Annotering vs. ren tekst Man kan vlge at fokusere p
forskellige aspekter i sin sgning. Eksempelvis kan man vlge at
tering). Men man kan ogs
vlge at kategorisere alle ordformerne under et lemma.
Lemmatisering udfres ved at lave en
lemmaliste, hvor alle de forskellige ordformer lgges ind under
samme stamme. For eksempel
lgges indvandrer , indvandrere etc. ind under INDVANDRER , s
alle de forskellige former
21 Dette tages op i analysen.
39
optlles i t opslag. Nr der derefter sges p medtages alle
bjningsformerne i
sgningen; og nr der laves statistiske analyser, vil alle
bjningsformerne af bde sgeenheder og
kollokationer blive lagt sammen under lemmaerne INDVANDRER og
eksempelvis UNG ,
sledes at der optlles sammenfald af lemmaer i stedet for
ordformer.
Oprindeligt var det min id, at lemmatisering skulle anvendes.
Dermed ville analysen blive
mindre fintkornet, idet forskellige ordformer godt kan have
forskellige egenskaber (
kan have andre kollokationer end , ligesom unge kan kollokere
med
(lemma), imens ung ikke gr etc.). Dette skulle gres af praktiske
hensyn.
Bekymringen var primrt, at det ville blive for uoverskueligt at
danne et overblik over de mange
forskellige ordformer, som bliver prsenteret, nr en
kollokations-analyse foretages uden
lemmatisering. En anden bekymring havde med sammensatte ord at
gre.
P dansk er mange prominente fraser kondenseret til sammensatte
ord: indvandrerkriminalitet ,
indvandrergrupper , indvandrerdrenge etc. Wordsmith behandler
derfor disse som selvstndige
enheder, der ikke har noget at