Top Banner
Magyar Nemzeti Szövegtár A Magyar Nemzeti Szövegtár Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály [email protected]
14

A Magyar Nemzeti Szövegtár

Mar 19, 2016

Download

Documents

kaipo

A Magyar Nemzeti Szövegtár. Váradi Tamás MTA Nyelvtudományi Intézet Korpusznyelvészeti Osztály [email protected]. Tartalom. Rövid jellemzés Kiknek készült? Nemzetközi előzmények Összetétele Mitől „nemzeti”? Hogyan készült? Hogy néz ki belülről? Hogyan használható? Intelligens keresés - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

A Magyar Nemzeti Szövegtár

Váradi TamásMTA Nyelvtudományi Intézet

Korpusznyelvészeti Osztá[email protected]

Page 2: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Rövid jellemzésKiknek készült?Nemzetközi előzményekÖsszetételeMitől „nemzeti”?Hogyan készült?Hogy néz ki belülről?Hogyan használható?Intelligens keresésHogyan tovább?

Tartalom

Page 3: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Rövid jellemzésAz írott nyelvhasználat hiteles tükre150 millió szavas reprezentatív mintaVálogatott szövegek, egységesen kódolva

nyelvhasználatunk keresztmetszeteválogatás nem ‘érdem’ alapján

Intelligens korpusznyelvtanilag elemzett és egyértelműsítettlekérdezés nyelvtani jellemző szerint is

Page 4: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Kiknek készült?Nyelvészeknek, szótárszerkesztőknekpontos, számszerűsíthető kép napjaink írott

magyar nyelvhasználatárólSzámítógépes nyelvészeknekértékes forrás számítógépes alkalmazások

számáraTársadalomtudósoknak, a magyar kultúra kutatóinaka nyelvhasználatban kódolt finom „üzenetek”

Page 5: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Nemzetközi előzmények60-as évek: BROWN, LOB korpusz1 millió szavas gondos összeállítás80-as évek: COBUILD szótár20 m 450 m szó Bank of English90-es évek: British National Corpus100m szó, 10 m szó beszélt nyelvből90-évektől: nemzeti korpuszokCseh, szlovén, német, francia, USA, ausztrál stb.

Page 6: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Az MNSZ összetételeNyelvi változat m. szó Forrás

Sajtó 75 online kiadás

Szépirodalom 15 Digitális Irod. Akadémia

Tudományos próza 20Magyar

Elektronikus Könyvtár

Hivatali nyelv 20Minisztérium, önkormányza

t

Személyes közlés 20 Index.hu Törzsasztal

Összesen: 150

Page 7: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Mitől „nemzeti”?Mérete szerint

egyedülálló vállalkozásTartalma szerint

nem csak az „írástudó elit” nyelvezetenem csak budapesti nyelvhasználathatáron túli nyelvhasználat is

Kárpát-medencei Magyar Korpuszelőkészületben az MNSZ alapján

Page 8: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Hogyan készült?Elektronikus forrásokElőfeldolgozásNyelvtani elemzésEgyértelműsítésÖsszefűzés, indexálásLekérdező szoftver1998 – 2000 között OTKA támogatás2002-2003 SZT-IS-7 pályázat

Page 9: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

<!-- HVG ./0116/0116009.htm --><div type="article" column="unspec"><opener><dateline><w lemma="HVG" msd="N.NOM" ctag="NS3NN">HVG</w><w lemma="2001/16" msd="DIG" ctag="Q">2001/16</w><c lemma="." msd="SPUNCT" ctag="SPUNCT">.</c><w lemma="szám" msd="N.NOM" ctag="NS3NN">szám</w><date iso8601="04-21-2001"><w lemma="2001._április_21." msd="DATUM" ctag="DATUM">2001._április_21.</w> </date></dateline></opener><head rend="IT" type="unspec"><s><w lemma="egészségügyi" msd="A.NOM" ctag="AS_A">Egészségügyi</w><w lemma="szigorítás" msd="N.PL.NOM" ctag="NP3NN">szigorítások</w> </s></head><head><s><w lemma="sok" msd="Num.NOM" ctag="Q">Sok</w><w lemma="zseb" msd="N.ELA" ctag="NS3NE">zsebből</w><w lemma="vérzik" msd="V.e3" ctag="VS3RI">vérzik</w> </s></head><head rend="BO" type="display"><s>

Annotált korpusz - részlet belülről

Hogy néz ki belülről?

Page 10: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Hogyan használható? - Keresés

Page 11: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Hogyan használható? - Találatok

Page 12: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Intelligens keresésKeresés szófaj és nyelvtani alak alapján

pl. „az”: 656272 előfordulásnévelő és mutatószó egyaránt15542 esetben mutatószó

Két szó együttes előfordulásaállandósult szókapcsolatokigei vonzatok

Page 13: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Hogyan tovább?állapotfelvétel a 90-es évek második felérőla nyelvhasználat dokumentálása

újabb és újabb állapotfelvételélő nyelvtörténet

minden eddiginél pontosabb adatokkal

Page 14: A Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

Magyar Nemzeti Szövegtár

http://corpus.nytud.hu/mnsz

[email protected]