EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ (DOKTORA TEZ ) TÜRKÇE Ç N STAT ST KSEL B R B LG GER -GET R M S STEM Bekir Taner D NÇER Uluslararası Bilgisayar Anabilim Dalı Bilim Dalı Kodu: 619.02.04 Sunu Tarihi: 17/Eylül/2004 Tez Danı manı: Prof. Dr. Bahar KARAO LAN Bornova – ZM R
407
Embed
EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ …yunus.hacettepe.edu.tr/~tonta/courses/spring2011/bby704/B...EGE ÜN VERS TES FEN B L MLER ENST TÜSÜ (DOKTORA TEZ) TÜRKÇE Ç N STAT
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
EGE ÜN�VERS
�TES
� FEN B
�L
�MLER
� ENST
�TÜSÜ
(DOKTORA TEZ�)
TÜRKÇE �Ç
�N
�STAT
�ST
�KSEL
B�R B
�LG
� GER
�-GET
�R
�M S
�STEM
�
Bekir Taner D � NÇER
Uluslararası Bilgisayar Anabilim Dalı
Bilim Dalı Kodu: 619.02.04
Sunu� Tarihi: 17/Eylül/2004
Tez Danı � manı: Prof. Dr. Bahar KARAO� LAN
Bornova – �ZM
�R
II
III
Sayın Bekir Taner D � NÇER tarafından DOKTORA TEZ � olarak
sunulan “Türkçe için � statistiksel bir Bilgi Geri-Getirim Sistemi” adlı
bu çalı � ma, “Lisansüstü E� itim ve Ö� retim Yönetmeli � i” nin madde (c)
ve (d) bentleri ve Enstitü yönergesinin ilgili hükümleri dikkate alınarak
tarafımızdan de� erlendirilmi � olup yapılan sözlü savunma sınavında
aday oy ………….. ile ba� arılı bulunmu � tur. Bu nedenle Bekir Taner
Dinçer’ in sundu� u metnin doktora tezi olarak kabulüne oy ………….
ile karar verilmi � tir.
…/………../2004
Jüri Ba� kanı :............................................... imza ..........................
Raportör :............................................... imza ..........................
Üye : .............................................. imza..........................
Üye : .............................................. imza ..........................
Üye : .............................................. imza ..........................
IV
V
Sevgili e� im Zeynep’e......
VI
VII
ÖZET
TÜRKÇE �Ç
�N
�STAT
�ST
�KSEL
B�R B
�LG
� GER
�-GET
�R
�M S
�STEM
�
D � NÇER, Bekir Taner
Doktora Tezi, Uluslararası Bilgisayar Enstitüsü
Tez Yöneticisi: Prof. Dr. Bahar KARAO� LAN
Eylül 2004, 379 sayfa
Bu tezde, Türkçe dilbilgisi özelliklerinin kullanımı ile BGG
Üniversitesinden Kemal Oflazer’e ve ayrıca Gökhan Tür’e derlemlerin
sa� lanması ve yardımlarından dolayı te� ekkürü bir borç bilirim
Bu tezi, Türkçe’ye ve Türkçe’nin geli � mesine emek vermi � olan
ba� ta Gazi Mustafa Kemal Atatürk olmak üzere, bu yolda çalı � mı � , tüm
hayatını adamı � ve dilimizi yüceltmi � olan herkesin anısına; halen
çalı � anların ve gelecekte çalı � acak olanların onuruna ithaf ediyorum.
XII
XIII
�Ç
�NDEK
�LER
Sayfa
ÖZET............................................................................................................................. VII ABSTRACT....................................................................................................................IX TE � EKKÜR...................................................................................................................XI 1. G � R � � .............................................................................................................................1 2. TÜRKÇE .................................................................................................................... 19
2.1. TÜRKÇE HARFLER VE ALFABE..................................................................... 21 2.2. HECELER VE KEL � MELER.............................................................................. 22
2.2.1. Türkçe Heceleme.................................................................................... 22 2.3. � EK � L YAPISI BAKIMINDAN KEL � MELER ...................................................... 23
2.3.1. Kökler ve Gövdeler................................................................................. 23 2.4. ANLAM VEYA GÖREV BAKIMINDAN KEL � MELER....................................... 24 2.5. KEL � ME GURUPLARI..................................................................................... 26
3.1. ENFORMASYON B � L � M VE B � LG� GER� -GET � R� M ......................................... 41 3.2. ENFORMASYON TANIMI VE FARKLI YAKLA � IMLAR................................... 42
3.3. ENFORMASYONUN � LET � M � – � LET � � � M ........................................................ 51 3.4. VER� , ENFORMASYON VE B � LG� TANIMLARI............................................... 54 3.5. ENFORMASYON VE HABER .......................................................................... 55
4. ENFORMASYON KURAMI .................................................................................. 61 4.1. DÜZENS� ZL � K (ENTROPY) ............................................................................ 62 4.2. B � RLE� � K DÜZENS� ZL � K VE KO� ULLU DÜZENS� ZL � K .................................. 64 4.3. KAR � ILIKLI ENFORMASYON (MUTUAL INFORMAT � ON) ............................. 66 4.4. KO � ULLU DÜZENS� ZL � K (COND � T � ONAL ENTROPY) ................................... 68 4.5. ÇAPRAZ DÜZENS� ZL � K (CROSS ENTROPY)................................................... 70 4.6. � ST � KRARSIZLIK (PERPLEX � TY) .................................................................... 75
5. B � LG � GER � -GET � R � M S � STEMLER � ............................................................... 77 5.1. GENEL S� STEM YAPILANMASI ..................................................................... 82 5.2. GENEL � � LEY � � KURGUSU ( � Ç YAPILANMA) ............................................... 84 5.3. SAYISAL BELGE TEMS� L � ............................................................................. 86
6. GER � -GET � R � M MODELLER � ............................................................................ 97 6.1. VEKTÖR UZAYI MODEL � ............................................................................ 103 6.2. G� ZL � ANLAM � NDEKSLEME MODEL � ........................................................ 107
7. � NDEKSLEME VE � NDEKS TER � MLER ........................................................ 115 7.1. ELLE � NDEKSLEME ..................................................................................... 117 7.2. DO� AL B � R D � LDE, KEL � MELER� N DA � ILIMI............................................ 120
7.2.1. Zipf Güç Kanunları .............................................................................. 124 7.3. OTOMAT � K � NDEKSLEME............................................................................ 129
7.3.1. ndekslemenin Kapsamı ve Terim Öznelli i. ...................................... 134 7.3.2. Kelime Gurupları ile ndeksleme......................................................... 135
7.4. HESAPLAMALI D � LB � L � M YÖNTEMLER� ..................................................... 138 8. BA � ARIM ÖLÇÜTLER ...................................................................................... 141
8.1. ANMA VE DUYARLILIK ESASINDA ÖLÇÜT TÜRLER� . ............................... 141 8.2. ANMA VE DUYARLILIK ESASINDA BA � ARIMIN ÖLÇÜMÜ. ....................... 148 8.3. ANMA VE DUYARLILI � I ESAS ALMAYAN BA � ARIM ÖLÇÜTÜ.................. 157
9. TEZ KAPSAMINDA GEL � T R L M � YÖNTEMLER ................................ 163 9.1. TÜRKÇE YAZILI BELGELER� N TESP� T � ....................................................... 168
10.1. TANIMLAYICI � STAT � ST � KLER .................................................................... 233 10.2. TÜRKÇE � Ç� N Z � PF GÜÇ KANUNLARI � NCELEMES� .................................... 239
10.2.1. � statistiksel � ncelemeler için Alt Yapı............................................. 239 10.2.2. BilTD Derleminin Zipf Birinci Kanun � ncelemesi ......................... 242 10.2.3. ODTÜ Derleminin Zipf Birinci Kanun � ncelemesi........................ 249 10.2.4. OSTAD Derleminin Zipf Birinci Kanun � ncelemesi ...................... 251 10.2.5. Birle� ik Derlemlerin Zipf birinci kanun incelemesi ...................... 254
10.3. � NG� L � ZCE � Ç� N Z � PF B � R� NC� KANUN � NCELEMES� .................................... 256 10.4. TÜRKÇE � Ç� N KEL � ME DA � ARCI � I (KD) � NCELEMES� .............................. 260
10.4.1. Kelime Da� arcı� ı Boyutları– Zipf Birinci Kanun......................... 260 10.4.2. Kelime Biçimleri – Zipf � kinci Kanun ............................................ 265 10.4.3. � � lev ve � çerik Kelimeler (� ndeks Terimler) ................................... 277
11. NDEKS TER M SEÇ M ................................................................................... 285 11.1. GENEL DA ILIMLAR .................................................................................. 291
11.1.1. Sözcük Türleri .................................................................................. 291 11.1.2. Cümle Unsurları .............................................................................. 299 11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De� erlendirme.................. 305 11.1.4. Kelime Gurupları............................................................................. 307
11.2. BGG S� STEM BA ARIMI ÜZER� NE � NCELEMELER. .................................... 311 11.2.1. Türkçe için E� ik Ba� arım................................................................ 314 11.2.2. � ndeks Terim Seçimi ve A� ırlıklandırma........................................ 317 11.2.3. Dilbilgisi Özelliklerinin Ba� arıma Etkisi ....................................... 321
12. SONUÇ.................................................................................................................... 333 13. GEL � ��� M NOKTALARI VE TARTI � MA....................................................... 341 TÜRKÇE- � NG � L � ZCE TER � MLER SÖZLÜ � Ü.................................................. 345 KAYNAKLAR............................................................................................................. 349 EKLER.......................................................................................................................... 367 ÖZGEÇM � � ................................................................................................................. 379
� EK � LLER
�ekil Sayfa
1.1 Enformasyon bilim ve hesaplamalı dilbilim sahalarının etkile� imleri.
10
3.1.1 Enformasyon bilimine katkıda bulunan di � er bilimler (Ingwersen, 1992).
41
3.2.1.1 Bireysel bilme eylemi (Soergel, 1985). 44
3.2.1.2 � nsanlar arasında Mesaj/Haber � letimi. Soergel’den (1985) uyarlanmı � tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü� üm evrelerini betimler.
46
3.3.1 � leti � imin klasik modeli. (Shannon, 1949, uyarlama) 52
3.3.2 Anlamsal-enformasyonun yazı ile iletim modeli. 53
3.4.1 Veri, enformasyon ve bilgi arasındaki ili � kilerin denklemleri. 54
4.3.1 Kar � ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili � ki. 67
5.1 Bilgi Ke� fi/Madencili � i ve Belge/Metin Madencili � i u� ra� larına ait yapısal kurguların kar � ıla� tırması. “Veri’den Bilgi Ke� fi” ve “Belge Madencili � i” sahalarındaki alt süreçler, yapısal ve içerik benze� imleri nispetinde kar � ılıklı e� le� tirilmi � tir.
82
5.1.1 Bilgi geri-getirim sistemlerinin genel kurgusu. 83
5.1.2 Kullanıcı bakı� açısından, BGG sistem hizmetleri. 84
5.2.1 Bilgi geri-getirim sistemlerinin iç yapılanma örne� i. 85
5.3.1 Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı.
6.1 Bilgi geri-getirim modellerinin sınıflandırılması. (Baeza-Yates and Ribeiro-Neto, 1999, uyarlama).
98
ii
� EK � LLER (devam) �ekil Sayfa
6.1.1 Bir bj belge vektörü ile, qi sorgu vektörünün, iki boyutlu indeks terim uzayında çizgesel betimlemesi.
104
6.2.1 Örnek belge uzayı için, terim-belge matrisi. 108
6.2.2 Örnek derlem terim-belge matrisi için hesaplanmı � , ESA bile� en matrisleri.
110
6.2.3 Belgeler arası kar � ılıklı ili � ki katsayı matrisleri. 113
7.2.1 Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı arasındaki ili � kinin çizgesi (Luhn, 1958, uyarlama).
122
8.1.1 Anma ve duyarlılık ölçümlerini betimleyen çizge. 141
8.1.2 Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin temsili çizgesi.
143
9.2.1 Anma-duyarlılık e� risinin iki örne� i. 151
9.4.2.3.1 Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar � ılık gelebilecek sözcük dizisi ihtimalleri (b).
219
9.4.2.3.2 Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.
220
9.4.2.3.3 Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda, önerilen kelime sonundan belirli sayıda harf birli � inin hesaplama birim olarak kullanılması.
223
9.4.3.1 Sözcük türü tespit, sınama sonuçları. 1. dereceden Markov süreci kurgusu altında, tüm talim derlemi boyutları sondan alınan harf birliklerinin tüm uzunlukları için.
225
9.4.3.2 Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi � e bir adım Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için.
226
� EK � LLER (devam) �ekil Sayfa
10.1 ODTÜ derlemindeki belge türleri. 230
10.2 OSTAD derlemindeki belge türleri. 230
10.1.1 BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime ve gövde sayılarının toplam üzerinden göreceli oranları.
231
10.1.2 Birle� ik derleminin (BirTD), kelime esasında kelime da� arcı� ını olu� turan kaynak derlemler ve oransal katkıları.
233
10.1.3 BilTD ve OSTAD derlemlerinin, gövdeler esasındaki kelime da� arcı� ına yaptıkları katkılar.
235
10.2.2.1.1 BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. 243
10.2.2.2.1 BilTD derleminin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
246
10.2.2.2.2 BilTD derleminin, gövde esasında, Mandelbrot ifadesi ile W=1000 parametre de� er için uyumu çizgesi.
247
10.2.3.1 ODTÜ derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
248
10.2.4.1.1 OSTAD derlemin, kelime esasında, Zipf ifadesi ile uyum çizgesi.
250
10.2.4.2.1 OSTAD derlemin, gövde esasında, Zipf ifadesi ile uyum çizgesi.
251
10.2.4.2.2 OSTAD derleminin, gövdeler esasında, Mandelbrot (W=100) ifadesi ile uyum çizgesi.
251
10.2.6.1 � ngilizce birle� ik derlemin, kelime esasında Zipf ifadesi ile uyum çizgesi.
256
10.2.6.2 � ngilizce birle� ik derlemin, kelime esasında Mandelbrot (W=100) ifadesi ile uyum çizgesi.
256
iv
� EK � LLER (devam) �ekil Sayfa
10.3.2.1.1 Kelime esasında Türkçe birle� ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti � i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi.
267
10.3.2.1.2 Kelimeler (a) ve gövdeler (b) için kelime da� arcıkları. 269
10.3.2.1.3 Gövde esasındaki Türkçe birle� ik derlem için, Zipf ikinci kanun ifadesinin tahmin etti � i kelime biçimi sayıları ile gözlemlenen kelime biçimi sayılarının yayılım çizgesi.
270
10.4.3.1.1 Gövde esasında Türkçe birle� ik derlem için, Zipf birinci kanun e� im tahminlerinin yayılım çizgesi.
282
11.1.1.1 OSTAD derlemi, kelime (a) ve gövde (b) esasında kelime da� arcı� ı içinde sözcük türü oranları.
293
11.1.1.2 OSTAD derlemi, derlem içinde gözlenme sıklı� ına göre sözcük türü oranları.
5.1 Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i � levsel özellikleri.
79
5.3.1 Bir milyon ve on milyon kelimelik Türkçe derlemlerin kelime da� arcıkları (Hakkani-Tür et. al., 2002).
90
6.1 Bilgi geri-getirim modellerinin geri-getirim hizmeti ve sayısal belge temsil � ekli eksenlerinde sınıflandırılması.
100
7.2.1 Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de� erlendirmesi (Manning and Schütze, 2003, uyarlama).
123
8.1.1 Seçilmi � (S) ve hedef (H) olasılık de� i � kenlerinin birle� ik da� ılımının 2x2 olasılık tablosu olarak gösterimi.
142
9.1.2 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü ve do� ruluk (DO) oranı ölçüm listesi.
146
9.2.1 BGG sistemlerinin sıralama esasına dayalı de� erlendirme örne� i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır.
148
9.1.1.1 Fransızca, � spanyolca, � ngilizce ve Portekizce için yazılı metinden dil tespit sonuçları (Lins and Gonçalves, 2004).
170
9.1.3.1 Çok dilli belge derleminde Türkçe belgelerin tespitine ait deneysel sonuçlar.
175
9.2.2.1 Cümle sonu yordamını tanımlamada kullanılan simge sistemi.
178
9.2.3.1 Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri.
180
vi
Ç � ZELGELER (devam)
Çizelge Sayfa
9.2.3.2 Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler.
181
9.2.3.3 Cümle sonu tespitinde, [W*W] durumu için, heceleme önermesi ile meydana gelen hata oranları.
184
9.3.3.1 Gövdeleme yöntemi sınamalarında kullanılan Talim ve Test derlemi özellikleri.
195
9.3.3.2 Önerilen gövdeleme yöntemi ile üretilmi � gövdelere örnekler.
199
9.4.2.3.1 Örnek cümlenin, her kelimesinin olası sözcük türleri. 218
10.1 BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “* ” karakteri olan hücreler derlemlerin söz konusu özelli � inin belli olmadı� ını gösterir.
228
10.1.1 BirTD için kelimelerin geldikleri derlemler üzerinden istatistikleri.
233
10.1.2 Gövde esasında BirTD derlemi için tanımlayıcı istatistikler. 235
10.2.2.1.1 BilTD derlemi için, kelime esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.
241
10.2.2.2.1 BilTD derlemi için, gövde esasında Zipf ve Mandelbrot ifadeleri ile do� rusal ili � ki uyum sınamaları.
245
10.2.3.1 ODTÜ derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
248
10.2.4.1.1 OSTAD derleminin, kelime esasında Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
249
10.2.4.2.1 OSTAD derleminin, gövde esasında Zipf ve Mandelbrot ifadesi ile, do� rusal ili � ki uyum sınamaları.
250
10.2.5.1.1 BirTD derleminin, kelime esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
252
Ç � ZELGELER (devam)
Çizelge Sayfa
10.2.5.2.1 BirTD derleminin, gövde esasında, Zipf ve Mandelbrot ifadesi ile do� rusal ili � ki uyum sınamaları.
253
10.2.6.1 Time, Cranfield, Medlars ve birle� ik derlemlerinin genel özellikleri.
254
10.2.6.1 � ngilizce birle� ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması.
255
10.3.1.1 Türkçe birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı� ı büyüme katsayıları.
259
10.3.1.2 � ngilizce birle� ik derlemin kelime esasında incelenen her Zipf modeli için, kelime da� arcı � ı büyüme katsayıları.
259
10.3.1.3 Türkçe birle� ik derlemin gövde esasında incelenen her modeli için, kelime da� arcı� ı büyüme katsayıları.
260
10.3.1.4 Kelime esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut (KDB) tahminleri.
260
10.3.1.5 Kelime esasında � ngilizce birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut tahminleri.
261
10.3.1.6 Gövde esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı � ı boyut tahminleri.
261
10.3.2.1.1 Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri.
265
10.3.2.1.2 Kelime esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu.
266
10.3.2.1.3 Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri.
268
10.3.2.1.4 Gövde esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonuçları.
270
viii
Ç � ZELGELER (devam)
Çizelge Sayfa
10.3.2.2.1 Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
272
10.3.2.2.2 Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
273
10.4.3.1.1 Kelime esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.
278
10.4.3.1.2 Gövde esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.
281
11.1 OSTAD derleminde elle i � aretlenmi � belge istatistikleri. 284
11.2 BilTD ve OSTAD derlemlerinde yapılmı � olan biçimbirimsel i � aretlemede temel sözcük türü kodları.
287
11.1.1.1 Kelime esasında sözcük türlerinin kelime da� arcı � ı içindeki oransal da� ılımları.
292
11.1.1.2 Gövde esasında sözcük türlerinin kelime da� arcı� ı içindeki oransal da� ılımları.
292
11.1.1.3 Sözcük türlerinin derlem içinde görülme sıklıklarının oransal da� ılımları.
11.1.1.1.2 OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de� erlendirmesi.
297
11.1.2.1 OSTAD derleminde cümle unsuru i � aretlemesinde kullanılan kodlar.
299
11.1.2.2 � ndeks terimlerin cümle üzerindeki da� ılımı. 300
11.1.2.3 OSTAD derlemi, cümle unsuru ve indeks terim için toplu de� erlendirme.
303
Ç � ZELGELER (devam)
Çizelge Sayfa
11.1.3.1 OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da� ılımı.
305
11.1.4.1 OSTAD derleminde, kelime guruplarının indeks terim da� ılımları.
307
11.1.4.2 OSTAD derleminde 2 kelimeden olu� an kelime guruplarını, sözcük türü kombinasyonlarının indeks terim da� ılımları.
308
11.2.1.2 Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak, üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.
315
11.2.2.1 Örnek paragrafın TFxIDF a� ılıkları. 318
11.2.2.2 Örnek paragrafın, TFxIDF a� ırlıkları üzerinden duyarlılık de� erleri.
319
11.2.3.1.1 Örnek paragrafın, sözcük türü ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
323
11.2.3.1.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve sözcük türü a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
324
11.2.3.2.1 Örnek paragrafın, cümle unsurları ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
326
11.2.3.2.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve cümle unsuru a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
326
11.2.3.3.1 Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a� ırlıkları üzerinden duyarlılık de� erleri.
327
11.2.3.3.2 OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a� ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
328
x
YAYIN L � STES�
Dinçer , B., T. and Karao � lan, B., 2004, “Sentence Boundary Detection in Turkish.” , Proceedings of the 3rd International Symposium on Advances in Information Sciences (ADVIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 20-22 October, Izmir, Turkey.
Dinçer , B., T. and Karao � lan, B., 2004, “Effect of part-of-speech tagging on IR performance for Turkish.” , Proceedings of the 19th International Symposium on Computer and Information Sciences (ISCIS’04), To be published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, 27-29 October, Kemer–Antalya, Turkey .
Celikel, E. and Dinçer B., T., 2004, "Improving the Compression Performance of Turkish Texts with PoS Tags", International Conference on Information and Knowledge Engineering (IKE’04), published by CSREA Press (ISBN: 1-932415-27-0), Las Vegas, Nevada, USA, June 21-24.
Dinçer , B., T. and Karao� lan, B., 2003, “Stemming in Agglutinative Languages: A probabilistic stemmer for Turkish.” , Proceedings of the 18th International Symposium on Computer and Information Sciences (ISCIS’03), Published in the Lecture Notes in Computer Sciences (LNCS), Springer-Verlag, Vol: 2869, 3-5 November, Kemer–Antalya, Turkey, pp. 244-251.
Dinçer , B., T. ve Karao� lan, B., 2003, “Bilginin Sosyal Uzantısı : Bili � im” , Bilgi Teknolojileri Sempozyumu, B � LG� -TEK’03, Bildiriler Kitabı (ISBN: 975-6992-08-5), Pamukkale Üniversitesi, Denizli, Türkiye, 44-46.
xii
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
1
1. G � R ���
“ Bilgi güç demektir.” (Francis Bacon,1561-1626)
Bu tez bilgi geri-getirim veya eri � im (BGG veya BE)
sistemlerinde birbirini destekleyen iki çalı � mayı sunmaktadır: Türkçe
yazılı metinler için sayısal belge temsilini dil-bilim özelliklerine dayalı
istatistikler ile destekleme yöntemleri ve dil-bilim özellikleri ile
desteklenmi � sayısal belge temsilinin geri-getirim ba� arımı üzerindeki
etkilerinin ara� tırma sonuçları. Geli � tirilen yöntemlerin, Türkçe yazılı
metinlere uygulanabilmesi için gerekli, bir ön-i � lem a� aması olan
simgele� tirme (Tokenization), cümle sonu tespitini de içerecek � ekilde
geli � tirilmi � tir. Tez hedefinde, Türkçe yazılı metinler bulundu� u için,
çok dilli bir belgeler toplulu� u içinden (örne� in Internet) Türkçe yazılı
metinlerin hızlı ve verimli bir � ekilde ayırt edilmesine yönelik yeni bir
yordam da ayrıca olu� turulmu � tur. Bu bölümde öncelikle BGG
sahasının tanıtımı, sahadaki u� ra� ların genel hedefleri ve bu hedeflere
ula� manın önünde mesele yaratan konular tanıtılacaktır. Tezin kapsamı
ve hedefleri genel tanıtımın ardından sunulacaktır. Tez kapsamımız
içinde cevapladı � ımız ara� tırma sorularının özetleri ve tezin genel
anlatım akı � ı bölüm sonunda yer almaktadır.
Bilgi geri-getirimin veya eri � imin tanımı en genel hali ile
� öyledir:
“ � nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. ...”
(Ingwersen, 1992)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
2
Verilen tanımının sınırları içinde BGG, kullanıcıların belirtti � i
enformasyon ihtiyaçları do� rultusunda belirli bir belge toplulu� undan
alakalı belgelerin kılavuzlarının (künyelerinin ve eri � im bilgilerinin),
daha do� rusu varlı � ının tespit edilmesi i � idir. Söz konusu, güncel
anlamda sorun olan hedef belge toplulu� u Internet’ tir. Internet’ in
günlük ya� amın içine girmesi ve yaygınla� ması ile insanlık tarihinde
� imdiye kadar kar � ıla� ılmamı � miktarda ki � isel, bölgesel, kurumsal,
bilimsel vb. enformasyon’ un bir arada bulundu� u bir ortam olu� mu� tur.
Dolayısı ile yönetilmesi, depolanması ve organize edilmesi gereken,
sayısı milyonlarla ifade edilen metin, resim ve görüntü vardır (Brin and
Page, 1998). Internet üzerindeki geli � imin ne düzeylerde oldu� u ve
gelecekte bizi ne tür bir enformasyon hacminin bekledi � ine dair bir
izlenimi � u istatistiklerden rahatlıkla elde edebiliriz1: 1998 yılı için,
sadece Amerika’daki tahmin edilen Web sayfası sayısı 320 milyon ve
Internet kullanıcısı sayısı 57 milyondur, 81 milyon e-posta kullanıcısı
arasında toplam 3,4 trilyon mesaj gönderilmi � tir; � ngiltere ile � rlanda
arasındaki yıkıcı (spam) e-posta gönderimini engelleme i � inin, 1998
yılı tahmini bedeli 8 milyon dolardır; 1997 yılının ikinci çeyre� i itibari
ile Internet � irketlerine yatırılan risk sermayesi miktarı 561 milyon
dolardır; Yahoo arama motorunda günlük görüntülenen sayfa sayısı
ortalama 38 milyondur; Web kullanıcılarının %82’si Internet’ i
vazgeçilmez olarak görmektedir ve “Home Corporation” 1999 yılında,
Excite arama motorunu 6.2 milyar dolara satın almı � tır ( Aynı yıl Ford
motor � irketi Volvo’ nun araba üretim bölümünü 6.45 milyar dolara
satın almı � tır !!!). Bu istatistikler elbette Internet ortamının tamamını
resmedenler de� ildir, ancak � u anki durumun ve geli � imin ne yönde
olabilece� i açısından bir fikir vermektedir. Fakat, enformasyon
zenginli � i açısından geli � en Internet’e paralel olarak kullanıcılar: çok
1 http://www.why-not.com/company/stats.htm
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
3
fazla enformasyonla kar � ı kar � ıya kalmaktadırlar. Bu enformasyonun
büyük ço� unlu� u ihtiyaç duydu� umuz enformasyon de� i ldir. Söz
konusu durum, yani aradı � ımız enformasyonun bulamayaca� ımız kadar
çok alakasız enformasyon içinde kalması durumu, fazla enformasyon
yüklemesi (Information overload) olarak adlandırılır. Internet’ teki fazla
enformasyon yüklemesi neredeyse önemli ve ciddi çalı � malar için
Internet ortamının kullanılamaz hale gelmesine sebebiyet verecek
noktalara çıkmı � tır. Bir ba� ka söyleyi � le, alakasız enformasyon miktarı,
alakalı enformasyonun bulunmasını imkansız hale getirecek
düzeylerdedir:
“ Web üzerindeki fazla enformasyon yüklemesinin en önemli sebebi, Web’ in çift amaç ta� ıyan bir ortam olmasıdır: aynı anda hem ki � isel hem kamusal enformasyonun, yayınlanması ve ileti � imin sa� lanması. Ki � isel olarak çok önemli olan konular, genelde kamusal anlamda önemli de� i ldir. Web üzerinde oldu� u gibi, e� er bir ileti � im ortamı üzerindeki arka-plan gürültüsü lüzumlu içeriklerin daha geni � kitlelere ula� masını engelleyecek düzeye çıkmı � sa, o ileti � im ortamı geçerlili � ini yitirir.
..., Çok � ükür ki, ki � isel radyo endüstrisinde ya� anan kendi kendini yok etme durumuna gelme e� i limi siber-uzayın sayısal alt-yapısı ile önlenebilir. Tabii ki, her yönden gelecek hesaplamaya dayalı yardımlar ile.”
(Berghel, 1997)
Internet üzerindeki enformasyonun neredeyse tamamı yapısal
olmayan ve do � al dilde yazılmı � belgelerden olu � tu� u için (bu durum
ili � kili veri-tabanlarındaki meselelerden farklıdır: Bölüm 6),
hesaplamalı dil-bilim (computational linguistics), yani do � al dilin
(dillerin) hesaplamaya dayalı çözümlemesi fazla enformasyon
yüklemesi meselesi kar � ısında, enformasyon bilimleri içerisindeki
u� ra� larda (bilgi geri-getirim sistemleri, enformasyon süzme sistemleri
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
4
(information filtering systems) vb. uygulamalar) önemini giderek
arttıran bir konu olacaktır2.
BGG sahasında genel anlamda ara� tırmaya açık konular 6 ana
ba� lık altında toplanabilir (van Rijsbergen, 1979).
1. Otomatik Sınıflandırma: Çok büyük sayısal belge topluluklarının, yönetilebilir büyüklükte sınıflar altına bölümlenmesidir.
• � statistiksel bir yöntem olan clustering (kümeleme) çözüm olarak uygulanmakta, fakat sayısal yordam olarak hızlandırılmaya ihtiyaç duymaktadır.
2. Dosya Yapılar ı: � ndeks terimlerin devrik dosya (inverted file) � eklinde tutulması yöntemi, küme kuramsal yöntemler için etkin olmasına ra� men; di � er olasılık kuramsal ve cebirsel yöntemler için çok etkin de� ildir. Bu yöntemlerde etkin � ekilde kullanılabilecek bir dosya yapısına ihtiyaç vardır.
3. Arama Stratej iler i: BGG hızını artırmak için yeni e� le� tirme/arama yöntemlerinin geli � tiri lmesine ihtiyaç vardır.
4. Benzetim: Genel anlamda, bir belge toplulu� unda, birbirleri ile alakalı belgelerin da� ılım simülasyonuna, yani örneksel benzetimlere ihtiyaç vardır. Özelde ise, ara� tırma için açık olan ana meselelerden en önemlisi, belge topluluklarındaki anahtar kelime da� ılım simülasyonudur.
5. � çer ik Analizi: Belge içeriklerinin bilgisayar ortamında anahtar kelimelerden veya indeks terimlerden ba� ka ne � ekilde sayısal olarak temsil edilebilece� inin belirlenmesi. Meseleye ba� langıç noktası olabilecek yakla� ımlarsa;
2 Fazla enformasyon yüklemesi meselesi kar � ısında, yapısal olmama durumunu çözümlemek adına anlamsal web (semantic web) tasarımları da bir çıkar yol olarak görülmekte ve geli � tirilmektedir. http://www.w3.org/
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
5
• Yapay zeka teknikleri kullanan bir bilgisayar yordamı ile do� al dilin anla� ılması veya
• Psiko-dilbilim, yani akıl-dilbilim veya anlam-dilbilim sahasında insan beyninde, do� al dilin anla� ılması mekanizmalarının incelenmesi ve örneklenmesi olabilir.
6. Metin Sıkı � tırma: Sıkı � tırma anlamında iki ihtiyaç vardır: birincisi sahip olunan çok büyük miktardaki verinin etkin ve hızlı � ekilde sıkı � tırılması ve açılmasıdır; ikincisi ise sıkı� tırılmı � verinin açılmasına gerek duymadan i � lem yapabilen yöntemlerin geli � tirilmesidir.
James ve arkada� ları (2003) SIGIR3 kongresinde BGG u� ra� sahasının kısa (1-5 yıllık) ve uzun (5-10 yıllık) vadeli ara� tırma
hedeflerini ve ihtiyaçlarını özele indirgenmi � ba� lıklar halinde bildiri
olarak yayınlamı � lardır. A � a� ıda bildirinin belirtti � i ara� tırma
sahalarına ait ana ba� lıklar ve kısa açıklamaları vardır. Aslen, van
Rijsbergen (1979) tarafından ortaya konan ihtiyaçlarda yakla� ık son 35
yılda çok fazla de� i � iklik olmadı � ı görülmektedir. Sahanın kapsam ve
uygulama alanı güncel teknoloj ileri desteklemek/kullanmak için
geni � lemi � , hesaplamalı dil-bilim sahası ile etkile� imin zorunlulu� u bir
kez daha söz konusu geli � imi kar � ılamak amacıyla ortaya konmu � tur.
James ve arkada� ları (2003) tarafından belirtilen hedefler � unlardır:
3 SIGIR, � ngilizce “Special Interest Group on Information Retrieval” olan bilgi geri-getirim sahasında u� ra� veren uluslararası kurum ve kurulu� ların düzenledikleri senelik sempozyumunun kısaltmasıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
6
1. En genel anlamı ile uzun vadede BGG u� ra� sahasında iki büyük meseleden bahsedilmi � tir: Küresel enformasyon eri � imi ve ba� lamsal geri-getirim. Küresel enformasyon eri � imi olarak, kullanıcının enformasyon ihtiyacını kar � ılayacak, özellikle Web esasına dayalı yapısallı � ı olan ve genelde de yapısal olmayan tüm belgeleri tahlil eden, kullanıcı ile do � al ve etkin bir ileti � im kuran sistemler tarif edilmi � tir. Ba� lamsal geri-getirim olarak, “arama stratejilerini” , “sorguları” ve “ kullanıcılar hakkında eldeki bilgileri” tek bir çatı altında birle� tiren, kullanıcıya bu sayede daha etkin
� ekilde cevap verebilecek sistemler tarif edilmi � tir. Mobil ileti � im vb. teknolojiler, bilgi geri-getirimin kullanıcı odaklı ve ba� lam esasında kullanımı için uygulanabilir örnekler olarak ortaya konmu� tur.
2. Yeni geri-getirim yöntemlerinin ortaya konması konusunda uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi � tir. Genel olarak mevcut sistemlerin 1960’ ların kurgularına dayandı � ı ve enformasyon ihtiyaçlarının kar � ıla� ılan karma� ıklı � ı ile ba� edemedi � i belirtilmi � ; özellikle dil-bilim kuramlarının, modeller içerisinde sadece kelime, kelime gurupları esasında ele alındı � ı, bunun yeterli olmadı � ı, dil-bilim kuramlarına dayalı geri-getirim yöntemlerinin geli � tirilmesi gerekti � i; kullanıcı bakı � açısının mevcut kurgularda ya hiç olmadı � ı ya da yetersiz � ekilde temsil edildi � inden bahsedilmi � tir. Bu ihtiyaçları kar � ılamak için tek bir modelin olamayaca� ı gerçe� inden yola çıkarak, kapsamı daraltılmı � , yani belirli sahalar için özelle� tirilmi � modellerin geli � tirilmesi ön görülmü� tür.
3. Çok dill i bilgi geri-getirim (bir do � al dilde yapılan sorgunun di � er do� al dillerdeki belge uzaylarında da aranması) a� ırlıklı konular arasına girmi � tir. Dilbilimin, bilgi geri-getirim sahasında kullanılabilirl i � ini etkin hale getirecek yeni geri-getirim yöntemlerinin ve sayısal belge temsillerinin (içerik analizi) önemine çok dilli geri-getirim amacını etkin � ekilde gerçekle� tirebilmek adına bir kere daha de� inilmi � tir. (Bugün dünya üzerinde yakla� ık 7000 dil konu� ulmaktadır. Bu dillerden 320 tanesi yaygın dillerdir ve dünya nüfusunun %80’ ini tarafından konu� ulur (Strassel et al, 2003; Oard, 1997)).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
7
4. Internet üzerindeki enformasyonun geri-getirim etkinli � inin arttırılması için, arama stratejilerinin geli � tirilmesine yönelik uzun ve kısa vadeli hedefler ve ihtiyaçlar belirlenmi � tir.
5. Kullanıcı modellerinin geri-getirim yöntem kurgularında a� ırlıklı ö� e olarak ele alınması ve verilen kullanıcı hizmetlerinin daha i � levsel modellerinin olması gereklili � i ortaya konmu� tur. Bu yönde ilerleyecek çalı � maların kısa ve uzun vadeli hedefleri ve ihtiyaçları belirlenmi � tir.
6. Süzme (Filtering), konu tespiti (topic detection) ve sınıflandırma (classification) gibi u� ra� larda mevcut sistemlerin genele uygulanabilirli � inin önünde engel te� kil eden hesaplama karma� ıklıklarını halledebilmek için yeni tekniklerin ve çözümlerin gereklili � i ortaya konmu� tur. Özetleme (Summarization) u� ra� ında geli � me kaydedebilmek için yine dilbilimsel yöntemlerin etkin kullanımını ihtiyacı ortaya konmu � tur. Aynı � ekilde soru-cevaplama (question answering), üstel-arama (MetaSearch), da� ıtık geri-getirim (distributed retrieval), çoklu ortam geri-getirim (multimedia retrieval) ve enformasyon özümseme (information extraction) u� ra� sahalarında da benzer ihtiyaçlara de� inilmi � tir.
7. Önerilen geri-getirim örneklerinin denenmesi için sınanmı � daha büyük belge uzayına, yani külliyatlara/derlemlere ve sorgu kümelerine olan ihtiyaç ortaya konmu� tur. Mevcut olan 1000 kadar sorgu için sınanmı � deneysel derlemlerin yeterli olmadı � ı, sorgu sayısının 100,000 seviyelerine çıkarılması gereklili � i ortaya konmu� tur. � ngilizce dı � ındaki di � er diller için de sınanmı � deneysel belge topluluklarının acil ihtiyacına dikkat çekilmi � tir (Gereksinim olan diller için ve ne tür çözümlerin uygulanabilece� ine dair geni � bilgi için ayrıca Strassel ve arkada� ları (2003) çalı � masına bakınız.).
Bu tezin kapsamı, van Rijsbergen (1979) sınıflandırması içinde
içerik analizi veya James ve arkada� ları (2003) sınıflandırmasında yeni
geri-getirim yöntemleri, yani hesaplamalı dilbilim ile etkile� imin
arttırıldı � ı geri-getirim yöntemlerinin tasarlanması altına girer. � ekil
1.1.’de BGG sahasının (Enformasyon bilimin bir alt u� ra� ı olarak) ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
8
hesaplamalı dilbilim sahasının kar � ılıklı etkile� imi, tez kapsamına giren
u� ra� ları ve ara� tırma hedeflerini netle� tirecek � ekilde, bir çizge halinde
sa� layacak temel konuların ba� lıkları dolgulu kutular ile gösterilmi � tir. � ekilde yer almayan, ancak tez kapsamını tamamlayan yan konular da
bulunmaktadır. Bu konuların ba� lıkları sırasıyla: “Türkçe” (Bölüm 2),
“Kavram olarak Enformasyon ve � leti � im” (Bölüm 3) ve “Enformasyon
Kuramı ve Düzensizlik (Entropy)”dir (Bölüm 4).
Tezin hedefindeki ara� tırma konusu en genel � ekli i le � öyle
tanımlanabilir:
Tanım 1.1: (Tezin ara� tırma konusu) BGG sistemlerinde, yazılı metinler (belgeler) için kullanılan sayısal belge temsil yönteminin (içerik analizi) Türkçe dil-bilimsel özellikler ile ta� ınan enformasyonu içerecek � ekilde, Türkçe metinler için istatistiksel yöntemler yardımıyla geli � tirilmesi.
Tanım 1.1.’de verilen sayısal belge temsilinin geli � tirilmesi için
tezde kullanılacak dilbilimsel özelliklerin ba� lıkları, � ekil 1.1.’den de
takip edilebilece� i gibi sırasıyla � unlardır: Sözcük türleri (isim, fiil
vb.), kelime gurupları (birden fazla kelimeden olu� an anlamsal
1.1.’de bilgi geri-getirim sahası ve hesaplamalı dilbilim sahası iki ayrı
çalı � ma alanı olduklarını niteleyecek � ekilde ayrık sınırlar içine
alınmı � tır. BGG, enformasyon bilim sahasının bir alt u� ra� ı olarak
di � er alt u� ra� larla birlikte gözükmektedir. Hesaplamalı dilbilim
sahasının alt u� ra� ları da, yalın bir metinden anlamın çıkarılması için
kullanılan yöntemlerin dilbilimsel çözümleme seviyelerine göre silsile
� eklinde olan sınıflandırması ile gösterilmi � tir. Dilbilimsel çözümleme
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
9
seviyelerinin tez çalı � mamız içine girenleri “Hedef” etiketi ile
gösterilen ve “kesikli çizgi” ile kesi � enlerdir. BGG sahası ile
hesaplamalı dilbilim sahasının ili � kisi geleneksel sistemler esas
alındı � ında içerik analizi üzerinden olmaktadır. � ekilde geleneksel
sistemlerde içerik analizi için kullanılan mevcut yöntemler koyu bir
çerçeve içine alınmı � tır ( � ekilde “Mevcut” etiketi ile i � aret edilen). �çerik analizinde, bu tez hedefleri do� rultusunda yapılacak katkının
ba� lıklarıysa, “Hedef” etiketi i le i � aret edilen kesikli çerçeve içinde
dolgulu olarak gösterilmi � tir. Ayrıca hedeflere ula� abilmek için tezin
her iki saha içinde kapsamına giren konuların ba� lıkları da, dolgulu
olarak gösterilmi � tir. � ekilde dolgulu olmayan ba� lıklar tez kapsamının
dı � ındadır.
Her ne kadar, hesaplamalı dilbilim içinde a� ırlı � ı olan bir konu
olmasa da, yalın metinleri hesaplama birimlerine (kelimeler, sayılar,
noktalama i � aretleri vb.) ayrılması meselesi, yani simgeleme
(tokenization) de tezin ara� tırma kapsamına dahil edilmi � tir. Ayrıca,
tezin hedefinde Türkçe metinler oldu� u için, herhangi bir “ çok dilli”
belge toplulu� undan Türkçe metinlerin otomatik olarak ayrı� tırılması
da ara� tırma kapsamındadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
10
BilgiGeri-Getirim
BGG Sistemi( Çekirdek Bile �enler )
Enformasyon Bilim
Alt U
�
ra �larAra �tırma Sah.
Hesaplamalı Dilbilim
EnformasyonÖlçütleri
EnformasyonYönetimi
EnformasyonGeri-Getirim
Etkile �imi
Alt U
�
ra �lar
�
çerik Analizi
Sınıflandırma
Simülasyon
Sıkı �tırma
Ba �arı Ölçüm
Göz-Atma Hiz.
Geri-Get. Mod.
�
çerik Anal.
Dosya Yap.
3
5
5
6
87
Dilb
ilimse
l analiz sıralaması
� � � � � � � � � � �
� � � � � � � � � � �
� � � � � � � � � � �
Gövdeleme
Durma Listesi
Simgeleme
E � Anlam
BirlikteGözükme
Biçim
Sözlük
Sözdizim
Anlam
Söylev,Pragmatic
CümleUnsuru
KelimeGurubu
SözcükTürü
HEDEF
Mevcut
�
ekil 1.1: Enformasyon bilim ve hesaplamalı dil-bilim sahalarının etkile �imleri. Dolgulu �ekiller tez kapsamını göstermektedir.
ekillerin sa
üst kö �esinde yıldız içindeki sayılar, konunun tez akı �ında anlatıldı
ı bölüm numarasıdır. Alt u
ra �lar sadece hesaplamalı dil-bilim için, yalın bir metnin analiz sırasını verecek �ekilde betimlenmi �tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
11
Bu tezde, ara� tırma konusu kapsamında yapılan çalı � malar
maddeler halinde � u � ekilde sıralanabilir:
1. Türkçe yazılı metinlerin otomatik tespiti. Herhangi bir çok dill i yazılı belge toplulu� undan, Türkçe belgelerin otomatik olarak tespit edilmesi.
2. Türkçe belgelerin simgele� tirilmesi (tokenization). Yazılı Türkçe belgelerin yalın halinden, hesaplamalı dil-bilim uygulamaları için uygun olan hesaplama birimlerine (kelime, sayı, v.b.), yani hesaplama simgelerine dönü� türülmesi ve cümle sonlarının tespiti.
3. Sözcük-türü enformasyonunun sayısal belge temsili içinde kullanılabilmesi, yazılı belgelerden elde edilen simgelerin, özellikle kelimelerin dil-bilimsel temel türlerinin belirlenmesi ile elde edilen enformasyonun sayısal belge temsilinde içerilmesidir. Tez kapsamında ele alınan dokuz temel sözcük/kelime türü � unlardır: isim (noun), özel isim (proper noun), fiil (verb), sıfat (adjective), zarf/belirteç (adverb), zamir/adıl (pronoun), ba� laç/rabıt (conjunction), soru (Question), edat/ilgeç (preposition). Temel kelime türlerinin yanı sıra simge olarak ele alınan di � er birlikler de
� unlardır: rakamlar, kısaltmalar (abbreviations) ve noktalama i � aretleri (punctuations).
4. Türkçe için Gövdeleme Yöntemi (stemming): Türkçe yazılı metinlerde, aynı anlamı ta� ıyan ancak yazımda dilbilgisi kuralları gere� i çe� itli i � levsel il i � kilerin kurulması için ek alarak farklı
� ekillerde gözlenen kelimelerin, ortak bir biçim, yani � ekil birli � i altında toplanması. Bu � ekilsel birlik, genel olarak dilbilimde kelime gövdesi olarak kabul edilir. Ancak, bilgi geri-getirim uygulamalarında ortak � eklin her zaman anla� ılır bir kelime olması
� artı olmadı � ı da burada belirtilmesi gereken bir durumdur: örne� in n-gramlar cinsinden metinlerin indekslenmesi veya tüm kelimelerin yazılı � ekillerinin ba� tan itibaren belirli sayıda bir harf uzunlu� una kadar alınması ve geri kalan kısmın atılması durumlarında, anlamlı birlikleri söz konusu de� ildir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
12
5. Kelime/Sözcük Türlerinin Tespiti (Part-of-Speech Tagging): Türkçe metinlerde, her kelime için, o kelimenin olası kelime türleri içinden, bir cümlenin söz-dizimsel akı � ı içinde i � levsel görevlerine uygun olanının seçimi. Örne� in, bir ismin bir ba� ka ismi vasıflandırmak için önüne geldi � i durumlarda, isim görevi yerine sıfat görevi gördü� ünün belirlenmesi.
6. Kelime gurubu enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Kelime gurupları, yazılı belgelerde birden fazla kelimeden olu� an ve bütün halinde kar � ılanan bir anlam birli � ini temsil eder. Yazılı Türkçe’de kelime guruplarının çe� itleri oldukça zengindir. Ancak bu tez kapsamında “kelimelerin gurup halinde dil-bilimsel tutarlılık içinde bulunması” enformasyon olarak kabul edilmekte, grubun dil-bilimsel açıdan alt tanımlamaları ayrı � ımına gidilmemektedir.
7. Cümle unsuru enformasyonunun sayısal belge temsili içinde kullanılabilmesi. Türkçe’de cümle unsurları fiil, fail (özne), nesne, yer tamlayıcısı ve zarftır. Fiil ve fail bir cümlenin esas unsurları, nesne, zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Yazılı bir cümlede bu temel unsurlardan ba� ka bir de edatlar bulunabilir.
8. Genel � statistikler: Bu çalı � ma, 5., 6. ve 7. maddelerde öngörülen dilbilgisi enformasyonun kullanımını mümkün hale getirecek alt yapıyı hazırlamaktadır. Genel istatistikler aslen Zipf birinci ve ikinci ilkesinin Mandelbrot yorumları ile birlikte, elimizdeki derlemler üzerinden incelemesini içermektedir. � nceleme iki ana bölümden olu� mu� tur:
8.1. Zipf ve Mandelbrot üzerinden birinci güç kanunun incelenmesi.
8.2. Zipf ikinci kanunu üzerinden, kelime da� arcı � ı incelemeleri ve frekans esasında indeks terim seçimi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
13
9. Deneysel Derlem hazırlama: Türkçe için bilgi geri-getirim ba� arımının ölçümünde kullanılacak, dilbilgisi özellikleri i � aretlenmi � bir derlem bulunmamaktadır. Hesaplamalı dilbilim sahası için Orta Do� u Teknik Üniversitesi (ODTÜ) ve SABANCI üniversitelerinin ortak çalı � ması ile gerçekle� tirilmi � bir derlem, sadece dilbilgisi özellikleri kodlanmı � olarak mevcuttur. Kısaca OSTAD olarak adlandırdı � ımız bu derlemde: kelimelerin biçimbirimsel analizi (morphology), dolayısı ile kelime türleri ve ayrıca cümle unsurları i � aretlenmi � tir. Tez çalı � mamızda kullanılmak üzere, derlem içinde indeks terim olan kelimelerin i � aretlenmesi de, yazar tarafından “elle” yapılmı � tır.
Tezde dilbilimsel özelliklerin sınanması amacı ile iki Türkçe
deneysel derlemden faydalanılmı � tır. Birinci derlem, Bilkent
Üniversitesinde hesaplamalı dil-bilim çalı � malarının “ sonucu” olarak
otomatik � ekilde i � aretlenmi � yakla� ık 850,000 simge-birli � i içerendir
(Hakkani-Tür et. al, 2002). Tez içinde bu derlem BilTD kısa adıyla
geçmektedir (Bilkent Türkçe Derlemi) � kinci derlem ise hesaplamalı
dilbilim ara� tırmalarını desteklemek amacına yönelik ODTÜ ve
Sabancı üniversitelerinin ortak çalı � masıdır (Atalay et al., 2003;
Oflazer et al., 2003). Bu derlem tamamı elle i � aretlenmi � 7262
cümleden olu� maktadır. Tez içinde derlem, OSTAD (ODTÜ Sabacı
Türkçe A � aç Yapılı Derlemi) kısa adıyla geçmektedir. Genel
istatistikler ba� lı � ı altında kullanılan bir üçüncü derlem daha vardır:
ODTÜ derlemi. ODTÜ derlemi yakla� ık 2.5 milyon birlikten
olu� maktadır. Aslen OSTAD, bu derlemden seçilmi � bazı paragraflarla
olu� turulmu� tur. Fakat, ODTÜ derleminde hiçbir dilbilgisi özelli � i
i � aretli de� ildir. Bu yüzden sadece genel istatistiklerin alınması
a� amalarında kullanılabilmektedir.
Bilgi geri-getirim uygulamalarının merkezinde bulunan konu,
sorgu ile belgeler arasında sistemin kurmak zorunda oldu� u alakadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
14
Alaka kavramı ise do� asında öznellik ta� ır (Baeza-Yates and Ribeiro-
Neto, 1999). BGG sistemlerinin ana hedefi kullanıcının, yani ki � ilerin
enformasyon ihtiyaçlarını kar � ılamaktır. Bu yüzden bir ki � inin kendi
ihtiyaçları ile alakalı buldu� u enformasyon, bir ba� ka ki � i için pek o
kadar da alakalı olmayabilir. Dahası, ki � iler sıklıkla verilen bir sorgu ile
geri-getirilen belgelerin alakalı oldukları konusunda anla� mazlık
gösterirler (Hersh et al., 1995). Ki � iler arasındaki anla� mazlı � ın ortaya
çıkması ihtimali, belgeler ile sorgular arasındaki alakanın mutlaklıktan,
bir derece alakalı olu� a do� ru gidi � i yönünde artı � gösterir. Ayrıca,
alaka sadece sorgu ve eldeki belge toplulu� una ba� lı da de� ildir;
alakaya karar veren ki � inin o anki istekleri, yani ihtiyaç ba� lamı ile de
yakından ili � kilidir. Belirtildi � i gibi “BGG sistemlerinin hedefinde
insanların enformasyon ihtiyacını kar � ılamak” oldu� u için, söz konusu
öznellikten kurtulmanın bir yolu da yoktur. Bu yüzden bilgi geri-
getirim sistemlerinin ba� arımlarının ölçülmesi sorunlu bir durum te� kil
eder.
BGG sistemlerinde kullanılan genel ba� arım ölçütleri (Bölüm 8):
Anma (recall) ve duyarlıktır (precision). Anma ve duyarlılık ile ba� arım
ölçümünde iki temel mesele kar � ımıza çıkmaktadır:
1. Ölçütlerin kullanılabilmesi için, derlemdeki her belge ile ba� arım ölçümünde kullanılacak tüm sorgular arasındaki alaka kararının önceden verilmesi gerekir; ancak bu kararı sadece insanlar verebilmektedir.
2. Sorgular ve belgelerin alakalı olu� ları ile ilgili insanlar tarafından verilen kararlar ki � iseldir; dolayısı ile bir BGG sisteminin ba� arım ölçümünün nesnel (objektif) olması için alaka kararını birden fazla ki � inin vermesi gerekir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
15
James ve arkada� ları (2003) tarafından SIGIR kongresinde BGG
sistemlerinin geli � tirilmesi için daha büyük derlemlerin
olu� turulmasının neden mesele olarak gündeme getirildi � i de böylece
netli � e kavu� maktadır. BGG u� ra� ları için derlem hazırlamak, ba� arım
ölçütleri anma ve duyarlılık oldu� u sürece, çok maliyetli ve kalabalık
çalı � ma guruplarının uzun zaman üzerinde u� ra� ması gereken bir konu
olarak kalacaktır. Türkçe için nesnelli � ine güvenilebilecek, eri � imi
serbest, standart olmu� bir BGG sistem ba� arım ölçüm derlemi, ne
yazık ki yoktur! Mesele aslında sadece Türkçe’nin de� ildir, üzerinde az
u� ra� ılmı � di � er diller içinde geçerlidir (Çok çalı � ılmı � � ngilizce ile
orta-Avrupa dillerini çıkardı � ımızda, geriye kalan üzerinde az
çalı � ılmı � yakla� ık 300 dil). Bir bakıma ba� arım ölçütlerinin bu hali ile
kalmasının bir ekonomi yarattı � ı da dikkat çeken bir gerçektir! Fakat
ekonomisi bir yana, BGG sistemlerinin ba� arımlarını daha dü� ük
maliyetlerle ve nesnel olarak ölçmek için bir yol daha vardır, o da
matematiksel/istatistiksel bir ölçüm yöntemi örne� i geli � tirmektir.
Bu tezde ba� arım ölçütü olarak kullanaca� ımız yöntem olan
sınıfına girmektedir ve ne yazık ki tektir (Jin, 2001). Carnegie Mellon
üniversitesinde, dilbilim teknolojileri enstitüsü ve bilgisayar bilimleri
bölümünün ortak çalı � ması ile geli � tirilen bu yöntem, anma ve
duyarlılık ölçütlerinin tüm olumsuz yönlerinden arındırılmı � tır (Bölüm
7.3). Yöntem saklı-anlam-indeksleme (LSI-Latent Semantic Indexing,
Bölüm 5.2) geri-getirim yönteminin esas aldı � ı matematiksel kurguya
göre biçimlendirilmi � tir.
Tezin anlatım akı � ı genel olarak iki parçaya ayrılmı � tır: Parça-1
içinde kuramlar, yöntemler v.b. teze esas olu� turan temel konular yer
almaktadır. Parça-2 içinde ara� tırma konusu kapsamındaki çalı � malar
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
16
ve sonuçları vardır. Okuyucu Parça-1’ i atlayıp, Parça-2’ye geçebilir.
Parça-2’deki ara� tırmaların akı � ı içinde, Parça-1’e yapılan atıf
noktalarından geriye dönerek de Parça-1’den faydalanabilir. Bu durum,
anlatım akı � ını bozmaz. Her iki parçayı olu� turan bölümler ve içerikleri
a� a� ıdaki gibidir:
PARÇA-1 BÖLÜM-2 : Türkçe: Türkçe’nin teze esas olan dilbilgisi
özelliklerinin tanıtımı. BÖLÜM-3 : Enformasyon: BGG sahasında ve
enformasyon bilim altında ele alınan di � er sahalarda, uygulamaların temelini olu � turan enformasyon fikrinin kavram olarak çok yönlü tanımı.
BÖLÜM-4 : Enformasyon Kuramı: Enformasyon fikrinin matematiksel kuramı, enformasyon ileti � im modeli ve ili � kili konular: düzensizlik (entropy), istikrarsızlık (perplexity) v.b. kavramlar.
BÖLÜM-5 : BGG Sistemleri: BGG sahasının detaylı kapsamı ve tanıtımı. BGG sistemlerinin genel kurgusu ve yapı unsurlarının tanıtımı.
BÖLÜM-6 : Geri-getirim Modelleri: BGG sistemlerinde kullanılan geri-getirim modellerinin sınıflandırması ve teze esas te� kil eden geri-getirim yöntemlerinin detaylı tanıtımları. �ndeks terim a� ırlıklandırma yöntemleri.
BGG sistemlerinde kullanılan “çıktı” sıralama yöntemleri.
BÖLÜM-7 : � ndeksleme ve � ndeks terimler: Enformasyonun temsil yolu olarak indeksleme u� ra� ının genel tanıtımı, elle indeks terim seçimi ve BGG sahasında otomatik indeks terim seçimi konuları, kelimelerin kuramsal da� ılımları ile ilgili yakla� ımlar ve ili � kili olarak belge içeri � ini temsilde “önem” belirleme yöntemleri. BGG sistemleri için sayısal belge temsili ve olu � turulmasında kullanılan alt süreçlerin tanıtımı.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
17
BÖLÜM-8 : Ba� arım Ölçütleri: BGG sistemlerinin ba� arım ölçümünde kullanılan anma ve duyarlılık kavramlarının tanıtımı ve bu kavramları esas alan ba� arım ölçütleri. Anma ve duyarlılık kavramını esas almayan ve tezde ba� arım ölçütü olarak kullanılan üstel-puan (Meta-Score) yöntemi.
PARÇA-2 BÖLÜM-9: Geli � tir ilmi � Yöntemler: Tez konusu
kapsamında geli � tirilmi � genel amaçlı yöntemlerin (Türkçe tespiti ve simgeleme) ve hesaplamalı dilbilim yöntemlerinin (gövdeleme ve sözcük türü tespiti) tanıtımı, ba� arım sonuçları.
BÖLÜM-10: Genel � statistikler: Tezin ara� tırma konusu kapsamına giren u� ra� lara esas olu � turacak kavramlarla ilgili tüm istatistikler: Zipf ve Mandelbrot denklemleri ile Türkçe derlemlerin uyum sınamaları; Türkçe derlemlerin kelime da� arcı� ının açık/kapalı olu � una dair kabullenmenin deneysel sınamaları. Sözcük-türü, cümle unsuru ve kelime guruplarının derlem içinde genel da� ılımsal istatistikleri.
BÖLÜM-11: � ndeks Terim Seçimi: Sözcük türü, cümle unsuru ve kelime gurupları ile ta� ınan enformasyonun, indeks terimler üzerindeki olasılık da� ılımları. Dilbilgisi özellikleri ile sa� lanan katkıların a� ırlıklandırma için kullanım yöntemleri.
BÖLÜM-12: Sonuç: Tez konusu kapsamında yapılan ara� tırmaların özet sonuçları.
BÖLÜM-13 Geli � im Noktaları ve Tartı � ma: Tez kapsamında ele alınan konularda, geli � im için açık olan konular ve genel tartı � malar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
18
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
19
2. TÜRKÇE4
Dünya üzerinde konu� ulan dillerin, aynı men� eden gelenleri bir
gurup altında toplanır. Bu guruplama ile diller, birbirleri ile il i � kili ve
yakın olanları bir aile kabul edilerek, bir dil aileleri sınıflandırması
te� kil ederler. Dünya üzerinde konu� ulan dillerin aileleri � unlardır:
1. Hint – Avrupa dilleri ailesi: Bu dil ailesinin içine Macarca, Fince ve di � er bazı küçük ülkelerin dilleri dı � ında kalan bütün Avrupa dilleri ile Asya dillerinden Farsça ve Hindistan’da mevcut bir çok dil girer. Adından da anla� ılaca� ı gibi Hint – Avrupa dilleri ailesi biri Avrupa’da, di � eri Asya’da olmak üzere iki büyük kola ayrılır.
1.1. Avrupa kolu: Germen dilleri, Roman dilleri ve � slav dilleri olmak üzere üç büyük kol vardır.
1.2. Germen dilleri kolu: Almanca, Felemenkçe, � ngilizce ve � skandinav dilleri girer.
1.3. Roman dilleri kolu: Ana dil Latince’dir. Bugün ya� ayan ba� lıca diller ise Fransızca, � spanyolca, Portekizce, � talyanca ve Rumence’dir.
1.4. � slav dilleri kolu: Rusça, Bulgarca, Sırpça, Lehçe gibi diller.
1.5. Yunanca, Arnavutça, Keltçe, Litvanca ve Hititçe de Avrupa koluna ait dillerdir.
1.6. Asya kolu: Hint dilleri, Sanskritçe, Farsça ve Ermenice bu kola giren dillerdendir.
2. Sami dilleri ailesi: Akadca, � branice, Arapça gibi diller bu aile içine girer.
4 Bu bölümde yer alan tüm konular ve içerikleri, Muharrem Ergin (1999) tarafından yazılmı � olan “Türk Dil Bilgisi” kitabından alıntıdır. Alıntılarda, içerik tez kapsamına uygun � ekilde özetlenerek yazılmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
20
3. Bantu dilleri ailesi:Afrika’daki en büyük dil ailesidir ve orta ve güney Afrika’da konu� ulan Bantu dilleri bu aileyi te� kil eder.
4. Çin – Tibet dilleri ailesi: Çin ve Tibet dilleri.
Diller yapı bakımından da guruplara ayrılmaktadır. Dünya
üzerindeki diller yapı bakımından da üçe ayrılırlar:
1. Tek heceli diller : Bu guruptaki dillerde, her kelime tek heceden olu� ur. Kelimelerin çekimli halleri yoktur. Cümle bir çekimsiz ve tek heceli kelimeler silsilesinden ibarettir. Cümlenin ifade etti � i mana genelde kelime sırasından anla� ılır. Kelimelerin di � er dillerde çekimli halleri ile ifade edilen halleri ya hiç ifade edilmez veya ayrı bir kelime ile ifade edilir. Çin – Tibet dilleri bu guruba girer.
2. Eklemeli diller : Eklemeli dillerde tek veya çok heceli kelime kökleri ile ekler vardır. Kelimelerden yeni kelimeler veya kelimelerin geçici halleri yapılırken köklere ekler getiril ir. Bu ekleme sırasında kökler de� i � mez, köklerle ekler açık � ekilde belirlenebilir. Bu diller ön-ekli veya son-ekli olabilir. Türkçe, Macarca gibi diller eklemeli dillerdendir. Türkçe son ekli, eklemeli bir dildir.
3. Çekimli diller : Çekimli dillerde de tek veya çok heceli kökler ve bir takım ekler vardır. Yeni kelimeler yaparken ve çekim sırasında genellikle köklerde bir de� i � iklik olur. Hint – Avrupa dilleri böyle dillerdir. Sami dilleri, örne� in Arapça da bu guruba girmektedir.
Dünya dilleri arasında Türkçe’nin içine girdi � i gurup Ural-Altay
dilleri gurubudur. Ural – Altay dilleri yukarıda bahsedilen dil aileleri
gibi sa� lam bir aile özelli � i göstermezler. Mesela Hint – Avrupa dilleri
arasındaki yakınlık bu dillerde yoktur. Ural – Altay dilleri arasındaki
yakınlık bir men� e birli � inden daha çok bir yapı birli � idir. Onun için bu
diller bir dil ailesi olarak de� il, bir dil gurubu olarak ele alınmaktadır.
Ural – Altay dilleri için bir aile olmak için gerekli olan men� e birli � i
kuvvetli bir ihtimal olmakla beraber, henüz kesinle� mi � de� ildir. Ural –
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
21
Altay dilleri eklemeli dillerdir. Ayrıca, hepsinde aynı derece de olmasa
da, bir sesli uyumu vardır ve Hint – Avrupa dilleri etkisinde kalmamı � olanlar dı � ındakilerde, kelime sırası genel olarak aynıdır. Ural – Altay
dilleri, Ural ve Altay olmak üzere iki kola ayrılır.
1. Ural kolu: Fin – Ugur ve Samoyed olmak üzere ikiye ayrılır.
1.1. Fin – Ugur kolunda: Fince, Macarca, Ugurca ve Permce vardır.
1.2. Samoyed kolunda ise çe� itli kolları ile Samoyedce vardır.
dostluk, içinden pazarlıklı, kendisinden çok emin, bunlardan biri,
e� lencesine dü� kün olanlardan hiç biri, içlerinden ço� u, gençlerden
üçü gibi. Bu son örneklerde ikinci unsurun iyelikli olması dolayısı ile
iyelik gurubu i � levinde bir gurupla kar � ıla� ıldı � ı görülmektedir.
Birbirine çok benzeyen, i � levleri bir gibi olan (bunların biri, bunlardan
biri) bu iki gurubun birbirine karı � tırılmaması gerekir.
2.5.17. Kısaltma Gurupları
Bunlar kelime gurupları ve cümlelerin kısalması, yıpranması
neticesinde ortaya çıkan kelime guruplarıdır. Her hangi bir kuralları
yoktur. Daha geni � bir guruptan kısalmı � ve kli � ele� mi � guruplardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
37
Sayıları pek fazla de� i ldir: gün aydın, güle güle, günden güne,
ba� tanba� a, o gün bugün, yan yana, sırt sırta, omuz omuza, ba� ba� a,
el ele, ha� a huzur, git gide, ba� a� a� ı, eller yukarı, ileri mar � , sola
çark, ba� üstüne gibi.
2.5.18. Akuzatif Gurubu
Akuzatif gurubu akuzatif halindeki bir isim ile onun arkasından
gelen bir isim unsurundan meydana gelir. � kinci unsur isimle yapılan
bir birle� ik fiilin isim kısmı olur ve dolayısı ile geçi � li fiil ifadesi ta� ır: her � eyi borçlu, seni istikbal, yapılanı tenkit, kitabı birine ithaf gibi.
Görülüyor ki akuzatif gurubu partisip gurubu veya fiil gurubunun
kısalmı � , yardımcı fiili dü� mü� � eklidir. Onun için akuzatif gurubu da
bir kısaltma gurubu sayılabilir. Bu yüzden birinci unsurdan sonra araya
yer tamlayıcısı ve zarf unsurları da gelebilir: seni istasyonda istikbal,
kitabı her gün orada birine hediye, her � eyi olur olmaz tenkit gibi.
2.6. Cümle ve Cümle Unsur lar ı
Cümle bir fikri, bir dü� ünceyi, bir hareketi, bir duyguyu, bir
hadiseyi tam olarak bir hüküm halinde ifade eden kelime gurubudur.
Yukarıda bahsedilen kelime gurupları belirtme gurupları idi. Cümle ise
hüküm gurubu’dur. Cümlenin temel fonksiyonu “hüküm” ifade
etmektir. Onun için cümle en tam, en geni � kelime gurubudur.
Cümlenin varlı � ı için asgari � art bir çekimli fiilin varlı � ıdır.
Çekimli fiil cümlenin varlı � ı için gerekli ve yeterdir. Demek ki, çekimli
fii l olmak � artı ile tek kelime de cümle olmaktadır: Geliyorum.;
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
38
Güzeldir. gibi. Çekimli fiilde, eklerin � ahıs da ifade etmesi dolayısı ile
fii lden ba� ka fail ifadesi de vardır. Onun için çekimli fiilden ibaret tek
kelimelik bir cümlede de, biri kapalı olmak üzere, fiil ve fail olarak iki
unsur var demektir. Bu iki unsur zaten cümlenin temel unsurlarıdır.
Varlıkları tam bir cümlenin varlı � ı için yeterlidir.
Hükmü daha geni � , daha etraflı, çe� itli � artları ile daha belirli
olarak ifade etmek için, cümle birden fazla cümle unsurundan meydana
getirilir. Cümle unsurları fi il, fail, nesne, yer tamlayıcısı ve zarf’ tır.
Yani cümlede fiil ile onun gerektirdi � i unsurlar bulunur. Hükmün
geni � li � ine göre cümlede, cümle unsurlarından biri, bir kaçı veya hepsi
bulunur. Fiil ve fail cümlenin esas unsurları, nesne, zarf ve yer
tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede ancak bir
fii l unsuru bulunur. Di � er unsurların ise cümlede aynı cinsten bir veya
birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç nesne,
birkaç yer tamlayıcısı ve birkaç zarf bulunabilir.
2.6.1. Fiil Unsuru
Cümlenin ana unsurudur. Cümlenin bütün yapısı onun üzerine
kurulur. Di � er unsurların tamamı fiilin etrafında toplanan, onu
destekleyen, onu tamamlayan unsurlardır. Türkçe’de asıl unsurun,
yardımcı unsurdan sonra gelmesi ilkesi gere� ince, esas unsur olan fii l
daima sonda bulunur. Kendisinden önce gelen unsurların kesin bir
sırası yoktur. Belirtilmek istenme derecelerine uygun olarak fiile
yakla� tırılarak kullanılırlar. Genellikle fiile en yakın unsur, yani fii lden
önceki unsur en üzerinde durulan unsurdur. Cümlenin normal vurgusu
da fii lin önünde, bu unsur üzerinde bulunur. Fiil cümlede hareketi,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
39
olu� u, yapı � ı, olayı, hükmü kar � ılayan unsurdur. Daima çekimli fi il
halinde bulunur.
2.6.2. Fail Unsuru
Cümlenin fiilden ba� ka iki ana unsurundan biridir. Fail, fii li
yapan veya olan unsurdur. Fiile en yakın, fiilden ayrılmaz bir cümle
unsurudur. Ayrıca söylenmese bile fiilin içinde genel olarak � ahıs
halinde ifade edilmek suretiyle, varlı � ı cümlede daima hissedilir. Fail,
isim cinsinden bir kelime veya kelime gurubu olur. Daima yalın halde
bulunur. Cümlenin çekimsiz bir unsurudur. Fiile yalın halde, eksiz
ba� lanır. Fail, yalnız meçhul fii lli cümlelerde bulunmaz. Yalnız teklik
üçüncü � ahısları kullanılan meçhul fiiller fail istemezler. Gereklilik
kipinin teklik üçüncü � ahısının � ahıssız, genel kullanı � ında da fail
bulunmaz: “Gitmeli.” ; “Yazmalı.” örneklerinde oldu� u gibi.
2.6.3. Nesne
Fiilin etki etti � i nesneyi, � ahsı kar � ılayan cümle unsurudur.
Fiillerin bir kısmı geçi � li, bir kısmı geçi � sizdir. Yani bir kısmı yapma,
bir kısmı olma ifade eder. Yapma ifade edenlerin hareketi fiilden ba� ka
bir nesneye yönelir, ona etki eder. Olma ifade edenlerin hareketi ise
faile yönelir, onun üzerinde kalır. Dolayısı ile, geçi � li fi iller etki edecek
bir nesne isterler. Bu durumu kar � ılayan cümle unsuru nesnedir. O
halde nesne, yalnız fiili geçi � li cümlelerde bulunur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
40
2.6.4. Yer Tamlayıcısı
Fiilin mekanını ve yönünü gösteren cümle unsurudur. Her
hareketin zaman ve mekan içinde bir yeri ve bir yönü vardır. Yer
tamlayıcısı hareketin meydana geldi � i bu yeri ve yönü ifade eder. Bu
unsur da, isim cinsinden bir kelime veya kelime gurubu olur.
2.6.5. Zar f
Fiilin çe� itli � artlarını ve zamanını gösteren cümle unsurudur.
Hareketin nasıl, niçin, ne � ekilde, hangi vasıtalarla, hangi sebeple, yani
özetle hangi � artlarla yapıldı � ını veya oldu� unu ve hangi zamanda
cereyan etti � ini göstermek için zarf unsuru kullanılır. Bu unsur zarf
olarak kullanılan isim cinsinden bir kelime veya kelime gurubu olur.
Zarf da çekimsiz bir cümle unsurudur, fiile oldu� u gibi, do� rudan
do� ruya ba� lanır.
2.6.6. Cümle Dı � ı Unsur lar
Cümlede bu unsurlardan ba� ka bir de ba� lama ve ünlem edatları
veya ünlem gurupları bulunabilir. Fakat bunlar esas hareketle, fiille
ilgili olmayan ve cümleye sadece ilave edilmi � durumda bulunan
unsurlardır. Genellikle cümlelerin ba� larında, sonlarında ve cümleler
arasında bulunurlar. Parantez � eklinde cümle içine girdikleri de görülür.
Bunlara cümle dı � ı unsurlar denir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
41
3. ENFORMASYON
3.1. Enformasyon Bilim ve Bilgi Geri-Getirim
Enformasyon bilim en genel anlamda, u� ra� ı alanı enformasyon
olan bir bilim dalı olarak tanımlanabilir. Enformasyon bilim aslen, çok
disiplinli bir u� ra� sahasıdır ve bir çok farklı bilim dalının katkı
sa� ladı � ı do � al meseleleri incelemektedir. Enformasyon bilime katkı
sa� layan di � er bilim dalları � ekil 3.1.1.’de çizge halinde gösterilmi � tir.
BilgisayarBilimleri
EnformasyonBilimleri
EnformasyonTeorisi
Yöntem-bilim(Epistemology)
Bili � sel Bilimler(Cognitive Sciences)
�leti � im
(Communication)
Matematik( � statistik)
Sosyo-Dilbilim
Sosyoloji
Dilbilim
Psiko-DilbilimPsikoloji
YapayZeka
�ekil 3.1.1: Enformasyon bilimine katkıda bulunan di� er bilimler (Ingwersen, 1992).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
42
Ingwersen (1992) tarafından, enformasyon bilim içindeki u� ra� lar
2. Enformasyon Yönetimi (Information Management): Metin ve di � er medya içerikli Bilgi geri-getirim dizgelerinin de� erlendirilmesini ve kalite kriterlerini belirlemeyi de kapsayacak � ekilde enformasyon yönetimi.
3. Enformasyon (geri-getirim) sistemleri kurgusu (Information (Retrieval) Systems Design). Bir Bilgi geri-getirim sistemi veya sadece Bilgi sistemi tasarlama, altyapısını kurgulama çalı � maları.
4. Enformasyon geri-getirim etkile� imi (Information Retrieval Interaction): Bilgi geri-getirim dizgeleri ile kullanıcı (esas ki � iler, vekil yazılımlar veya di � er Enformasyon geri-getirim dizgeleri) arasında gerçekle� en etkile� imi yönetme ve faydalanma çalı � maları. Örnek olarak Bilgi geri-getirim dizgelerinin uygulamada kullanacakları ara-yüz tasarımları, kullanıcıların yaptıkları sorguların kayıtlarının tutulup tarihsel olarak kullanıcı profillerini çıkartmak ve geri-getirim ba� arımlarını kullanıcı esasına dayalı olarak iyile� tirmek gibi u� ra� lar.
Tez çalı � mamız Ingwersen’ in yaptı � ı enformasyon bilim u� ra� sahaları sınıflandırması içinde Enformasyon (geri-getirim) sistemleri
kurgusu ba� lı � ı altına girmektedir.
3.2. Enformasyon Tanımı ve Farklı Yakla � ımlar
Enformasyon kavram olarak en geni � anlamda, insanlar
arasındaki ileti � imin her hacminde (asgaride iki insan genelde ikiden
fazla ki � i arasında) ve her � eklinde (yazılı, sesli, görüntülü, e� zamanlı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
43
veya farklı zamanlı) taraflar arasında nakledildi � i dü� ünülen olguyu
kar � ılar. Thagard (1990) enformasyon kavramının tanımına yönelik
matematik, bili � sel psikoloji ve felsefe bilimleri kökenli 3 farklı
Soergel’ in anlamsal-enformasyon tasviri bili � sel psikoloji bakı �
açısını tam olarak yansıtmaktadır. Bu genel enformasyon betimlemesi,
özelde disiplinler arasında küçük farklar olmasına ra� men insanın
bilme eylemi ile u� ra� an tüm bilim dallarında da geçerlidir. Ancak
enformasyon her ne kadar ki � inin bilgi edinme süreci içinde var
olabilen bir olgu olsa da; bilgi ile enformasyon arasındaki farkı
uygulamalı sahalarda belirleme ihtiyacı vardır. Böyle belirleyici bir
anlamsal-enformasyon tanımı da ancak enformasyon, bilgi ve veri
kavramları üzerinden “ i � levsel tanımlar ve ili � kiler” kapsamında ortaya
konabilir.
Bili � sel psikoloji bakı � açısından veri, bilgi ve enformasyon
kavramlarının tanımları Fosket (1996) tarafından � u � ekilde verilmi � tir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
45
“ Veri (Data) do� rudan, hiçbir aracı olmaksızın gözlemlenen her türlü gerçek veya gerçekler; Bilgi (Knowledge) benim bildi � im � ey, yani ki � i olarak bildi � imiz � ey veya � eyler; Enformasyon (Information) ise bizim bildi � imiz � eyler, yani payla� ılmı � bilgidir.”
(Fosket, 1996)
Fosket’ in tanımlarında belirleyicilik adına altı çizilmesi gereken
husus: sadece enformasyonun insanlar arasında nakledilebildi � i ve
bilginin insana has oldu� udur. Bilgisayar bilimleri için daha belirleyici
ve i � levsel veri, bilgi ve enformasyon kavramları, bili � sel psikoloj i
bakı � açısından sapmadan Creaven (2002) tarafından � u � ekilde
uyarlanmı � tır:
“ Veri (Data), insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i � lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri � eyler; Bilgi (Knowledge) ise algı, ö� renme ve usa vurmanın psikolojik sonucudur. …; Enformasyon (Information) ise alan ki � inin belirsizli � ini azaltan, alınabilen ve anlanabilen bir mesajdır.”
(Creaven, 2002)
Creaven’ ın tanımlarında da, Fosket’ inkinde oldu� u gibi bilgi
insana ait bir olgu olarak tanımlanmı � ; ancak enformasyonun payla� ım
özelli � i farklı olarak soyut bırakılmamı � , alınabilen ve anlanabilen bir
mesaj olarak nesnele� tirilmi � tir. Mesaj veya ileti ise, sözle veya yazılı
olarak insanlar arasında gönderilen haber olarak tanımlanır.
Enformasyon fikrinin bu tanımı, aslen bili � sel psikoloji bakı � açısından
enformasyonun var olu� noktasını de� i � tirmez, yine insanın bilme
eyleminin soyut bir parçasıdır. Ancak, enformasyon olgusunun
tasvirini, bilmeye kaynak te� kil eden somut, yani nesnel olgulardan
ba� langıçla, insana do � ru, yani bili � eyleminin gerçekle� mesine do� ru
yapar. Bir ba� ka söyleyi � le, öncelikle somut bir nesne ile, daha do� rusu
veri ile temsil edilmi � bir mesaj vardır (ki bu mesajın da kayna� ı aslen
yine bir ba� ka insandır!). E� er bu mesaj bir ki � i tarafından alınabiliyor,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
46
anla� ılıyor ve o ki � inin belirsizli � ini gideriyor, yani bir durum hakkında
o ki � inin kararsızlı � ını ortadan kaldıran bir bilgiyi olu� turuyorsa
enformasyondur. Ki � iler arası mesaj iletimini olu� turan alt süreçler �ekil 3.2.1.2.’de resmedilmi � tir.
A Ki � isi
Bilgi � � leme ve Yorumlama
Mesaj Olu � turma
�leti � im Ortamı
B Ki � isi Bilgi leme ve Yorumlama
Veri
Algıma
Veri,enformasyon’a
EnformasyonVeri’ye
Mesaj ≅Enformasyon
�ekil 3.2.1.2 : � nsanlar arasında Mesaj/Haber � letimi. Soergel’ den (1985)
uyarlanmı tır. Enformasyonun veriye ve verinin tekrar enformasyona dönü üm evrelerini betimler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
47
3.2.2. Çevre-bilimsel Yakla� ım
Çevrebilimsel yakla� ım enformasyonun dünyada hazır bulunu� u,
daha do� rusu varlık fikrine dayanır. Çevrebilimsel yakla� ım içinde
enformasyon gerçek olguların veya mahallerin özellikleridir.
3.2.3. Matematiksel Yakla� ım
Matematiksel yakla� ım, enformasyon fikrinin tanımına yönelik
olarak Thagard’ ın verdi � i son yakla� ımdır. � lk defa Shannon6 (1949)
tarafından ortaya konmu� tur. Aynı yakla� ım literatürde ileti � im-teorik
ve enformasyon-teorik olarak da anılır. Bu yakla� ım açısından
enformasyon bir kaynak ve hedef arasında kurulmu� herhangi bir
ileti � im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,
yani sinyal-enformasyon’ dur (veya öz-enformasyon). Sinyal ile
enformasyon arasındaki ili � ki istatistik esaslıdır, daha do� rusu ileti � im
� ekli içinde söz konusu sinyalin gözlenme olasılı � ına dayanır. En çok
enformasyon içeren sinyal en az olasılı � a sahip olandır ve aralarında
Denklem 3.2.3.1.’de verildi � i gibi ters orantı vardır.
)(log veya)(
1log)( 22 sPI(s)
sPsI −== (3.2.3.1)
Denklem 3.2.3.1.’de; bir sinyal üzerinden ta� ınan sinyal-
enformasyon miktarı I(s), söz konusu sinyalin s, gözlenme olasılı � ının
P(s), -1. dereceden kuvvetinin 2 tabanına göre logaritması alınarak elde 6 Claude Elwood Shannon, 1916-2001 yılları arasında ya� amı � Amerikalı bir bil im adamıdır. 1940 yıl ında MIT’ den matematik dalında doktorasını almı � ve 1941 yıl ında AT&T adına çalı � maya ba� lamı � tır. 1948 yılında enformasyonun nicel olarak nasıl ölçülebilece� ine dair kuramını yayınlamı � tır. Enformasyon teorisi , sayısal mantık ve matematiksel ileti � im modeli için kuramsal alt yapıyı olu� turan ki � idir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
48
edilen sayısal de� erdir. Denklem’den elde edilen sayısal de� er sinyal-
enformasyon miktarını nicel � ekilde “ ikili sayıları” (binary digits)
cinsinden ifade eder, daha do� rusu ikilleri (bits) birim alarak
ölçeklendirmektedir.
Bili � sel psikoloji bakı � açısına dayalı anlamsal-enformasyon
fikrinin bir özelli � i olan anlam, yani idrak edebilen bir zihin tarafından
anla� ılma özelli � i sinyal-enformasyon fikrinde yoktur (Weaver, 1949).
Sinyal-enformasyonun nicel olarak ölçülebilmesinin kökeninde, Türkçe
kar � ılı � ı düzensizlik olan, � ngilizce entropy kavramı vardır. Düzensizlik
kavramı fikir olarak termodinamikten gelmektedir ve tanımı � öyledir:
“ E� er verilen bir durum son derecede organize bir haldeyse, yüksek dereceli rasgele olu� larla veya seçeneklerle nitelenemez, yani söz konusu durumda enformasyon az miktarda bulunmaktadır.”
(Weaver, 1949)
Aslen, Denklem 3.2.3.1.’den belirli bir sinyal için elde edilen
sayısal ifade, hem sistem içinde gözlemlenebilecek farklı durumlar
nispetinde olu� an toplam düzensizli � in bu sinyale ait kısmını, hem de
sinyalin söz konusu sistemdeki sinyal-enformasyon de� erini ikil adedi
cinsinden nicel olarak temsil eder. Örne� in, belirli bir sinyalin
gözlenme olasılı � ı “1” ise bu sinyalin hem sinyal-enformasyon de� eri
hem de sistemde yarattı � ı düzensizlik miktarı ikil adedi cinsinden 0
(sıfır) olur. Bir ba� ka söyleyi � le, e� er kayna� ın hedefe iletebilece� i tüm
mesajların farklı olanlarının her birini temsil için tek bir sinyale ihtiyaç
oldu� u kabul edilirse: Gönderilecek tek bir mesaj oldu� u durumda,
zamanın herhangi bir kesitinde iletim hattı üzerinde gözlemlenecek
sinyal hep aynı kalacak, yani tam bir düzen olacaktır. Dolayısı ile hat
üstünde gözlemlenebilecek farklı durumları kodlamak için gerekecek
asgari ikil sayısı ve söz konusu sinyalin sinyal-enformasyon de� eri 0
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
49
olacaktır; Ancak nakledilmek istenen mesaj sayısı 2 olursa, zamanın
herhangi bir kesitinde sistem içinde farklı iki sinyalden herhangi birisi
gözlemlenebilir. Dolayısı ile hat üstünde gözlemlenebilecek farklı
durumları kodlamak için gerekecek asgari ikil sayısı ve söz konusu
sinyallerden her birinin sinyal-enformasyon de� eri 1 olacaktır; Aynı � ekilde 3 mesaj için, 3 farklı durumu kodlamak gerekecek dolayısı ile
gözlemlenebilecek farklı durumları kodlamak için gerekecek asgari ikil
sayısı ve sinyal-enformasyon de� eri 2 olacaktır. Genellersek, n farklı
durum için log2(n) ikil gerekecektir.
3.2.4. Enformasyon Yakla � ımlarının Kar � ıla � tırması
Lyons (1977) terminoloji açısından sinyal-enformasyon ile
anlamsal-enformasyon arasında karma� ık bir ili � ki oldu� una da dikkat
çekmi � tir. Lyons bu iki farklı enformasyon kavramı arasında, duyusal
olarak beklenmedik olma, yani � a� kınlık yaratma ölçüsünde bir
ba� lantı oldu� undan bahseder. Bu ba� lantı, bir sinyalin gözlenme
Bilgi-olarak-Enformasyon: Ki � isel, bireysel bilgi
Nesne-olarak-Enformasyon: Kayıtlı her türlü veri: belge vb.
Süreç (Process)
Süreç-olarak-Enformasyon: Edinilmi � enformasyon.
� � lem içindeki enformasyon: Veri i � leme, belge i � leme v.b.
Buckland (1991) enformasyonun söz konusu hallerini kavramsal
(soyut veya somut) ve nesnel (varlık veya süreç) olmak üzere iki boyut
üzerinden 4 gruba ayırır ve söz konusu sınıflandırma Buckland Matrisi
olarak anılır:
1. Bilgi olarak enformasyon: “Soyut varlık” olarak enformasyon sadece insanda bulunur ve ki � isel, daha do� rusu bireye ait bilgidir.
2. Bir � ey olarak enformasyon: “Somut varlık” olarak enformasyon gündelik hayatta kar � ıla� ılan ve nesnel olan her türlü veridir: belge, ses, görüntü v.b. � eyler.
3. Süreç olarak enformasyon: “Soyut süreç” olarak enformasyon bili � sel olarak verinin dü� ünen bir zihinde enformasyona dönü� mü� hali, yani edinilmi � enformasyondur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
51
4. Enformasyonu i � leme: “Somut süreç” olarak enformasyon, yani i � lemin hedefinde bulunan nesnel enformasyon; mekanik olarak semboller (yazılı belgelerdeki alfabe, sayılar vb. ) veya ba� ka
� eklindeki gösterimler üzerinde i � lem yapmak, örnek olarak veri i � leme (data processing), belge i � leme (document processing) ve bilgi mühendisli � i (Knowledge engineering).
Tez kapsamında yaptı � ımız çalı � malar anlamsal enformasyonun
somut hallerini esas almaktadır.
3.3. Enformasyonun � letimi – � leti � im
Enformasyon fikrine Thagard (1990) tarafından verilen
yakla� ımların içinde anılan önemli bir di � er husus da, enformasyonun
nakledilmesi, daha do� rusu genel adı ile ileti � im, haberle� medir. Aslen
Shannon (1949) tarafından sinyal-enformasyon fikrinin ortaya atıldı � ı
çalı � mada, sadece sinyal-enformasyon iletimi için tasarlanmı � olan �ekil 3.3.1.’deki ileti � im modeli, insanlar arasındaki anlamsal-
enformasyon nakli içinde kullanılabildi � inden, literatürde ileti � imin
klasik modeli olarak anılır ve her iki enformasyon fikri kapsamındaki
uygulamalarda genel-geçer model kabul edilir.
�ekil’de, kaynak, daha do� rusu enformasyonun kayna� ı telefonda
konu� mayı yapan ki � idir. Verici sesi elektrik sinyaline çeviren birimdir. �ekilde etiketsiz olarak bulunan kutu ise sinyal gönderip alınabilen
herhangi bir iletim ortamıdır (örne� in telefon hattı). Alıcı, iletim
ortamından aldı � ı sinyali tekrar sese çeviren birimdir. Hedef ise
telefonun kar � ı tarafında konu� mayı dinleyen ki � idir. Gürültü kayna� ı
bu ileti � imi bozacak her türlü ek uyarımdır (örne� in telefon hatlarında
yo � unluk).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
52
Kaynak Verici Alıcı Hedef
GürültüKayna � ı
Mesaj MesajSinyalAlınanSinyal
Anlamsal-enformasyon
Sinyal-enformasyon
�
ekil 3.3.1: � leti � imin klasik modeli. (Shannon, 1949, uyarlama)
Shannon’un, enformasyonun iletimi için verdi � i modelle ilgili altı
çizilmesi gereken en önemli husus: kaynak ile hedef arasında anlamsal-
enformasyon naklinin; alıcı ve verici arasında sinyal-enformasyon
gönderiminin söz konusu olmasıdır. Çünkü, ileti � im fikri, daha do� rusu
anlamsal-enformasyonun nakli sadece iki insan arasında var
olmaktadır. � leti � imin klasik modelinde, genel olarak anlamsal-
enformasyon naklinin her � ekli için bir betimleme verilmi � tir, özelde
tez kapsamı içinde ele aldı � ımız yazılı metinlere uyarlanmı � ileti � im
modeli de � ekil 3.3.2.’deki gibidir.
Anlamsal-enformasyonun genelde her � eklinde, özelde de yazı ile
naklinde enformasyonun muhtemelli � i (potansiyel) söz konusudur.
Yazı ile ileti � imde, anlamsal-enformasyon simgesel göstergeler ile
temsil edilen anlamlar silsilesi halinde metne dönü� türülür. Söz konusu
iletilmek istenen anlamsal-enformasyonun tekrar elde edilebilir olması
adına kullanılan simgesel göstergelerin “ dü� ünen bir zihin tarafından
idrak edilebilme, yani anla� ılabilir” olma özelli � ini ta� ıması gerekir.
Temsil edilen anlamlar, bütün halde kaynak ile hedef arasında
nakledilmek istenen mesaj içeri � ini, yani muhtemel enformasyonu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
53
olu� turur. Muhtemellik ise ileti � imin hacim özelli � i ile izah edilir, yani
hedef durumunda mesajı okuyan herhangi bir ki � i, enformasyonu
edinebilirken, herhangi bir ba� ka ki � i edinemeyebilir, yani
muhtemelli � i ba� lamında, � ifrelenmi � metinlerin herkes için; hedef
ki � inin bilmedi � i bir do � al dilde yazılmı � metinlerin sadece söz konusu
ki � i için, “ enformasyon” olu� turmayaca� ı örnek olarak verilebilir.
Anlamsal-enformasyonun muhtemellik özelli � ini, yazılı metinler için
genellersek, tanım � öyle olur: Yazılı bir metinde, anlamlar bütünü ile
temsil edilen muhtemel bir enformasyon vardır; bir ki � i söz konusu
metni okur ve idrak ederse, bu muhtemel enformasyon sadece o ki � i için anlamsal-enformasyona dönü� ür.
�leti � im = anlamsal enformasyonun nakli
Kaynak
yazarken
metin
okurken
Okuyan
Anlamlar ile ifade
eder
Anlamları algılar
Enformasyonu
edinir
Mesaj içeri � i (anlamlar bütünü)
Muhtemel Enformasyon
Hedef
Bilgi Olu� ur
Anlamlar silsilesi
Enformasyonu NaklederYazan
Enformasyon Kayna� ı
�ekil 3.3.2: Anlamsal-enformasyonun yazı ile iletim modeli.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
54
3.4. Veri, Enformasyon ve Bilgi Tanımları
Tez kapsamında geçerli veri, enformasyon ve bilgi tanımları
anlamsal-enformasyon yakla� ımı esasına göre � öyledir:
Tanım 4.4.1: Veri, insanlar veya bilgisayarlar tarafından alınabilen, depolanabilen, i � lenebilen ve iletilebilen her türlü sayı, harf ve harf dizileri, resimler ve benzeri olgulardır;
Tanım 4.4.2: Enformasyon, alınabilecek ve anla� ılabilecek bir mesajın içeri � ini te� kil eden verilerin temsil edebilece� i her muhtemel anlam ile olu� turulabilecek “anlam bütünleri” toplulu� undan, dü� ünen bir zihin tarafından idrak edilebilir özellikteki her “anlam bütünü” ;
Tanım 4.4.3: Bilgi genel anlamda algı, ö � renme ve usa vurmanın psikolojik sonucunda (her tür edinilmi � enformasyon yorumlanarak), özelde ise deneyim, ya� anmı � lık, tecrübe etme (ki � inin a� ina oldu� u, malum olmu�
� eylere ait bilgi) veya tanımlama, tasvir, betimleme (ki � inin okuyarak veya olgular üzerinden edindi � i bilgi) sonucunda olu� ur ve sadece ki � inin zihninde soyut olarak var olur.
Tanımlanan veri, enformasyon ve bilgi arasındaki ili � kiler de �ekil 3.4.1.’de özetlenmi � tir.
Enformasyon = Veri + Anlam
Bilgi = Enformasyon + � � lem
�ekil 3.4.1: Veri, enformasyon ve bilgi arasındaki ili � kilerin denklemleri.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
55
3.5. Enformasyon ve Haber
Bu bölümde, � ngilizce information terimi için Türkçe kar � ılık
olarak haber kelimesinin kullanılması ve bilgi kelimesinin sadece
� ngilizce knowledge terimi ile kar � ılanan anlamı içerecek � ekilde
daraltılması hususu tartı � ılmaktadır. Türkçe kaynaklarda (TBD 2004;
TDK 2004a) hem knowledge hem de information terimi için bilgi
kar � ılı � ı verilmektedir. Tartı � malı ve mesele olan konu � udur: Türkçe
bilgi kelimesi ile, kökeninde kavramsal tanımları farklı olan iki
olgunun birden, yani � ngilizce information ve knowledge kavramlarının
kar � ılanmaya çalı � ılması, dolayısı ile enformasyon bilim adına: bir,
“Türkçe” için yapılacak çalı � malarda hedeflerin belirlenmesi; iki,
ara� tırmalardan elde edilen sonuç ve ürünlerin yerinde kullanılması; ve
son olarak geni � kitlelere özü bozulmadan aktarılması gibi esasa dayalı
üç hususta disiplinler arası birikimsel katkıyı kısmen engellemektedir.
Bu sebeple, Türkçe’de bilgi kelimesi, sadece � ngilizce knowledge
kavramını kar � ılamak için kullanılmalıdır. Information terimi ile
kar � ılanan kavram içinse, uygun olan farklı bir Türkçe kelime
olmalıdır. Bizim önerimiz, bili � im’deki anlamıyla enformasyon
kavramını kar � ılamak için haber kelimesinin kullanılmasıdır. Türkiye
Bili � im Derne� i (TBD) Terimler Sözlü� ünün (2004) ve Türk Dil
Kurumu (TDK) Bilgisayar Terimleri Kar � ılılar Kılavuzunun (2004a)
sayısal uyarlamaları information terimini, Türkçe’ye bilgi olarak
aktarmı � tır. Bilgi kelimesinin Türkçe’de kar � ıladı � ı kavramlar ise,
bili � im için verilen kar � ılık hariç, Fosket (1996) ve Creaven (2002)
tarafından � ngilizce knowledge kavramı için verilen tanımla örtü� ürken
(TDK, 2004b); bili � im için verilen tanımda, information kavramına
verilen tanımla örtü� mektedir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
56
“ Bilgi: 1-) � nsan aklının erebilece� i olgu, gerçek ve ilkelerin bütününe verilen ad, malûmat. … 3-) � nsan zekâsının çalı � ması sonucu ortaya çıkan dü� ünce ürünü, malûmat, vukuf. … 6-) (bili � imde) Kurallardan yararlanarak ki � inin veriye yöneltti � i anlam.”
(TDK, 2004b)
Yine Türk Dil Kurumu güncel Türkçe Sözlü� ün sayısal
uyarlamasında (2004b), haber kelimesi için � u tanımlar verilmektedir:
“ 1-) Bir olay, bir olgu üzerine edinilen bilgi, salık. 2-) � leti � im veya yayın organlarıyla verilen bilgi. 3-) Bilgi. 4-) (eskimi � , gramer ) Yüklem.”
(TDK, 2004b)
Haber kelimesinin kar � ıladı � ı Türkçe kavramları detaylı
inceledi � imizde, ilk dikkati çeken husus, Creaven’ ın enformasyon
tanımı için yaptı � ımız tespitin, yani “ ...enformasyonun var olu� noktasını de� i � tirmez, yine insanın bilme eyleminin bir parçasıdır;
ancak olgunun tasvirini bilmeye kaynak te� kil eden somut olgulardan
ba� langıçla, insana do� ru yapar.” hükmünün haber olgusu içinde
geçerli oldu� udur. Bu ba� lamda haber, alan ki � inin belirsizli � ini
azaltan, alınabilen ve anlanabilen bir mesajdır, yani somut halde
simgesel gösterimler ile temsil edilen bir anlamlar bütünüdür. Haber’ i
içeren mesaj bir ki � iye ula� ınca, o ki � i tarafından simgeler algılanır,
anlamlar tekrar yüklenir ve olu� an anlamlar bütününden haber idrak
edilir (bir anlamda geri-getirilir). Bu noktadan itibaren haber
yorumlanarak edinilmi � bilgiye dönü� mü� tür, yani artık söz konusu
olgu, gerçek veya mekan’a ait mevcut durum, o insana mal olmu� tur, o
insan için malum durumdadır. Bu bakı � açısı, somut nesnellikten, insan
zihnindeki soyut varlı � a, yani bilgiye do� ru enformasyon tarifidir ve
somut nesnellik içinde haber enformasyonun kar � ılı � ıdır. Ancak bir de
insan cephesinden, yani bilgi olgusundan ba� layarak enformasyon
tasvir edilebilir. Bu � ekilde yapılan bir tanımda, enformasyon olgusu:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
57
algı, ö� renme ve usa vuruma (idrak) ile insana mal olabilecek her türlü
soyut veya somut nesnelere ait özellikleri ta� ıyan malumat olarak da
tanımlanabilir. Bir ba� ka söyleyi � le, soyut veya somut nesnelere ait
özellikler ile temsil edilen belirli bir durumun, bir insan için malum bir
durum olmasına, bilinmesine sebebiyet veren olgudur. Her iki bakı � açısından yapılan tasvirler kullanım sahalarına göre geçerli olabilirler.
Anacak söz konusu bili � im, yani “ enformasyon bilim” ise insan kökenli
tanım pek i � levsel de� ildir; somut nesnellik ba� lamında bir tanım
u� ra� lar açısından i � levsel olacaktır.
� lk anda haber ile information kelimesinin kavramsal olarak
örtü� medi � i dü� ünülebilir. Bunun sebebi haber kelimesinin, Türkçe’de
yaygın olarak � ngilizce news kelimesi için kullanılması, daha do� rusu
bu anlamının di � er anlamlarını bastıracak kadar yaygın kullanılmasıdır.
Aslen, news terimi ile � ngilizce’de kar � ılanan olgu da, Türkçe’deki
haber’dir, fakat güncel, yani “ yeni” olan information anlamında
kullanılır. Bir ba� ka söyleyi � le, information kavramının, news terimi ile
kar � ılanan halinde, duyusal olarak beklenmedik olma, enformasyonu
alan ki � ide bir � a� kınlık yaratma durumu söz konusudur. Türkçe’de bu
� ekilde bir ayrım yoktur, daha do� rusu haberin “eskisi” ve “yenisi”
diye ayrı kavramlar olu� turulmamı � , farklı terimlerle kar � ılanmamı � tır. Bu yüzden bili � imde bir kar � ılık aranırken, information olgusu için en
uygun terimin, bilgi oldu� u dü� ünülmü� olmalıdır. Fakat, haber
kelimesi, information kelimesinin bili � im için kavramsal çeviri
açısından e� , yani köken olarak aynı, ancak Türkçe güncel kullanımda
daraltılmı � kar � ılı � ıdır. Önerimizin temelinde, bilgi kelimesi ile
Türkçe’de kar � ılanan soyut kavramın sınırları bozularak, � ngilizce
information kavramı ile kar � ılanan bir bakıma somut olguyu da içine
alacak hale getirilmesi yerine, daha do� rusu insan dı � ındaki nesneleri
de içine almaya zorlanması yerine, haber kelimesi ile kar � ılanan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
58
kavramın güncel dar anlamından geni � letilmesi yatmaktadır. Bu
yakla� ımın enformasyon bilim göz önüne alındı � ında, i � levsel
tanımlara ula� ma hedefini daha rahat kar � ıladı � ı da söylenebilir.
Önerimizi güçlendirmek adına, son olarak dilbilim’de e� anlamlı iki
kelimeyi do � rulamak amacı ile kullanılan yöntemi information ve
haber için uygulayarak tartı � mamızı bitiriyoruz. Dilbilimde “E� er
farklı biçimlere sahip iki kelime aynı cümlede birbiri yerine kullanılır
ve cümlenin anlamı de� i � mezse, söz konusu iki kelime e� anlamlıdır.”
önermesi, biçimsel olarak farklı � ekillere sahip kelimelerin e� anlamlılı � ının sınanması için kullanılan, geçerli bir yöntemdir. Haber
kelimesini Fosket (1996) ve Creaven (2002) tarafından verilen
enformasyon tanımlarında kullanarak e� anlamlılıklarını sorgulayalım.
“ … Bilgi (Knowledge) benim bildi� im � ey, yani ki � i olarak bildi � imiz � ey veya � eyler; Haber (Information) bizim bildi � imiz � eyler, yani payla� ılmı � bilgidir.”
(Fosket, 1996)
“ …Bilgi (Knowledge) ise algı, ö� renme ve usa vurmanın psikolojik sonucudur. …Haber (Information) ise alan ki � inin belirsizli� ini azaltan, alınabilen ve anlanabilen bir mesajdır.”
(Creaven, 2002)
Görüldü� ü gibi aynı cümlede haber kelimesinin enformasyon
kelimesi ile de� i � tirilmesi; Türkçe anlam birli � inin bozulması bir yana,
verilen tanımları daha belirleyici kılmı � , algılanmasını ve anla� ılmasını
kolayla� tırmı � tır. Ancak alınan bu müspet sonucun aksine, tezde bilgi
geri-getirim terimi Türkçe literatürle bütünlü� ü bozmamak amacı ile
biçimsel olarak aynen kullanılacaktır. Fakat okuyucu, yukarıda izah
edildi � i gibi aslen haber geri-getirim terimi ile kar � ılanması gereken
kavramsal sınırları anlamalıdır. Ek olarak, süre geldi � i � ekilde, �ngilizce information ve knowledge kavramları arasındaki farkı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
59
belirtebilmek için information terimi yerine enformasyon kelimesi
kullanımı, knowledge terimi yerine de bilgi kelimesi kullanımı devam
edecektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
60
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
61
4. ENFORMASYON KURAMI
Enformasyon kuramı Shannon (1949) tarafından ortaya konmu�
olan sinyal-enformasyon fikrini esas alır (Aynı yakla� ım literatürde
ileti � im-teorik ve enformasyon-teorik olarak da anılır). Sinyal-
enformasyon bir kaynak ve hedef arasında kurulmu� herhangi bir
ileti � im hattı üzerinden gönderilen veya alınan sinyale ait bir özelliktir,
yani öz-enformasyon’ dur. Shannon aslen, mükemmel olmayan bir
ileti � im hattı üzerinden, örne� in gürültülü bir telefon hattı üzerinden
gönderilecek enformasyonun, miktarını en yüksek seviyeye çekme
amacındaydı. Shannon, bu amaç do� rultusunda, herhangi bir
enformasyon kayna� ı ve ileti � im hattı için iki etmenin kuramsal en
yüksek de� erlerini tespit etmi � tir: 1-) düzensizlik, H de� eri ile elde
edilen veri sıkı � tırma miktarı, 2-) � letim hızı, yani ileti � im kanalı
kapasitesi, C ile verilen de� er. Shannon’a gelinceye kadar, iletilmek
istenen mesajın hızı ne kadar arttırılırsa, mesajın iletimindeki hatanın
da o kadar artaca� ı dü� ünülüyordu. Ancak Shannon, mesaj ile ta� ınmak
istenen enformasyonun, kanal kapasitesinden daha küçük bir hızla
iletilmesi durumunda, mesajın iletiminde hata olması olasılı � ının
istendi � i kadar küçültülebilece� ini ispatlamı � tır. Shannon’un ortaya
koydu� u kuramda, mesaj iletiminde kullanılan sinyal ile enformasyon
arasındaki ili � ki istatistik esaslıdır, daha do� rusu ileti � im � ekli içinde
söz konusu sinyalin gözlenme olasılı � ına dayanır. Sinyal-
enformasyonun nicel olarak ölçülebilmesinin kökeninde ise olasılık
kuramını esas alan düzensizlik (entropy) kavramı vardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
62
4.1. Düzensizlik (Entropy)
E� er X olasılık de� i � keninin, bir ayrık simgesel de� erler kümesi
A (örne� in alfabe) üzerinden tanımlanan olasılık yo � unluk
fonksiyonunun, p(x) oldu� unu kabul edilirse:
AxxXPxp ∈== ),()( (4.1.1)
Örne� in, iki demir parayı havaya atıp yere dü� tüklerinde gelen
turaları sayarsak, p(0) = ¼, p(1) = ½ ve p(2) = ¼ olasılıklarına sahip
bir olasılık de� i � keni tanımlamı � oluruz.
Bir olasılık de� i � keninin düzensizli � i (Entropy), yani öz-
enformasyonu sahip oldu� u ortalama belirsizliktir:
)(
1log)(
)(log)()()(
2
2
xpxp
xpxpXHpH
Ax
Ax
�=
�−==
∈
∈ (4.1.2)
Düzensizlik, bir olasılık de� i � kenindeki enformasyon miktarıdır. Denklem 4.1.2.’de verilen e� itlik, yalın bir � ekilde ))(/1log()( xpxp
de� erlerinin tüm Ax∈ de� erleri için toplamı olarak yorumlanmamalıdır. xxp ∀
�,)( � terimi bir kalıptır ve her Ax ∈
de� eri için ))(/1log( xp de� erinin, yani sinyal-enformasyon miktarının
toplam üzerindeki etkisini a� ırlıklandırır. Ayrıca, p(x) tanımı gere� i xxp ∀=
�,1)( . � statistiksel olarak xxp ∀
,)( kalıbı bir olasılık
de� i � keni için beklen de� er, yani tahmini de� er tanımlar. Örne� in bir
olasılık de� i � keni Z ve olasılık yo � unluk fonksiyonu p(z) olsun. Z
olasılık de� i � keninin beklenen de� eri E(Z):
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
63
�=⋅=
∀zzzzpZE )()( (4.1.3)
E(Z) beklenen de� eri, Z olasılık de� i � keninin tanım kümesinin ortalamasının zµ , tahmini, yani z de� erine e� ittir. Beklenen de� er
tanımı kullanılarak, Denklem 4.1.2.’de verilen düzensizlik e� itli � i
Denklem 4.1.4.’ deki biçimde yazılabilir.
�=���
����=∀x xp
xpxp
EXH)(
1log)(
)(
1log)( 22 (4.1.4)
Denklem 4.1.4.’ün Denklem 4.1.3.’den elde edili � inde
belirtilmesi gereken bir nokta vardır. Denklem 4.1.3.’e göre gerçekte düzensizlik ( )( ) ( ) xxpxpp ∀
,)(/1log)(/1log olmalıdır. Bir ba� ka
söyleyi � le, ))(/1log( xp ile betimlenen olasılık de� i � kenine ait olasılık
yo � unluk fonksiyonunun de� erleri ile a� ırlıklandırmak gerekmektedir. Ancak, ( ) ∀== xxpxpp ,1)())(/1log( ve log fonksiyonunun bir
do� rusal ta� ıma olmasından ötürü X ile ))(/1log( xp olasılık
de� i � kenlerinin olasılık yo � unluk fonksiyonları özde� , yani p(x)
olacaktır.
Düzensizli � in 3 (üç) temel özelli � i vardır;
1. )(~;0)( xpXxXH ⇔∀≥ .
2. cXxXH =⇔∀= ;0)( . Yani X olasılık de� i � keni sabit bir c de� erine e� itse, bir olasılık da� ılımına göre de� er almıyorsa.
3. Düzensizlik mesaj uzunlu� u ile orantılı olarak artar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
64
4.2. Bir le� ik Düzensizlik ve Ko� ullu Düzensizlik
Ayrık iki olasılık de� i � keni X,Y ~ p(x,y) çiftinin birle� ik
düzensizli � i, ikisinin de� erini birlikte belirtmek için gereken ortalama
enformasyon miktarıdır.
���−=
∀ ∀x yyxpyxpYXH ),(log),(),( 2 (4.2.1)
Bir ayrık Y olasılık de� i � keninin, X olasılık de� i � keni
verilmi � ken ko ullu düzensizli i (X,Y ~ p(x,y)), kar � ı taraf X’ i bilirken
Y’ yi iletmek için sa� lamak gereken, fazladan ortalama enformasyon
miktarını verir.
���−=
� ����� �
−=
�==
∀ ∀
∀ ∀
∀
x y
x y
x
xypyxp
xypxypxp
xXYHxpXYH
)(log),(
)(log)()(
)()()(
(4.2.2)
Olasılık kuramında oldu� u gibi, düzensizlik için de bir
zincirleme kuralı vardır.
),()()(),,(
)()(),(
111211 −+++=
+=
nnn XXXHXXHXHXXH
XYHXHYXH
��� (4.2.3)
Olasılık kuramı içindeki zincirleme kuralında, olasılıkların
çarpımları, düzensizlikte log fonksiyonu sebebi ile toplam olmu� tur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
65
( )( )( )
( )( ) ( )
)()(
)(log)(log
)(log)(log
)()(log
),(log),(
),()(
),(
),(
),(
XYHXH
xypExpE
xypxpE
xypxpE
yxpEYXH
yxpxp
yxp
yxp
yxp
+=
−−=
+−=
−=
−=
(4.2.4)
Bir mesaj içinde bulunan enformasyon miktarı, mesajın
boyutuna ba� ımlı oldu� u için, genellikle bir harf için veya bir kelime
için düzensizlikten bahsedilir. Bir mesajın, n uzunlu� unda olması
durumunda düzensizlik hızı (entropy rate) olarak da bilinen bir
harf/kelime için düzensizlik Denklem 4.2.5.’de verildi � i gibi
hesaplanır.
�−==
nxnnnrate xpxp
nXH
nH
1
)(log)(1
)(1
111 (4.2.5)
Denklem 4.2.5.’de, X1n simgesi, genel hali ),,( jiij XXX �=
olan gösterimin, özelidir ve ),,( 1 nXX � olasılık de� i � kenlerinin sıralı
silsilesini temsil eder.
E� er do� al bir dili, simgelerin sıralı diziliminin olu� turdu� u bir
silsile süreci (stochastic process) olarak kabul edersek, L=(Xi), örne� in
bir haber kanalından gönderilen her haber yazısının meydana getirdi � i
bir derlem olabilir, do � al dilin L, düzensizli � ini söz konusu silsile
sürecinin düzensizlik hızı olarak tanımlayabiliriz.
),,,(1
lim)( 21 nn
rate XXXHn
LH �∞→
= (4.2.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
66
Denklem 4.2.6. ile do� al bir dilin, yani aktif kullanımı olan ve
iç-devinimli olarak de� i � en bir dilin düzensizli � ini hesapladı � ımız için,
elimizdeki örnek derlem boyutu sonsuza giderken düzensizlik hızını
hesaplamamız gerekmektedir. Denklemde bu yüzden limit i � levi
kullanılmı � tır.
4.3. Kar � ılıklı Enformasyon (Mutual Information)
Düzensizli � in zincirleme kuralına göre, iki ayrık olasılık
de� i � keninin X,Y ~ p(x,y) birle� ik düzensizli � i H(X,Y), Denklem
4.3.1.’de gösterildi � i biçimde hesaplanabilmektedir.
)()()()(),( YXHYHXYHXHYXH +=+= (4.3.1)
Denklem 4.3.1.’den de, Denklem 4.3.2.’de bulunan e� itlik elde
edilmektedir.
)()()()( XYHYHYXHXH −=− (4.3.2)
Denklem 4.3.2.’de verilen düzensizlikler arasındaki fark
kar� ılıklı-enformasyon olarak adlandırılmaktadır. Sözle ifadesi edecek
olursak: bir olasılık de� i � kenini (Y) bilmekle bir di � er olasılık
de� i � keninin (X) düzensizli � indeki azalı � miktarıdır. Bir ba� ka
söyleyi � le, bir olasılık de� i � keninin (Y), di � er bir olasılık de� i � keni (X)
hakkında içerdi � i enformasyon miktarıdır. Kar � ılıklı-enformasyon ve
düzensizlik arasındaki ili � kinin çizge olarak ifadesi � ekil 4.3.1.’de
verilmi � tir (Cover and Thomas, 1991).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
67
H(X,Y)
H(X) H(Y)
H(Y|X)H(X|Y)
I(X;Y)
�
ekil 4.3.1: Kar � ılıklı-enformasyon, I ile düzensizlik, H arasındaki ili � ki.
Kar � ılıklı-enformasyon, iki de� i � ken tarafından içerilen ortak
enformasyon miktarının simetrik ve pozitif nicel de� eridir. Kar � ılıklı-
enformasyon iki de� i � kenin ba� ımsızlık ölçütüdür ve � u özelliklere
sahiptir:
1. Kar � ılıklı-enformasyon, iki de� i � ken ba� ımsızken 0 (sıfırdır).
2. � ki ba� ımlı de� i � ken için, kar � ılıklı-enformasyon miktarı sadece ba� ımlılı � ın derecesi oranında artmaz, aynı zamanda de� i � kenlerin düzensizli � i nispetinde de artar.
Kar � ılıklı-enformasyon için biçimsel tanımlama Denklem
4.3.3.’de verilmi � tir. Denklem, hem düzensizli � in neden öz-
enformasyon (self-information) olarak adlandırıldı � ını, hem de
tamamen ba� ımlı iki de� i � kenin kar � ılıklı-enformasyonunun neden
sabit olmayıp, de� i � kenlerin düzensizli � ine ba� lı oldu� unu da
açıklamaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
68
�=
�+
� �+=
−=
∀
∀
∀ ∀
yx
yx
x y
ypxp
yxpyxp
yxpyxp
ypyp
xpxp
XYHXHYXI
,
,
)()(
),(log),(
),(log),(
)(
1log)(
)(
1log)(
)()();(
(4.3.3)
Denklem 4.3.4.’de ko� ullu kar � ılıklı-enformasyon ve Denklem
4.3.5.’de de zincirleme kuralı verilmi � tir.
),()());(();( ZYXHZXHZYXIZYXI −== (4.3.4)
�=
++=
=−
−n
iii
nnn
XXYXI
XXYXIYXIYXI
111
1111
),,;(
),,;();();(
�
�� (4.3.5)
4.4. Ko� ullu Düzensizlik (Conditional Entropy)
�ki olasılık yo � unluk fonksiyonu p(x) ve q(x) için göreceli
düzensizlik Denklem 4.4.1.’de verilmi � tir.
( ) =∀x xq
xpxpqpD
)(
)(log)( (4.4.1)
Denklem 4.4.1.’de 0)/0log(0 =⋅ q olarak, ∞=⋅ )0/log( pp
olarak kabul edilmektedir. Aynı zamanda Kullback-Leibner (KL)
ıraksaklı ı (Kullback-Leibner divergence) olarak da anılan göreceli
düzensizlik, aynı örneklem uzayında tanımlı iki olasılık da ılımının ne
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
69
kadar farklı oldu� unu gösterir. Beklenen de� er olarak tanımlaması
Denklem 4.4.2.’de verilmi � tir:
( ) ��������=
)(
)(log
xq
xpEqpD p (4.4.2)
Dolayısı ile, p ve q arasındaki KL yakınsaklı � ı, p da� ılımdaki
olayları, q da� ılımını esas alan kodlarla kodlanması ile fazladan ortaya
çıkan ortalama düzensizlik miktarını, bir ba� ka söyleyi � le kodlama için
fazladan harcanan ikil (bit) sayısını verir.
Göreceli düzensizlik miktarı daima pozitif bir sayıdır ve 0 (sıfır)
olması ancak q da� ılımın, p da� ılımına e� it olması ile gerçekle� ir. Göreceli düzensizlik matematiksel anlamda bir ölçüt de� ildir, yani p ve
q için simetrik de� ildir ve saç aya� ı e� itsizli � ini7 (triangle inequality)
sa� lamaz.
Kar � ılıklı-enformasyon aslında, bir birle� ik da� ılımın
ba� ımsızlıktan ne kadar uzak oldu� unun da bir ölçütüdür ve Denklem
4.4.3.’de verildi � i � ekli ile betimlenir.
))()(),(();( ypxpyxpDYXI ⋅= (4.4.3)
Ko � ullu göreceli düzensizlik, Denklem 4.4.4.’de ve göreceli
düzensizlik için zincirleme kuralı da Denklem 4.4.5.’de verilmi � tir.
7 Herhangi üç nokta X, Y ve Z için saç aya� ı e itsizli � i (triangle inequality) udur: d(x,y) <= d(x,z) + d(z,y). (d(x,y) iki nokta arasındaki mesafedir)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
70
( ) ��=∀∀ yx xyq
xypxypxpxyqxypD
)(
)(log)()()()( (4.4.4)
( ) ( ) ( ))()()()(),(),( xyqxypDxqxpDyxqyxpD +=
(4.4.5)
4.5. Çapraz düzensizlik (Cross Entropy)
Düzensizlik (entropy) bir de� i � kenin alaca� ı de� erlerdeki
belirsizli � i nicel olarak ölçer. Bir � ey hakkında daha çok � ey bildikçe,
düzensizlik dü� ecektir, çünkü yapılacak bir denemenin sonucu bizi � a� ırtmayacaktır. Öyleyse, düzensizli � i ne kadar � a� ıraca� ımızın bir
ölçüsü olarak da dü� ünebiliriz. Örne� in, yazılı bir metinde cümle içinde
bir sonraki kelimenin ne oldu� unu tahmin etmeye çalı � tı � ımızı
dü� ünelim. Bu durumda cümlenin ba� ından itibaren okudu� umuz, yani
bildi � imiz kelimelerden h, bir sonraki kelimenin w, ne olaca� ının
tahmin edilmesi P(w | h) biçiminde, � ekilsel olarak gösterilebilir.
Dolayısıyla, ne kadar � a� ıraca� ımızın bir ölçüsü olarak, söz konusu dile
ait geli � tirilmi � bir model, m ile bir sonraki kelimeye, w’ ye atanan
ko � ullu olasılı � ı alabiliriz. � a� ırma, noktasal düzensizlik (pointwise entropy) olarak adlandırılan )|(log)|( 2 hwmhwH −= denklemi ile
ölçülebilir. E� er tahmin edici, verilmi � bir, h ile ifade edilen
kelimelerin akı � tarihini, w kelimesinin izleyece� inden eminse ve bu da
do� ruysa, tahmin edicinin w kelimesini görmesi ile w kelimesinden elde edece� i enformasyon miktarı 01log2 =− olacaktır. Bir ba� ka
söyleyi � le, tahmin edici w kelimesini gördü� ünde hiç � a� ırmayacaktır.
Ancak di � er taraftan, model w kelimesinin verilen, h tarihini izlemeyece� ini öngörüyorsa, dolayısı ile 0)|( =hwm olacaktır ve
tahmin edicinin, w kelimesini görmesi ile elde edece� i enformasyon miktarı ∞=− 0log2 olacaktır. Son durum, kullandı � ımız dil modelinin
m, sonsuz derecede � a� ırması demek olur, bu da model için çok kötü bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
71
� eydir. Genelde dil modelleri, her olay için söz konusu iki uç noktaya
kar � ılık gelen aralık içinde, yani [0,1] kapalı aralı � ında bir olasılık
üretirler, böylece bir sonraki kelime w, belli oldu� unda bir miktar
enformasyon kazanırlar, yani bir miktar � a� ırırlar. Amaç bu � a� ırma
düzeyini, mümkün oldu� unca dü� ük seviyede tutmaktır. Tahmin edici
modelin, tüm kelimeler üzerinden � a� ırma miktarlarının toplamı, bize
modelin toplam � a� ırma miktarını verir:
),,,(log
),,,|(log
212
11212
n
n
jjjtoplam
wwwm
wwwwmH
�
�
−=
�−=
=−
(4.5.1)
Denklem 4.5.1.’de, e� itli � in son satırdaki hali, zincirleme kuralı
kullanarak çıkartılır. Genelde bu ölçüt metnin uzunlu� una ba� ımlı
olmaması için normalle� tirilir. Ölçütün normalle� mi � hali, bir kelime
için ortalama � a� ırma miktarını vermektedir.
Düzensizli � in, � a� ırmanın bir ölçüsü olarak verildi � i yukarıdaki
tanımı biçimsel bir halde verecek olursak, çapraz düzensizli � in
tanımına kolayca ula� ılacaktır. Do� al dili, gerçek bir olgu olarak
modellemeye çalı � tı � ımızı farz edelim. Ayrıca do� al dilde yapılan bir
konu� ma içindeki her bir sözü (yazıdaki kar � ılı � ı kelime), modellemeye
çalı � tı � ımız do � al dilin hesaplama birimleri olarak alalım. Sözler
kümesini, gerçek sayılar kümesine ta� ıyan bir olasılık de� i � keni X,
tanımlarsak, X de� i � keninin sözler kümesi üzerinde tanımlı bir da� ılımı
olacaktır, yani X ~ p(x). Fakat, ne yazık ki bu gün gerçek bir olgu
olarak, hiçbir dil için p(.) da� ılımının ne oldu� u bilinmemektedir.
Ancak, örneklere bakarak, belirli konu� maları kapsayan bir sözler
derlemi olu� turup, de� erlendirme altındaki do � al dilin, söz konusu p(.)
da� ılımının neye benzedi � ini deneysel olarak bulmaya çalı � abiliriz. Bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
72
ba� ka söyleyi � le, gerçek da� ılımın bir modelini m, elimizdeki en iyi
tahminleri kullanarak olu� turabiliriz. Bu modeli olu� tururken, yanlı � sız
bir olasılık da� ılımı elde etme amacımıza ula� mak için gerçek da� ılımla, model arasındaki göreceli enformasyon )( mpD mümkün
oldu� unca küçük olmalıdır. Ne yazık ki, yine bu göreceli enformasyon
da gerçek da� ılımın p(.) ne oldu� u bilinmedi � i için hesaplanamaz.
Ancak, bununla ili � kili bir ba� ka nicelik daha vardır, o da çapraz
enformasyondur.
Bir olasılık de� i � kenine X, ait gerçek olasılık da� ılımı, p ve bir
ba� ka olasılık da� ılımı, q (genelde modelimizi temsil eder) arasındaki
çapraz enformasyon, Denklem 4.5.2.’de verildi � i gibi hesaplanır.
��������=
�−=
+=
∀
)(
1log
)(log)(
)()(),(
xqE
xqxp
qpDXHqXH
p
x
(4.5.2)
Denklem 4.5.2.’de, do� al bir dil için düzensizli � i
tanımladı � ımız gibi, do� al bir dil L(Xi) ~ p(x) için geli � tirilmi � bir
model m üzerinden çapraz düzensizlikte, Denklem 4.5.3.’de oldu� u
gibi tanımlanabilir.
−=
∞→nx
nnn
xmxpn
mLH1
)(log)(1
lim),( 11 (4.5.3)
Denklemde, do� al dile ait gerçek olasılık da� ılımı, p(.) halen
yer almaktadır. Dolayısı ile, bu durumda da do� al dile ait çapraz
düzensizlik hesaplanamaz. Ancak, do� al dille ilgi bazı basitle� tirici
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
73
kabullenmeler yapacak olursak, Denklem 4.5.4.’de verilen
hesaplanabilir haline getirebiliriz.
)(log1
lim),( 1nn
xmn
mLH∞→
−= (4.5.4)
Çapraz düzensizli � in verilen bu biçiminde, sadece kendi
olu� turdu� umuz model m, ve yeterince büyük bir söz kümesi ile
hesaplama yapmamız mümkündür. Yani, gerçekte söz sayısının sınırı
sonsuza giderken hesaplama yapmak yerine, yeterince büyük olan bir
miktar söz kümesi ile hesaplama yapabilmek mümkün olmaktadır:
)(log1
),( 1nxmn
mLH ≈ (4.5.5)
Bu ölçüt, sadece ortalama � a� ırmayı vermektedir. Amaç bu
sayıyı mümkün oldu� unca küçük tutmaktır. E� er H(X) sabitse (yani
bilinmiyorsa), ölçüt göreceli düzensizli � i küçültme� e e� de� er
olmaktadır, yani modelimizdeki olasılık da� ılımının gerçek olasılık
da� ılımından farklılı � ının mümkün olan en küçük de� ere çekilmesi ile
e� olmaktadır. Bu noktadan sonra, geriye kalan tek gereksinim modeli
sınamak için kullanaca� ımız deney metninin ba� ımsız olmasıdır, yani
modelin parametrelerini tahmin etmek için kullandı � ımız talim derlemi,
deney metnin bir parçası olmamalıdır. Çapraz düzensizlik, modelin
deney metnindeki kelimelere atadı � ı ortalama olasılık ile ters
orantılıdır. Genellikle, dü� ük çapraz düzensizlik de� erlerine sahip dil
modelleri, uygulamada daha iyi sonuçlara sebep olur, ancak her zaman
böyle olması gerekmez. Örne� in, çapraz düzensizli � in dü� mesine sebep
olacak � ekilde, modelin kelimelere atadı � ı olasılıkların büyümesi fakat
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
74
kelimelerin göreceli olarak sıralanmasına atanan olasılıkların aynı
kalması, dil modelinin uygulamada ba� arımını arttırmaz.
Denklem 4.5.4.’den Denklem 4.5.5.’e geçi � i sa� layan sebep,
çapraz düzensizlik denklemi içinde olan beklenti fikridir:
��������=
∞→ )(
1log
1lim),(
1nn xmE
nmLH (4.5.6)
Beklenti tüm olası sıralamalar üzerinden elde edilen a� ırlıklı
ortalamadır. Ancak, Denklem 4.5.6.’da sınır de� erlerde hesaplama
yapılmaktadır, yani söz konusu a� ırlıklı ortalamanın do � al dilde
olu� turulabilecek en uzun sıralamaya bakarak olu� turulması
gerekmektedir. Denklem 4.5.5.’e geçi � te kullanılan fikir, yeterince
büyük uzunlukta bir sıralamaya bakarak hesaplanacak a� ırlıklı
ortalamanın çok fazla de� i � meyece� idir. Yani, “dilde olu� turulabilecek
tüm sıralamalara bakmak gerekmez, yeterince uzun bir sıralamadan
genel a� ırlıklı ortalamanın ne oldu� u tahmin edilebilir” fikrini esas
almaktadır.
Sebeplenmenin biçimsel tanımı ise � öyle yapılabilir: E� er do � al
dilin L(Xi) ~ p(x), dura� an (stationary) ergodik bir süreç oldu� u kabul
edilirse, Kuram 4.5.1.’e (Cover and Thomas, 1991) göre Denklem
4.5.4., Denklem 4.5.5.’e e� it olur.
Kuram 4.5.1: (Shannon-McMillian-Breiman Kuramı) E� er Hrate , sonlu sayıda de� ere sahip dura� an ergodik bir sürecin (Xn) düzensizlik hızıysa,
1),,(log1
1 =�
�� →− HXXp
nP n� .
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
75
Ergodik süreçler, alt süreçlerinden biri içinde sonsuz döngüye
girmeyen süreçlerdir. Dura� an süreçler, sürecin bir adımından, di � er
bir adıma geçi � i için atadı � ı olasılı � ın, sürecin ayrık zaman noktaları ile
indekslenmi � akı � ı içerisinde, iki farklı zaman indeksinde de� i � iklik
göstermemesidir, yani P(wi|wi-1) = P(w2|w1), i = 1,2, ...n olmasıdır.
4.6. � stikrarsızlık (Perplexity)
Düzensizlik kuramı ile ili � kili olarak bahsedece� imiz son konu
istikrarsızlık’ tır. Bu kavram, düzensizlik ile sıkı sıkıya ba� ılıdır.
Hesaplamalı dilbilim sahasında düzensizlik yerine bu ifade için elde
edilen de� erler dil modellerinin kıyaslaması için kullanılır. Bir olasılık
silsile sürecinde Xn, her adımda tercih edilebilecek e� it olasılı � a sahip
ortalama seçenek sayısı, söz konusu sürecin istikrarsızlı� ı olarak
tanımlanır ve Denklem 4.6.1.’deki ifade ile düzensizlik üzerinden
hesaplanır.
nn
mxHn xmmxPer n
1
1),(
1 )(2),( 1−
== (4.6.1)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
76
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
77
5. B � LG � GER � -GET � R � M S � STEMLER �
21. yüz yılın ortalarından itibaren bilimsel, sanatsal, siyasal,
ekonomik, güncel vb. i � sahalarında yapılan birikimli çalı � malar bizleri
yönetilmesi, depolanması ve geri-getirilmesi gereken külliyetli bir
potansiyel enformasyon yı � ını ile kar � ı kar � ıya bırakmı � tır. Bilgisayar
dünyasındaki geli � melere paralel olarak bu ihtiyaçlardan yönetim ve
depolama sayısal kütüphanelerde örnekleri gözlemlendi � i � ekilde
kataloglama ve indeksleme açısından kısmen de olsa çözümlere
kavu� turulmu� tur. Fakat ihtiyaçlardan biri olan geri-getirim, daha
do� rusu bir ki � inin ihtiyaç duydu� u bilgi ile ili � kili/alakalı olan
belgelerin geri getirimi ara� tırma için açık olan bir konudur. Bilgi geri-
getirim i � i bir sorgu veya konu ba� lı � ı talebine kar � ılık tanımlı bir
yapıya sahip olmayan alakalı kayıtların özellikle metin içerikli
belgelerin geri getirimi ile ilgilenen bir disiplin olarak tanımlanabilir.
Söz konusu talebin nasıl yapılaca� ına dair önceden tanımlı bir yapı
olabilir veya olmayabilir, örne� in do � al dilde yazılmı � olan bir soru
cümlesi de olabilir veya boole8 ifadesi � eklinde yapısal bir biçimde de
sorgu olu� turulabilir. Günümüzde bilgi geri-getirim dizgeleri yalnızca
yazılı metinler için kurgulanmazlar, yapısal tanımlamaya sahip
olmayan di � er verilerde kullanılabilir: Foto � raflar, ses, görüntü vb.
Ancak bu tez kapsamında Bilgi geri-getirim (BGG) yalnızca yapısal
olmayan Türkçe yazılı metinler hedef alınaca� ından tez kapsamını
belirlemek amacı ile verilebilecek en iyi tanım bilgi geri-getirim
disiplini öncülerinin, isim verecek olursak Cleverdon, Salton, Sparck
Jones ve di � erlerinin çizgisini özetleyen Lancaster’ ın (1968) tanımı
olacaktır:
8 TBD, Bili � im Terimleri Sözlü� ü
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
78
“ … Bir bilgi geri-getirim sistemi ki � iyi aramakta oldu� u konu hakkında bilgilendirmez (veya ki � inin aramakta oldu� u konu ile ilgili bildiklerini de� i � tirmez). Ki � iyi sadece aramakta oldu� u konu ile alakalı belgelerin var olup olmadı� ı ve nerelerde bulunabilece� i hakkında bilgilendir.”
(Lancaster, 1968)
BGG tanımının en genel halini ise Kochen (1983) � öyle
yapmı � tır:
“ Bilgi geri-getirim enformasyon bilimin bir alt disiplinidir. Enformasyon bilimi ise geni � tanımı ile enformasyon, bilgi ve anlama ile, yani yazılı metinlerde (belgeler) gömülü ve idrak eden bir zihin tarafından algılanan anlam ile u� ra� ır.”
(Kochen, 1983)
BGG sistemleri için Ingwersen (1992) tarafından verilen,
bilgisayar bilimleri içindeki u� ra� ların hedeflerini belirleyen tanım da
� öyledir:
“ � nsanlar tarafından ihtiyaç duyulan muhtemel, yani potansiyel enformasyonun temsilini, depolanmasını, aranmasını, bulunmasını ve sunulmasını içine alan bir süreç. Muhtemel enformasyon ancak bir ki � i tarafından anla� ılırsa, yani idrak edilirse o ki � i için enformasyon olur. Muhtemel enformasyon e� er bir ki � i tarafından anla� ılmıyorsa, yani idrak edilemiyorsa o ki � i için veri olarak kalmaya devam eder.”
(Ingwersen, 1992)
Ingwersen’ in BGG sistemleri için verdi � i tanımda “ ... e� er bir
ki � i tarafından anla� ılmıyorsa, o ki � i için veri olarak kalmaya devam
eder.” hükmünden, BGG sistemlerinin veri ile u� ra� an bir sistem
oldu� u sonucuna varılmamalıdır. BGG sistemleri ile veri geri-getirim
(VGG) sistemleri, örne� in ili � kilendirilmi � veri-tabanı uygulamaları
(relational database applications) arasında ciddi farklar vardır. VGG ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
79
BGG sistemlerinin i � levsel özellikleri kar � ıla� tırmalı olarak Çizelge
5.1.’de özetlenmi � tir.
Çizelge 5.1: Veri geri-getirim ile Bilgi geri-getirim sistemlerinin i � levsel özellikleri.
Ver i ger i-getir im Bilgi ger i-getir imE � le� tirme Tam e� le� tirme Kısmi/en iyi e� le� tirmeÇıkarsama Tümden-gelim Tüme-varımModel Belirli OlasılıklıSınıflandırma Tek-hal Çok-halSorgu Dili Yapay Do� al (dil)Sorgu Belir tme Tam EksikAranan Kalemler E � le� tirme AlakalıHataya Tepki Duyarlı Duyarsız
Aslen herhangi bir ki � i, Çizelge 5.1.’de i � levsel özellikleri verilen
iki geri-getirim � ekli arasındaki sınırların pek de net olmadı � ını
dü� ünebilir. Zaten genel anlamda da öyledir; ancak söz konusu iki geri-
getirim � ekline ait uygulamada kar � ıla� ılan güçlüklerin belirlenmesi,
sınırları e� olsa dahi u� ra� sahalarının birbirinden çok farklı oldu� unu
ortaya koyacaktır. Bu yüzden listelenen belirli i � levleri biraz detaya
inerek tanımlayaca� ız.
VGG’de e� le� tirme tamdır, yani aranan bir kalemin belirli bir
sayısal dosyada var olup olmadı � ına bakılır. BGG’de bazı durumlarda
aynı � ey söz konusu olabilir, fakat genelde aranan kalemle kısmi olarak
e� le� enler belirlenir ve ardından bunların arasından en iyileri seçilmeye
çalı � ılır.
Çıkarsama veri geri-getirimde en basit halindedir, yani A ile B
ili � kili ve B ile C de ili � kili ise A ve C ili � kilidir sonucuna varılır.
BGG’de bu � ekilde bir tümdengelim yakla� ımının kullanımı genel
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
80
içinde çok nadir bir durum bile de� ildir; BGG içinde ili � kiler ancak bir
derecede kesinlik veya belirsizlik içerir, dolayısı ile yapılan
çıkarsamaların güvenilirli � i de� i � kendir. Söz konusu durum, VGG’ in
belirli (deterministic), BGG’ in ihtimalli (probabilistic) olmasına sebep
olur. Bu yüzden BGG’de sıklıkla Bayes9 karar kuramına ba� vurulur,
fakat VGG’deki i � lemlerin içinde ihtimal (olasılık) yoktur.
Sınıflandırma da, iki geri-getirim � ekli arasındaki farklılı � ı ortaya
koyan bir ba� ka niteliksel örnektir. VGG’de sınıflandırma tek-hal’dir,
yani bir sınıfa, i � lemdeki bir nesnenin dahil olabilmesi için gerek ve
yeter � art nesnenin süreç içinde tanımlanmı � özellikleridir ve bu
özellikler süreç içinde de� i � mez. Fakat BGG’de, bu tür bir
sınıflandırma genel anlamda pek kullanı � lı de� i ldir. BGG için çok-
hal’ li bir sınıflandırma daha do� rudur. Bir ba� ka söyleyi � le, bir sınıf
içindeki her nesne, söz konusu sınıfın di � er nesnelerinde bulunan
özelliklerin bütünü ile olu� an toplam özelliklerinden bir kısmını ta� ır. Dolayısı ile, bir sınıfa dahil olmak için, nesnelerin hiçbir özelli � i ne
gerekli, ne de yeterlidir.
Sorgu dili VGG’de yapaydır, yani kısıtlanmı � bir söz-dizim kural
kümesine ve kelime da� arcı � ına sahiptir (örne� in SQL, yani yapısal
ili � kili veri tabanı sorgu dili). Ancak BGG’de, belirtilmesi gereken
istisnalar olması bir yana, genelde do� al dil tercih edilmektedir.
VGG’de sorgular genellikle isteneni tam belirtir özelliktedir; BGG’de
ise her zaman eksiktir. Bu bahsetti � imiz eksik olma durumu, BGG
sorgularında belirtilen istek kalemi ile alakalı nesnelerin (örne� in
belgelerin), VGG’de ise tam e� le� enlerin aranmasından
9 Thomas Bayes (1702-1761) Bayes kuramına ismini veren � ngiliz matematikçi. Bayes tarafından ortaya konan olasılı � a dayalı sebeplenme prensibi karar kuramının temelini olu� turmu� tur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
81
kaynaklanmaktadır. Bir ba� ka söyleyi � le, BGG’de arama süreci “ sorgu
ile alakalı olma” ihtimalini ta� ıyan belgelerin bulunması � eklinde
tanımlanabilir. VGG’de yapılan bir aramada, hata olması durumunda
istenenleri getirmez, yani bir “ toplam hata” söz konusudur. Ancak
BGG’de, e� le� tirmede meydana gelen küçük hatalar, sistemin toplam
ba� arımına o kadar önemli etkilerde bulunmaz.
VGG ve BGG arasındaki farklılık, aslında uygulama
sahalarında da net bir � ekilde de gözükmektedir. � ekil 5.1.’de Veri’den
Bilgi Ke� fi/Madencili � i (VBK – Knowledge Discovery from Data,
KDD) ve belge uzayından Belge/Metin Madencili � i (BM –
Document/Text Mining, DM) u� ra� sahaları için, yapısal kurgular alt
süreçleri esasında e� le� tirmeli olarak gösterilmi � tir. Son ürünlerin,
VBK’da bilgi, BM’de enformasyon olmasının sebebi, VBK’da verinin
yapısal, BM’de ise do� al dil olmasıdır. VBK sahasında son süreç olan
de� erlendirme ile ( � ekilde “4” ile gösterilmekte) veri’ den bilgi elde
etmektir. BM sahasında ise, kar � ılık olan yorumlama süreci ile
enformasyon elde edilmektedir.
Bu tezin ara� tırma konusu olan BGG sistemleri, belge
madencili � i u� ra� sahasının ilk, yani giri � seviyesini olu� turan alt
süreçtir. Bu yüzden, BGG sistemlerinin ba� arımı, BM sahasının hedefi
olan “enformasyon’un ortaya çıkartılması” i � inin ba� arımında, en
belirleyici etmendir. Yani, belge uzayından alakalı belgelerin yüksek
bir ba� arı ile elde edilmesi, di � er süreçlerin ba� arımlarını, dolayısı ile
toplam sistem ba� arımını do � rudan etkiler.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
82
Veri
Veri
Veri
Veri
Veri’den Bilgi Ke � fi/Madencili � i (VBK)
De � erlendirme
Veri Madencili � i
Dönü � türüm
Seçim&
Ön-i � lem
Ön-i � lemdengeçmi � veri
Dönü � türülmü � Veri
Desenler
Belge/Metin Madencili � i (BM)
BelgeVeritabanı
AlakalıBelgeler
Dönü � türülmü �Belgeler
EnformasyonMadencili � i
1
2
3
EnformasyonÇıkarımı
BilgiGeri-Getirim
BelgeUzayı
Desenler
Bilgi
Yorumlama
4
Enformasyon
�ekil 5.1: Bilgi Ke� fi/Madencili � i ve Belge/Metin Madencili � i u� ra� larına ait yapısal
kurguların kar � ıla� tırması. “Veri’den Bilgi Ke� fi” ve “Belge Madencili � i” sahalarındaki alt süreçler, yapısal ve içerik benze� imleri nispetinde kar � ılıklı e� le� tirilmi � tir.
5.1. Genel Sistem Yapılanması
BGG sistemlerinin kullanım sahasında, sistem dı � ı etmenlerle
etkile� imleri en genel hali ile � ekil 5.1.1.’de çizge olarak tasvir
edilmi � tir. Herhangi bir BGG sisteminin etkile� imde oldu u dı � etmenlerden iki girdi unsurudur: sorgu ve belge uzayı. Sistem sorgu ile
uzaydaki belgeler arasında bir alaka/ili ki kurarak, en yüksek alaka
de erine sahip olan belgelere ait kılavuzları çıktı olarak verir (alakalı
belge adresleri). Verilen çıktı’ nın, talebi kar � ılama ba� arımı, her zaman
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
83
geçerli olmasa da talepte bulunan kullanıcı nezdinde sorgu inceltme
(query refinement) amacı ile geri-besleme olarak sisteme girdi
yapılabilir.
BGGSistemi
Çıktı
Geri-Besleme
Sorgu
BelgeUzayı
�
ekil 5.1.1: Bilgi geri-getirim sistemlerinin genel kurgusu.
Tüm BGG sistemlerinin hedefinde “ kullanıcının enformasyon
ihtiyacını kar � ılamak amacı ile alakalı belgelerin etkin � ekilde geri-
getirimi” vardır. Sistem içinde söz konusu etkin geri-getirim ise,
birbirinden ba� ımsız üç sürecin ortaklı � ı ile gerçeklenir:
1. Kullanıcı hizmetleri,
2. Belgelerin ve sorguların sayısal temsil � ekli ve
3. Geri-getirim yöntemi.
BGG sistemleri, kullanıcı için iki temel hizmeti sa� larlar.
Bunlardan birincisi, kullanıcının bilgi ihtiyacını kar � ılamak üzere geri-
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
84
getirim hizmeti; ikincisi de geri-getirim sistemi ile elde edilmi � alakalı
belgelerin kullanıcı tarafından incelenmesini sa� layacak ara-yüz, daha
do� rusu sonuçlara göz-atma (browsing) i � lemi için gerekli ortamın
sa� lanmasıdır. Kullanıcı bakı � ı açısından, bir BGG sistemi tarafından
verilen hizmetler ve birbirleri ile ili � kileri çizge olarak � ekil 5.1.2.’de
verilmi � tir.
Geri-Getirim
Göz-atma
BelgeUzayı
Kullanıcı
Sorgu
Çıktı
GeriBesleme
�ekil 5.1.2: Kullanıcı bakı � açısından, BGG sistem hizmetleri.
Bu tez kapsamına, BGG sistemlerinin kullanıcı bakı � açısından
sadece geri-getirim hizmeti girmektedir; göz-atma (Browsing) hizmeti
olarak adlandırılır. Tam metin sayısal belge temsili, yordamın çıktısı
olarak elde edilebilecek temsillerin en ilkel � eklidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
87
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
� � � � � � � � � � � � � � � � � � � �
Noktalama,bo �luk vb.
YapısalAlgılama
Durma-kelimeleri
KelimeGurupları Gövdeleme
Elle/Otomatik
�
ndeksleme
Metin
Metin+Yapı
Belge
Belge Temsilinin Çe �itli Halleri
Tam Metin
�
ndeksTerimler
0
1 2 3 4
�
ekil 5.3.1: Bilgi geri-getirim sistemlerinde alt süreçler esasında sayısal belge temsil yordamı.
�
ekilde kesikli oklar seçimlik; kesiksiz oklarsa zaruri alt süreç i �lemlerine, yordam akı �ını yönlendirmektedir. Seçimlik i �lemler 1, 2, 3 ve 4. i �lemlerdir. “0.” i �lem, yani Noktalama, bo �luk vb. ile etiketli olan genel geçerdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
88
Aslen, simgele � tirme veya metin normalle � tirme belge ve sorgu
temsili olu� turma süreçlerinde kullanılacak simgelerin, yani silsiledeki
di � er süreçler için temel hesaplama birliklerinin tespit edildi � i adımdır.
Di � er adımların tamamında bu adımda olu� turulan simgeler bir
hesaplama birimi olarak ele alınır. En basit hali ile simgele� tirme
kelimelerin ve kelime aralarında kullanılan di � er yazım sembollerinin
belirlenmesi olarak tanımlanabilir. � ekil 5.3.2.-(a)’da örnek bir yazılı
yalın Türkçe metin ve (b)’de de bu metnin normalle� tiri lmi � hali
gösterilmi � tir. Örnek metnin içinde aynı zamanda biçimlendirme de
iptal edilmi � tir (Büyük/küçük harf, kalın, yatık vb. yazım biçimleri).
Durma kelimeleri (stop words) metin içeri � inde ta� ınan
enformasyon ile çok alakalı olmayan kelimelerdir. Bu kelimeler,
dervi � 'e ekonomi bakanlı ı yetmez sakın yanlı � anlamayın ba� lıktaki tespit bize ait de il devlet bakanı kemal dervi � 'in çok eski ve yakın dostu bülent eczacıba� ı böyle dü� ünüyor
Dervi � 'e Ekonomi Bakanlı ı yetmez! Sakın yanlı � anlamayın ba� lıktaki tespit bize ait de il. Devlet Bakanı Kemal Dervi � 'in çok eski ve yakın dostu Bülent Eczacıba� ı böyle dü� ünüyor:
dervi � 'e ekonomi bakanlı ı yetmez sakın yanlı � anlamayın ba� lıktaki tespit devlet bakanı kemal dervi � 'in eski dostu bülent eczacıba� ı dü� ünüyor
dervi � ekonomi bakan yetmez sakın yanlı � anla ba� lık tespit devlet bakan kemal dervi � eski dost bülent eczacıba� ı dü�
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
89
metinin içinden ayıklanırlar. Ta� ınan enformasyon ile alakalı olmama,
yani kelimelerin metin içinde ya gramer yada i � levsel olarak (örne� in
zamirler) kullanılması anlamına gelir. Do � al dilde bu kelimelerin sayısı
200-300 kelimeyi a� maz, ancak toplam kelime sıklı � ının yarısından
fazlasını olu� turabilir. Bu tip, gramer veya dilbilgisi yazım kuralları
gibi i � levleri olan kelimelerin metinden ayıklanması geleneksel
yöntemler içinde yaygın � ekilde görülen bir durumdur. � ekil 5.3.2.-
(c)’de normalle� tirilmi � metinden, bu kelimelerin ayıklanması ile elde
edilen örnek metin gösterilmektedir.
Biçimbirimsel normalle� tirme, yani gövdeleme, yapılan sorguyu
olu� turan kelimelerin farklı biçimlerini de içeren belgelerin, geri-
getiriminin sa� lanması için kullanılır. Ancak sondan eklemeli, çekimli
diller, örne� in Türkçe için bu amacın yanında ba� ka bir amaca daha
hizmet eder: indeks terim listesinin yönetilebilir boyutlarda tutulması.
� ekil 5.3.2.-(d)’de örnek metnin, gövdelenmi � hali gösterilmi � tir.
Analitik diller, yani bir kelimenin biçimbirimsel � ekilleri kısıtlı
olan dillerde, BGG sistemleri için biçimbirimsel normalle� tirme
nispeten basit yöntemlerle yapılabilmektedir. Örnek olarak, “Porter’s
Stemmer” otomatik gövdeleme yordamı, � ngilizce’deki tüm kelimelerin
yazımda kullanılan farklı biçimsel hallerini, sadece 120 kurala dayalı
olarak, gövdelerine indirgeyebilmektedir (Porter, 1980). Bu tür
yordamlarda, aslen dilbilimsel olarak gerçek köklere inildi � i
söylenemez. Dilbilimsel olarak gerçek kökün bulunması için kullanılan
yöntemse, sözlükten bakmadır. Daha do� rusu, tüm kelime köklerinin
bir liste halinde tutulması ve bu köklerden gövde türetme kuralları ile
kar � ıla� ılan kelimenin türetilerek bulunmasıdır. Ancak bu tür
yordamlarında gerçek kökün ne oldu� una dair belirsizli � e dü� tü� ü
durumlara sıkça rastlanmaktadır. Örne� in, � ngilizce “ saw” kelimesi,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
90
“see” , yani görmek fiilinin düzensiz ikinci hali midir? Yoksa “saw” ,
yani testere anlamında kullanılan bir isim midir? Böyle bir yordamla
ayırt edilemez. Belirsizli � in giderilebilmesi için, kelimenin kullanıldı � ı
yerdeki sözcük türünün (part-of-speech) iki ihtimalinden, yani isim ve
fii l halinden, hangisinin oldu� unun belirlemesi gerekir. Sözcük
türlerinin bulunması meselesi ise bu i � için geli � tirilmi � bir ba� ka
Tez kapsamımız içerisinde yaptı � ımız çalı � malar genel anlamda,
vektör uzayı modelini esas almaktadır. BGG sistemlerinin ba� arım
ölçümünü yaptı � ımız üstel-puanlama ölçütü de vektör uzayına kar � ı bir
seçenek olan gizli anlam indeksleme modelini (latent semantic
indexing) kurgusal olarak esas almaktadır. Dolayısı ile, bu bölümde söz
konusu iki model, yani vektör uzayı ve gizli anlam indeksleme
modelleri tanıtılacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
101
Söz konusu iki geri-getirim modelini tanıtmadan önce, her klasik
geri-getirim modeli için kullanılan, ortak simge sisteminin
tanıtılmasında fayda vardır.
Her hangi bir geri-getirim modeli olu� turan unsurlar, dört i � levsel
guruba ayrılabilir ve [B, Q, M, R(qi, bj)] gibi bir dörtlü simge sistemi ile
tanımlanabilir. Bu dörtlüyü olu� turan her simge ise model içinde � u
i � levlere kar � ılık gelirler:
1. B simgesi, belge uzayındaki belgelerin sayısal/mantıksal temsillerinin toplulu� undan olu� mu� kümeyi temsil eder.
2. Q simgesi, kullanıcılar tarafından enformasyon ihtiyaçlarını kar � ılamak amacı ile sisteme yönlendirilmi � “sorgu” ların sayısal/mantıksal temsillerinin toplulu� undan olu� mu� kümeyi temsil eder.
3. M simgesi, belgelerin, sorguların sayısal temsillerinin olu� turulması ve aralarındaki alakanın (e� le� tirme) ölçümü için kuramsal alt yapıyı, yani modeli temsil eder.
4. R(qi,bj) simgesi, her Qqi ∈ sorgusu ve Bb j ∈ belgesi için bir
gerçek sayı ile ili � ki de� eri belirleyen “ sıralama i � levi” ’ni temsil eder. Bu � ekildeki bir sıralama i � levi, her qi sorgusu için, belgeler üzerinde “alaka” ile do� ru orantılı bir sıralama tanımlar. Bir ba� ka söyleyi � le, örne� in belirli bir qi sorgusu ile en “alakalı” olan, yani il i � ki de� eri en büyük olan belge, birinci sırada, de� er olarak bir küçük olan belge ikinci sırada v.b. olacak � ekilde bir belge sırası tanımlar.
Her geri-getirim yöntemi, esas aldı � ı kuramsal alt yapı (M)
üzerinden, söz konusu dörtlüyü olu� turan simgelerin kar � ılık geldi � i
i � levsellik için, di � er i � levsel unsurların (B, Q, R(qi,bj)) nasıl
gerçekle� tirilece� ine dair yöntemleri veya yordamları tanımlar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
102
Tez kapsamımız dahilinde bu bölümde tanıtımını yapaca� ımız
geri-getirim modelleri, klasik modeller oldu� undan, bu yöntemlerin
ortak paydasında bulunan, genel kavramların ve kabullenmelerin de
anlatım içerisinde kullanılan � ekli ile, liste halinde verilmesinde fayda
vardır:
1. Modeller içerisinde, her belgenin sayısal/mantıksal temsili “ indeks terimlerin” toplulu� u olarak ele alınmaktadır. Ayrıca, bir belgenin sayısal temsilinde kullanılan indeks terimlerin de, birbirlerinden, olasılık/istatistik ba� lamında matematiksel esasta (yani da� ılımsal olarak), ba� ımsız oldu� u kabul edilmektedir.
2. E� er, bir belge toplulu� unda t adet farklı indeks terim oldu� u ve ki simgesinin bu indeks terimlerden belirli birini temsili etti � i kabul edilirse; K = {k1, k2, ..., kt} tüm indeks terimlerin kümesi olacaktır.
3. Belge toplulu� undaki her belge, Bb j ∈ ile, her indeks terim,
Kki ∈ terim arasında, yani her (ki, bj) ikilisi için a� ırlık olarak
adlandırılan, atanmı � bir gerçek de� er vardır. Bu a� ırlık wi,j simgesi ile temsil edilir ve her zaman sıfıra e� it veya büyük bir gerçek sayı de� erine sahiptir ( 0, ≥∀ jiw ).
4. Belge toplulu� undaki her belge, Bb j ∈ , model içinde kar � ılık gelen
bir indeks terim vektörü ile temsil edilir, ),,,( ,,2,1 jtjji kkkb �=
vardır.
5. Belge toplulu� undaki her belgenin model içindeki temsili olan
vektörler, jb üzerinde i � lem yapan ve Kki ∈ indeks terimi için
a� ırlık de� erini veren bir jiji wbg ,)( = i � levi tanımlıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
103
6.1. Vektör Uzayı Modeli
Vektör uzayı modeli, BGG sahasında en yaygın � ekilde
kullanılan geri-getirim modelidir. Bunun sebebi, modelin basitli � i ve
içerdi � i süreçlerin takip edilebilir olmasıdır. Sorgu ile belge arasında
kurulaması gereken anlamsal “alaka” yakınlı � ını, vektörlerin çok
boyutlu uzaydaki yakınlı � ı ile temsili olarak tanımlar.
Vektör uzayı modelinde sorgular da indeks terim vektörleri ile temsil edilirler. Yani, her sorgu, Qqi ∈ için, belgelerde oldu� u gibi
kar � ılık gelen bir indeks terim vektörü, ),,,( ,,2,1 itiii kkkq �= vardır.
Modelde, belgeler ile sorgular arasında anlamsal olarak belirlenmesi,
nicel olarak ölçülmesi gereken “alaka”, temsili olarak
terimlerinin birlikte gözükme açısından aynı (de� er olarak aynı) ancak,
anlamca farklı oldukları (pozitif ve negatif) gözükmektedir. Aslen,
anlamca farklı olu� un ortaya çıkmasının sebebi, “bilgisayar” teriminin
d3 ve d4 belgelerinde yalnız ba� ına kullanılıyor olması etkisiyle, yani
birlikte gözlenme olmaması sebebiyle ortaya çıkmı � tır. Tahmin
edilece� i gibi, bazı durumlarda birlikte gözükme ile, aynı konu
ba� lı � ına sahip terimlerin belirlenmesinde mesele çıkabilir. Fakat, ço� u
zaman aynı konu ba� lı � ına sahip terimler tespit edilebilmektedir.
Bu terim benzerliklerinin belge benzerliklerine farklı bir etkisi vardır. � ekil 6.2.3.’de özgün 43xA örnek matrisinin kar � ılıklı i li � ki
katsayıları, matris halinde verilmi � tir ( 43xA örnek matrisi, sütunları,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
113
yani belgeleri temsil eden vektörleri, uzunluk ile normalle� tirilmi �
durumdadır. Çünkü, kar � ılıklı ili � ki matrisi, AAE T ⋅= ile elde
edilmektedir). ESA ile k=2 için, A matrisinin yakınsaması üzerinden elde edilen kar � ılıklı ili � ki katsayı matrisi için, 4222 xx BSD ⋅=
� eklinde, B matrisinin yeni uzay için ölçeklendirilmi � hali
kullanılmaktadır, yani DDE T ⋅= (aynı � ekilde D matrisi de, sütunları
normalle� tirilmi � olarak i � leme alınır).
(a) b1 b2 b3 b4
b1 1.000
b2 0.500 1.000
b3 0.000 0.707 1.000
b4 0.000 0.707 1.000 1.000 (b)
b1 b2 b3 b4
b1 1.000
b2 0.564 1.000
b3 -0.033 0.807 1.000
b4 -0.033 0.807 1.000 1.000
�ekil 6.2.3: Belgeler arası kar � ılıklı ili � ki katsayı matrisleri. (a) Özgün örne� in terim-
belge matrisi ile olu� turulan (ATA) ve (b) k=2 için ESA yakınsaması ile olu� turulan yeni uzayda ölçeklendirilmi � belge matrisinden olu� turulan (DTD) kar � ılıklı ili � ki katsayıları matrisleri.
�ekil 6.2.3-(b).’de verilen, yeni uzay için ölçeklendirilmi � belge
matrisi için hesaplanan kar � ılıklı ili � ki katsayılarında b1 ile b3 ve b4
arasında bir ili � ki oldu� u gözükmektedir (-0.033). Özgün belgeler için
hesaplananda, yani �ekil 6.2.3-(a).’da böyle bir benzerlik yoktur.
Dikkat edilmesi gereken noktalardan bir tanesi de � udur: Özgün A
matrisine ait kar � ılıklı ili � ki katsayıları ile, ESA yöntemi ile elde edilen
S ve B matrisleri oldu� u gibi kullanılarak hesaplanacak kar � ılıklı il i � ki
katsayıları birbirine e� it olur. Yani, aslen boyutsal bir indirgeme
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
114
yapılmadı � ı takdirde, belgeler arasındaki kar � ılıklı ili � kilerde bir
de� i � iklik olmaz. Boyutsal indirgeme yapıldı � ında, birlikte gözlenme
desenlerinden elde edilen enformasyon, belgeler arasındaki benzerlik
için kullanılmaya ba� lar.
Gizli anlam indeksleme ile sorguların ne � ekilde yeni uzayda
temsil edilece� i de tanımlanınca, bu model uygulamada kullanılır hale
gelmektedir. Bir kez sorgu, yeni uzaydaki belgelerle aynı ölçe� e
alındı � ında, vektör uzayı modelindeki benzerlik ölçütü sorgu ile
belgeler arasındaki alakanın ölçümü için kullanılacaktır. Denklem
6.2.2.’de özgün terim-belge matrisinin, yeni uzaydaki yansıması
Denklem 6.2.1.’den türetilmi � tir. Sorgu da, belgelerle aynı ölçekte
olacak � ekilde, yeni uzaya yansıtılmaktadır.
qT
BSAT
BSTTAT
BSTA
T
TT
TTT
�∴
⋅=⋅⇔
⋅⋅⋅=⋅⇔
⋅⋅=
(6.2.2)
Olumlu yönleri;
• Terimler arası birlikte gözlenme enformasyonundan faydalanır. E� anlamlı, ancak farklı biçimli kelimeleri benze� tirir.
Olumsuz yönü;
• ESA yönteminin hesaplama karma� ıklı � ı çok yüksektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
115
7. � NDEKSLEME VE � NDEKS TER � MLER
Amerikan Ulusal Standartlar Enstitüsünün 1968 yılında (ANSI
1968) � ndeks kavramı için verdi � i tanım:
“ Bir ö� eler toplulu� unun içindeki bireysel ö� eler veya bu ö� elerden türetilmi � kavramlar için olu� turulmu� sistemli bir kılavuz. Bu ö� eler veya türetilmi � kavramların kılavuz içindeki temsilcileri ise bilinen veya verilen, örne� in alfabetik, tarihsel veya sayısal bir sıralama içindedirler.”
� ndeksleme için verilen tanım:
“ � ndeksleme: Bilgi kayıtlarından enformasyon muhteviyatını analiz etme; ve indeksleme sistemi’nin dili ile bu enformasyon muhteviyatını beyan etme i � lemidir. Bu i � lem sırasıyla: bir belgede indekslenebilir muhteviyatın seçilmesi ve indeksleme sisteminin dili ile bu muhteviyatın beyanının sıralı bir liste haline getirilmesi adımlarından olu� ur.”
Bir indeksleme sistemi için verilen tanım:
“ Geri-getirim veya da� ıtım, yani yayma amacıyla bilgi kayıtlarının muhteviyatını organize eden (elle veya otomatik) nizam koyucu yöntemler/yordamlar kümesi.”
Bir indeks terim ise, yukarıda verilen tanımların ı � ı � ı altında, bir
metnin içeri � inde bulunan enformasyonun (veya üst –meta-
enformasyonun) kayda de� er bir kısmını içeren ifadedir. Örne� in bir
kitap indeks’ i, o kitabın muhteviyatında bulunan önemli içerikleri, daha
do� rusu kavramları temsil eden terim’ lerden olu � ur: konular, ki � iler,
yerler gibi.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
116
BGG sistemlerinde indeksleme dili, belge ve sorguları tasvir
eden, sistem içinde, içsel temsilini sa� layan dildir; söz konusu dilin
yapı ta� ları ise indeks terim’ lerdir, bir ba� ka adla anahtar kelimelerdir. �ndeksleme, insanlar tarafından elle veya bilgisayarlar tarafından
otomatik olarak yapılabilir. �ndeks terimler, aslen olu� turuldukları
metnin veya belgenin içindeki kelimelerin yazım biçimlerinden
ba� ımsızdırlar. Bu açıdan indeks terimler, olu � turuldukları metnin
yüzeysel bir özeti gibi dü� ünülebilir. Ancak, indeks terimlerin asıl
amaçları kullanıcıyı metnin içeri � inde ne oldu� u konusunda haberdar
etmektir. Bu sebeple söz konusu özet, metnin içeri � ini olu� turmada
kullanılan konuları, kavramları içerir, içeri � in bizzat kendisi de� ildir.
Tüm indeksleme i � lerinin kökeninde, kullanıcılara ihtiyaç
duydukları enformasyona ula� maları için kılavuzluk etme amacı vardır.
Ancak indeksler, bir çok tür ve detay seviyelerde olu� turulabilirler.
Farklı tür ve seviyeler ile olu� turulabilecek indeksler, a� a� ıdaki
guruplar altında sınıflandırılabilir (Cleveland and Cleveland, 1983).
1. Kelime ve isim indeksleri: Bu tür indekslerde indeks terimleri, kelimelerin metnin içinde görüldükleri � ekillerinden olu� ur ve bir kelime hazinesi sınırları yoktur.
2. Kitap indeksleri: Terimler genellikle elle olu� turulur ve metnin içinde görüldükleri yazılı � ekillerinden farklıdır. Örne� in bir indeks terimi “Dinozorlar, bkz. Dinozor” � eklinde metnin içinde geçti � i
� eklini, indeks terim olan � ekline yönlendirebilir.
3. Periyodik (süreli yayın) indeksleri: Periyodik indeksler, kapsamlarının daha geni � olmalarının haricinde, tamamen kitap indekslerinin yapısal özelliklerine sahiptirler. Periyodik indeksleme projeleri ucu açık projelerdir, hiçbir zaman sonlanmazlar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
117
4. Bilgi geri-getirim sistem indeksleri: Bu indeksleme türünün amacı, içerik belirticileri i � aretleyerek, alakalı belgelerin etkin � ekilde geri-getirimini sa� lamaktır.
Tez kapsamımızda, indeks sınıfı olarak bilgi geri-getirim sistem
indeksleri ele alınmaktadır.
BGG sistemlerinde, sayısal belge temsili için indeks terimlerin
seçimi iki yoldan yapılabilmektedir: elle veya otomatik. Elle indeks
terim seçiminde, metnin içeri � ini temsil eden terimler, bir veya birkaç
ki � i tarafından i � aretlenir ve listelenir. � kinci yöntemde ise, yani
otomatik olarak indeks terimlerin seçiminde, metnin içeri � ini temsil
eden terimlerin, bir bilgisayar yordamı ile otomatik olarak bulunması,
dolayısı ile indeks terim listesinin otomatik olu� turulması söz
konusudur. � � te, hangi kelimelerin veya kelime guruplarının metnin
içeri � ini temsil etti � ini, bilgisayar yordamları ile bulma i � ine otomatik
indeks terim seçimi denir.
7.1. Elle � ndeksleme
Bir belge toplulu� una, yeni bir belge katıldı � ı zaman,
indekslemeyi yapacak ki � i veya ki � ilerin cevaplamak zorunda oldukları
bir takım sorular vardır (Lancaster, 1991):
1. Belge ne hakkında?
2. Neden, belge toplulu� una eklenmek zorunda?
3. Kullanıcıları ilgilendiren yönleri nelerdir?
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
118
�ndekslerin, özellikleri ve kalitesi çok geni � bir yelpazede
de� i � iklik gösterir. Elle indeksleme için, indeksleme yapan ki � iye yol
göstermesi açısından yordamlar ve talimatlar olu� turulabilir. Ancak, bir
indeksleme i � lemi çok çe� itli u� ra� lardan meydana gelmektedir
(Cleveland and Cleveland, 1983):
1. �çerik analizi,
2. �çerik belirticilerin i � aretlenmesi,
3. Yer, pozisyon belirticilerin i � aretlenmesi,
4. Sonuçta olu� an kılavuzların elden geçirilmesi,
5. Son indeks � eklinin nasıl gösterilece� inin belirlenmesi.
�çerik belirticilerin tespiti, çok dikkatli bir içerik analizi
gerektirmektedir. Bu i � lem içinde, metinde geçen ba� lıklar, alt ba� lıklar
ve özet iyi birer içerik belirtecidir. Belge incelenip, içerdi � i metinlerin
konuları belirlendikten sonra, yapılması gereken, indeksleme dilinin
kontrollü kelime da� arcı � ı içinden konuların bulunmasıdır. Daha sonra,
bu kontrollü kelime da� arcı � ından elde edilmi � , terimlerin standart bir
e� anlamlılar sözlü� ünden kontrol edilerek son halini alması sa� lanır.
E� anlamlılar sözlü� üne bakılmasının sebebi, terimin tam kar � ılı � ının,
e� anlamlısının, dar anlamlısının, daha geni � anlamlısının veya ili � kili
terimlerin de tespit edilmesidir. �ndeksleme i � lemi için konulmu �
kuralların ço � unun amacı, indekslerin kalitesini arttırmaktır. Fakat söz
konusu kurallar evrensel de� ildir. Hatta, bazı indeksleme kılavuzlarında
bulunan kurallar birbirleri i le çeli � kili bile olabilir. Bu kuralların neler
olabilece� ini a� a� ıda verilen örne� i inceleyerek çıkarabiliriz (Cleveland
and Cleveland, 1983):
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
119
1. Tekil terimleri, ço� ul olanlarına yönlendir: örne� in “kitap, bkz. kitaplar.” gibi.
2. Terimin de� i � ik anlamlarını ifade etmek için, kullanıcının kastedilen anlamı kavrayabilmesi için, bir tümcede kullan: örne� in “matematik, ö� retiminde bilgisayarın kullanımı” veya “bilgisayar, matematik ö� retiminde kullanımı” gibi.
3. Yazarları, ilk adlarını dahil ederek kullan: “Dinçer, B.T.” gibi.
4. Yazar tarafından vurgulanmak, açıklanmak istenen kadar özele indirgenmi � � ekilde indeks terimler seç (E� er yazarın seçti � i terim, konu içerisinde kabul edilebilir bir seviyeye denk geliyorsa, daha üst genel hali ile indeksleme). Örne� in, yazar “F-16” uçaklarından bahsediyorsa, “F-16” olarak indeksle, daha üst genel konu ba� lı � ı olan “uça� ı” kullanma.
�ndekslemeyi yapan ki � i ayrıca, indeksin derinli � ini de, yani
kapsamı da iyi ayarlamalıdır. Bir ba� ka söyleyi � le, belge içerisinde
bahsedilen konu ba� lıkları en iyi � ekilde kapsanmalıdır. E� er, kapsam
çok yüzeysel olursa, kullanıcıların kaçırdı � ı kavramlar olabilir. E� er
çok fazla detay olursa, kullanıcı alakasız metinleri okumak zorunda
kalabilir. Özetle, kapsamı en iyi � ekilde belirleyebilmek oldukça güç ve
ciddi bir i � tir.
Bir çok kitap, isim indeksleri ile içerik indekslerini birbirinden
ayırır. �sim indeksleri metin içerisinde geçen özel isimlerin bir
kar � ılayan terimlerden olu� turulur. Borko ve Bernier (1978), daha
detaylı bir ayrım tarif etmi � lerdir:
1. Konu indeksleri: Konular, yapılan i � in bütünü ile hedef alınan � eydir, yani yazarın dikkatinin ve u� ra� ının yönlendi � i ana temadır. Bunlar, yapılan i � in özelliklerine ait çe� itli yönleri ortaya koyan özgün fikirler, açıklamalar veya tanımlamalardır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
120
2. Kavram indeksleri: konular bazen di � er bazı kavramların tanıtılmasına, içinde geçen fikirlerin açıklanmasına ve örneklerle izah edilmeye ihtiyaç duyabilir. Bu tür kalemler, kavram olarak tanımlanır. Kullanılmalarındaki amaç, ana “ konu” nun anla� ılmasını sa� lamaktır, ancak kendileri “ konu” de� illerdir, dolayısı ile konu indekslerinde de� il, bu � ekilde kavram olarak indekslenmeleri gerekir.
3. Ba� lık indeksleri: Ço� u metin ba� lıklara bölünmü � tür, sıklıkla da alt ba� lıkları vardır. Bu ba� lıkları veya alt ba� lıklarını indekslemek, ba� lıklar için bir indeks olu� turacaktır. Bazı durumlarda bu ba� lıklar, “konu” olabilir, bu durumda konu indeksleri içerisinde yer almalıdır. Genellikle, konu indeksleri için çok geni � kapsamlı olurla; bazen de hedef alınan konunun tanıtımı, do� rulaması, ispatı amacı ile kullanılan kavramlardır.
4. Kelime indeksleri: kitap içerisinde geçen tüm kelimelerin birli � idir, veya kelime indeksidir. Bir konu indeksi de� ildir.
En kalabalık olan indeks kelime indeksidir. Bir sonraki kalabalık
indeks, kavram indeksi; ba� lık indeksi bir sonraki; en seyrek olan
indeks de konu indeksidir. Tez kapsamında, ele alınan indeks terimler,
kavram indeksleri ’dir. Aslen, otomatik indeksleme konusunda da
açıklanaca� ı gibi, indeks terimler, kelime indeksleri ile kavram
indeksleri arasında bir yo � unlu� a sahiptir. Sayısal belge temsili ile elde
edilen, kelime indeksleridir; otomatik indeksleme yordamından
beklenense, bu kelime indeksini mümkün oldu� unca kavram indeksine
do� ru götürmesidir.
7.2. Do� al Bir Dilde, Kelimeler in Da� ılımı.
Yazılı metinlerde bulunan simge veya simge birlikleri,
kelimeler, sayılar, çizimler v.b. insanlar tarafından anlam yüklenmi �
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
121
her türlü harf, sayı, i � aret ve bunların olu� turdu� u birliklerdir. Bir metni
olu� turan içerik, bu simge veya simge birlikleri ile kar � ılanan
anlamların bütününden olu� ur. Ancak, anlamsal-enformasyonun yazı
ile iletiminde metni olu� turan her simge veya simge birli � inin temsil
etti � i anlam, metnin içeri � ine, yani anlamlar bütününe her durumda e� it a� ırlıkta, yani aynı önemde katkıda bulunmaz veya bazıları hiç katkıda
bulunmaz. Anlamsal-enformasyon bakı � açısından, “yazılı bir metinde
kelimelerin gözlenme sıklıkları” ile “bu kelimelerin kar � ıladıkları
anlamların muhtemel enformasyonu olu� turan anlamlar bütünü içindeki
önem dereceleri” arasındaki ili � ki Luhn10 (1958) tarafından � ekil
7.2.1’deki gibi betimlenmi � tir. Luhn, yazılı metinlerde orta frekanslı
kelimelerin önemli, dü� ük ve yüksek frekanslı kelimelerin önemsiz
olduklarını söylemi � tir. Ta� ınan enformasyona katkıları açısından,
önemsiz kelimeler, dilin yazım kuralları, yani dilbilgisi içinde görevli
olan ve yüksek sıklıkta gözlenen kelimeler ile metin içinde çok az
görülen kelimeler dahil edilir. Bu tür önemsiz kelimeler i � levsel olarak
görevli veya i � lev terimler olarak adlandırılır, yani yazım veya anlatım
içinde i � levleri vardır ancak nakledilen enformasyon ile ilgili
de� illerdir.
10 Hans Peter Luhn (1896-1964). Alman uyruklu bir mühendistir. Bilgi geri-getirim’ in fikir babası olarak bilinir. � lk otomatik anahtar kelime indeksleme yöntemi olan (KWIC) ve enformasyonun seçici da� ıtımı (SDI- Selective Dissemination of Information) sistemlerini ortaya atan ki � idir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
122
Kel
imen
in ö
nem
i
Kelime frekansı
Önemliorta frekanslılarÖnemsiz
dü � ük frekanslarÖnemsiz
yüksek frekanslar
�ekil 7.2.1: Kelimelerin frekansları ile muhtemel enformasyonu temsile katkı miktarı
arasındaki ili � kinin çizgesi (Luhn, 1958, uyarlama).
“ ... Burada, kelimelerin bir makale içinde görülme sıklıklarının kelime öneminin ölçülmesi için kullanı � lı bir alt yapı hazırlayaca� ı önerildi. Ayrıca bir de önem de� eri atanmı � kelimelerin cümle içinde göreceli yerleri, cümlelerin öneminin belirlenmesinde kullanı� lı bir alt yapı hazırlar; Dolayısı ile bir cümlenin önem etmeni, bu iki ölçümün birle� imini esas alabilir. ...”
(Luhn, 1958)
Sinyal-enformasyon bakı � açısından (Bölüm 3.2.3), enformasyon
ile sinyal arasındaki ili � ki, anlamsal-enformasyon bakı � açısından
(Bölüm 3.2.1), enformasyon ile anlam arasındaki ili � kiden, köken
olarak farklıdır. Sinyal-enformasyon bakı � açısı içinde, gözlenme
olasılı � ı en dü� ük olan sinyal en yüksek enformasyona sahipken;
anlamsal-enformasyon bakı � açısından, Luhn tarafından tanıtılan kuram
gere� i, orta sıklıkta görülme olasılı � ına sahip kelimeler en yüksek
enformasyon de� erine sahip olmaktadır. Örne� in bir ba� lık altında
belirli bir konudan bahsederken nakledilmek istenen enformasyonu
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
123
temsil eden ve temsile yardımcı olan simge birlikleri sıkça geçer, yani
görülme olasılı � ı artar. Bu durum, söz konusu simge birliklerinin
sinyal-enformasyon de� erinin azalmasına sebep olurken; Luhn kuramı
gere� ince, belirli bir e� ik de� erinden sonra ve bir üst sınırdan önceki
aralıkta gözlenme sıklı � ına sahip olanların, anlamsal-enformasyon
de� erinin, aralı � ın dı � ında kalanlardan daha fazla olmasına sebep olur.
Luhn tarafından ortaya konan kelimelerin bir metin içindeki
gözlenme sıklıkları ile ta� ınan enformasyona katkı açısından önemleri
arasındaki ili � ki, aslında Zipf (1929; 1949) tarafından ortaya atılan ve
Asgari Gayret (Least Effort) ilkesi içerisinde geçen “birinci kanunu”
esas almaktadır (Manning and Schütze, 2003). Zipf birinci kanunu: bir
belge içindeki kelimelerin gözlenme sıklıkları büyükten küçü� e
sıralandı � ında, gözlenme sıklıkları (f) ile sıra numaraları (r) çarpılarak
elde edilecek sayısal de� erin (c), yakla� ık olarak sabit kalması olarak
tanımlanır (Çizelge 7.2.1; Denklem 7.2.1).
Çizelge 7.2.1: Zipf birinci kanunun, Tom Sawyer romanı üzerinde deneysel de� erlendirmesi (Manning and Schütze, 2003, uyarlama).
Kelime Sık ( f ) Sıra (r ) f x r Kelime Sık ( f ) Sıra (r ) f x r
the 3332 1 3332 comes 16 500 8000
and 2972 2 5944 group 13 600 7800
a 1775 3 5235 lead 11 700 7700
he 877 10 8770 friends 10 800 8000
but 410 20 8820 begin 9 900 8100
be 294 30 8820 family 8 1000 8000
there 222 40 8880 brushed 4 2000 8000
one 172 50 8600 sins 2 3000 6000
about 158 60 9480 could 2 4000 8000
more 138 70 9660 applausive 1 8000 8000
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
124
rfsabitrf
1 veya ∝≈×
(7.2.1)
Mandelbrot (Manning and Schütze, 2003) daha büyük derlemler
ile yaptı � ı çalı � malarda, Zipf tarafından verilen genellemenin aslında
detayları belirleyicilik noktasında, çok kötü oldu� unu ortaya
koymu� tur. Mandelbrot sıra ile sıklık arasındaki genel ili � kiyi
kelimelerin deneysel da� ılımına daha uygun olacak � ekildeki Denklem
7.2.2’de oldu� u � ekilde de� i � tirmi � tir.
)log(loglog veya)( ρρ +−=+•= − rBPfrPf B (7.2.2)
Denklem 7.2.2.’de P, B ve ρ metne ait parametrelerdir ve hep
birlikte metinde kullanılan kelime da� arcı � ının zenginli � ini ortaya
koyarlar. Zipf tarafından verilen özgün ili � kideki hiperbolik da� ılım
(Denklem 7.2.1), Denklem 7.2.2. için de geçerlidir. Denklem 7.2.2.
verilen ifade, logaritma ölçekli eksenler kullanılarak çizgeye
dönü� türüldü� ünde, sıralamanın (r) en yüksek de� eri için e� imi –B
olan bir do � ruya çok az hata ile uyum gösterir. E� er denklemde, B=1
ve ρ=0 alınırsa aslen, Zipf birinci kanunu için Denklem 7.2.1.’de
verilen ifadeye e� it oldu� u görülür. Mandelbrot tarafından, ifadede P =
105.4, B=1.15 ve ρ=100 parametre de� erleri için Brown külliyatı ile en
iyi uyumun yakalandı � ı belirtilmi � tir.
7.2.1. Zipf Güç Kanunları
Günümüzde, geleneksel BGG sistemlerinin, e� er hepsi de� ilse,
büyük bir kısmında, bir kelimenin metin içinde gözlenme sıklı � ı, bu
kelimenin metnin içeri � ini temsildeki önemini belirlemede en temel
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
125
özellik olarak kullanılmaktadır. Ayrıca, görülme sıklı � ı ile metin
içeri � ini temsildeki önem arasında ili � kiye ait, Luhn tarafından ortaya
atılan model de, en baskın olan, daha do� rusu tek modeldir. Bu
modelin kuramsal alt yapısı Zipf (1929; 1949) tarafından ortaya atılan
birinci güç kanunudur. Zipf birinci kanunu, Denklem 7.2.1.1.’de bir
hesaplanmaktadır. Normalle� tirilmi � belge uzunlu� unun da hesaba
katıldı � ı a� ırlıklandırma � eması, k terimi için, Denklem 7.3.3.’de
verilmi � tir.
kii
kkiki tfNBUbbK
Kidftfw
,
,, ))(1(1
)11(
+⋅+−⋅+⋅⋅
= (7.3.3)
Denklemde, K1 ve b uyarlama sabitleridir. K1 sabiti i le terim
frekansının etkisi geni � letilir. Bu sabitin, en iyi de� eri belirlenmi � bir
derlem üzerinde yapılan denemelerle tespit edilir. TREC (Text
Retrieval Conferences) çalı � maları sırasında, K1=2 de� erinin etkin bir
de� er oldu� u tespit edilmi � tir. Uyarlama sabitlerinden ikincisi olan b
ise, belge uzunlu� unun etkisini ayarlamaktadır. Bu sabit 0 ile 1
arasında de� i � mektedir. E� er, b=0 olursa, belgelerin birden fazla konu
ba� lı � ı içermesi dolayısı uzun oldu� u kabul edilir. E� er, b=1 olursa,
belgelerin tekrarlar yüzünden uzun oldu� u kabul edilmi � olur. TREC
çalı � malarında b=0,75, en uygun de� er olarak saptanmı � tır.
Buckley (1996) ve arkada� ları tarafından, TREC-4 çalı � malarında
tanıtılan bir di � er indeks terim a� ırlıklandırma yöntemi de ltu � emasıdır
(Denklem 7.3.4.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
132
NBU
idftfw
i
kkiki ⋅+
⋅+=
2.08.0
)1)(log( ,, (7.3.4)
Bir di � er TFxIDF türevi a� ırlıklandırma � eması da, Okapi olarak
adlandırılandır (Robertson and Walker, 2000). Okapi, kuram olarak
Poisson da� ılımını esas almaktadır, daha do� rusu 2-Poisson olarak
adlandırılan terim da� ılım yakla� ımına dayanmaktadır (Van Rijsbergen,
1979). Okapi a� ırlıklandırma � eması ile, bir terimin bir belge için
a� ırlı � ı Denklem 7.3.5.’de verilmi � tir.
idf
idfN
tfNBU
tfw
k
k
kii
kiki )
5.0
5.0log(
5.15.0 ,
,, +
+−+⋅+
(7.3.5)
Sinyal-gürültü oranı, sinyal-enformasyon kuramını esas alır
(Bölüm 3.2.3). Sinyal-enformasyon fikrinde, bir kelimenin gözlenmesi
olasılı � ı arttıkça, ta� ıdı � ı, yani kar � ıladı � ı enformasyon de� eri dü� er.
Sinyal-enformasyon fikri ile benzer � ekilde, bir terime k, ait gürültü de
hesaplanabilir (Denklem 7.3.4).
Gürültük
ki
kn
i k
ki
tf
F
F
tf
,2
1
, log�==
(7.3.4)
Denklem 7.3.4.’deki ifadede, Fk, k teriminin derlem içindeki
toplam gözlenme sıklı � ı, tfi,k ise i belgesinde k teriminin gözlenme
sıklı � ıdır. Derlemdeki toplam belge sayısı n ile temsil edilmi � tir. Bir
içeri � i temsil etmeyen, yani i � levsel olan kelimeler derlem içerisinde
daha yaygın gözlenece� i için, sahip oldukları gürültü de� eri de yüksek
olacaktır. Dolayısı ile bir k terimin sinyal de� eri hesaplanırken,
gürültünün tersi, yani tamlayanı kullanılabilir (Denklem 7.3.5.).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
133
Sinyalk −= kF2log Gürültük (7.3.5)
E � er, bir belgenin indeks terimlerine ait sinyal de� erleri büyükten
küçü� e sıralanırsa, belge uzayında çok az belgede gözlenen ve sıralama
yapılan belgeyi ayırt edenlerinin çok yüksek sinyal de� erlerine sahip
oldu� u görülür. Temsil i le ayırt etmenin enformasyonunu birlikte
kullanmak için sinyal de� eri, terimin frekansı ile çarpılır (Denklem
7.3.6.).
wi ,k = tfi ,kxSinyalk (7.3.6)
Terim ayırt etme de� eri, belirl i bir terimin, bir belgeyi di � erinden
ayırt etmek için ne kadar enformasyon sa� ladı � ının bir ölçüsüdür. Bir
terimin k, ayırt etme de� eri, ADk, iki belgenin benzerli � ini içerdikleri
terimler üzerinden hesaplanması ile elde edilen benzerlik de� eri, BD
ile, k terimi belgelerden çıkarıldıktan sonra hesaplanan benzerlik
de� eri, BDk, kar � ıla� tırılarak hesaplanabilir (Denklem 7.3.7.).
ADk = BDk - BD (7.3.7)
Ayırt etme de� erleri hesaplanan terimler, daha sonra üç gurup
altında toplanır:
1. Ayırt edicilik de� eri pozitif olan terimler. Bu terimler, güçlü indeks terimlerdir.
2. Ayırt edicilik de� eri sıfır olan terimler. Bu terimlerin indeks terimler listesinden çıkartılması veya bırakılması belgeler arası benzerli � i etkilemez.
3. Ayırt edicilik de� eri negatif olan terimler. Bu terimler, zayıf indeks terimlerdir ve çıkartılmaları belgelerin benzerli � ine katkıda bulunmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
134
Terim ayırt etme de� eri de, öncekilerde oldu� u gibi yine
terimlerin frekansı ile çarpılarak indeks terim a� ılı � ı olarak
kullanılabilir (Denklem 7.3.8.).
wi ,k = tfi ,k x ADk (7.3.8)
7.3.1. � ndekslemenin Kapsamı ve Ter im Öznelli � i.
Geleneksel olarak, bir indeksleme sisteminin ba� arımının iki
etmene ba� lı oldu� u dü� ünülür: indekslemenin kapsamı ve terim
öznelli � i. Kapsamlı bir indeks, çok sayıda indeks terim içerir, fakat
kapsamı dar olan bir indeks, sadece en önemli konuları, kavramları
kar � ılayan indeks terimleri içerir. Daha kapsamlı bir indeks demek,
daha fazla belgenin geri-getirilece� i anlamına gelir ve anma de� eri
yükselir. Aynı zamanda, geri-getirilen belgeler arasındaki alakasız
belgelerin oranı da artar, dolayısı ile duyarlılık azalır. Anma ve
duyarlılık arasındaki rekabet bu ba� lamda ortaya çıkar.
Di � er taraftan, terim öznelli � i, indeks terimlerin konu ve
ba� lıkları kesinlik içerisinde kar � ılayabilmeleri ile alakalıdır. E � er
indeks terimler çok yüksek de� erlerde öznelli � e sahiplerse, bu
duyarlılı � ı arttırabilir, yani çok az sayıda belge geri-getirilece� i için
ço� u sorgu ile alakalı olacaktır. Geni � anlam içeren terimler, dar anlam
kar � ılayan terimlerde oldu� u � ekilde alakalı dokümanlarla, alakasızlar
birbirinden ayırt etmekte kullanılamazlar. Dar ve öznel terimlerin
kullanılması anmaya etki eder, bunun sebebi ise, alakasız belgelerle
birlikte bir çok alakalı belgenin de geri-getirilmemesidir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
135
Ayırt edicilik de� eri sıfıra yakın, dü� ük frekanslı, dar anlamlı
kelimeleri, e� anlamlı kelimeler sözlü� ü kullanarak daha geni � bir
gurup altında toplamak mümkündür. Aynı � ekilde, ayırt edicilik de� eri
negatif olan, yüksek frekanslı, geni � terimleri de, bir araya getirerek,
yani kelime gurubu olarak de� erlendirerek kullanmak mümkündür.
Örne� in, “ i � ” ve “ güç” kelimelerini tek ba� larına dü� ündü� ümüzde,
kavram olarak çok geni � tirler. Ancak “ i � gücü” � eklinde ele
alındı � ında, ekonomide kullanılan bir kavramı kar � ılarlar ve tekil
oldukları durumdan daha dar bir terimsel anlam kar � ılarlar.
7.3.2. Kelime Gurupları ile � ndeksleme
Tek kelimeden ibaret indeks terimler yerine, iki veya daha fazla
kelimeden olu� mu� , kelime gurupları ile indeks terim olu� turmak, geri-
getirim duyarlılı � ını artırıcı bir etki yaratır. Tekil kelimelerden indeks
terimler yaratmak iki çe� it meseleyi gündeme getirmektedir (Zhai et al.,
1997):
1. Tek kelimeden olu� an indeks terimler yanıltıcı olabilir. Sözcüksel atom11 ba� lamında, örne� in “ hot dog” (sosisli sandviç), kelime gurubunu olu� turan bireysel kelimeler birlikte kar � ıladıkları anlamı ta� ımamaktadır ve bireysel olarak indeks terim olarak kullanılırlarsa, çok yanıltıcı olurlar.
11 Zhai ve Evans, “sözcüksel atom” terimini, anlamca tutarlı kelime gurubu olarak tanımlamaktadır. Sözcüksel atomlar, özel isimlerde, deyimlerde ve bir çok isim tamlamasında bulunabilmektedir. Sözcüksel atomu olu� turan kelimelerin, tekil anlamları ile, birlikte ifade ettikleri anlam arasında bir ili � ki yoktur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
136
2. Çok genel olabilirler. Örne� in, bireysel kelime olarak “ junior” (çömez) ve “college” (yüksekokul) kelimeleri, “college junior” (yüksekokul çömezi, yani yüksekokulda yeni olan, tecrübesiz) kelime gurubunu, “ junior college” (yüksekokul, yani üniversitenin ilk iki yıllık e� itimini veren yer) kelime gurubundan ayırt etmek için çok genel kalmaktadır.
Zhai ve arkada� ları, yukarıdaki tespitlerin ardından, iki hipotez
öne sürmü� lerdir:
1. Sözcüksel atom ba� lamındaki kelime guruplarının, onları olu� turan bireysel kelimeleri yerine indekslenmesi, hem duyarlılı � ı hem de anmayı arttırır.
2. Bireysel kelimeleri desteklemek için, sözdizimsel kelime guruplarını kullanmak, örne� in “ junior college” , anmaya bir ters etkide bulunmadan, duyarlılı � ı arttıracaktır. Bu � ekildeki kelime guruplarının sayısını arttırmak, duyarlılıktaki ilerlemeyi arttıracaktır.
Bu hipotezler, TREC-5 çalı � malarının do � al dil i � leme aya� ında,
Zhai ve arkada� ları tarafından test edilmi � tir (CLARITTM takımı12).
Sonuçlar göstermi � tir ki, bireysel kelimeler yerine sözcüksel atomların
kullanılması, ortalama duyarlılıkta az da olsa tutarlı bir artı � ın oldu� unu
göstermi � tir. Di � er taraftan, bireysel kelimelerin, sözdizimsel kelime
gurupları ile desteklemesi, geri-getirim ba� arımında tutarlı ve anlamlı
bir artı � ortaya koymu � tur. Ancak, kelime guruplarının eklenmesi bazı
sorguların lehine olurken, bazı sorguların aleyhine sonuçlar vermi � tir. Kelime guruplarının faydasının en yüksek oldu� u durumlar, aynı
12 CLARIT, CLARITECH firmasının kayıtlı ticari markasıdır ve Computational-Linguistic Approaches to Retrieval and Indexing of Text için akronomidir. Bu sistem Carnegie Mellon Üniversitesinde geli � tirilmi � tir (Laboratory of Computational Linguistics, CMU Pittsburgh).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
137
kelime gurubunun hem sorguda hem de belgede gözlendi � i zamanlar
olmu� tur.
Bilgi geri-getirim sistemlerinin ço� u tekil kelimeleri indeksleme
için kullanır. Ancak, sıklıkla indekslere, basit istatistiksel yöntemlerle
tespit edilmi � kelime gurupları da destek olmak amacıyla alınır.
Dilbilimsel yöntemlerle tespit edilecek kelime guruplarının, geri-
getirim ba� arımı üzerinde daha etkili sonuçlar verece� i dü� ünülebilir.
Basit ve klasik kelime gurubu olu� turma yöntemlerinden biri,
SMART sistemi içinde kullanılan yöntem olan, gövdelenmi �
kelimelerin yan yana getirilmesidir. � ndeksleme için kullanılacak olan
kelime gurupları, gözlenme sıklı � ı yüksek olanlardan seçilmekte ve
daha sonra, bireysel kelimelerin, indeks terim olarak a� ırlıklandırılması
ile aynı � ekilde a� ırlık hesaplanmaktadır (Buckley et al., 1995). Xerox
takımı bu basit SMART yöntemi ile hafif ayrı � tırma (light parsing)
yöntemini TREC-5 çalı � masında kar � ıla� tırmı � tır. Sonuç olarak,
öni � lem a� amasında çok zaman harcama pahasına, hafif ayrı � tırmanın,
basit SMART yöntemine göre nispeten daha iyi oldu� u bulunmu � tur.
Hull ve arkada� ları (1997) � u sonuçlara varmı � lardır:
“ Her � eye ra� men, bir çok sebepten ötürü, bu yakla� ımın uzun vadede kullanı� lı olaca� ı konusunda iyimseriz: 1-) � ngilizce dı� ındaki bir çok dilde, Bilgi geri-getirim sahasından daha yo� un bir � ekilde, dilbilim sahasında çalı � malar yapılmaktadır. Bu diller için geli � tirilen biçimbirimsel analiz yordamları, basit gövdeleme yordamlarını, � ngilizce için geli � tir ilmi � gövdeleme yordamları kadar ya� lanınca, ba� arım olarak geçeceklerdir. 2-) Bilgisayarlar daha güçlü hale geldikçe, i � lem zamanları dü� meye devam edecek, dolayısı ile karma� ık metin analizlerini ekonomik olarak mümkün hale getirecektir.”
(Hull et al., 1997)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
138
7.4. Hesaplamalı Dilbilim Yöntemler i.
Son yıllarda, çok farklı bilgi geri-getirim teknikleri, TREC (Text
REtrieval Conferences) çalı � maları içerisinde sınandı ve kar � ıla� tırıldı.
Örne� in, 1997 yılında düzenlenen TREC-6 çalı � masına, 12 ülke ve 21
firmadan 51 ki � i katılmı � tır (Voorhees and Harman, 1998). Tüm
katılımda bulunan takımlar, aynı talim ve test malzemelerini
kullanmı � lardır. Böylece, sonuçlar birbiri ile kar � ıla� tırılabilmi � tir.
Sparck Jones (1995), a� a� ıdaki noktalara de� inerek TREC
deneylerinin sonuçlarını vermi � tir:
1. Model ile ilgil i sorular.
1.1. Dilbilimsel esasa dayalı modeller, istatistik esasındaki modellerden daha iyi midir? CMU’nun çalı � ması (CLARIT), dilbilimsel yöntemlerinde iyi ba� arım de� erlerine ula� tı � ını göstermi � tir, ancak istatistiksel yöntemlerden daha iyi de� ildir.
1.2. Dilbilimsel esasa dayalı kelime gurupları, e� le� tirme ile olu� turulanlardan daha de� erli midir? Dilbilimsel esasa dayalı kelime guruplarının kullanımı, yan yana olma ile belirlenen kelime guruplarının kar � ısında bir kazanç sa� lamamı � tır
2. Kelime da� arcı � ı ile ilgil i sorular.
2.1. Bireysel kelimelerle indeks terim olu� turma kar � ısında, kelimeleri de� i � ik biçimlerde indeksleme fayda getirir mi? Bazı çalı � malarda az da olsa ba� arım artırımı sa� lanmı � tır, ancak bireysel kelime indekslemeden anlamlı � ekilde farklılık ortaya konmamı � tır.
2.2. Dilbilimsel bilginin artırımı gerekli midir? Elle olu� turulan e� anlamlılar sözlü� ü, anlamlı bir ba� arım artırımı sa� layamamı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
139
3. Tanımlama ile ilgili sorular.
3.1. Dilbilgisine dayalı indeksleme yöntemleri, istatistik esaslı indeksleme yöntemleri kar � ısında daha etkili midir? Belge terimlerinin seçiminde kullanılan yöntem içinde, dilbilgisi özellikleri açık bir kazanç sa� lamamı � tır.
3.2. � statistiksel veya dilbilimsel kelime gurupları, bireysel kelimelere göre daha iyi midir? Bireysel kelimelere nazaran, kelime guruplarının kullanımı az da olsa lehte sonuçlar vermi � tir.
Strzalkowski ve arkada� ları (1998), do � al dil bilgi geri-getirim
için düzenlenen TREC-6 çalı � masının sonuçlarını � öyle özetlemektedir:
“ Çalı � malardan edindi � imiz temel tespit, do� al dil i � leme tekniklerinin, daha iyi indeksleme, sorgulara ait terimlerin daha iyi temsil edilmesi gibi beklentilerimizin çok uza� ında sonuçlar vermemi � oldu� udur. Dilbilimsel birliklerin kullanılması, örne� in kelime gurupları, ba� -niteleyen çiftleri ve isimler geri-getirim duyarlı� ının geli � tir ilmesine yardımcı olmu� tur, ancak kazanım çok az düzeylerdedir.”
(Strzalkowski et al., 1998)
Yukarıdaki alıntılar, do� al dil i � leme veya di � er adıyla
hesaplamalı dilbilim yöntemlerinin, bilgi geri-getirim içerisindeki
durumunu özetlemektedir. TREC ba� lamındaki çalı � malardan elde
edilen sonuçlar, hesaplamalı dilbilim yöntemlerinin etkileri konusunda
sonuçsuz kalmaktadır. Ancak, bu durum hesaplamalı dilbilim esasında
bilgi geri-getirim çalı � malarının faydasız veya nafile u� ra� lar oldu� u
anlamına gelmemektedir. TREC içerisindeki en iyi sistem bile,
�ekil 8.1.1. Anma ve duyarlılık ölçümlerini betimleyen çizge. Seçilen = yp + dp;
Hedef = dp + yn; dn = B - (Seçilen+Hedef).
Seçim, S de� i � keni belge uzayını seçilmi � ve seçilmemi � olmak
üzere iki parçaya ayırır. Hedef, H de� i � keni de, belge uzayını, gerçekte
sorgu ile alakalı olanlar ve olmayanlar diye iki parçaya ayırır. Dolayısı
ile, belgelerin her biri için seçilmi � olma/olmama ve hedefte
olma/olmama � eklinde ikili bir sınıflandırma, yani dört guruptan birine
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
143
ait olma durumu söz konusu olur. Bu guruplar: seçilmi � ancak gerçekte
alakasız olan belgeler, yani yanlı � -pozitifler (yp); seçilmi � ve gerçekte
de alakalı olan belgeler, yani do� ru-pozitifler (dp); seçilmemi � ancak
gerçekte alakalı olan belgeler, yani yanlı � -negatifler (yn); seçilmemi �
ve gerçekte de alakasız olan belgeler, yani do � ru-negatiflerdir (dn).
Çizelge 8.1.1: Seçilmi � (S) ve hedef (H) olasılık de� i � kenlerinin birle� ik da� ılımının 2x2 olasılık tablosu olarak gösterimi.
Sistem Alakalı (h) Alakasız (~h) Toplam
Seçilmi � dp yp dp+ypSeçilmemi � yn dn yn+dn
Toplam dp+yn yp+dn
Gerçek
Duyarlılık (D), bir sistemin seçti � i, gerçekte alakalı belge
sayısının (dp), toplam seçilmi � belge sayısına (dp+yp) oranı � eklinde
tanımlanır:
ypdp
dpD
+= (8.1.1)
Anma (A), bir sistemin seçti � i, gerçekte alakalı belge sayısının
(dp), toplam hedef belge sayısına, yani gerçekte alakalı olan toplam
belge sayısına (dp+yn) oranı � eklinde tanımlanır:
yndp
dpA
+= (8.1.2)
Sistemlerin ba� arımı, anma ve duyarlılık ile de� erlendirilirken,
genellikle iki ölçüt birbiri ile rekabet içinde kullanılır, yani bir sistemde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
144
her ölçütünde en iyi de� erleri yakalanmaya çalı � ılır (Belge uzayındaki
tüm belgeleri geri-getiren (seçen) bir sistem çok yüksek bir anma
de� erine sahip olur, ama çok dü� ük bir duyarlılı � ı olacaktır.). Bir
sistem için iki ölçütün söz konusu rekabeti, temsili olarak � ekil
8.1.2.’de betimlenen çizgeye benzer � ekilde olacaktır.
1
10
D
A
�ekil 8.1.2. Bir sistem için anma (A) ve duyarlılık (D) ölçütleri arasındaki rekabetin
temsili çizgesi.
Anma ve duyarlılık ölçülerini, iki ayrı ölçüt olarak ele alıp, bir
sistemin ba� arımını aralarındaki rekabet ile izah etmenin yanında, iki
ölçütü birle� ik olarak, yani tek bir ölçüt � eklinde tanımlamak ve
kullanmak mümkündür. Bunun bir yolu, van Rijsbergen (1979)
tarafından tanıtılan E-ölçüsünden türetilmi � F-ölçüsünü ( F = 1 – E )
kullanmaktır:
AD
F1
)1(1
1
αα −+=
(8.1.3)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
145
Denklem 8.1.3’de, α ile gösterilen de� er, anma (A) ve duyarlılık
(D) ölçütlerinin, F-ölçütüne katkılarının a� ırlı � ıdır. A � ırlı � ın, yani α
de� erinin 0.5 seçilmesinin anlamı A ve D ölçütlerinin katkısını
e� itlemek demektir. A � ırlıkları e� itlenmi � , A ve D ölçütleri ile F-ölçütü’ nün sadele� tirilmi � hali )/(2 NAAN + biçiminde olur.
Yukarıda bahsi geçen ölçütlerin dı � ında, � ekil 9.1.1. ile
betimlenen anma ve duyarlılık çizgesinden, ba� ka ba� arım ölçütleri
türetmek de mümkündür. Do� ruluk (accuracy) ve hata (error) oranları
türetilebilecek ölçütlerden ikisidir. Do� ruluk oranı (DO), belirli bir
sistemin, toplam do � ru seçiminin (dp+dn), belge uzayındaki toplam
belge sayısına (B) oranıdır:
ynypdndp
dndpDO
++++= (8.1.4)
Hata oranı (H), söz konusu sistemin toplam yanlı � seçiminin (yp
+ yn), belge uzayındaki toplam belge sayısına oranıdır:
ynypdndp
ynypHO
++++= (8.1.5)
Ancak do� ruluk ve hata oranlarının, ba� arım ölçüsü olarak
kullanılmasında sakıncalar vardır. Söz konusu ölçütlerde, dn içindeki
belge sayısının, yani hem seçim kümesinde, hem de hedef kümesinde
yer almayan belgelerin sayısının, di � er de� erlere nazaran çok büyük
olması, ölçütün sonuç de� erlerinin çok küçük olmasına sebep olur.
Anma ve duyarlılık ölçütlerinin, do� ruluk ve hata ölçütleri yerine BGG
sistemlerinin ba� arım ölçüsü olarak kullanılmasının faydaları � öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
146
• BGG sistemleri açısından önemli olan dp, yp ve yn de� erleri sayısal olarak küçüktür; Do� ruluk oranı, küçük sayısal de� er de� i � imlerine çok fazla duyarlı de� ildir, fakat duyarlılık ve anma bu konuda hassastır.
• Di � er durumlar e� itken, F-ölçütü daha çok do� ru seçilmi � gerçekte alakalı, yani pozitif hedef belgesi oldu� u durumları gözetir. Buna kar � ın, do� ruluk oranı sadece hatalara kar � ı hassasiyet gösterir. Ancak, BGG sistemlerinde amaçlanan sorgu ile alakasız belgelerin seçim kümesine alınmı � olması pahasına, alakalı belgelerin seçim kümesinde olmasıdır. Bir ba� ka söyleyi � le, seçim kümesine hiçbir belgeyi almayan bir BGG sisteminin, do� ruluk oranı %100 olacaktır, ancak hiçbir belgenin seçilmemesi istenen bir durum de� ildir.
• Duyarlılık ve anma ölçütlerinin kullanımı, BGG sistemlerinin de� erlendirilmesinde, seçilmemi � alakalı belgelerin de maliyet cinsinden de� erlendirmeye katılabilmesine imkan tanımaktadır.
Çizelge 9.1.2.’de anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve
do� ruluk (DO) oranının 1000 belgelik örnek bir belge uzayı için
hesaplamaları listelenmi � tir (Manning and Schütze, 2003).
Anma ve duyarlılık fikrini esas alan, ancak nadir kullanılan bir
sistem ba� arım ölçütü de, seçilenlerden gerçekte alakasız olan
belgelerin sayısının (yp), tüm alakalı, yani hedef kümesinde olan
belgelerin sayısına (yp+dn) oranı ile hesaplanan yanlı � a dü� me (Y:
fallout) ölçütüdür:
ypdn
ypY
+= (8.1.6)
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
147
Çizelge 9.1.2: 1000 belgelik örnek bir belge uzayı için anma (A), duyarlılık (D), F-ölçütü (α=0.5) ve do� ruluk (DO) oranı ölçüm listesi. Üstteki, (a) listede artan F-ölçütü kar � ısında dü � en do� ruluk oranı, alttaki, (b) listesinde e� it do� ruluk oranı varken artan F-ölçütü verilmi � tir. F-ölçütü “seçilmi � alakalı belgelerin”, (dp) ço� almasına duyarlı iken, do� ruluk oranının, sadece sınıflandırma hatasına duyarlılık göstermektedir.
belgeler kümesinin, kullanıcıya sıralı bir liste � eklinde çıktı olarak
sunulması a� amasında, sorgu ile alakalı belgelerin alakasız belgelerden
ne kadar önce sıralamaya alındı � ı esasına dayalı olarak ölçülür. Bir
ba� ka söyleyi � le, BGG sistemlerinin ba� arımı, geri-getirilen belgeler
kümesindeki belgelerin kendi içlerinde ne � ekilde sıralandı � ı esasına
dayanan ölçütlerle de� erlendirilir, yani sıralama esaslı ölçütlerdir.
Çizelge 9.2.1.’de BGG sistemleri için sıralamanın neden önemli oldu� u
ba� arım ölçümleri üzerinden örneklenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
149
Çizelge 9.2.1: BGG sistemlerinin sıralama esasına dayalı de� erlendirme örne� i. Sütunlarda belgelerin farklı üç sıralaması bulunmaktadır: √ simgesi belgenin alakalı oldu� unu, × simgesi alakasız oldu� unu göstermektedir.
toplamı olan 14’ tür. +maxR de� eri ise, e� er geri-getirim kümesinin belge
sayısını en çok 10 olarak kabul edersek, 5 alakalı ve 5 alakasız belgenin
1. sıralamada oldu� u gibi dizilmesi ile elde edilen, 25’e e� it olacaktır.
BGG sistemlerinin ba� arımlarının ölçülmesinde, kapsam (K) ve
özgünlük (Ö) olarak tanımlanan, iki ölçüt de kullanılmaktadır
(Korfhage, 1997). Bu ölçütlere ait e� itlikler biçimsel olarak Denklem
8.2.2. ve 8.2.3.’de verilmi � tir.
URK k /= (8.2.2)
ku
u
RR
RÖ
+= (8.2.3)
Denklem 8.2.2. ve 8.2.3.’de, U kullanıcı tarafından daha önceden
belge uzayında oldu� u bilinen alakalı belgeler kümesidir. Denklemde
kR simgesi ile, sistemin sonuç, yani geri-getirim kümesinde,
kullanıcının daha önceden alakalı oldu� unu bildi � i belgelerden olu� an kısmı; uR simgesi ile de, daha önceden alakalı oldu� unu bilmedi � i
belgelerden olu� an kısım temsil edilmektedir.
Yukarıda açıklanan, anma ve duyarlılık fikri esasına dayalı
ölçütlerden her biri, BGG sistemlerinin ba� arımını ölçmek için
kullanılabilir. Farklı kurgulara sahip, birden fazla sistemin
kar � ıla� tırılmasında kabul gören yakla� ımlardan bir tanesi, sistemleri
aynı derlem ve sorgu kümesi ile çalı � tırmak, kullanılan ba� arım
ölçütünün, tüm sorgular için elde edilen ölçümlerinin ortalamasını
almaktır. E� er kar � ıla� tırılan sistemlerden, örne� in 1. sistemin
ortalaması, 2. sistemin ortalamasından iyi ise, bu durum 1. sistemin
ba� arımının 2. sistemin ba� arımına göre daha iyi oldu� una delil olarak
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
154
kabul edilir. Belirli bir sistemin, birden fazla sorgu için geri-getirim
ba� arım ortalamasının bulunması ile ilgili iki yakla� ım söz konusu
olabilir: mikro ve makro ortalamalar. Bir sistem için, iki yakla� ımın,
yani mikro ve makro ortalamaların farklı de� erlere sahip olması
durumuna, söz konusu sistemin sorgular kar � ısında geri-getirim
kümesini olu� turan belge sayılarının farklı olması sebep olur. Herhangi
bir sistemin ortalama ba� arımı: Makro yakla� ımda, tüm sorgular için
geri-getirilen toplam alakalı belge sayısının, her sorgu için geri-
getirilmi � belge kümelerinin toplam eleman sayısına bölünmesi ile
bulunur; Mikro yakla� ımda ise, önce her sorgu için geri-getirilmi �
alakalı belge sayısı, sorgunun kendi geri-getirim kümesinin eleman
sayısına bölünerek ara ortalama de� erleri hesaplanır, daha sonra bu ara
ortalama de� erleri toplanarak, toplam sorgu sayısına bölür ve sistemin
ortalama ba� arım de� eri elde edilir. Makro ortalama yakla� ımı sistemin
ba� arımını belge esasına dayalı olarak ölçerken, mikro ortalama
yakla� ımı sorguları esas alan bir ölçüm ortaya koyar.
BGG sistemlerinin sonuç kümesindeki belgelerin, bir sıralama
ile kullanıcıya sunulması, kullanıcının anma ve duyarlılık ölçütlerinin
rekabetini istekleri do � rultusunda kullanmasına imkan tanır. Örne� in,
e� er sıralı sonuç listesinin ilk sayfasında, anma dü� ük ve istenen
enformasyon bulunamamı � sa, kullanıcı bir sonraki sayfaya
yönlenecektir (ço� u durumda sonraki sayfalarda anma yükselecektir). �� te bu kullanıcı davranı � ı, Olasılık sıralama ilkesi (probability ranking
principle) ile izah edilmekte ve BGG sistemlerinin sıralama esasına
dayalı kurgularının altındaki kabullenmeleri açık bir � ekilde ortaya
koymaktadır (van Rijsbergen, 1979).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
155
Tanım 8.2.1: Olasılık Sıralama (OS) � lkesi (Probability Ranking Principle): Belgeleri, alakalı olma olasılıklarına göre büyükten küçü� e do� ru sıralamak, sistemin sonuç kümesi için en iyi l isteleme � eklidir.
Tanımdaki ana fikir, geri-getirim i � inin bir arama i � lemi olarak
dü� ünülmesi ve sistemin, zamanın istenen her hangi bir anında, sürecin
ilerledi � i noktaya kadar olan kısım içindeki en yüksek alaka “de� erine”
sahip belgeyi belirleyebilmesidir. Söz konusu aramada, zamanın
herhangi bir anında en yüksek “de� ere” sahip olacak bir d belgesi,
sürecin ilerledi � i noktaya kadar olan kısımdaki belgeler içinde, beklenen alakalı olma ihtimali en yüksek belge olacaktır, yani )( dRP
olasılık de� eri en yüksek olan olacaktır (daha tüm belgelerin
de� erlendirmeye girmedi � ini dü� ünüyoruz). Aynı � ekilde, silsile
halinde birden çok zaman kesiti için, en yüksek “de� ere” sahip olan
belgelerin belirlenmesi ile elde edilecek bir liste, aynı zamanda tanımda
verilen alakalı olmanın dü� en olasılık de� erlerine göre sıralanmı � belge
listesi de olacaktır.
BGG sistemlerinin ço� u OS ilkesini esas alırlar. O yüzden, bu
ilke ile, hangi kabullenmelerin yapıldı � ının tanımlanması da
gerekmektedir:
1. � lk kabullenme, belgelerin ba� ımsız oldu� udur. Bu kabullenmenin en açık � ekilde ihlali, aynı belgenin belge uzayında tekrarlanmasıdır. E� er bir belgeden iki tane varsa, örne� in d1 ve d2 olsun, d1 belgesi listelendikten sonra d2 belgesine ait tahmini alaka ihtimali de� i � meyecektir. Fakat d2 belgesi kullanıcıya yeni bir enformasyon sunmayacaktır. Açıkçası, iyi bir kurgu içinde, böyle çift belgelerden sadece birinin listeye alınması gerekir, fakat bu durum, aynı zamanda OS ilkesinin ihlali de demektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
156
2. Kullanıcı tarafından, sisteme yönlendirilmi � enformasyon ihtiyacı bir bütündür. Ancak, OS ilkesini esas alarak olu� turulan bir sonuç listesinde, söz konusu ihtiyaç, küçük ve yalıtılmı � sorgucuklar
� eklinde ele alınır ve bu sorgucukların her biri için en yüksek “de� ere” sahip belgelerin tespiti yapılır. Fakat, belge uzayındaki her hangi bir belge, kullanıcının sisteme yönlendirdi � i, enformasyon ihtiyaç bütünü ile çok alakalı olmasına ra� men, OS ilkesi gere� i yapılan arama sürecinin ara adımlarında, en yüksek “de� ere” sahip olarak belirlenmeyebilir. Örne� in, bir kullanıcının Murat kelimesini sorgu olarak yönlendirmesi halinde, ideal bir BGG sisteminin, kelimenin araba adı, ki � i adı ve istek/dilek anlamlarından hangisine ihtiyaç duyuldu� unu belirlemesi gerekir. Fakat OS ilkesini esas almı � bir sistem, eldeki belge uzayı içinde, en yüksek alaka gösteren bu anlamlardan ilk bulunana göre, sonuç listesini sıralayacaktır.
3. OS ilkesi esasına göre hesaplanan, alakalı olmanın olasılı � ı sadece tahminidir. Bir BGG sisteminin kurgusu içinde, bir çok basitle� tirici tanımın kabul edilmesinden dolayı, yapılan olasılık tahminleri de tamamen güvenilir olmayacaktır. Söz konusu durumun en büyük yan etkisi � udur: BGG sistemleri kar � ıla� tırılırken, alakalı olmanın olasılık tahminleri arasındaki de� i � ime (variance) bakılmaktadır; dolayısı ile olasılık tahminlerinin güvenilir olmaması, kar � ıla� tırmaların da güvenilir olmaması sonucunu do� uracaktır.
Daha önce bahsedildi � i gibi, BGG sistemlerinin ba� arımlarının
ölçülmesi için kurgulanmı � , sorgulardan elde edilen sonuçların
ortalamasına dayalı bu deneysel düzenek, aslen bir çok tartı � malı
mesele içermektedir. Ortalamalar arasındaki fark, � ans eseri de olu� mu�
olabilir. Örne� in, 1. sistemde, sadece tek bir sorgunun, 2. sistemdeki
sorgulardan çok büyük bir farkla iyi olması neticesinde (di � er
sorguların ba� arımları e� it olacak � ekilde) ortalama farklı da çıkmı �
olabilir. Aslen, sistemler arasında anlamlı bir farklılık olup olmadı � ına
bakılması için, böyle basit tanımlayıcı istatistikler yerine, uygun � ekilde
geli � tirilecek istatistiksel yöntemlerin kullanımı, daha güvenilir bir yol
olacaktır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
157
8.3. Anma ve Duyar lılı � ı Esas Almayan Ba� ar ım Ölçütü.
Bu tezde, ba� arım ölçütü olarak kullanaca� ımız yöntem olan
vardır: Tabii, ba� langıçta ve sonda gözlenmemenin, hangi oranda aynı
kelimelere denk geldi � i ile paralel büyüklükte güçlenerek. E� er,
ba� langıçta ve sonda gözlenmeme, tamamen farklı kelimelerde
meydana geliyorsa, her iki öneri de birlikte kullanılmalıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
175
9.1.2. Öner ilen Yöntem
Türkçe yazılı metinlerin, çok dilli bir belge uzayından
belirlenmesi amacıyla, bu tez ile önerilen Türkçe hecelemenin (Bölüm
2) ayrımda belirleyici olaca� ıdır. Önermenin biçimsel hali � öyledir:
Önerme 9.1.2.1: Çok dilli bir belge uzayında, içerdi � i kelimeleri belirli bir oranın üzerinde, Türkçe alfabe ile yazılmı � ve belirlenen kurallar çerçevesinde (sesbilim özellikleri de dahil) hecelenebilen metinler Türkçe’dir.
9.1.3. Deneysel Sonuçlar
Önermemizi, elimizde olan � ngilizce üç farklı derlem ve bir
Türkçe derlem üzerinden sınadık. Derlemler, özellikleri ile birlikte,
Çizelge 9.1.3.1.’de verilmi � tir.
Çizelge 9.1.3.1: Türkçe belgelerin tespitine ait deneysel sonuçlar.
Der lem Kelime Farklı Hece ~Hece OranTime 249,493 20,856 102,776 146,717 0.412Cranfield 249,824 8,189 94,322 155,502 0.378Medalars 155,411 12,609 61,450 93,961 0.395Türkçe 635,158 88,375 610,717 24,441 0.962
Çizelgede verilen sonuçlarda, “Oran” sütunu, toplan kelimelerden
hecelenebilenlerin sayısını oran olarak göstermektedir. “Kelime”
sütunundaki sıklık de� erleri sadece harf birlikleri içindir; rakamlar,
noktalama i � aretleri dahil de� ildir. “Farklı” sütununda ise, kelime
da� arcı � ının büyüklü� ü, yani farklı biçime sahip kelime, harf birli � i
sayısı verilmi � tir. “Hece” sütununda, hecelenebilmi � kelime sayısı,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
176
“~Hece” sütununda da, hecelenemeyen kelime sayısı verilmi � tir. Görüldü� ü gibi, � ngilizce derlemlerin üçü de yakla� ık %40’ ın altında
bir heceleme oranına sahipken, Türkçe derlemdeki hecelenebilme oranı
%96’dır.
Uygulamada, örne� in bir metinde %70 hecelemenin üzerine
çıkılmı � sa, o metin Türkçe olarak kabul edilmektedir.
9.2. Türkçe Metinler in Normalle� tir ilmesi
9.2.1. Önceki Çalı � malar
Hesaplamalı dilbilim sahasında, genel anlamda metin
normalle� tirme, özelde cümle sonlarının tespiti, meselesi için
geli � tirilen çözümler, esas aldıkları yakla� ımlar açısından iki ba� lık
altında toplanabilir: kural tabanlı ve makine ö� renimi (machine
learning). Kural tabanlı bir cümle sonu tespit yordamının iki yapısal
unsuru bulunmaktadır. Birinci unsur, genellikle düzenli deyim dilbilgisi
(regular expression grammar) � eklinde kodlanan, elle olu� turulmu �
veya bir talim derleminden özümsenerek elde edilmi � kurallardır. � kinci
unsursa, tasarlanmı � yordamın ihtiyaçlarına göre � ekillendirilmi � , bir
listedir. Listede, kelimeler, kısaltmalar v.b. anlamsal birlikler ve bu
anlamsal birliklere ait yordamın ihtiyaç duydu� u özellikler kümesi
bulunur. Örne� in, Aberdeen ve arkada� ları (1995), Alembic çalı � ması
için altyapı hazırlarken, 100 düzenli deyim kuralından olu� mu� bir
yöntem kurgulamı � ve uygulamı � tır. Aslen, kural tabanlı sistemlerin iki
açmazı vardır. Birincisi, düzenli deyimler � eklinde en iyi kural
kümesini olu� turma i � i belirsizdir. Kuralları tanımlamak için bir
standart yoktur. � kincisi, yordamı için olu� turulan tasarımların, talim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
177
için kullanılan derleme çok fazla ba� ımlı olması, dolayısı ile, di � er
derlemlere genellenememesi.
Cümle sonu tespiti için, makine ö� renimi esasında geli � tirilmi �
pek çok yöntem bulunmaktadır. Bu çalı � malara verilebilecek örnekler:
Reynar and Ratnaparki (1997) tarafından, en yüksek düzensizlik
yakla� ımı esasında geli � tirilmi � olan; Riley (1989) tarafından, karar
a� acı ile sınıflandırma esasında geli � tirilmi � olan; Palmer and Hearst
Ayrıca, iki yakla� ımında melezi olan, Mikheev (1997) tarafından
geli � tirilmi � olan yöntemin örnek verilebilece� i çalı � malarda vardır.
Mikheev çalı � masında, önce gizli Markov zinciri dil modelini esas alan
bir yordamla sözcük türlerini tespit etmi � . Sonrasında bu sözcük türü
enformasyonunu da kullanarak, en yüksek düzensizlik esasında cümle
sonu tespiti yapmı � tır.
Türkçe tarafında cümle sonu tespiti çalı � maları için verilebilecek
ilk örnek Tür (2000) tarafından, doktora çalı � masında geli � tirdi � i
yöntemdir. Yöntem için, %95,66 do� ruluk de� eri rapor edilmi � tir. Tür,
çalı � masında hesaplama birimi olarak kelimeleri esas alan bir gizli
Markov zinciri dil modeli kullanmı � tır. Ayrıca, kelimelere ait biçimsel
çözümlemeler, do � rusal interpolasyon ile modelin olasılık da� ılımına
katılmı � tır. Dolayısı ile, önerilen yöntem, bir sözlük kullanmaktadır ve
biçimbirimsel analiz yapılmamı � bir derlem için yöntem
kullanılamamaktadır. Kullanılan biçimbirimsel analiz yöntemi, Oflazer
(1993) tarafından geli � tirilmi � olandır.
Di � er çalı � malar, Oflazer ve arkada� ları (2003) tarafından
yapılmı � olan ve Ziegenhain ve arkada� ları (2003) tarafından Siemens
firması deste� inde yürütülmü� LC-STAR adlı bir ticari çalı � mada,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
178
Türkçe için de kullanılan kural tabanlı yöntemdir (Bu projenin Türkçe
konusundaki çalı � maları, Kemal Oflazer tarafından yapılmı � tır.).
9.2.2. Öner ilen Yöntem
Türkçe cümle sonu tespiti için, bu tezde önerilen yöntem,
“Türkçe yazılı belgelerin tespiti” için önerilen yöntemdir, yani
hecelemedir. Kullanılan yordam için, yazılı metindeki birliklerin
tespitine, yani simgele� tirmeye ve birliklere ait bazı biçimsel özelliklere
(büyük/küçük harf, rakam, noktalama i � areti) ihtiyaç vardır.
Önerme 9.2.2.1: Türkçe yazılmı � metinde, “nokta”dan önce gelen harf birli � i heceleniyorsa, söz konusu “nokta”nın cümle sonu olması ihtimali, cümle sonu olmaması ihtimalinden yüksektir.
Önerme 9.2.2.1.’de verilen karar verme � ekli, yöntem içinde
belirli bir yordam, olu� turulmu� bir kurgu içinde belirsizli � in en yüksek
düzeyinde kullanılmaktadır. Dolayısı ile, önermemiz her “nokta”
gözlenen yerde kullanılarak cümle sonu tespitine gidilmemi � tir. Ayrıca
geli � tirilmi � olan bir cümle sonu tespit yordamı içinde, belirsizli � in
yüksek oldu� u bir durumu çözümleme a� amasında kullanılmı � tır. Söz
konusu cümle sonu tespit yordamını tanımlamak için bir simge sistemi
olu� turulmu� tur. Öncelikle bu simge sisteminin tanıtılmaya ihtiyacı
vardır. Sonrasında, yordam simge sistemi kullanılarak verilecektir.
Cümle sonu tespit için, tez kapsamımızda kullandı � ımız simge
sistemi Çizelge 9.2.2.1.’de liste halinde verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
179
Çizelge 9.2.2.1: Cümle sonu yordamını tanımlamada kullanılan simge sistemi.
Simge Anlamı
w Ba� langıcında küçük harf bulunan tüm harf birlikleri.
W Ba� langıcında büyük harf bulunan tüm harf birlikleri.
# Tüm rakam birlikleri. (Gerçek sayı, tam sayılar rakamla veya yazı ile, tarih, saat, telefon numaraları, v.b.)
T Kesme/Tırnak (‘ )
TT Çift tırmak (“ )
K Tire (-)
V Virgül (,)
( Parantez açma i � areti
) Parantez kapama i � areti
: � ki nokta üst üste
; Noktalı virgül
P Tüm noktalama i � aretleri ve di � er simgeler ( %, &, $, v.b.)
EOS Cümle sonu
~EOS Cümle sonu de� il
∞ Tanımlanabilecek tüm yazım birlikleri (w, W, #, T, TT, K, V, “ (“ , “)” , P)
Çizelge 9.2.2.1.’de verilen simge sistemi ile, cümle sonu tespit
yordamında kullandı � ımız hesaplama birimi, bir üçlü � eklinde
tanımlanabilmektedir. Yordamda kullanılan hesaplama birimi, “nokta”
ve etrafındaki iki birliktir. Örne� in, [w * W] � eklinde, noktadan önce
ba� langıcı küçük olan bir harf birli � i, noktayı (* i � aret nokta için
kullanılmakta) ve noktadan sonra ba� langıcında büyük harf olan bir
harf birli � i, üçlü olarak temsil edilmektedir. Cümle sonu tespit
yordamının karar verme a� amalarında, talim derleminde kar � ıla� ılan
her durum, bu biçimde üçlü � eklinde cümle sonu olma veya olmama
açısından de� erlendirilmektedir.
Cümle sonu tespiti için kullandı � ımız yordam, simge sistemi
üzerinden tanımlanan tüm durumlar için alınabilecek üç karardan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
180
olu� maktadır, yani her durum için “ cümle sonu” , “cümle sonu de� il” ve
“belirsiz” � eklinde bir karar vermektedir:
• E� er üçlü ile temsil edilen durum listelenenlerden biriyse, “ nokta”yı, “ cümle sonu” olarak i � aretle: [w*W] , [w* #] , [w*P] , [W*#] , [W*TT] , [W* ( ] , [W* )] , [W* K] , [P*∞] .
• E� er üçlü ile temsil edilen durum listelenenlerden biriyse, “ nokta”yı, “cümle sonu de� i l” olarak i � aretle: [W*w] , [W*V] , [#* w] , [#*W] , [#*#]
• Di � er durumlarda “belirsiz” olarak i � aretle ve detaylı incelemeye al.
Yordam ile “belirsiz” olarak i � aretlenen durumlar çalı � mamızın
ve önermemizin hedefinde bulunmaktadır. Dolayısı ile, deneysel
çalı � ma ile önermemiz bu “belirsiz” durumlar için sınamayı
içermektedir.
9.2.3. Deneysel Sonuçlar
Tanımlanan yordamın, karar verme a� amalarında kullanılan üçlü
birliklerin her durumu için Çizelge 9.2.3.1.’de özellikleri verilen
deneysel bir derlem kullanılmı � tır. Aslen, bu deneysel derlem BilTD
derleminde seçilmi � bir bölümdür ve cümle sonları kontrol edilmi � ve
bulunan hatalar elle düzeltilmi � tir.
Çizelge 9.2.3.1: Cümle sonu tespiti için kullanılan Türkçe derlemin belirli özellikleri.
Bir lik ~EOS EOS Toplam
168,375 674 12,026 12,700
Nokta sayısı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
181
Deneysel derlemde, her nokta cümle sonu olup, olmaması
açısından belirlenmi � ve noktanın önündeki ve ardındaki birlikler
belirlenerek karar vermede kullanılacak her bir durum tespit edilmi � tir. Yapılan çalı � manın sonuçları Çizelge 9.2.3.2.’de tablo halinde
verilmi � tir. Çizelgeden [ P * ∞] üçlüsü çıkarılmı � tır. Bunun sebebi, bu
üçlü birli � i tüm durumlarının, yani gözlenen 495 durumun hepsinin
cümle sonu olmasıdır.
Deneysel derlemden çıkartılan durumları, belirsizli � i en yüksek
olandan dü� ü� e do� ru inceleyerek, cümle sonu tespiti yordamımızda,
“belirsiz” olarak i � aretlenecek üçlü birlikleri listelemi � olaca� ız.
Sonrasında, her belirsiz durumun çözümü verilerek yordamın
tanımlaması tamamlanacaktır.
Çizelge 9.2.3.2: Cümle sonu tespit yordamında kullanılan ve üçlü birlikle temsil edilen durumlar için Türkçe derlemden çıkartılan istatistikler.
Durum EOS ~EOS Durum EOS ~EOS Durum EOS ~EOS
[w * w] 8 10 [W * w] 0 10 [# * w] 0 267
[w * W] 9395 1 [W * W] 739 183 [# * W] 36 106
[w * #] 320 2 [W * #] 44 1 [# * #] 1 27
[w * T] 41 1 [W * T] 3 5 [# * T] 0 1
[w * TT] 601 0 [W * TT] 41 1 [# * TT] 0 16
[w * ( ] 57 0 [W * ( ] 9 0 [# * ( ] 0 1
[w * ) ] 19 0 [W * ) ] 3 0 [# * ) ] 1 3
[w * K] 174 0 [W * K ] 38 0 [# * K] 0 8
[ w * / ] 1 0 [W * V] 0 3 [# * V] 0 28
Toplam 10616 14 877 203 38 457
Deneysel derlemde kar � ıla� ılan durumların, cümle sonu olu�
açısından belirsizli � i en yüksek olandan, en dü� ük olana do� ru
sıralanmı � � eklideki � öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
182
1. [w*w] : ba� langıcında küçük harf olan bir harf birli � i, nokta ve ba� langıcından yine küçük harf olan bir harf birli � i. Bu sınıftaki durumlar, gözlenme sıklı � ı açısından az olmasına ra� men, derlemimizde oransal olarak en büyük belirsizli � e sahip olandır. Bu durumun tamamını ~EOS, yani “cümle sonu de� i l” olarak i � aretlemek en uygun karar olacaktır. Çünkü, kar � ıla� ılmı � 10 EOS durumunun tamamı, :“ … yapıldı. c-) Ba� kanlıklar ….” biçiminde madde imleridir. Ayrıca, madde imi belirleme meselesi, rahatlıkla simgele� tirmeye dahil edilip halledilebilecek bir konudur. Dolayısı ile, bu belirsizlik cümle sonu tespit a� amasına da dahil olmayacaktır.
2. [W*W] : ba� langıcında büyük harf olan bir harf birli � i, nokta ve ba� langıcından yine büyük harf olan bir harf birli � i. Bu sınıftaki durumlar, gözlenme sıklı � ı açısında, belirsiz durumlar içerisinde en yüksek de� ere sahip olandır. Bu durum genellikle unvan (“Prof. Dr. Mustafa …” ) ve özel isim kısaltmaları (“ … küçük A. H. yalnız …” ) gibi yazım biçimleri içinde gözlenmektedir.
3. [#*W] : noktadan önce bir rakam birli � i, nokta ve sonrasında ba� langıcı büyük harf olan bir harf birli � i. Bu sınıftaki durumlar da, yüksek gözlenme sıklı � ına sahiptir, ancak ~EOS, yani cümle sonu olmama, EOS, yani cümle sonu olmasına göre daha baskındır. Cümle sonu olmadı � ı durumlar, genellikle “… 2. Tümen ...” gibi “ inci” anlamında, sıralama amacıyla kullanılmaktadır. Cümle sonu oldu� u durumlar da, “… ölenlerin sayısı en az 28. Fransa’da 10 …” örne� inde oldu� u gibi sayısal de� er belirtmektedir.
4. [#*P] : noktadan önce bir rakam birli � i, nokta ve sonrasında bir noktalama i � areti. Bu durumun baskın � ekli, “ … 2.’ lik için mücadele …” örne� inde oldu� u gibi, ~EOS, yani cümle sonu olmamadır. Ancak, “ … (…kitabı sf. 27.). …” örne� inde oldu� u gibi, EOS, yani cümle sonu olması da söz konusudur. Aslen, cümle sonu olu� durumu, toplam 50 durum içinde, 1 kere gözlenmektedir. Dolayısı ile, bu durumun tamamını, “cümle sonu de� i l” � eklinde kabul etmek, hesaplama açısında daha avantajlıdır. Derlem açısından, bu kararın toplamda ortaya çıkardı � ı hata, 1/12700 gibi çok küçük bir de� erdir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
183
5. [W * TT] and [w * TT] : noktandan önce ba� langıcı küçük harf veya büyük harf olan bir harf birli � i, nokta ve sonrasında çift tırnak. Bu duruma uygun örneklerin, derlemde baskın olan gözlem � ekil EOS, yani cümle sonu olmadır. Bilindi � i gibi, çift tırnak, genellikler yazıyı hazırlayan yazarın, ba� ka yazarlardan alıntıların ve konu� maların aktarılması için kullanılır. Ancak, günümüz yazım
� eklinde, özellikle gazete ve dergi haberlerinde, çift tırna� ın “… yerine “ Gelme” nin …” örne� indeki gibi, kesme i � aretini de kar � ılar halde kullanıldı � ı görülmektedir. Bu durum, ayrıca dikkat edilmesi gerek bir meseledir. Çünkü, kural de� il, istisnanın yaygınla� masıdır.
Derlemden tespit edilen ve yukarıda listelenen belirsiz durumlar,
toplam 310 belirsiz durumun, 303’ ünü kapsar.
Cümle sonu tespit yordamını ve önermemizi de� erlendirirken,
yordam tarafından “belirsiz” olarak i � aretlenmi � olan 310 durumu da,
EOS, yani cümle sonu olarak kabul edersek, yalın olarak ba� arım
%94,69 do� ruluk de� erine sahip olur. Bu de� er, yalın olarak yordam
kullanıldı � ında elde edilecek e� ik do� ruluk de� eridir. Amacımız,
heceleme esasına dayanan önermemizle, do� rulu� u ne kadar
arttırabilece� imizi tespit etmektir. Çözümlerimizle ula� tı � ımız en
yüksek ba� arım de� eri %96,24’dir.
[W * W] belirsizli � inin çözümü. E� er bu durum için gözlenen
739 örnek, e� ik de� erin kabullenmesindeki gibi EOS, yani cümle sonu
olarak kabul edilirse, geriye kalan 183 ~EOS gözlemi hata olacaktır.
Dolayısı ile, durumun kendi içinde %19,84 (183/922) de� erinde bir
hata, derlem genelinde de %1,44 (183/12700) de� erinde hata meydana
tanesinin tek sesli harften olu� an heceler oldu� u tespit edilmi � tir. Ancak, Türkçe’de tek sesli harften olu� an kelime sadece, “ o” ve
nadiren “a” (ünlem edatı) kelimeleridir. Dolayısı ile, yanlı � alarmlardan
18 tanesi de kontrol altına alındı � ında, kendi içinde hata oranı %4,8
de� erine inmekte, derlem genelinde yaratılan toplam hata de� erinden,
yakla� ık %0,35 dü� ü� meydana gelmektedir. Özetle, heceleme
esasındaki önermemizle, toplam e� ik ba� arım de� eri, %94,69’den
%95,78’e çıkmaktadır (94,69 + 1,09).
Çizelge 9.2.3.3: Cümle sonu tespitinde, [W* W] durumu için, heceleme önermesi ile meydana gelen hata oranları.
Hece ~Hece Toplam
EOS 703 36 (hata) 739
~EOS 27 (yanlı � alarm) 156 183
[# * W] belirsizli � inin çözümü. E� er bu durum için gözlenen 36
örnek, e� ik de� erin kabullenmesindeki gibi EOS, yani cümle sonu
olarak kabul edilirse, geriye kalan 106 ~EOS gözlemi hata olacaktır.
Derleme yansıyan toplam 5,31 puanlık hatanın, 0,83 (106/12700) puanı
bu durumdan kaynaklanır. Dolayısı ilk yapılacak � ey, durumu ~EOS
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
185
olarak almaktır. Böylece, derleme yansıyan hata, puan olarak 0,28’e
inecektir. Genel ba� arım, %95,78’den, %96,06’ya çıkacaktır (0,83-
0,28). Bu 36 hatadan 5’ i, “… 3.’ lük Aydın, …” örne� indeki gibi, içinde
kesme ile ayrılmı � harf birli � i içerenlerdir. Kullandı � ımız
simgele� tirme yönteminde, “ 3.’ lük” gibi karma birlikler rakam birli � i
olarak belirlenmektedir. Cümle sonu tespitinde kullanılan yordam da,
noktayı aramaktadır. Nokta birinci birlik içinde kalmaktadır ancak, hem
bu durum hem de [#*T] durumu tetiklenmektedir. Bu hata,
simgele� tirme yordamının genele hitap etmesinden, cümle sonu tespiti
için uyarlanmamasından kaynaklanır. Sadece cümle sonu tespitinde
kullanılacak bir simgele� tirme tasarlanarak hata olu� madan da
önlenebilir. Ayrıca 5’ i de, “… suare 18:30. Harbiye …” örne� indeki
gibi, içinde iki nokta üst üste i � areti bulunduranlardır. Geriye kalan 26
hata ise, “… Zafer yılı : 1996. Fenerbahçe …” ve “… kazanan ilk üç
numara 7 4 6. …” gibi örnekleri olanlarla, “ Tel: 0312 555 55 55. …”
örne� indeki gibi telefon numarası içeren durumlardan meydana
gelmektedir. � lk 10 hata yaratan EOS, aslen içerdikleri enformasyon ile,
belirsizli � e yol açmadan EOS olarak belirlenebilir. Dolayısı ile,
toplamda geriye hata olan ve belirsiz olarak i � aretlenmi � 26 durum
kalır. Ancak, bu durumlarda detaylı incelendi � inde, 13 durumun
tamamında, sayı, numara, rakam, yıl, sene, tarih kelimelerinden biri
kullanılmı � tır . Dolayısı ile, geriye ~EOS olarak belirlenmi � 23, belirsiz
olan 13 durum kalır. Özetle, genel ba� arım %94,69’dan %96,24’e çıkar
(0,28 – 0,18).
9.3. Gövdeleme
Gövdeleme i � leminin tanımı � öyledir:
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
186
“ Aynı gövdeye sahip tüm kelimelerin, genel olarak, yapım ve çekim eklerinin atılması ile, ortak bir biçime getirilmesi için kullanılan bir yordamdır.”
(Lovins, 1968)
Bilgi geri-getirim sahasında ve hesaplamalı dilbilim sahasında �ngilizce a� ırlıklı olmak üzere, analitik diller için pek çok gövdeleme
yöntemi geli � tirilmi � tir. Analitik diller, biçimbirimsel üretkenlik
açısından, Türkçe gibi biti � ken dillere nazaran daha takip edilebilir
niteliktedir. Ek sistemleri, örne� in Türkçe’de oldu� u gibi, kelimelere
ait dilbilgisi özelliklerinin tamamını kar � ılamak üzere kullanılmaz.
Sadece belirli ve basit dilbilgisi özellikleri için kullanılır (bazı
kelimeler için ön-ek ile olumlu olumsuz hal üretme, kelimelerin ço� ul
hallerini yapma v.b.). Dolayısı ile, gövdeleme i � lemi, nispeten kolay bir
i � tir. Tüm gövdeleri tespit edebilmek için sadece 1200 biçimbirimsel
de� i � ikli � i üretebilen bir düzenli deyim sistemi kullanımı bile
yetebilmektedir (Porter, 1980).
Türkçe gibi biti � ken dillerde, kelime üretimi ve kelimelerin
dilbilgisi özellikleri ek sistemi kullanılarak sa� lanır. Türkçe’de yapım
ve çekim eklerinin kurallarına ba� lı kalarak kullanımı ile, üretilebilecek
anlamlı gövde sayısı, sadece tek bir kelime için dahi milyonun üzerinde
olabilmektedir (Hankamer, 1984). Dolayısı ile, hesaplamalı dilbilim
sahasında kullanılacak, Türkçe için bir gövdeleme yordamı, analitik
dillerde oldu� u kadar basit � ekilde kurgulanamaz. Ancak, bilgi geri-
ile temsil edilen ve iki harften olu� an çift (2-gram) hesaplama birimi olarak kullanıldı � ından dolayı, ihh ),( 21 � eklinde özel bir biçimsel
temsile daha sahiptir ( ni ,...,2,1= ). Kullanılan indis, i,
Ahhhh ii ∈== +121 , olacak � ekilde, çifte ait ilk harfin gerçek silsile
içindeki sıra numarasıdır. ni = durumunda, çiftin son harfi için sıra
numarası, görüldü� ü gibi birli � in boyunu a� maktadır. Bu durumda, çift,
ilk harfi silsilenin son harfi ve ikinci harfi “ _” olarak alınıp,
ninh =)_'',( � eklinde meydana getirilmektedir.
Belirli bir harf çifti için, jhh ),( 21 ( max1 nj ≤≤ , maxn simgesi
Türkçe kelimelerin olası en uzun harf sayısıdır14.) bu çiftin verilen bir
birlik temsili içinde bulundu� unu, yani bu iki harfi aynı sıralama ile içerdi � ini belirtmek üzere, nj shh ∈),( 21 ifadesi kullanılacaktır. Bu
ifade, ihh ),( 21 çifti ile belirti len ve ns birlik temsilinde, i
pozisyonunda bulunan belirli bir çift için, ji hhhh ),(),( 2121 =
durumunu ancak i=j ise sa� lanacaktır. Yani, hem harfler e� le� ecek hem
de j indisi silsile içindeki yeri de belirtecek. Harfler silsile içinde e� le� iyor olsa bile, j indisi ile belirtilen yerde de� illerse, jhh ),( 21 çifti
ns birlik temsilinin elemanı olarak sayılmayacaktır ( nj shh ∉),( 21 ).
Son olarak, [ ]msg nm := ve [ ]:11 +=+ mse nm � eklinde iki temsil
daha tanımlayarak simge sistemimizi belirlemi � oluyoruz ( nm≤≤1 ).
Bu iki kısmi temsil ile, belirli bir birli � i, ardı � ık iki parçadan olu� an bir
harf silsileleri çifti � eklinde, yani ),( 1+= mmmn egs biçiminde de temsil
edebilmek için tanımlıyoruz.
14 Deneysel derlemimizde, rastlanan en uzun birlik 23 harften olu� maktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
193
9.3.2.2 Sıralı Çiftler ve Örneklem Kümesi
E� er L kümesini, max,...,2,1 ni = olacak � ekilde, Türkçe yazılı
birliklerde gözlemlenebilecek tüm olası ihh ),( 21 sıralı çiftlerinin
toplulu� u olarak tanımlarsak; L kümesi, ihh ),( 21 sıralı çiftleri için
örneklem kümesi olur ve Denklem 9.3.2.2.1.’de verildi � i � ekilde
biçimsel olarak temsil edilebilir.
{ } 1 , ),( max2121 ni�
hhhhL i ≤≤∧∈=
Ayrıca, LTEG kkk ⊂,, olacak � ekilde, kG , kE ve kT
kümelerini, ihh ),( 21 çiftleri için olay kümesi olarak kabul edersek
( max1 nk ≤≤ ).
{ } m1 ),( ),( max2121 nghhkihhG miik ≤≤∧∈∧==
{ }max2121 m1 ),( ),( nehhkihhE miik ≤≤∧∈∧==
��� ��
� ���
≤≤++=∧=
=== +
max
12121
1
; ]1:1[ ]:[
;
),(
ni
mmehmmgh
mki
hhT mmik
kG olay kümesi, gövde içinde gözlenen çiftleri; kE olay kümesi,
ek silsilesi içerisinde gözlenen çiftleri; kT olay kümesi de, bir birlik
içerisinde, gövde ve ek birle� iminde yer alan çiftleri, yani birinci harfi
gövde kısmının sonunda kalan harfi, ikinci harfi de ek kısmının
ba� langıcında olan çiftleri içermektedir.
Tanımlanan, L örneklem kümesi ve kG , kE ve kT olay kümeleri
sayesinde, verilen bir nn hhhs 21= birlik temsilinde, ni ,...,2,1=
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
194
sırasındaki herhangi bir ihh ),( 21 çift için, gövdenin bir parçası olma
olasılı � ı, ek sisteminin bir parçası olma olasılı � ı ve gövde ile ek
sisteminin geçi � inde olma olasılı � ı hesaplanabilir.
Denklem 9.3.2.2.1, .2, ve 3.’de belirtilen olasılıkların deneysel
de� erlerinin bulunabilmesi için kullanılacak hesaplama yöntemleri,
sırasıyla, Denklem 9.3.2.3.1, .2, ve 3.’de verilmi � tir.
( ) /*),( ,,21 NwfhhP igigiG = (9.3.2.3.1)
( ) NwfhhP ieieiE /*),( ,,21 = (9.3.2.3.2)
( ) NwfhhP ititiT /*),( ,,21 = (9.3.2.3.3)
Hesaplama için verilen denklemlerde, igf , , ief , , ve itf ,
simgeleri sırasıyla, ihh ),( 21 çiftinin i sırasında, gövde içinde görülme
sıklı � ı, ek silsilesi içinde görülme sıklı � ı ve gövde-ek birle� iminde görülmesi sıklı � ıdır. igw , , iew , , and itw , simgeleri ise, i sırası için
igf , , ief , , ve itf , görülme sıklıklarına verilecek, 0 ile 1 arasında
a� ırlık de� erleridir. A � ırlık de� erleri, her ihh ),( 21 çifti için, toplamı 1
edecek � ekilde tespit edilmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
195
9.3.2.4 Olasılık Esasında Gövdeleme Yordamı
Denklem 9.3.2.2.1, .2, ve 3. ile, verilen bir nn hhhs �21= birlik
temsili için olası kelime gövdeleri Önerme 9.3.2.3.1.’de verildi�i � ekli
ile tespit edilebilir.
Önerme 9.3.2.3.1: E�er, verilen bir nn hhhs �21= , birlik temsil i
için, nm≤≤1 sırasında, belirli bir 10 ≤≤ α sabiti için, ( ) ( )mGmE hhPhhP ),(),( 2121 > ve ( ) α≥−121 ),( mT hhP
11 e b 3 ede bilecek 0.000022 0.000186 0.000000 ed
12 b i 4 edeb ilecek 0.000998 0.000685 0.000021
13 i l 5 edebi lecek 0.000994 0.000644 0.001985
14 l e 6 edebil ecek 0.001457 0.016941 0.000006 edebi
15 e c 7 edebile cek 0.000002 0.001278 0.000001 edebil
16 c e 8 edebilec ek 0.000036 0.001523 0.000000 edebile
17 e k 9 edebilece k 0.000002 0.002951 0.000000
18 k _ 10 edebilecek 0.000000 0.004037 0.000240
19 g ö 1 g özetmeden 0.017605 0.000000 0.000000
20 ö z 2 gö zetmeden 0.007050 0.000000 0.000000
21 z e 3 göz etmeden 0.005962 0.000000 0.000228
22 e t 4 göze tmeden 0.010047 0.000000 0.000163
23 t m 5 gözet meden 0.000296 0.000174 0.000416
24 m e 6 gözetm eden 0.000602 0.005776 0.000029 gözet
25 e d 7 gözetme den 0.000007 0.000198 0.001506 gözetm
26 d e 8 gözetmed en 0.000037 0.006912 0.000000 gözetme
27 e n 9 gözetmede n 0.000034 0.003872 0.000007
28 n _ 10 gözetmeden 0.000000 0.021110 0.000283 gözetmede
Çizelgede, “h1” ve “h2” sütunlarında verilmi � harflerin, birlik
içinde “ i” sırasındaki sıralı çift için, “PE(.)” olasılı � ı, yani ek içinde
olma olasılı � ı, “PG(.)” olasılı � ından, yani gövde içinde olma
olasılı � ından büyük olup da, varsa bir önceki çift için “PT(.)” olasılı � ı,
yani bir gövde-ek geçi � inde bulunma olasılı � ı sıfırdan büyük olanlar
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
201
renkli dolgu ile belirlenmi � tir. Bir ba� ka söyleyi � le, önermeyi sa� layan
sıralı çiftler i � aretlenmi � tir.
Verilen ilk örnek, “abartılı” birli � idir. Bu birlik içinde, “ab-
isim” , “ abar-fiil” , “abartı-isim” ve “abartılı-isim(sıfat)” gövdeleri
vardır. Sıfat olarak kullanılan “abartılı” isim gövdesi, “abartı” isim
gövdesinden, “ -lı” isimden isim yapma eki ile türetilmi � tir. “ abartı”
ismi, “ abar” fiilinden “ -tı” fiilden isim yapma eki ile türetilmi � tir. “abar” fiil i, “ ab” isminden anlamca çok farklılık gösterdi � i için, “ -ar”
isimden fiil yapma eki ile mi türetilmi � tir bilemiyoruz. Fakat analizi
sadece biçimbirimsel olarak yaptı � ımız, anlamı ise, i � e katmadı � ımızı
dü� ünürsek, “abar” fiili, “ab” isminden “ -ar” isimden fiil yapma eki ile
türetilmi � tir diyebiliriz. Aslen bu gövde türetimleri arasında, “aba-
isim” , “abart-fiil” ve “abartıl-fiil” gövdeleri de vardır. “aba” isim
gövdesi, “ -a” isimden isim yapma eki ile “ab” isim kökünden türetilmi �
olabilece� i söylenebilir. Fakat, “ab” , yani “su” anlamını kar � ılayan bir
isim kökünden, “aba” , yani “abla, anne” veya “ yünden, dövülerek
yapılan kalın ve kaba kuma� ” anlamını kar � ılayan bir gövde türetilmi �
olabilir mi, sorusunun cevabını vermek bu tez kapsamını oldukça a� ar.
Devam edersek, “abart” fii l gövdesi, “abar” fii l gövdesinden, “ -t”
fii lden ettirgen fiil yapma eki ile türetilmi � , bir gövde olarak kabul
edilebilir. Aynı � ekilde, “abartıl” edilgen fiil gövdesinin, yine “abar”
fii l gövdesinden, “ -l” fiilden ettirgen fiil yapma eki ile türetildi � i
dü� ünülebilir. Çünkü, “ -ı” harfi, Türkçe’de kayna� tırma harfi olarak da
kullanılır. Bu kadar zengin ba� ka örneklerin sayısı nedir, � u an için bir
bilgimiz yok, ancak tek bir birlik içinde, kök olan “ab” kelimesinden
di � er gövdelerin biçimbirimsel türetili � leri incelendi � inde, rahatlıkla
görülmektedir ki, söz konusu gövdelerden hangisinin yazımda
kullanılan anlamı verdi � inin tespiti, öyle kolayca halledilebilecek bir
mesele de� ildir. Bu noktada, Sever ve Bitirim (2003) tarafından yapılan
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
202
“biçimbirimsel analiz olmaksızın, bir birli � e ait olası gövdenin ne
oldu� unu belirlemek mümkün de� ildir” hükmüne katılıyoruz. Burada
kastedilen biçimbirimsel analizin, anlamların da hesaba katıldı � ı bir
analiz olması gerekti � ini vurgulamak da istiyoruz. Ayrıca, “a” harfinin
ünlem edatı olması sebebi ile, bir kelime kökü oldu� u da dü� ünülünce,
8 harflik tek bir birlikten, toplam 8 gövde türetebilece� i gibi bir
gerçekle de kar � ı kar � ıya kalıyoruz.
Önerdi � imiz yöntemle, “abartılı” birli � i için Çizelge 9.3.3.2.’de
“Gövde” sütununda yer alan, üretilmi � üç seçenek gösterilmi � tir: “abar” , “abart” , “abartı” ve “abartıl” . Çizelgede gösterilemeyen, ancak
her birlik için önermenin do � ru oldu� u, son sıralı çiftler için de, birli � in
kendisi, gövde olarak üretilmektedir. Dolayısı ile, “abartılı” gövdesi de
üretilenler arasındadır. Ayrıca, önerme hiçbir sıralı ikili için geçerli
olamamı � sa, birli � in yine kendisi, gövde olarak üretilmektedir.
Yukarıda, “abartılı” birli � i için verilen dilbilimsel çözümlemenin
ı � ı � ında, be� seçenekten, yani “abar” , “abart” , “abartı” , “ abartıl” ve
“abartılı” seçeneklerinden hangisinin gerçek gövde olarak alınması
gerekti � i belirsizdir. Çünkü, hepsi anlamca aynı olan ve “abar” fiil
kökünden türetilmi � isim ve fiil gövdeleridir. “abar” fiil kökünü almak
ta yanlı � de� ildir, “ abartılı” isim (sıfat) gövdesini almak da; hatta
aradaki türetimlerden birini de gövde olarak almak, aslen hata de� ildir.
Çizelgede verilen ikinci örnek çözümleme, “edebilecek”
birli � idir. Bu birlik için önerilen yöntemle, her � ey dahil, dört olası
gövde üretilmi � tir: “ ed” (yani “et-fiil” ), “edebi” , “edebil” ve “edebile” .
Çizelgeden takip edilebilece� i gibi, “ et” fiil kökünden itibaren, birli � e
eklenen harflerin ekte bulunma olasılıkları “PE(.)” çok yüksek
seyretmi � tir, aynı zamanda gövdede bulunma olasılı � ı da “edebil” fi il
gövdesinden itibaren çok küçük de� erlerde kalmı � tır. Sever ve Bitirim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
203
(2003) tarafından verilen “edebilecek” birli � i, aslen bir birle� ik fiildir.
“et-” fii li ile “ bil-” fiilinin birle� mesinden meydana gelmi � tir. Ba� ka
fii llerle, birle� ik fiil yapabilen, “ bil-” fiilinin i � levi, birle� ti � i fiile
iktidar anlamı katmaktır. “ bil-” fii linin önüne gelen fiil, genellikle isim-
fii l (gerund) halindedir: yap-a bil, ed-e bil, gel-e bil gibi. Birle� ik
fii llerde, yardımcı fiil olarak kullanılan fiil, asıl anlamının dı � ında
kullanılır. O yüzden, bu birlikte sanki, “ -ebil, -abil” gibi bir ek varmı � hissi do � abilir. Fakat, Türkçe’de “ -ebil” , “ -abil” diye bir ek yoktur (Bu
tür detaylara girmemek için olsa gerek, Kemal Oflazer15, tüm yardımcı
fii l olarak kullanılan fiilleri “ bil” , “ ver” , “gel” , “gör” , “dur” , kal” , “ yaz”
ve “koy” , Türkçe’de yapım eki olarak tanımlamı � tır.). Dolayısı ile, bu
birli � in gövdesi, esas fiil olarak “et” fiili, birle� ik fiil olarak “edebil”
fii lidir. “ede” isim-fiil’ dir, geçici bir yapıdadır, “et-“ fiilinin “ -a, -e”
çekim eki ile yapılan isim-fiil halidir, yani çekim ekiyle olu� turulan bir
kipidir. � sim-fiiller aslen, bir hareket hali kar � ılarlar, daha do� rusu bir
hareketin, ne � eklinde yapıldı � ını ifade ederler. Bu açıdan, zarf olarak
da kullanım alanında görülebilirler. “edebil-” birle� ik fiili, en son
olarak da “ -acak, -ecek” fiil çekim eki alarak, sıfat-fii l (participle)
haline gelmektedir. Sıfat-fiiller aslında nesneleri, isimleri ile de� il de,
hareketleri ile kar � ılamak için kullanılırlar. Vasıflandırma ile nesneleri
kar � ıladıklarından dolayı, sıfat olarak kullanılmaya yatkındırlar: “yap-
acak” ki � i, “ dü� -ecek” adam örneklerinde oldu� u gibi. Ek aslen, fiil
çekim ekidir, ancak, isim-fiilde oldu� una benzer bir � ekilde, çekim
ekli � inden çok, geçici olarak nesneleri hareketleri ile kar � ıladıklarından
dolayı, isim gövdesi gibi yorumlanabilir, ancak tabii, fii lin yine çekim
eki ile meydana getirilen bir kipidir. Bu yüzden, iki çekim ekinin de,
yapım ekli � ine çok yakın bir i � lev gördü� ü söylenebilir, ancak bu
durum çekim eki oldukları gerçe� ini de� i � tirmez. “edep” ve “edebi”
15 Kemal Oflazer, Elvan Göçmen ve Cem Boz � ahin tarafından yazılan “An Outline of Turkish Morphology” kitap bölümünde, fiil çekimleri kısmında.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
204
isim gövdelerine gelince, zaten yukarıdaki verdi � imiz açıklamadan da
anla� ılaca� ı gibi, “ edebilecek” birli � i ile hiçbir anlamsal alakaları
yoktur. � kisi de, müstakil anlamlar ta� ırlar. Özetle, “ edebilecek”
birli � ine bir gövde seçilmesi gerekiyorsa, tek bir seçenek vardır, o da
“edebil” birle� ik fii lidir. “ et-” fiil ini gövde olarak seçmek, birli � in
bütün halinde kar � ıladı � ı iktidar anlamını yok edece� i için, anlamsal
açıdan yanlı � tır. Bu tür birle� ik fii llerin, gövdeleri aslen biçimbirimsel
analiz olmadan tespit edilemez. Ancak, Oflazer (1993) tarafından
geli � tirilmi � , Türkçe’nin yegane biçimbirim analiz yordamına da, bu
yardımcı fii lleri yapım eki olarak belirledi � i ve daha birkaç mesele
sebebiyle, bir çekince koymak istiyoruz. Örne� in, “edebilecek” birli � i
Analizlerde, “ ^DB” bir yapım eki kullanıldı � ını belirtir. Örne� in,
1. çözümlemede, ilk önce “et-” kelimesinin fiil (Verb) kökü ve olumlu
(Pos) oldu� u vardır. Ardından “ -ebil” yapım eki geldi � i (^DB), yapım
eki ile “ et” fiilinin, tekrar fiil (Verb) oldu� u ve birle� tirme kipinde16
bulundu� u (Able17) belirtilmi � tir. En son “ -ecek” yapım eki alarak sıfat
oldu� u (Adj) ve istisna-i sıfat çekim eki aldı � ı (FutPart), bu çekim
ekinin de eylemin öznesi ile uyum göstermek için iyelik eki aldı � ı,
ancak bu birli � in iyeliksiz oldu� u (Pnon) kodlanmı � tır. Neden istisna-i
sıfat eki deniyor, alıntı yaparak veriyoruz:
16 OSTAD kullanım kılavuzunda verildi � i � ekli budur. � ngilizcesi “compounding-modality” olarak belirtilmi � tir. 17 OSTAD kullanım kılavuzundaki açıklamasında, “yapabilir” olarak tanımlanmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
205
“ Sıfatların Çekim Ekleri: Sözlüksel veya türetilmi � sıfatlar çekim eki almazlar.� stisnalar vardır: +Adj+PastPart ve +Adj+FutPar eylemin öznesi ile uyumu göstermek için iyelik uyum eki (+Pxxx) alırlar. Sıfatlara yapılan di � er tüm bükümler ada dönü� türme (type-raising) içerir ve tüm bükümler bo� biçimbirim türetmesinden sonra ad üzerinde gösterilir.”
OSTAD derleminin kullanım kılavuzunda, “FutPart” gelecek
zaman ortacı (sıfat-fiil) olarak tanımlanmı � tır. � kinci çözümleme ise,
“et” kelimesinin yine fiil ve olumlu oldu� unu, “ -ebil” yapım eki ile
tekrar fiil ve birle� tirme kipinde oldu� unu, gelecek zamanın üçüncü
Bir Markov sürecinde, 1−nX olasılık de� i � keninin de� eri, mesela
i iken, nX olasılık de� i � keninin de� erinin, örne� in j olması olasılı � ına,
bir-adım geçi � olasılı� ı (one-step transition probability) ismi verilir ve nn
jiP ,1,
− simgesi ile temsil edilir ve )Pr( 1,1
, iXjXP nnnn
ji === −− ifadesi
ile hesaplanır. Simgesel gösterimde, geçi � olasılı � ının durumlara ba� ımlılı � ı dı � ında zamana ba� ımlılı � ı da betimlenmi � tir ( nn ,1− ).
E� er, zaman içinde de� i � meme özelli � i sa� lanıyorsa, geçi � olasılıkları,
dura� an geçi � olasılıkları (stationary transition probabilities) biçiminde
adlandırılır. Dolayısı ile, )Pr( 1,,1
, iXjXPP nnjinn
ji ==== −− olur.
Bir Markov sürecinde, nX olasılık de� i � keninin de� erinin,
örne� in j olması, e� er 2−nX olasılık de� i � keninin de� erine, mesela i
olsun, ba� lı ise, bu Markov sürecinin derecesi19, 2 olur. E � er durum
uzayının eleman sayısının, s > 0 � artını sa� layan bir sabit ile temsil
edildi � i kabul edilirse, biçimsel olarak Denklem 9.4.2.1.3.’de verildi � i
� ekilde ifade edilir.
( ) ( )( ) � ⋅=� ====
======−
=
−
=−−−
−−−−
−
1
0,,
1
0122
221100
2,Pr
PrPr
s
ikiil
s
innnn
nnnnnn
PPiXlXkX
lXkXlXlXkX
n
� (9.4.2.1.3)
Herhangi bir Markov sürecinin, n=0 zamanında, 0X olasılık
de� i � keninin, durum uzayından herhangi bir de� ere, mesela i olsun, e� it olması olasılı � ına, yani )( 0 iXPi ==π , süreci olu� turan X olasılık
de� i � kenlerinin ba� langıç olasılı� ı (initial probabilities) adı verilir. Bir
19 Yeri gelmi � ken bir yanlı � kullanımında altını çizmek gerekir. Sıfır (0) derece Markov süreci, bazen 1-gram kar � ılı� ı olarak dü� ünülmektedir, ancak bir silsile süreci, kısıtlı ufuk özelli � i ta� ımıyorsa, Markov süreci olarak adlandırılmaz. Dolayısı ile, kavramsal açıdan, sıfır derece Markov zinciri tanımsız bir niteleme ve yanlı � bir adlandırma olmaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
215
ba� ka söyleyi � le, Markov sürecinin ilk ba� ında, sürecin herhangi bir
durumdan ba� laması ihtimalidir.
Bir silsile sürecinde, bir sn durumunun herhangi bir n zamanında,
kendisinden önceki, sn-1 ve sn-2 durumlarına ba� ımlı olsun:
( )1122 ,Pr −−−− === nnnnnn sXsXsX (9.4.2.1.4)
Denklem 9.4.2.1.4.’de verilen ifade, bir Markov zincirine
çevrilebilir. Söz konusu çevrim, 1. dereceden bir Markov sürecinde,
1−nX olasılık de� i � keninin de� eri, (sn-1, sn-2) sıralı çifti olarak alınarak
halledilir. Aslen bu durum, 1. dereceden bir Markov sürecinde, durum uzayında geçmi � e do� ru bir adımın daha, nX olasılık de� i � keninin
de� erinde etki etti � i anlamına gelir, daha do� rusu durum uzayında
geçmi � in tanımlanması söz konusudur. Dolayısı ile, söz konusu
Markov süreci, 1. dereceden, geçmi � e bir adım Markov süreci � eklinde
adlandırılır.
9.4.2.2 Sözcük Türü Tespitinin Markov Süreci Olarak Tanımı
Verilmi � olan n tane kelimenin belirli bir silsilesi, nww ,,1 � için,
hangi dilbilgisi i � levini kar � ıladıkları, yani sözcük türlerinin, ntt ,,1 �
ne oldu� unun tespiti meselesi, Denklem 9.4.2.2.1.’de verildi � i biçimde,
bir olasılık modeli ile tanımlanabilir.
( )nntt wwttPn ��� 111
argmax (9.4.2.2.1)
Denklemdeki olasılık modeli, verilen bir nww ,,1 � kelime dizisi
için, kar � ılık gelebilecek tüm, ntt ,,1 � sözcük türü dizilimleri içinden,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
216
olasılı � ı en yüksek olan sözcük türü dizisinin seçilmesi anlamına
gelmektedir. Bu ifade de, Bayes olasılık dönü� türümü uygulanırsa,
Denklem 9.4.2.2.2.’deki hale gelir.
( ) ( )( )n
nnntt
wwP
ttPttwwPn �
����
1
1111
argmax⋅
(9.4.2.2.2)
Denklem 9.4.2.2.2.’de verilen ifade de, olasılı � ın en yüksek de� eri aranırken, ntt ,,1 � sözcük türü dizisini esas aldı � ı ve tüm
sözcük dizisi ihtimalleri için verilen kelime silsilesi de� i � medi � i için, ( )nwwP �1 olasılı � ı sabittir. Dolayısı ile, ( )nwwP �1 olasılı � ı
hesaplamalardan çıkartılarak, sözcük türü tespit meselesinin olasılık
modeli, Denklem 9.4.2.2.3.’de verilen sade � ekli ile ifade edilebilir.
( ) ( )nnntt
ttPttwwPn
���� 111
1
argmax ⋅ (9.4.2.2.3)
Sözcük türü tespiti meselesinin, Markov süreci biçimine
getirilmesi için, zaman içinde de� i � meme kabul edilip, yani dizide iki
farklı yerde olan, aynı kelimenin olası sözcük türlerinden birini alması
olasılı � ının e� it oldu� u kabul edilip, kısıtlı ufuk özelli � inin
uygulanması gerekir. Sözcük türü tespitinin 1. dereceden Markov
süreci olarak ifadesi Denklem 9.4.2.2.4.’de verilmi � tir.
( ) ( )∏ ⋅=
−n
iiiii
ttttPtwP
n 11
1
argmax� (9.4.2.2.3)
Aynı � ekilde, sözcük türü tespit meselesi için, 1. dereceden,
geçmi � e bir adım Markov süreci modeli de, Denklem 9.4.2.2.4.’de
verildi � i ifade edilecektir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
217
( ) ( )∏ ⋅=
−−n
iiiiii
tttttPtwP
n 112,argmax
1 �
(9.4.2.2.4)
Markov süreci denklemlerinde verilen � artlı olasılıkların tahminleri, bir talim derlemi üzerinden elde edilecek ),,( 12 iii tttf −− ,
),( 12 −− ii ttf , )( itf ve ),( ii wtf gözlenme sıklıkları ile hesaplanır.
( ))(
),(
i
iiii
tf
wtftwP =
∧
(9.4.2.2.5)
( )),(
),,(,
12
1212
−−
−−−−
∧=
ii
iiiiii
ttf
tttftttP (9.4.2.2.6)
Sözcük türü tespitinin, Markov süreci olarak tanımlanması ile, en
uygun sözcük türü dizisinin bulunması meselesi bir dinamik
programlama meselesi haline getirilmi � olur. Bu tür dinamik
programlama meseleleri için, hesaplama karma� ıklı � ı en dü� ük yordam
da, Viterbi (1967) tarafından geli � tiri lmi � olan ve kendi adıyla
anılandır.
Sözcük türlerinin, Markov süreci modeli esasında tespitinde, iki
sorunun çözümlenmesi gerekmektedir. Bu sorunlar, talim derleminde
görülmemi � , kelime-sözcük türü çiftleri ve sözcük dizilimleri için, bir
olasılık atanması zorunlulu� udur. Denklem 9.4.2.2.3.’de verilen 1.
dereceden Markov süreci ifadesinde de görüldü� ü gibi, silsilede her
hangi kelime-sözcük türü çiftinin ( 0)( =∧
ii twP ) veya sözcük türü
dizisinin ( 0)( 1 =−∧
ii ttP ) sıfır olasılı � a sahip olması durumundan, o
kelime-sözcük türü çiftini veya sözcük türü dizini içine alan dizilim
ihtimallerinin, toplam olasılı � ı, di � er olasılıkların ne oldu� unun bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
218
önemi olmaksızın sıfır olmaktadır ( 0)()( 1 =⋅ −∧∧
iiii ttPtwP ).
Hesaplamalı dilbilimde, kapalı kelime da� arcı � ı kabullenmesi yapan
tüm dil modelleri için söz konusu çıkmaz geçerlidir.
Bu tür sıfır olasılıkların önlenmesi için, talim derleminde
gözlenmemi � olanlar için, sıfır yerine, yine sıfıra yakın ancak sıfırdan
büyük bir de� er atanarak, dizilim ihtimalinin toplam olasılı � ının sıfır
olmasının önüne geçilir. Olasılık yumu � atma yöntemi olarak
adlandırılan yordamlar, söz konusu amaç için kullanılırlar. Olasılık
yumu� atma için geli � tirilmi � pek çok yöntem mevcuttur: Lidstone
(1920), Good (1923), Jelenik ve Mercer (1980), Katz (1987), Witten
and Bell (1991), Ney ve arkada� ları (1994), Kneser ve Ney (1995).
Harvard üniversitesinde, Chen ve Goodman (1998) tarafından, bahsi
geçen tüm olasılık yumu� atma yöntemleri, çok çe� itli içeriklerde ve
de� i � ik büyüklüklerde derlemler üzerinde de� erlendirilip, derin
incelemeler yapılmı � ve teknik rapor halinde sunulmu� tur. Raporun
sonucunda, Kneser and Ney (1995) olasılık yumu� atma yönteminin,
di � er yöntemlerden her zaman anlamlı düzeyde ba� arılı oldu� u
belirtilmi � tir. Dolayısı ile, Kneser ve Ney yöntemi, kısaca KN olarak
adlandıraca� ımız olasılık yumu� atma yöntemi, bu tezde de,
kullanılacak yöntem olarak seçilmi � tir.
9.4.2.3 Önerilen Yöntemin Kurgusu
Önerilen yöntem, aslen genel Markov sürecinin, çıktı uzayının
tanımında, daha do� rusu kelime silsilesinin tanımında yapılan basit bir
de� i � ikliktir. Genel kurgu içerisinde, Markov sürecinin hesaplama
birimi kelimelerdir. Biz, kelimeler yerine, kelimelerin sonlarından
alınacak belirli sayıda harften olu� an hesaplama birimi ile de,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
219
Türkçe’de sözcük türü tespit meselesinin halledilebilece� ini iddia
ediyoruz. Sözcük türlerinin, yani kelimelerin cümle içindeki di � er
kelime veya kelimelerle olan ili � kilerinin, Türkçe yazımda kelimelerin
sonlarına çekim ekleri getirilerek kar � ılanması, önermemize do� rudan
dayanak te� kil etmektedir. Önce genel kurgu, yani kelimenin
hesaplama birimi olarak kullanılması tanıtılacak, ardından önerimiz,
sadece farkı ile ortaya konarak tanımlanacaktır.
Genel Markov zinciri kurgusunu vermek için örnek bir cümle
kullanaca� ız: “ � � ten döner dönmez evimizin yakınında bulunan derin
gölde yüzerek gev � emek en büyük zevkimdir.” . Bu örnek cümlenin, her
kelimesinin alabilece� i olası sözcük türleri, Çizelge 9.4.2.3.1.’de tablo
halinde verilmi � tir.
Çizelge 9.4.2.3.1: Örnek cümlenin, her kelimesinin olası sözcük türleri.
Kelime Sözcük Türü Kelime Sözcük Türüi � ten � sim ( � ) gölde � , Zarf (Zr)döner � , Fiil (F), Sıfat (S) yüzerek Zrdönmez F, S gev � emek Fevimizin � en � , Zryakınında S büyük Sbulunan S zevkimdir Fderin � , S, F
Örnek cümlenin ba� tan 6 kelimesi için olası sözcük türleri ve
kelime silsilesine kar � ılık gelebilecek sözcük türü dizileri, � ekil
9.4.2.3.1.’de çizge olarak betimlenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
220
i � ten döner dönmez derin gölde yüzerek ...
� �
FS F S
�
FS
�Zr
Olası Diziler = 1x3x2x3x2x1 = 36
� �F
� �Zr ...
F
S
S F
S
(a)
(b)
Zr
Zr
�ekil 9.4.2.3.1: Örnek cümlenin 6 kelimesi için olası sözcük türleri (a) ve kar � ılık
gelebilecek sözcük dizisi ihtimalleri (b).
Cümle, Markov süreci kurgusuna alındı � ı zaman, kelimeler çıktı
uzayını, sözcük türleri durum uzayını olu� turmaktadır. Markov süreci
kurgusu içindeyken, olası sözcük türü dizileri, kelimelerin olabilece� i
sözcük türlerinin seçilmesi � eklinde bir daraltma söz konusu de� ildir.
Bir ba� ka söyleyi � le, durum uzayında tanımlı olan tüm sözcük türleri,
çıktı uzayındaki her kelimeye atanması ihtimali vardır. Türkçe için
dü� ünecek olursak, toplam 8 temel sözcük türü mevcuttur. Dolayısı ile,
örnek cümledeki 6 kelime için, olası sözcük türü dizilerinin toplam
sayısı, 6x8, yani 48 adet olacaktır. Söz konusu 48 sözcük türü dizisi
ihtimalinden en yüksek olasılı � a sahip olan, verilmi � cümle için
atanacaktır. Markov süreci kurgusu içinde, yöntemin tüm unsurlarının
�ekil 9.4.2.3.2: Örnek cümlenin Markov süreci altında, sözcük türü tespit kurgusu.
�ekilde çizge olarak betimlenen Markov zinciri kurgusunda,
cümledeki kelimelerle (kn), yani çıktı uzayı elemanları ile, sözcük
türleri (sm), yani durum uzayı elemanları arasında ili � kiyi kuran, bi j(kn)
olasılıkları; sürecin, belirli bir i. sözcük türünden ba� lama ihtimali, yani sürecin si durumundan ba� laması ihtimali ( iπ ); sözcük türlerinin
birinden di � erine geçi � olasılıkları (ai j) tanımlanmı � tır. Ayrıca, cümleye kar � ılık gelebilecek belirli bir sözcük türü dizisi de, nee ,,1 � olasılık
de� i � kenleri silsilesi olarak temsil edilmi � tir. Bu dizideki de� i � kenin, e
olarak adlandırılmasının sebebi, Markov sürecinin her kelimeye etiket
yapı � tıran bir i � lem olarak dü� ünülebilmesindendir ( � ngilizce’sinde de
Tag, yani etiket kelimesi aynen kullanılıyor). Etiketlerin üzerlerinde de,
kelime için kar � ılık gelen sözcük türü yazılı diye dü� ünülebilir. Dolayısı ile, her etiketin üzerine, durum uzayını olu� turan mss ,,1 �
sözcük türlerinden birisi yazılabilir. Mesele, hangi etiketin üzerinde
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
222
hangi sözcük türünün yazılaca� ını bulmaktır. Özetle, kurgu açısından
simge sisteminde yaptı � ımız de� i � iklikler � unlardır: kelime dizisindeki
kelimeler, özgün kurguda w (word) ile gösterilirken, de� i � iklikle k
(kelime) olarak; etiketler özgün kurguda t (tag) ile gösterilirken,
de� i � iklikle e olarak temsil edilmektedir. Dolayısı ile, sözcük türü tespit
meselesinin, olasılık kurgusu, Denklem 9.4.2.3.1.’de verildi � i � ekilde
ifade edilmektedir.
( )nnee kkeePn ��� 111
argmax (9.4.2.3.1)
Kurguda verilen olasılıklar, Markov süreci için tanımladı � ımız
olasılıklara kar � ılık gelmektedir. Çizgede betimlenen olasılıklardan, ai j
yani sözcük türü tespit meselesinin Markov kurgusunda )|()|( 11 −− = iiii eePttP � artlı olasılı � ına; bi j(kn) olasılıkları,
),|( 1 iii ttwP − � artlı olasılı � ına veya yeni simgeleri ile, ),|( 1 iii eekP −
� artlı olasılı � ına e� ittir. Kurgu içinde, cümlenin ba� ına <bos> ve
sonuna <eos> simgeleri konmu� tur. Bu simgeler, n=1 oldu� u yerde, yani sürecin ba� langıcında, ba� langıç olasılıklarının, )Pr( 0 iXi ==π ,
� artlı olasılıklar, )|Pr( 0 ><== bosiXiπ olarak ele alınmasını
sa� lamak amacıyla konmaktadır. Ayrıca, yumu � atma yöntemlerinde
olasılık da� ılımlarının, bire toplanabilmesi için de gereklidir. Sondaki
<eos> simgesi de, sözcük türünün cümle sonunda olma olasılı � ının � artlı olasılık � eklinde, yani )|Pr( neeos >< olasılıkları biçiminde
hesaplamada ele alınabilmesi için konmu� tur. Böylece, Markov
kurgusundaki, tüm olasılıklar � artlı olasılık � eklinde ifade
edilebilmekte, hesaplamalar tek bir düzen üzerinden yapılabilmektedir.
Yukarıda Markov süreci esasında sözcük türü tespiti için genel
kurgu tanımlanmı � tır. Sözcük türü tespiti için, yine Markov süreci
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
223
esasında bu tezde önerdi � imiz yöntem ise, Önerme 9.4.2.3.1.’de
biçimsel olarak tasvir edilmi � tir.
Önerme 9.4.2.3.1: Türkçe sözcük türü tespiti için, genel Markov sürecini esas alan kurguda, hesaplama birimi olarak kelime kullanımı yerine, kelimelerin sonlarından belirli uzunlukta harf birlikleri alarak da sözcük türü tespiti yapılabilir.
Önermemizin, Markov süreci kurgusunun unsurlarını ne � ekilde
yeniden tanımladı � ı, � ekil 9.4.2.3.3.’de çizge olarak betimlenmi � tir. � ekilde, genel kurgunun korundu� u görülmektedir. Tek fark, çıktı
uzayının kelimeler yerine, kelimelerin sonundan belirli sayıda harf ile
olu� turulan birliklerin kullanılmasıdır. Geri kalan kurgu unsurları aynen
korunmu� tur. Kelime sonundan, l kadar birlik alınmaktadır, örnek
çizgede l=2 olan durum gösterilmi � tir. Dolayısı ile, kn olasılık
de� i � kenleri, knl � eklinde yeni bir indisle bu durumu kar � ılamaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
224
...b
~bs1
s2
sm
...s1
s2
sm
...
s1
s2
sm
...
s1
s2
sm
...
s1
s2
sm
...
...
...
...
a11
a2nann+1
a2n+1
a1n+1
0 1 2 3 4 n n+1
Zaman Ekseni
e1 e2 e3 e4 en
A
A
Kel
ime
Sils
ilesi
(Çık
tı U
zayı
)
bij(kn)
2π
1π
nπ
A
A
Söz
cük
Tür
leri
(Dur
um U
zayı
)
A
ASözcük Türü
Dizisi
i � ten döner evimizin ...
<bos> en er in <eos>...
�1k �
2k �3k �4k �nk �1nk +
dönmez
ez
zevkimdir
ir
�ekil 9.4.2.3.3: Sözcük türü tespitinin, Markov zinciri esasındaki kurgusunda,
önerilen kelime sonundan belirli sayıda harf birli � inin hesaplama birim olarak kullanılması.
9.4.3. Deneysel Sonuçlar
Türkçe için yapılmı � çalı � malar içinde, bilgimiz dahilinde
ba� arımı %93,95 ile en yüksek de� er sahip olan, Hakkani-Tür ve
arkada� ları (2002) tarafından istatistiksel yöntemler esas alınarak
bandında kalmasıdır. Harf birli � i için sondan alınan, harf birli � i sayısı
arttıkça, ba� langıç ba� arımı dü� mekte, yani harf sayısı artarken, talim
derlem boyutunun iki uç noktasına denk gelen en dü� ük ile en yüksek
ba� arım de� eri arasındaki makas açılmaktadır.
Sınamanın, 1. derece, geçmi � e bir adım Markov süreci kurgusu
içinde alınan sonuçlar � ekil 9.4.3.2.’de verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
227
0.0000
0.1000
0.2000
0.3000
0.4000
0.5000
0.6000
0.7000
0.8000
0.9000
1.0000
250
1000
1750
3000
4500
1000
0
1750
0
2500
0
3250
0
4000
0
Talim Derlemi Boyutu (Cümle Sayısı)
Ba
� arım
Ora
nla
rı
L1
L2
L3
L4
L5
L6
L7
�ekil 9.4.3.2: Sözcük türü tespit, sınama sonuçları. 1. derece, geçmi � e bir adım
Markov süreci kurgusu altında, tüm talim derlemi boyutları ve sondan alınan harf birliklerinin tüm uzunlukları için.
Sınamanın, � ekil 9.4.3.2.’de gösterilen sonuçlarında, en yüksek
ba� arımlar, %80-%90 bandında kalmaktadır. Bir harften olu� an birlik,
yine %60-%70 bandında seyretmi � tir. Geçmi � e bir adım ile sa� lanan
ba� lam derinli � inin, tek harften olu� an birli � e etkisi olmamı � tır. Fakat,
ba� lamın derinle� mesi, harf uzunlu� unun 2, 3, 4 ve 5 oldu� u birlikler
üzerindeki etkisi lehtedir. Özellikle 3 ve 4 harften olu� an birlikler,
10.000 kelimelik talim derlemi boyutundan itibaren, hep %80
ba� arımın üzerinde kalmı � tır. Zaten, 4 harften olu� an birlik, 30.000
cümlelik talim düzeyinde ve sonrasında %85 ba� arımının hep üzerinde
kalmı � ve son olarak 45.000 cümlelik talim derlemi boyutunda, %85,92
ba� arım ile, sınamanın en yüksek de� erini olu� turmu� tur. Sondan 5 harf
alınarak olu� turulan birlik için, 42.500 cümlelik talim düzeyinde, %85
ba� arım yakalanmı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
228
Markov zinciri dil modelinin, 1. derecesi için yapılan sınamada
harf sayısı bire e� it birlik için her talim derlemi boyutunda tutarlı sonuç
alınmasının sebebi, deneysel olasılık da� ılımına, yani derlemimiz için
tek harf uzunlu� undaki birli � in gerçek olasılı � ına küçük talim
boyutlarından itibaren ula� ılmasıdır. � ki ve üzeri harf sayısı için
deneysel olasılı � a yakınsamanın, talim derleminde daha büyük
boyutlarda gerçekle� mesi ise istatistiksel açıdan beklenen bir sonuçtur.
Çünkü, harf sayısı arttıkça, olasılı � ı belirlenecek farklı durum sayısı
artmaktadır, yani durum ba� ına dü� en gözlem sayısı dü� mektedir. Bu
durum aynı zamanda gözlenmemi � durumlar için devreye giren
yumu� atma yöntemine daha çok ba� vurulması anlamına gelmektedir.
Eldeki verilerin ı � ı � ında, bir harf uzunlu� unun en yüksek ba� arımda
olması durumuna sebep olarak, yumu � atma yöntemini, elimizdeki
derlemi, uyguladı � ımız yöntemi veya belirleyicili � in genel ba� arımda
olumsuz yönde etki etti � ini önerebiliriz. Ancak, ba� lamın bir kelime
daha arttırılması ile, yani 1. derecede bir adım geçmi � e yönelinmesi ile,
durumun de� i � mesi, yani en yüksek ba� arımın dört harf uzunlu� undaki
birli � e ait olması ve ba� arımda genel anlamda geli � me kaydedilmesi,
sorgulanması gereken ilk konu olarak yumu � atma yöntemini ortaya
çıkartır. Fakat, yumu� atma yöntemleri bu tezin kapsamına
girmemektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
229
10. GENEL � STAT � ST � KLER
Tez kapsamındaki çalı � malarda üç Türkçe, üç de � ngilizce derlem
olmak üzere toplam altı derlem kullanılmı � tır. Bu derlemlerin genel
özellikleri ve istatistikleri di � er çalı � malara temel te� kil edece� inden
dolayı toplu halde bu bölümde ele alınacaktır. Türkçe için kısa adları
BilTD, OSTAD ve ODTÜ olan üç derlem vardır. BilTD ve OSTAD
elimizdeki dilbilimsel özellikleri i � aretlenmi � derlemlerdir. ODTÜ
derlemi dilbilimsel özellik i � aretlemesi olmayan ancak boyut olarak en
büyük derlemimizdir. Sadece derlem içindeki belgeler birbirinden
ayrı � tırılmı � ve her belgenin genel yapısal özellikleri i � aretlenmi � tir. � � aretlenen yapısal özellikler çok detaylıdır: belgenin türü (makale,
roman, haber v.s.), ba� lı � ı, yazarı, yayın evi, basım tarihi, kelime sayısı
v.s. gibi belgenin genel özellikleri ve paragraf sınırları, atıflar gibi yazı
içindeki i � aretlemeler yapılmı � tır. BilTD ise ODTÜ derlemi kadar
yapısal özellik i � aretlemesine sahip de� ildir. Ancak, BilTD derleminde
her kelimenin biçimbirimsel analizi de yapılmı � tır. Ayrıca, belge
sınırları, ba� lık ve cümle sınırları da i � aretlenmi � tir. OSTAD aslen
ODTÜ derleminden seçilen bazı belgeler ve bu belgelerin içerisinden
seçilen bazı paragraflardan olu� turulmu� tur. OSTAD derleminde de,
BilTD derleminde oldu� u gibi her kelimenin biçimbirimsel analizi
yapılmı � tır. Ayrıca, kelime gurupları belirlenmi � , her kelime veya
kelime gurubunun sözdizimsel cümle analizi yapılmı � tır, yani cümle
unsurları (fii l, fail, nesne v.b.) i � aretlenmi � tir. Aslen, OSTAD ile BilTD
arasındaki tek fark sadece dilbilimsel çözümleme esasında de� ildir.
OSTAD elle i � aretlenmi � tir. Oysa BilTD, otomatik i � aretleme ile
olu� turulmu� tur. Dolayısı ile, OSTAD, dilbilimsel özelliklerin
belirlenmesinde olu� abilecek yorum farkı dı � ında hatasızdır! Fakat
BilTD, her i � aretli özelli � i için belli bir miktar hata payı ta� ımaktadır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
230
Bu üç derlemin özet istatistikleri, toplu halde Çizelge 10.1.’de tablo � eklinde verilmi � tir.
Çizelge 10.1. BilTD, ODTÜ ve OSTAD derlemlerinin genel özellikleri. “* ” karakteri olan hücreler derlemlerin söz konusu özelli � inin belli olmadı � ını gösterir.
Derlem Har f Rak+Nok Toplam Kelime Gövde Belge Parag CümleOSTAD 51,209 13,700 64,909 17,487 5,201 33 2,457 7,262
�ekil 10.1.1: BilTD, ODTÜ ve OSTAD derlemlerinde bulunan birlik (harf), kelime
ve gövde sayılarının toplam üzerinden göreceli oranları. Sütunlardaki bölümler derlemleri, rakamlar toplam üzerinden oranları (%) temsil etmektedir. Gövde sütunu ODTÜ derlemini içermez.
� ekilde, ODTÜ derleminin biçimbirim analizi olmadı � ı için
gövde sayısı da yoktur (en sa� daki sütun). Gövde sütunu, yalnızca
BilTD ve OSTAD derlemlerini, sadece iki derlemin toplamı üzerinden
oransal olarak vermektedir. Burada kayda de� er özellik, derlemlerin
yazım � ekli olarak kelime zenginliklerini ortaya çıkaran, “ kelime”
sütununda görülmektedir. Derlemler, toplam birlik sayıları ile orantılı
olarak kelime zenginli � ine katkıda bulunmamaktadır. BilTD yalın
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
234
boyut oranından (%23), daha fazla bir oranda (%30) katkıda
bulunurken, ODTÜ derlemi yalın boyut oranından (%75), daha dü� ük
bir oranda (%64) katkı sa� lamaktadır. Ancak bu oranlar, bir çıkarım
yapabilmek için henüz güvenilir de� ildir, sadece fikir vericidir. Çünkü
OSTAD derlemi, bildi � imiz gibi ODTÜ derleminin bir parçasıdır. Aynı
durumun birle� ik derlem, yani BirTD derlemi üzerinden incelenmesi
güvenilir sonuçları verecektir. BirTD derlemi üzerinden, kelime ve
gövde için tanımlayıcı istatistikler, sırasıyla Çizelge 10.1.2 ve � ekil
Çizelgede BilTD derlemi için Zipf ve Mandelbrot ifadelerinin
tüm uyum de� erlendirmeleri topluca verilmi � tir. Bundan sonraki tüm
derlemlerde de yine topluca, aynı biçimde verilecektir. Dolayısı ile, bu
çizelgede açıklananlar aksi belirtilmedikçe di � er derlem çizelgeleri için
de geçerlidir. “Model” sütununda, uyum için sınanan ifadenin kısa adı
verilmi � tir: Zipf, Zipf birinci kanunu; W=10, Mandelbrot ifadesinde W
parametresi de� erinin 10 oldu� u durum; aynı � ekilde W=100, 1,000 ve
10,000 satırları da Mandelbrot ifadesi içindir. “Rsq” (R2) sütunu
uyumun belirleyicilik katsayısıdır (coefficient of determination). Aslen
bu de� er do� rusal regrasyon (linear regression) yöntemindeki çoklu
korelasyon katsayısının ( 11 ≤≤− R ), yani tahmin edilen de� erler ile
gerçek de� erler arasındaki kar � ılıklı do � rusal ili � kiyi temsil eden
de� erin (correlation) karesidir. De� er ne kadar büyükse, do� rusal ili � ki
o kadar güçlüdür. R2 de� erinin bir olması veri içindeki tüm de� i � imin
belirlendi � ini, yani model ile tam temsil edildi � ini; sıfır olması modelin
de� i � imi açıklayamadı � ını gösterir. “N” sütununda uyum için
de� erlendirmeye alınan kelime sayısı, daha do � rusu kelime da� arcı � ı
boyutu verilmi � tir (e� er gövde esasında de� erlendirme yapılıyorsa,
gövde sayısı olacaktır). “F” sütununda, do� rusal regrasyona ait
ANOVA21 tablosunun, F istatistik de� erleri listelenmi � tir. Verilen 21 ANOVA, � ngilizce’si Analysis Of Variance (varyans analizi) olan yöntemin kısa adıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
244
do� rusal il i � kiye dayalı, model uyum de� erlerinin, istatistiksel açıdan
anlamlı olması için, F istatistik de� erinin belli bir anlam düzeyi için,
örne� in α=0.001 de� eri için, kritik bir e� ik de� erden büyük olması
gerekir. Zaten “Sigf” sütunundaki de� er hangi anlam düzeyinde verilen
F istatistik de� erinin, söz konusu e� ik de� erden büyük oldu� unu
göstermektedir. Tabloda görüldü� ü gibi, tüm “Sigf” de� erleri noktadan
sonra üç basamak hassasiyetinde sıfırdır, yani verilen F de� erlerinin
hepsi α=0.001 anlam düzeyinin e� ik de� erinden büyüktür. Dolayısı ile
istatistiksel olarak anlamlıdır. Çizelgede, son iki sütun olan, “b0” ve “b1” ise, xbby ⋅+= 10 � eklinde bir do � rusal ili � ki modelinin kar � ılık
gelen de� erlerinin listesidir. Bu do � rusal modelde, “ b0” y-eksenindeki
kaydırma miktarı (HN), “b1” ise do� runun e� imidir (BN). Tabloda, R2
de� eri kalın biçimde yazılı olan satırdaki, daha do� rusu en büyük R2
de� erine sahip satırdaki sabitler, incelenen derleme en uygun olan
modeli ve parametre de� erlerini gösterir. BilTD derleminin kelimeleri
için, W=100 parametre de� eri olan Mandelbrot ifadesi, en uygun
için, � ekil 10.2.2.1.2.’de de Mandelbrot ifadesinin W=100 parametre
de� eri için, modellerin tahmin etti � i ve BilTD derleminde gözlenen
de� erlere ait yayılım çizgeleri (scatter plot) verilmi � tir. Mandelbrot, �ngilizce için, W parametresinin de� erini 100 ve “b0” parametresinin
de� erini 1.15 olarak vermi � tir. BilTD derlemi, bu açıdan �ngilizce ile
paralellik göstermi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
245
�ekil 10.2.2.1.1: BilTD derleminin, kelime esasında Zipf ifadesi ile uyumu. Kelime
frekanslarının logaritmaları (log_f) y-ekseni, frekanslara ait sıra numaralarının logaritmaları (log_r) x-eksenidir. Düz çizgi, Zipf ifadesi ile tahmin edilen de� erlerdir.
�ekilde, Zipf ifadesinin, Mandelbrot’un belirtti � i gibi, BilTD
derlemindeki kelime frekansları ile sıra numaraları arasındaki i li � kiyi
özellikle küçük sıra numaraları için (çizgenin sol üst kö � esi) pek iyi
� ekilde temsil edemedi � i rahatlıkla görülebilmektedir. Küçük sıra
numaraları derlemde en sık gözlenen kelimelerdir ve Zipf ifadesi bu
kelimelerin frekanslarının çok üzerinde tahminler yapmı � tır.
makalelerinden olu� mu� tur. Medlars derlemi ise, SMART BGG
sisteminin demirba� derlemidir. Bu üç derlemin ve harmanı olan
birle� ik derlemin genel özellikleri Çizelge 10.2.6.1.’de verilmi � tir. �ngilizce için tanımlayıcı genel istatistikler, Türkçe ile kar � ıla� tırılınca
bir nokta gerçekten dikkat çekicidir: Türkçe ile �ngilizce kelime
da� arcıklarının büyüklü� ü açısından, ancak Türkçe derlemler
gövdelenirse, e� it � artlara gelinmektedir. �ngilizce birle� ik derlemin
birlik sayısı 654,728 ve kelime sayısı 32,301’dir. Türkçe birle� ik
derlemin birlik sayısı 638,486 (BilTD ve OSTAD birlik sayıları
toplamı), kelime sayısı 94,230’dur ve gövde sayısı 21,905’dir.
Çizelge 10.2.6.1: Time, Cranfield, Medlars ve birle� ik derlemlerinin genel özellikleri.
Der lem Bir lik Kelime BelgeTime 249,567 20,856 425
Cranfield 258,509 8,189 1,400
Medalars 161,605 12,609 1,034
Toplam 669,681 41,654 2,859
Bir le� ik 654,728 32,301 *
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
257
�ngilizce birle� ik derlem için, Zipf ve Mandelbrot ifadeleri ile
uyum sınamaları, Çizelge 10.2.6.1.’de tablo halinde verilmi � tir.
Çizelge 10.2.6.1: � ngilizce birle� ik derlemin, Zipf ve Mandelbrot ifadeleri ile, kelime asasında uyum sınaması.
Çizelgelerde hesaplanmı � olan katsayıların, her derlem türü için
kuramsal olarak, o derlem için seçilecek olanı, söz konusu Zipf veya
Mandelbrot ifadelerinin en uygun oldu� u haldeki de� ere denk gelendir.
Türkçe için genel bir katsayı vermeden önce, her üç derlem için
hesaplanmı � tüm katsayılar için kar � ılık gelen derlem boyutları
üzerinden, kelime da� arcı � ı tahminlerini ve gerçek de� erlerini
kar � ıla� tırmalı olarak incelemekte fayda vardır. Çizelge 10.3.1.4.,
11.3.1.5. ve 11.3.1.6.’da söz konusu tahmin edilen ve gerçek de� erler
liste halinde verilmi � tir.
Çizelge 10.3.1.4: Kelime esasında Türkçe birle� ik derlemin, tüm Zipf modelleri üzerinden kelime da� arcı� ı boyut (KDB) tahminleri. “1M” ve “10M” derlemleri, Hakkani-Tür (2002) çalı � masında verilen bir ve on milyonluk derlemlerin kelime da� arcı� ı sayılarıdır. Son sütundaki “µ” de� erleri ise Mandelbrot W=100 ve 1000 katsayılarının ortalaması üzerinden tahminleri göstermektedir.
oldu� unu, bir kez daha belirtelim. Hapax kelimelerin sebeplerinden
birisi elbette rakamlardır, ancak ba� ka önemli sebepler de vardır.
Hapaks kelimelerin olu� masının ba� lıca sebepleri içinde, biçimbirimsel
üretkenlik ve rakamlar dı � ında yanlı � yazım, yazımda kullanılan
yabancı kelimeler, özel isimler gibi daha belirli sebepler de vardır. �ngilizce için verilen sonuçlarda rakamlar çıkarıldı � ında gözlemlenen
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
267
hapaks kelime oranları yine %50’nin üzerindedir: %56 sadece harf
birlikleri, rakamlarla birlikte %69,8 (Kornai, 2002). Görüldü� ü gibi,
hapakslar, yani bir kelime da� arcı � ında sadece bir kere gözlemlenen
kelimeler, bir derleme ait kelime da� arcı � ı büyüklü� ünün yakla� ık
olarak yarısından fazlasını olu� turmaktadır.
Kelime esasında birle� ik Türkçe derlem için, kelime
da� arcı � ındaki farklı kelime biçimleri ve sayıca kelime da� arcı � ı
içindeki da� ılımı Çizelge 10.3.2.1.1.’de çe� itli istatistikler ile birlikte
verilmi � tir.
Çizelge 10.3.2.1.1: Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness* , Türkçe çarpıklık anlamına gelmektedir).
Çizelgede görüldü� ü gibi, Türkçe’de de hapaks kelimelerin (i=1)
durumu farklı de� ildir. Hapaks kelimelerin, yani bir kere gözlemlenen
kelime biçimlerinin sayısı, kelime da� arcı � ının %49,8’ ini; iki kere
gözlemlenen kelime biçimlerinin sayısı ile birlikte %65’ ini
olu� turmaktadır. Sadece 100 kere gözüken kelimelere gelindi � inde ise
toplam 234.843 kelimelik, kelime da� arcı � ının yakla� ık %98’ ini
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
268
kapsanmaktadır. Demek ki, beklendi � i gibi hapaks kelime meselesi
Türkçe için de gayet önemli bir konudur.
Zipf kanunlarının birincisi ile ikincisi arasında, aslen güçlü bir
ili � ki vardır. Bu ili � ki, Denklem 10.3.2.1.1.’de verildi � i gibidir, yani,
e� er bir da� ılım, Zipf birinci kanununa uyuyorsa, Zipf ikici kanununa
da e� imi Denklem 10.3.2.1.1. ile hesaplanan de� erle uyar (kuramsal
ispat için, Kornai (2002)).
)1/( NNN BBD += (10.3.2.1.1)
Denklemede, DN, ikinci kanun ifadesindeki e� im, BN ise birinci
kanun ifadesindeki e� imdir. Türkçe için deneysel olarak, Zipf birinci
kanun ifadesinin en uygun halinde, yani Mandelbrot ifadesinin
W=1000 parametre de� eri için, elde etti � imiz e� im 2786.11 −==− bBN ile, Denklem 10.3.2.1.1.’den hesaplayaca� ımız
de� er, Zipf ikinci kanun ifadesinin e� imini vermelidir. Yani Zipf ikinci
kanun ifadesi için, tahmin edilen deneysel e� im de� eri 5611.0)2786.11/()2786.1( =+=ND ’dir. BirTD derlemi için, Zipf
ikinci kanun ifadesi uyum sınaması sonucu Çizelge 10.3.2.1.2.’de
verilmi � tir. Kar � ıla� tırma amacıyla, � ekil 10.3.2.1.1.’de, tahmin edilen
ve gözlenen de� erler yayılım çizgesi � eklinde de gösterilmi � tir.
Çizelge 10.3.2.1.2: Kelime esasında Türkçe birle� ik derlemin, Zipf ikinci kanun ifadesine uyum sınamasının sonucu.
Model Rsq N F Sigf b0 b1Zipf 0.998 926 5.164E+05 0.000 2.8455 -0.5516
Çizelgede görüldü� ü gibi, Türkçe birle� ik derlem için, Zipf ikinci
kanun ifadesinin uyumundaki e� im, tahmin edilen e� ime çok yakın bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
269
de� er çıkmı � tır. Bu sonuç da, Zipf birinci kanunu ile ikinci kanunu
arasında iddia edilen güçlü ba� lantının, deneysel olarak Türkçe için
geçerli oldu� unu göstermektedir.
�ekil 10.3.2.1.1.’de görüldü� ü gibi, Türkçe kelime da� arcı � ını
olu� turan kelime biçimlerinin, kelime da� arcı � ı içindeki sayıları, Zipf
ikinci kanununa uymaktadır. Zipf, özgün çalı � masında e� imi, 0.5
olarak vermi � tir. Türkçe için bu de� er, deneysel olarak elimizdeki
birle� ik derlemlerle de uyu� maktadır.
�ekil 10.3.2.1.1: Kelime esasında Türkçe birle� ik derlem için, Zipf ikinci kanun
ifadesinin tahmin etti � i kelime biçimi adedi ile gözlemlenen kelime biçimi adedinin yayılım çizgesi.
Zipf ikinci kanunu açısından, gövdelerin durumu beklendi � i gibi
kelimelerden biraz daha farklıdır. Çizelge 10.3.2.1.3.’de, BilTD ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
270
OSTAD derlemlerinin harmanı ile olu� turulmu� , gövde esasında
birle� ik derlem için kelime da� arcı � ının istatistikleri verilmi � tir.
Çizelge 10.3.2.1.3: Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimleri, gözlenme sıklıkları ve istatistikleri (Skewness, Türkçe çarpıklık anlamına gelmektedir).
Çizelgede görüldü� ü gibi, Türkçe’de gövdeler esasında hapaks
� ekillerin (i=1) durumu oransal olarak kelimelerden iyidir. Hapaks
gövdelerin, yani bir kere gözlemlenen gövde türlerinin sayısı, kelime
da� arcı � ının %36,5’ ini (kelimelerde %49,8), iki kere gözlemlenen
kelime biçimlerinin sayısı ile birlikte %50’sini (kelimelerde %65,1)
olu� turmaktadır. Dolayısı ile gövdeler, medyan etrafında daha iyi bir
da� ılım göstermi � tir. “Skewness” de� eri, yani Türkçe olarak çarpıklık
de� eri olan 35,97 bu da� ılımın normal da� ılımdan ne kadar saptı � ının
bir ölçüsüdür. De� erin sıfır oldu� u zaman da� ılım normal demektir.
Kelimeler için “Skewness” de� eri de 188.32’dir. � ekil 10.3.2.1.2.’de
kelimeler (a) ve gövdeler (b) için verilen çizgelerde, da� ılımların
birbirlerinden farklılı � ını görsel olarak da seçilebilmektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
271
(a)
(b)
�ekil 10.3.2.1.2: Kelimeler (a) ve gövdeler (b) için kelime da� arcıkları. X-ekseni
derlem içinde gözlenme sıklı� ı, y-ekseni söz konusu gözlenme sıklı � ının kaç kere gözlendi � i, yani frekansların frekansları. Ortalama üzerinde referans normal da� ılım da gösterilmektedir.
Da� ılım açısından da incelemeler sonucunda, gövdeler için
istatistiksel çıkarımlar açısından kelimelere nazaran daha uygun bir
karakteristik elde edildi � i söylenebilir.
Gövdelerin, Zipf ikinci kanun için Denklem 10.3.2.1.1.’de verilen
ifade ile hesaplanan tahmini e� imi: 6924.0)2.25151/()2.2515( =+=ND ’dir. Zipf ikinci kanun ifadesi için
Zipf birinci kanun incelemesi sonucunda elde etti � imiz, kelime da� arcı � ı büyüme katsayısı, 0.7821≈ρ ve m sabiti için
0.607927/6 2 =π de� eri Denklem 10.3.2.2.1.’de yerine konursa,
Türkçe kelime da� arcıklarındaki kelimelerin, derlem içinde gözükme
sıklıklarının frekanslarının tahmini Denklem 10.3.2.2.3.’de verilen
ifade ile hesaplanabilir.
7821.12
/)(6
),( iNVNiVπ
= (10.3.2.2.3)
Denklem kullanılarak tahmin edilen ve birle� ik derlemin kelime
da� arcı � ında olan kelimelerin gerçek gözlenme sıklıklarının frekansları
kar � ıla� tırma amacı ile Çizelge 10.3.2.2.1.’de verilmi � tir.
Çizelge 10.3.2.2.1: Kelime esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
Kelimeler esasında yaptı � ımız bu çalı � mayı, gövdeler esasında da
tekrarlayacak olursak, gövdeler için Zipf birinci denkleminden elde etti � imiz kelime da� arcı � ı büyüme katsayısı, 0.4441≈gρ ve yine m
sabiti için 0.607927/6 2 =π de� eri alınırsa, Türkçe kelime
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
275
da� arcıklarındaki gövdelerin, derlem içinde gözükme sıklıklarının
frekanslarının tahmini de Denklem 10.3.2.2.4. kullanılarak
hesaplanabilir.
4441.12
/)(6
),( iNVNiV G π= (10.3.2.2.4)
Denklem kullanılarak hesaplanan ve gövde esasında birle� ik
derlemin kelime da� arcı � ında olan kelimelerin, gerçek gözlenme
sıklıklarının frekansları da Çizelge 10.3.2.2.2.’de verilmi � tir.
Çizelge 10.3.2.2.2: Gövde esasında Türkçe birle� ik derlemin, kelime da� arcı� ındaki farklı kelime biçimlerinin gözlenme sıklıkları ve tahmin edilen de� erleri.
çalı � mada, biz de söz konusu söyleme katılıyor ve tek bir büyük torba
yerine iki ayrı torba oldu� u varsayımını kabulleniyoruz.
� � lev kelimeler, yazım kuralları tarafından yönetilmektedir. Bu
yüzden yazım içerisinde, içerikten ba� ımsız olarak gözlemlenirler. �çerik kelimelerse, bir metin içinde ancak metinin konusu ile alakalı
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
278
kelimeler olabilir, dolayısı ile her metinde i � lev kelimeler
gözlemlenebilir, fakat içerik kelimelerin gözlenmesi için metnin
konusunun benzer olması gerekir. Sonuç olarak, bir derlemde i � lev
kelimelerin, içerik kelimelerden daha fazla gözlemlenmesi gerekir. � � te,
i � lev ve içerik kelimeler arasında bu ba� lam üzerinden bir ayrım
yapılabilir. � � lev kelimelerin tespiti için, derlem içinde yüksek frekanslı
birliklerin incelenmesi gerekir. Takip eden bölümde yüksek frekanslı
kelimelerin incelemesi ba� lı � ı altında, Türkçe için, i � lev ile içerik
kelimeler arasında, görülme sıklı � ını esas alan bir sınır belirleme
çalı � ması verilmi � tir.
10.4.3.1 Yüksek frekanslı kelimeler
� statistiksel açıdan bakıldı � ında, bir derlem içindeki metinlerde
birlik olarak nelerin kabul edildi � i, pek o kadar tutarlı bir durum
de� ildir. Örne� in “ ... 1980’ler ...” tek bir birlik midir, yoksa “1980”
rakam, “ ’” noktalama i � areti ve “ ler” ek olmak üzere üç ayrı birlik
midir, veya ikisi birden midir, tamamen derlemin ilk i � leni � sürecine
ba� lıdır, yani simgelemenin (tokenization) nasıl yapıldı � ı ile alakalıdır.
Bir ba� ka örnekte ise “ ... “ hayır” da hayır var. ...” gibi aynı kelime
� eklinin hem içerik, hem de i � lev durumunda oldu� u birlikler de
mevcuttur. Dolayısı ile, gerçekte içerik ile i � lev kelimelerin arasına, en
azından frekans esasında belirgin bir çizgi çekmenin imkanı yoktur.
Her iki torbada da, aynı kelimelerin de� i � ik anlamları için, � ekilleri e� olan temsillerinin bulunması gerekmektedir. Bu mesele, anlamsal
boyutta çözümlenebilecek bir u� ra� tır. Frekanslarla kesin bir sınır
çizilemez. Ancak, bir sınır belirli bir hata oldu� u kabullenmesi ile
konabilir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
279
UG torbasında, yani i � lev kelimelerden k adet oldu� unu var
sayarsak, Zipf birinci kanun tertibindeki sıralamada, birinciden k’ ıncı
sıra numarasına kadar olan kelimeler, k dahil olmak üzere, UG
torbasındadır diyebiliriz. Dolayısı ile r > k sıra numarasına sahip
kelimeler de, UI torbasında olacaktır, yani içerik kelimeleri olacaktır. E� er tüm i � lev kelimelerin toplam olasılık yo � unlu� unun �= =
kr rk pP 1
oldu� unu kabul edersek ve Zipf birinci kanunun da, UG için gerçekten
belirleyici bir ifade oldu� u var sayılırsa, i � lev kelimelerle içerik kelimelerin sınır noktasında, kP olasılı � ının, Zipf birinci kanun
ifadesinin e� im parametresi (B) ile hesaplanacak Bk kP /1≈ de� erine
e� it olması beklenir. Dolayısı ile, Denklem 10.4.3.1.1.’deki ifade,
derlemdeki kelimeler üzerinden yapılacak e� im (B) tahminleri ile i � lev
ve içerik kelimeler arasına bir sınır, k de� eri belirleyebilir.
)log(/)log( kpB k−= (10.4.3.1.1)
Örne� in, birle� ik Türkçe derlem için Zipf birinci kanun ifadesi ile
uyumunun en iyi oldu� u durumda (Mandelbrot, W=1000), elde
etti � imiz e� im, B=1.2786 de� eridir. Bu de� erin üzerinde kalan e� im
tahminlerine ait kelimeleri i � lev kelimeler UG, altında kalan kelimeleri
de içerik kelimeler UI, olarak kabul edebiliriz. Çizelge 10.4.3.1.1.’de
Türkçe birle� ik derlem için Denklem 10.4.3.1.1. ile hesaplanan e� im
tahminleri verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
280
Çizelge 10.4.3.1.1: Kelime esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri (k=1 de� eri, k=1.4 alınmı � tır; log(1)=0).
Kelime k p B Kelime k p Bbir 1 0.024031 11.0809 bizi 343 0.000278 1.4032ve 2 0.018371 5.7664 kendisine 343 0.000278 1.4032bu 3 0.012073 4.0204 mustafa 344 0.000275 1.4036da 4 0.008353 3.4517 henüz 346 0.000275 1.4027de 5 0.008244 2.9814 ahmet 346 0.000275 1.4027için 6 0.005724 2.8816 hangi 347 0.000274 1.4022çok 7 0.003964 2.8421 bilgi 348 0.000273 1.4019o 8 0.003639 2.7007 üstelik 501 0.000205 1.3661
gibi 9 0.003593 2.5618 güçlü 502 0.000204 1.3665ile 10 0.003488 2.4574 sırada 503 0.000203 1.3664
türkiye 38 0.001397 1.8072 � i ir 1,002 0.000115 1.3129istanbul 74 0.000878 1.6353 rahat 1,002 0.000115 1.3129
bunu 100 0.000726 1.5696 etmesi 1,002 0.000115 1.3129beni 101 0.000703 1.5732 alanda 1,002 0.000115 1.3129tüm 102 0.000701 1.5704 alınması 1,005 0.000115 1.3127yani 103 0.000694 1.5692 karısı 1,935 0.000063 1.2784
sadece 104 0.000693 1.5662 tl 1,935 0.000063 1.2784söz 105 0.000659 1.5738 yıldan 1,941 0.000063 1.2787
türkiye'nin 132 0.000594 1.5215 mahmut 1,941 0.000063 1.2787geldi 149 0.000533 1.5063 sanal 1,941 0.000063 1.2787ona 150 0.000530 1.5053 konunun 1,941 0.000063 1.2787veya 151 0.000528 1.5043 alanı 1,941 0.000063 1.2787
olmak 152 0.000524 1.5037 belge 1,941 0.000063 1.2787genç 153 0.000519 1.5034 de� i � ikli � i 1,941 0.000063 1.2787ki � i 154 0.000514 1.5036 bulmak 1,941 0.000063 1.2787gece 156 0.000513 1.5012 aslan 1,951 0.000062 1.2785ali 158 0.000505 1.4995 antalya 1,951 0.000062 1.2785abd 162 0.000494 1.4965 bankalar 1,965 0.000062 1.2781
Çizelge 10.4.3.1.1.’de tahmin edilen e� im, B de� erleri iki sütun
halinde verilmi � tir. Bu listelemede, örnekleri yukarıda bahsetti � imiz
konuları da kapsayacak � ekilde seçmeye dikkat ettik. Öncelikle,
“Türkiye” , “Ali” , “ABD” , “Erdo� an” , “ Irak” v.b. kelimelerin i � levsel
oldukları veya bir metnin içinde içeri � e katkı sa� layacak anlamsal
öneme sahip olmadıkları söylenemez. Dolayısı ile, bu kelimeler içerik
olması gerekirken, derlemlerin özellikle gazete yazılarından seçilmi �
olması sebebiyle, i � lev kadar frekansları olu� mu� tur. Ancak, bu hatalar
dı � ında liste incelendi � inde aslen iddia edildi � i gibi bir sınır için yer
oldu� u da gözükmektedir. Çizelgede dolgulu alanın içinde (“ karısı” ve
“antalya” kelimeleri arasındaki alan) bu geçi � in ba� langıcı ve biti � i gözükmektedir. Geçi � noktası, ba� langıçtan itibaren süre gelen
e� imdeki sistematik dü� ü� ün, B=1.2786 e� im de� erinin de altına ini � i
ve daha sonra yaptı � ı sıçrama ile tekrar B=1.2786 de� erinin üzerine
çıktı � ı aralık içindedir. Daha sonra dü� ü� sistematik olarak B=1.2786
altına do� ru devam eder. Yapılan e� im tahminlerinin söz konusu
seyrinden de çıkan sonuç, kelimelerin gerçekten tek bir büyük torba ile
temsil edilemeyece� i, dolayısı ile i � lev kelimelerin UG, içerik
kelimelerin UI gibi, iki ayrı torba kurgusu ile ele alınması iddiasının
geçerlili � idir. E� er i � lev kelimeler, bu yöntemle tahmin edilecek olursa,
sıra numarası 1941’de dahil olmak üzere 1 ile 1941 arasındaki tüm
kelimeler i � lev kelimeler olarak ele alınacaktır. Dolayısı ile, Türkçe
birle� ik derlem için i � lev olarak i � aretlenen kelimelerin sayısı 1944
olacaktır. Bu 1944 i � lev kelimenin derlem içindeki toplam frekansı
1.349.004’dür. Geriye kalan 232.899 kelime, içerik olarak
i � aretlenecektir. Söz konusu 232.899 içerik kelimenin ise, derlem
içindeki toplam frekansı 1.162.926’dir. Sonuç olarak, Türkçe
derlemdeki i � lev kelimelerin, toplam frekans içindeki oranı yakla� ık
%53 olacaktır (1.349.004 / 2.511.930). Bu oranlar � ngilizce için
yapılmı � çalı � malarla da örtü� mektedir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
282
�çerik ve i � lev olu� için, Zipf birinci kanununun yardımı ile
kelimeler için yaptı � ımız i � lemleri, gövdeler için de yapmak
mümkündür. Yapılan deneysel çalı � malarda, Zipf birinci kanun
ifadesinin, gövde esasında birle� ik derleme en uygun oldu� u durumdaki
Mandelbrot denkleminin W parametresi yine 1000 idi. Bu parametre
de� eri için e� im B=2,2515 olarak bulunmu� tu. Denklem 10.4.3.1.1. ile,
gövdeler içinde B e� im tahminleri Çizelge 10.4.3.1.2.’de verilmi � tir.
Gövdeler için, i � lev kelimelerin e� imin sıçrama noktası ile tespiti,
kelimelerdeki kadar anlamlı bir sonuç vermemi � tir. Çizelgede
görüldü� ü gibi, B=2,2515 sıçrama noktası çok ba� larda kalmı � tır. Çizelgede ayrıca, Mandelbrot W=1000 parametresinin dı � ında, W=100,
W=10 ve Zipf ifadelerinin de kesme noktaları belirlenmi � tir. Sıra
numarasında devam ettikçe görülmektedir ki, bu noktalardan hiç birisi
anlamlı bir kesim sınırı verememektedirler. Tahminlerin, bir ini � ardından çıkı � yaptı � ı, sıra numarası 1000 etrafındaki de� erler de
çizelgede gösterilmi � tir. Ayrıca, tam bir fikir vermesi açısından, tüm
yapılan tahminler � ekil 10.4.3.1.1.’de yayılım çizgesi olarak da
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
283
Çizelge 10.4.3.1.2: Gövde esasında Türkçe birle� ik derlem için Zipf birinci kanun e� im tahminleri.
Kelime k p B Kelime k p Bbir 1 0.020941 11.4900 söz 100 0.001400 1.4269ol 2 0.020421 5.6138 önem 101 0.001383 1.4265ve 3 0.019411 3.5881 özel 102 0.001346 1.4293bu 4 0.016495 2.9609 göster 103 0.001345 1.4265de 5 0.012852 2.7055 hal 104 0.001343 1.4239et 6 0.008959 2.6316 göre 105 0.001335 1.4222
özelliklere sahip herhangi bir ek de� i � im temsilinin, kökten faydasız
oldu� una delil olarak kabul edilemez. E� er varsa, bu ek de� i � imin
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
288
faydasını ortaya koyacak bir yöntem bulunması çalı � malarını ba� latmak
için, delil olarak kabul edilebilir.
Çizelge 11.2: BilTD ve OSTAD derlemlerinde yapılmı � olan biçimbirimsel i � aretlemede temel sözcük türü kodları.
Sıra Kod Açıklama1 Noun � simler2 Adj Sıfatlar3 Adv Zarflar/Belirteçler4 Verb Fiil5 Pron Zamirler (ben, sen, o, nereye, hepimiz, kim, v.b.)6 Conj Ba� laçlar (ve, ama, ki, ile, v.b.)7 Det Belirleyenler (bir, her, bu, � u, her, hiçbiri, v.b.)8 Post � lgeçler (diye, gibi, için, do� ru, v.b.)9 Quest Soru eki ile ba� layıp ayrı yazılan sözcükler (mi, mı, mısınız v.b.)10 Interj Ünlemler (oh, off, nah, hadi, aaa, tabi, aferin, haydi, v.b.)11 Num Sayılar12 Dup Tekrar edilerek olu� turulmu� , yansımalı kelimeler.13 Punc Noktalama i � aretleri
1+1 Prop Özel � sim
Çizelge 11.2.’de, deneysel çalı � malarda kullanılacak BilTD ve
OSTAD derlemlerinin biçimbirimsel i � aretlemesinde, temel sözcük
türleri için tanımlanmı � kodlar listelenmi � tir. Bu bölümde yapılan
çalı � maların istatistikleri verilirken de söz konusu kodlar korunmu � tur.
Son satırda verilen “Prop” yani özel isim, aslen bir ana tür olarak
i � aretlenmemi � ancak, de� erlendirme içine alındı � ı için listeye dahil
edilmi � bir yan sözcük türü’dür. � � aretleme esnasında, Noun kodundan,
yani isimden sonra getirilerek ismin bir özel isim oldu� u
belirlenmektedir. Bu i � aretleme kodları Oflazer’ in (1993) Türkçe için
iki seviyeli dilbilimsel tanımlamasında kullandı � ı biçimbirim
i � aretlemesinden alınan kodlardır. Çizelgede 12. sırada verilen Dup
kodu (tekrar), aslen Bölüm 2.’de kelime gurubu kapsamına aldı � ımız
bir dilbilgisi özelli � idir. Tekrarları, kelime guruplarından ayrı tutmak,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
289
onları bir bütün olarak, ayrılmaz birlik � eklinde kabul edip (yani tek bir
nevi kelime), kelime türü � eklinde de� erlendirmek de makul bir
yakla� ım olabilir. Ancak, biz sözcük türü de� erlendirmemizde bu kodu
kullanmıyoruz ve çıkartıyoruz. Sıra numarası 11 ve 13 olan, Num ve
Punc, yani sayılar ve noktalama i � aretleri de tabii, de� erlendirmemiz
dı � ındadır. Dolayısı ile bu bölümdeki çalı � malarda, 10 temel kod ve bir
de özel isimleri belirleyebilmek için Prop yan kodu olmak üzere
toplam 11 kod kullanaca� ız. Özel isim de� erlendirmemiz de, ana
sözcük türleri de� erlendirmelerine ek olarak verilecektir.
Bölüm 10.’da Zipf güç kanunları incelenirken, içerik ve i � lev
kelime ayrı � tırması meselesi içerisinde, derlem içinde gözlenme sıklı � ı
yüksek olan birliklere odaklanmı � bir yöntem ile i � lev kelimelerle,
içerik kelimeler arasında bir sınır noktası da belirlemeye çalı � mı � tık.
Bu sınır noktasından yukarıda kalan birlikler i � lev kelimeler, sınırın
altında kalan kelimeler de içerik kelimeler olarak kuram gere� i kabul
edilmi � ti. Ancak, i � lev kelimeler olarak belirlediklerimizin arasında
içerik kelimeler; içerik kelimeler olarak belirlediklerimizin arasında da
i � lev kelimeler oldu� u da belirtilmi � ti. � � te bu durum, derlem üzerinde
görülme sıklı � ına dayalı olan tüm geri-getirim yöntemlerinin
içinde önemini tespitte de kullanmı � tır. Yani sözcük türlerinin indeks
terim da� ılımlarını sadece indeks terim seçimi için de� il, ayrıca terimin
bulundu� u metnin içeri � ine anlamsal katkısı ile de ili � kilendirmi � tir. Lahtinen deneysel ara� tırmasının sonunda, dilbilimsel özelliklerin
indeks terimleri seçebildi � ini, metin içinde önemini tespitte de yardım
edebildi � ini bildirmi � tir.
Sözcük türü ve indeks terimlerin topluca da� ılımsal
de� erlendirmesi, Çizelge 11.1.1.1.2.’de tablo halinde verilmi � tir.
Çizelge 11.1.1.1.2: OSTAD derleminde, sözcük türü ve indeks terimlerin toplu de� erlendirmesi.
Söz.Türü 0 1 Toplam P(ind=0|.) P(ind=1|.)
frek 1,019 207 1,226P(SözT|.) 0.18 0.05 0.13
frek 375 7 382P(SözT|.) 0.07 0.00 0.04
frek 515 0 515P(SözT|.) 0.09 0.00 0.05
frek 280 0 280P(SözT|.) 0.05 0.00 0.03
frek 8 0 8P(SözT|.) 0.00 0.00 0.00
frek 2,099 3,690 5,789P(SözT|.) 0.37 0.93 0.60
frek 290 0 290P(SözT|.) 0.05 0.00 0.03
frek 170 0 170P(SözT|.) 0.03 0.00 0.02
frek 867 48 915P(SözT|.) 0.15 0.01 0.10
5,623 3,952 9,5760.59 0.41
0.95 0.05
ToplamP(ind)
1.00 0.00
1.00 0.00
0.83 0.17
0.98 0.02
�ndeks Ter im
Adj
Adv
Conj
Det
Interj
Noun
Postp
Pron
Verb
1.00 0.00
1.00 0.00
1.00 0.00
0.36 0.64
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
299
11.1.1.2 Özel isimlerin indeks terim da� ılımı
Özel isimler, isim sözcük türünün bir alt parçasıdır. Dolayısı ile,
katkısı tamamen isim sözcük türü tarafında kapsanır. Ancak, katkı isim
sözcük türü içerisinde kalmasına ra� men, indeks terim belirleyicili � i
açısından çok güçlüdür. Lahtinen (2000) tarafından da � ngilizce için
belirtildi � i gibi, özel isimler daima indeks terim olurlar. Bir özel isim,
bir ki � i ismi iken, ön ad ve soyadı birlikteli � inde sadece soyadının
indeks terim olarak alınması da rastlanan bir durumdur. OSTAD
derleminde yapılan elle i � aretlemelerde, toplam 495 farklı özel isme
rastlanmı � tır. Bu özel isimler derlemde, 883 kez gözlenmi � tir. Tüm
gözlemler indeks terimdir. Bir ba� ka söyleyi � le, özel isim olan her isim
sözcük türü, indeks terim olarak alınmı � tır.
11.1.2. Cümle Unsur lar ı
Türkçe bir cümlede temel unsurlar, fiil, fail, nesne, yer
tamlayıcısı ve zarf’ tır. Yani cümlede fii l ile onun gerektirdi � i unsurlar
bulunur. Hükmün geni � li � ine göre cümlede, cümle unsurlarından biri,
bir kaçı veya hepsi bulunur. Fiil ve fail cümlenin esas unsurları, nesne,
zarf ve yer tamlayıcısı da cümlenin yardımcı unsurlarıdır. Bir cümlede
ancak bir fiil unsuru bulunur. Di � er unsurların ise cümlede aynı cinsten
bir veya birkaç tanesi bulunabilir. Yani bir cümlede birkaç fail, birkaç
nesne, birkaç yer tamlayıcısı ve birkaç zarf bulunabilir. Cümlede bu
unsurlardan ba� ka bir de ba� lama ve ünlem edatları veya ünlem
gurupları bulunabilir. Fakat bunlar esas hareketle, fii lle ilgili olmayan
ve cümleye sadece ilave edilmi � durumda bulunan unsurlardır.
Genellikle cümlelerin ba� larında, sonlarında ve cümleler arasında
bulunurlar. Parantez � eklinde cümle içine girdikleri de görülür. Bunlara
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
300
cümle dı � ı unsurlar denir. Cümle unsurlarının daha geni � açıklamaları
Bölüm 2.’de Türkçe ba� lı � ı atında ilgili bir kısım olarak verilmi � tir.
OSTAD derlemi cümle unsurlarının da� ılımını
inceleyebilece� imiz tek derlemdir. Bilgimiz dahilinde, cümle unsurları
i � aretli olan ba� ka bir Türkçe derlem yoktur. OSTAD derleminde
cümle unsurlarının i � aretlenmesi için kullanılan kodlar Çizelge
11.1.2.1.’de tablo halinde verilmi � tir.
Çizelge 11.1.2.1: OSTAD derleminde cümle unsuru i � aretlemesinde kullanılan kodlar.
Kod Açıklama* Cümle unsuru olarak belirlenemeyen yabancı kelimelerABLATIVE.ADJUNCT Yer isteyen soru kelimelesi (-den hali)APPOSITION � ki nokta ile açıklanan kelimeler v.b.CLASSIFIER isim-isim � eklinde tamlamalarda, birinci kelimeye verilen kodCOLLOCATION Kelime gurubuCOORDINATION Ba � laç koduDATIVE.ADJUNCT Yer isteyen soru kelimelesi (-e hali)DETERMINER Belirleyiciler (Bu, � u v.b.)ETOL Birle � ik fiilINSTRUMENTAL.ADJUNCT Araç isteyen soru kelimesi (Neyle, nasıl gibi)INTENSIFIER VurgulayıcılarLOCATIVE.ADJUNCT Yer isteyen soru kelimelesi (-de hali)MODIFIER Sıfatları adlara, zarfları sıfatlara veya fiillere, ilgi tümcelerini
fiillere ve zaman bildiren isimleri fiillere ba � layan kodNEGATIVE.PARTICLE De � il kelimesinin koduOBJECT Cümlenin nesnesiPOSSESSOR Belirtili isim tamlamasında tamlayana verilen kodQUESTION.PARTICLE Soru parçacı � ı (mı, mi gibi)RELATIVIZER � li � kilendiricilerS.MODIFIER Söylen ba � laçları (çünkü, fakat v.b.)SENTENCE Her tümceyi, tümce sonundaki noktalama i � aretine ba � larSUBJECT Cümlenin faili/öznesiVOCATIVE Seslenme
�ndeks terimlerin cümle unsurları üzerine da� ılımları, Çizelge
11.1.2.2.’de tablo olarak verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
301
Çizelge 11.1.2.2: � ndeks terimlerin cümle üzerindeki da� ılımı.
Cümle unsurlarının, indeks terim da� ılımları hem kendi içinde
hem de genel üzerinden toplu de� erlendirmesi Çizelge 11.1.2.3.’de
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
304
Çizelge 11.1.2.3: OSTAD derlemi, cümle unsuru ve indeks terim için toplu de
�
erlendirme.
Kod 0 1 Top P(ind=0|.) P(ind=1|.) Kod 0 1 Top P(ind=0|.) P(ind=1|.)
frek 5 0 5 frek 2,171 387 2,558
P(Kod|.) 0.00 0.00 0.00 P(Kod|.) 0.39 0.10 0.27
frek 54 67 121 frek 16 0 16
P(Kod|.) 0.01 0.02 0.01 P(Kod|.) 0.00 0.00 0.00
frek 24 56 80 frek 940 1,198 2,138
P(Kod|.) 0.00 0.01 0.01 P(Kod|.) 0.17 0.30 0.22
frek 173 598 771 frek 62 288 350
P(Kod|.) 0.03 0.15 0.08 P(Kod|.) 0.01 0.07 0.04
frek 1 5 6 frek 2 0 2
P(Kod|.) 0.00 0.00 0.00 P(Kod|.) 0.00 0.00 0.00
frek 270 11 281 frek 2 0 2
P(Kod|.) 0.05 0.00 0.03 P(Kod|.) 0.00 0.00 0.00
frek 133 212 345 frek 73 0 73
P(Kod|.) 0.02 0.05 0.04 P(Kod|.) 0.01 0.00 0.01
frek 217 0 217 frek 895 96 991
P(Kod|.) 0.04 0.00 0.02 P(Kod|.) 0.16 0.02 0.10
frek 18 32 50 frek 233 763 996
P(Kod|.) 0.00 0.01 0.01 P(Kod|.) 0.04 0.19 0.10
frek 162 0 162 frek 4 2 6
P(Kod|.) 0.03 0.00 0.02 P(Kod|.) 0.00 0.00 0.00
frek 169 235 404 5,625 3,951 9,575
P(Kod|.) 0.03 0.06 0.04 0.59 0.41
Toplam
P(ind)
Sub 0.23 0.77
Voc 0.67 0.33
S.M 1.00 0.00
Sen 0.90 0.10
Que 1.00 0.00
Rel 1.00 0.00
Obj 0.44 0.56
Poss 0.18 0.82
Mod 0.85 0.15
Neg 1.00 0.00
0.42 0.58
0.36 0.64
Inte 1.00 0.00
0.39 0.61
Det 1.00 0.00
0.17 0.83
Coo 0.96 0.04
0.30 0.70
Clas 0.22 0.78
1.00 0.00
Abl 0.45 0.55
*
App
Coll
Dat
Inst
Loc
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
305
Lahtinen (2000), yaptı�ı çalı � mada cümle unsurları için �
ngilizce’de benzer bir yol izlemi � tir. Lahtinen çalı � masında, cümle
unsurlarının kendi içinde indeks terim olu� da�ılımlarını kullanmı � tır.
Genel da�ılımı, yani indeks terimlerin cümle unsurları üzerindeki
da�ılımını kullanmamı � tır. Not edilmesi gereken bir önemli nokta
Lahtinen tarafından yapılan çalı � mada da, �ngilizce için kendi içinde en
yüksek olasılı�a sahip cümle unsuru olarak, isim tamlamalarının ilk
birli�inin bulunmasıdır.
�kinci unsur, cümlenin faili; üçüncü unsur edat
tümlecinde tamlayan22 (complement of preposition) adını verdi�i unsur
ve dördüncü unsur da nesnedir.
11.1.3. Sözcük Türü ve Cümle Unsuru Ortak De� er lendirme
Sözcük türünün ve cümle unsurlarının bireysel olarak indeks
terim da�ılımları kendi içlerinde de
�erlendirildi, burada birlikte
de�erlendirmesi yapılacaktır. Birlikte de
�erlendirme, sözcük türü ve
cümle unsurunun birlikte indeks terim da�ılımlarıdır. Çizelge
11.1.3.1.’de OSTAD derleminde yapılan elle i � aretleme verileri
kullanılarak hesaplanmı � , sözcük türü ve cümle unsuru belirlenmi � ken,
indeks terim olma (1) ve olmama (0) olasılıkları, tablo halinde
verilmi � tir.
22 Lahtinen, edat tümlecinde tamlayan cümle unsuru adını verdi � i kelime gurupları için “divorced from ETHICS” örne� ini vermi � tir. Bu gurubun edatı “ from” birli � idir. “ETHICS” (töre, ahlak) birli � i tamlayandır. “divorced” (bo� anma) birli � i de tamlanan.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
306
Çizelge 11.1.3.1: OSTAD derleminde, sözcük türü ve cümle unsuru birlikte indeks terim da
�
ılımı.
indT Adj Adv Conj Det Inter j Noun Postp Pron Verb indT Adj Adv Conj Det Interj Noun Postp Pron Verb
�ekil 11.2.1.2: Geri-getirim yöntemlerinin, OSTAD derlemi üzerinde deneysel olarak,
üstel-puanlama yöntemi ile ba� arım sınaması sonuçları.
Alınana sonuçlara göre, TFxIDF yöntemi Türkçe için di � er
yöntemlerden çok daha yüksek bir ba� arım sergilemi � tir. Geri-getirim
yöntemlerinin üçü de, istatistiksel olarak 0.05 anlamlılık düzeyinde
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
317
birbirlerinden farklıdır (Friedman test istatisti � i23, p-de� eri 0.04). Ba� ta belirtildi � i gibi, terimlerin yalın gözlenme sıklıkları ile kontrol için
olu� turdu� umuz tf yöntemi, beklendi � i gibi en kötü sonucu vermi � tir. Kontrolün amacı, varsa farklılı � ın, yani de� i � imin yönünü tayin
edebilmektir. � statistiksel farklılık sınamaları, de� i � imin yönü
konusunda bilgi vermezler. Üstel-puanlama yönteminin, ortalama
duyarlılık ile oransal sonuçlar verdi � i belirtilmi � tir, ancak Türkçe için
yaratılan farklılı � ın iyi yönde oldu� unu da garanti altına almak için
kontrol yapılmı � tır.
Sonuç olarak, TFxIDF Türkçe için, deneysel derlemimiz olan
OSTAD üzerinde en yüksek ba� arımı sa� layan yöntem olmu� tur. Bu
sonuç, � ngilizce için alınan sonuçlar ile tezat olu� turmaktadır. � ngilizce
için yapılan sınamalarda, Okapi en iyi ba� arımı göstermi � , ardından
sırasıyla Ltu ve TFxIDF gelmi � tir. Bunun sebebi aslında açıktır. Okapi
ve Ltu yöntemleri, parametrik yöntemlerdir. Parametreler, � ngilizce
talim derlemlerinde elde edilen en yüksek ba� arım noktalarındaki
de� erlere e� ittir. Dolayısı ile, ba� ta � ngilizce olmak üzere, talim
edildikleri derleme inceltilmi � tir. Türkçe için aynı sonuçları vermeleri,
beklenen bir durum de� ildir. Ancak, Ltu yönteminin Okapi
yönteminden daha genellenebilir oldu� unu da söylemek gerekir.
11.2.2. � ndeks Ter im Seçimi ve A � ır lıklandırma
Bir geri-getirim yöntemi, belge içeri � ini temsil açısından
terimlere, önemleri ile orantılı olarak a� ırlıklandırma yapmayı
ba� ardı � ı miktarda, bir BGG sisteminin ba� arımını arttırabilir (Bölüm
23 Friedman istatisti � i, parametrik olmayan bir yöntemdir. Aslen 2-yönlü ANOVA parametrik istatisti � inin, parametrik olmayan kar � ılı� ıdır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
318
8.3). Bir ba� ka söyleyi � le, bir geri-getirim yöntemi belgeler için içeri � e
katkıda bulunan terimleri, yani indeks terimleri, i � lev terimlerden yani,
içeri � e katkısı olmayan terimleri birbirinden ayırt edebildi � i miktarda,
BGG sisteminin ba� arımını arttırabilir.
OSTAD derleminde, seçilen her belge için elle indeks terimler
i � aretlenmi � tir. Dilbilgisi özelliklerinin katkısını ölçmek için, Türkçe
için en yüksek geri-getirim ba� arımına sahip olan TFxIDF yöntemi ile
atanmı � a� ırlıklar e� ik belirleyicilik olarak kullanılacaktır. TFxIDF
yöntemi ile indeks terimlerin belirlenebilmesi ile dilbilgisi özellikleri
de kullanılarak belirlenmesi arasında anlamlı bir farklılık olup
olmadı � ına bakılacaktır. Dolayısı ile, ba� arım üzerindeki etkisi de aynı
zamanda ortaya konmu� olacaktır. OSTAD derleminde yapılan söz
konusu deneysel çalı � malarda, belge yerine paragraflar kullanılmı � tır.
TFxIDF yöntemi ile a� a� ıdaki paragraf için hesaplanarak atanmı �
a� ırlıklar Çizelge 11.2.2.1.’de örnek olarak verilmi � tir.
“ AB'ye uyum süreci nedeniyle hazırlanan azınlık cemaatleri vakıflarının mal edinmelerini düzenleyen yönetmelik kapsamına alınmayan Süryani ve Protestanlar isyan etti . Yönetmelikle , sadece Lozan Antla � ması'na göre azınlık statüsü tanınan Rumlar , Ermeniler ve Yahudi cemaatlerine mülk edinme hakkı verilmesi tartı � ma yarattı . “
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
319
Çizelge 11.2.2.1: Örnek paragrafın TFxIDF a� ılıkları.
Bir lik TFxIDF ind Bir lik TFxIDF indazınlık 14.0741786 1 tartı � ma 7.622051819 1alınmayan 8.62205182 0 rumlar 7.622051819 1cemaatleri 8.62205182 1 hazırlanan 7.622051819 0edinmelerini 8.62205182 0 cemaatlerine 7.622051819 1ermeniler 8.62205182 1 ab'ye 7.037089319 1isyan 8.62205182 1 düzenleyen 7.037089319 0lozan 8.62205182 1 edinme 7.037089319 0protestanlar 8.62205182 1 mülk 7.037089319 1statüsü 8.62205182 0 kapsamına 6.622051819 0süreci 8.62205182 0 yönetmelikle 6.622051819 1vakıflarının 8.62205182 1 uyum 6.300123725 0yönetmelik 8.62205182 1 mal 5.814696897 1yahudi 7.62205182 1 sadece 5.814696897 0yarattı 7.62205182 0 nedeniyle 5.037089319 0verilmesi 7.62205182 0 göre 4.229734397 0süryani 7.62205182 1 ve 3.090472445 0tanınan 7.62205182 0
Çizelge’de örnek paragraf için verilen TFxIDF de� erlerinde
görüldü� ü gibi, örne� in “yahudi” ve “ yarattı” terimleri aynı a� ırlı � a
sahiptir. E� er TFxIDF mükemmel bir a� ırlıklandırma yapıyor olsaydı,
tüm indeks terimlerin, a� ırlı � ın azalan sıralamasında üst kısımlarda;
tüm i � lev kelimelerde sıralamanın altlarında olması gerekirdi. Aslen
“ tartı � ma yaratmak” birle� ik olarak, “ tartı � ma” ve “ yaratma”
kelimelerinden önem olarak farklıdır. Paragrafın konusu: azınlık
statüsünün Süryaniler ve Protestanlar arasında yarattı � ı tartı � ma ve
isyandır.
TFxIDF yöntemi ile atanmı � a� ırlıkların azalan sırasına göre
terimler listelendi � inde, söz konusu belge (paragraf) için terimlerin
önemlerine göre de azalan bir sıralama yapılmı � olmaktadır. Dolayısı
ile, 1. sırada listelenen terim en önemli, son sırada listelenen terim de
en önemsiz terim olmaktadır. E� er bu belge, içindeki her hangi bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
320
terim veya terimler için sorgulanacak olursa, belgenin sistem tarafından
geri-getirilen sonuç listesinde, verilen bu sıralama ile do� ru orantıl ı
olarak di � er belgelere göre bir sıralamaya konacaktır. � ndeks terimleri,
i � lev kelimelerinden daha yukarda olan bir belge, genel sonuç
listesindeki sıralamada da üst sıralarda olacaktır. Dolayısı ile, BGG
sisteminin ba� arımı olması gereken ideal noktaya do� ru
yakınsayacaktır. Yöntemlerin ba� arımlarını kar � ıla� tırmak için, her
yöntemin sıralamada indeks terimlerin ne kadar önce listeledi � i ölçüt
olarak kullanılabilir. Bu tür bir ölçütün sayısal de� erleri, Bölüm 8.1.’de
anlatılan duyarlılık esasına dayalı olarak elde edilebilir. Belirli bir
yöntemin, bir belgenin terimleri için verdi � i sıralamada, yukarıdan
a� a� ı inerken kar � ıla� ılan indeks terim sayısının sıra numarasına oranı
bize duyarlılık de� erini verecektir. Örnek paragraf üzerinden, TFxIDF
ile yapılan a� ırlıklandırma sonucunda hesaplanan duyarlılık de� erleri
Çizelge 11.2.2.2.’de tablo halinde verilmi � tir.
Çizelge 11.2.2.2: Örnek paragrafın, TFxIDF a� ırlıkları üzerinden duyarlılık de� erleri.
Çizelgede, sözcük türü ile atanan a� ırlıkların, TFxIDF ile atanan
a� ırlıklardan daha iyi bir sıralama yaptı � ı gözle de görülmektedir.
Sözcük türü ile yapılan a� ırlık atamasında 1 de� eri olanlar, özel
isimlerdir. Dolayısı ile, özel isimlerin etkisi oldukça yüksektir. TFxIDF
ve sözcük türü ile atanan a� ırlıkların, indeks terimleri sıralama içinde
kümeledikleri yerler için, derlem genelinde Wilcoxon i � aret testi ile
yapılan kar � ıla� tırma sonuçları Çizelge 11.2.3.1.2.’de tablo halinde
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
325
Çizelge 11.2.3.1.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve sözcük türü a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
SözT - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 39 76.5513 2985.5000 -14.6673 0.00(+) Sıralar 312 188.4311 58790.5000E � itlik 43Toplam 394
Çizelge’de Wilcoxon test istatisti � i için elde edilen sonuçlar
görülmektedir. Bundan sonraki tüm sonuçlar da benzer � ekilde
verilece� i için, burada tablo detaylı olarak anlatılacak, ilerleyen
kısımlarda, sadece sonuçlar yorumlanacaktır. “SözT-TFxIDF” ba� lı � ı,
testin hangi de� i � kenler arasında gerçekle� ti � ini belirtir. Testte, iki
de� i � kenin e� le� tirilmi � de� erleri (Rnorm) arasındaki farklar bulunur.
Tabii, birinci de� i � ken, yani “SözT” kısaltması ile temsil edilen sözcük
türü, için de� er, ikinci de� i � ken, yani “TFxIDF” için de� erden büyükse,
fark pozitif olaca� ından, (+) sıra numaraları elde edilir. E� er, tersi ise,
(-) negatif sıra de� erleri elde edilir. E� er, iki de� i � kenin de� erleri, söz
konusu belge için e� itse, “e� itlik” olur. Testte, pozitif olan sıra
numaraları, negatif olan sıra numaraları ve e� itlik durumları kendi
içinde toplanır. “N” sütununda pozitif, negatif ve e� it olarak tespit
edilen sıra numaralarının sayısı vardır, en alt satırda da, “Toplam” sıra
numarası verilmi � tir. “Ortalama” sütunu, her üç gurubun kendi içinde
sıra numaralarının, mutlak de� er toplamları (“Toplam” sütunu)
üzerinden ortalamalarını listeler. � statistik, mutlak de� er toplamı en
küçük olan gurup için gerçekle� tirilir: bizim durumumuzda (-) farka
sahip de� erlerin sıra numaraları toplamı en küçük oldu� u için, test bu
gurup üzerine kurulmu � tur. “Z” sütununda, (-) sıra gurubundaki, sıra
numaralarının mutlak de� er toplamı, standart de� er olarak verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
326
“Sig” sütunundaki de� er, iki yöntemle atanan de� erlerin (Rnorm)
birbirinden anlamlı olarak farklı olup olmadı � ını gösterir. Bu de� erin:
büyük olması, “ farklılı � ın olmadı � ı” hipotezini reddedecek delilin,
deney kümesinden elde edilemedi � ini gösterir. Bizim durumumuz için
de� er 0’dır, yani anlamlılı � ın 0.05 düzeyinde, iki yöntem arasında bir
farklılık bulunmu� tur. Dolayısı ile, deneysel derlemimiz için, sözcük
türü enformasyonu esasında bir BGG sisteminin ba� arımı ile TFxIDF
esasında bir BGG sisteminin ba� arımlarının e� it olaca� ı hipotezini
reddedebilecek kadar delil vardır sonucuna varıyoruz. Yarıca, pozitif
(+) guruba dahil olan sıra numaralarının mutlak de� er toplamlarının,
negatif (-) guruba dahil olan sıra numaralarının mutlak de� er
toplamından büyük olması sebebiyle, farklılı � ın, sözcük türü lehinde
Cümle unsuru incelemesinde, sözcük türü için kullandı � ımız
yöntemin benzeri kullanılacaktır. Bu defa, sözcük türü yerine cümle
unsurunun indeks terim da� ılımları a� ırlık olarak kabul edilecektir.
Örnek paragrafın cümle unsurları ile atanmı � a� ılıklar ve kar � ılık gelen
anma ve duyarlılık de� erleri Çizelge 11.2.3.2.1.’de tablo halinde
verilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
327
Çizelge 11.2.3.2.1: Örnek paragrafın, cümle unsurları ile atanan a� ırlıkları üzerinden duyarlılık de� erleri.
Bir lik CümU A � ır lık ind Sıra Duy Bir lik CümU A � ır lık ind Sıra Duyazınlık Clas 0.7782 1 1 1.00 edinmelerini Obj 0.5622 0 18 0.56mülk Clas 0.7782 1 2 1.00 ermeniler Obj 0.5622 1 19 0.58uyum Clas 0.7782 0 3 0.67 tartı � ma Obj 0.5622 1 20 0.60yahudi Clas 0.7782 1 4 0.75 tanınan Mod 0.1517 0 21 0.57yönetmelik Clas 0.7782 1 5 0.80 süreci Mod 0.1517 0 22 0.55verilmesi Sub 0.7671 0 6 0.67 sadece Mod 0.1517 0 23 0.52vakıflarının Sub 0.7671 0 7 0.57 yönetmelikle Mod 0.1517 1 24 0.54süryani Sub 0.7671 1 8 0.63 göre Mod 0.1517 0 25 0.52rumlar Sub 0.7671 1 9 0.67 düzenleyen Mod 0.1517 0 26 0.50statüsü Sub 0.7671 0 10 0.60 cemaatleri Mod 0.1517 0 27 0.48protestanlar Sub 0.7671 1 11 0.64 nedeniyle Mod 0.1517 0 28 0.46edinme Sub 0.7671 0 12 0.58 hazırlanan Mod 0.1517 0 29 0.45cemaatlerine Dat 0.6116 0 13 0.54 alınmayan Mod 0.1517 0 30 0.43kapsamına Dat 0.6116 0 14 0.50 isyan Sen 0.0959 0 31 0.42ab'ye Dat 0.6116 1 15 0.53 yarattı Sen 0.0959 0 32 0.41lozan Obj 0.5622 1 16 0.56 ve Coo 0.0391 0 33 0.39mal Obj 0.5622 1 17 0.59
TFxIDF ve cümle unsuru ile atanan a� ırlıkların, indeks terimleri,
sıralama içinde kümeledikleri yerler için, derlem genelinde Wilcoxon
i � aret testi ile yapılan kar � ıla� tırma sonuçları da, Çizelge 11.2.3.2.2.’de
tablo halinde verilmi � tir.
Çizelge 11.2.3.2.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF a� ırlıklandırması ve cümle unsuru a� ırlıklandırması ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
CümU - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 45 100.4556 4520.5000 -13.8936 0.00(+) Sıralar 307 187.6466 57607.5000E � itlik 42Toplam 394
“Sig” de� eri 0’dır, yani anlamlılı � ın 0.05 düzeyinde, cümle
unsuru ile TFxIDF arasında, bir farklılık bulunmu� tur. Dolayısı ile,
deneysel derlemimiz için, cümle unsuru enformasyonu esasında bir
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
328
BGG sisteminin ba� arımı ile TFxIDF esasında bir BGG sisteminin
ba� arımlarının e� it olaca� ı hipotezini reddedebilecek kadar delil vardır
sonucuna varıyoruz. Ayrıca, pozitif (+) guruba dahil olan sıra
numaralarının mutlak de� er toplamlarının, negatif (-) guruba dahil olan
sıra numaralarının mutlak de� er toplamından büyük olması sebebiyle,
farklılı � ın, cümle unsuru lehinde oldu� una da karar veriyoruz.
11.2.3.3 Sözcük türü ve cümle unsuru birlikte de� erlendirme
Örnek paragrafın cümle unsurları ile atanmı � a� ılıklar ve kar � ılık
gelen anma ve duyarlılık de� erleri Çizelge 11.2.3.2.1.’de tablo halinde
verilmi � tir.
Çizelge 11.2.3.3.1: Örnek paragrafın, cümle unsuru ve sözcük türü ile birlikte atanan a� ırlıkları üzerinden duyarlılık de� erleri.
Bir lik SözT CU A � ır lık ind Sıra Duy Bir lik SözT CU A � ır lık ind Sıra Duyab'ye Noun Dat 1.0000 1 1 1.00 edinmelerini Noun Obj 0.5999 0 18 0.56ermeniler Noun Obj 1.0000 1 2 1.00 mal Noun Obj 0.5999 1 19 0.58lozan Noun Obj 1.0000 1 3 1.00 tartı � ma Noun Obj 0.5999 1 20 0.60protestanlar Noun Sub 1.0000 1 4 1.00 isyan Noun Sen 0.3576 0 21 0.57rumlar Noun Sub 1.0000 1 5 1.00 nedeniyle Noun Mod 0.3097 0 22 0.55süryani Noun Sub 1.0000 1 6 1.00 cemaatleri Noun Mod 0.3097 0 23 0.52yahudi Adj Clas 1.0000 1 7 1.00 süreci Noun Mod 0.3097 0 24 0.50verilmesi Noun Sub 0.8189 0 8 0.88 yönetmelikle Noun Mod 0.3097 1 25 0.52vakıflarının Noun Sub 0.8189 0 9 0.78 tanınan Adj Mod 0.1543 0 26 0.50statüsü Noun Sub 0.8189 0 10 0.70 düzenleyen Adj Mod 0.1543 0 27 0.48edinme Noun Sub 0.8189 0 11 0.64 hazırlanan Adj Mod 0.1543 0 28 0.46azınlık Noun Clas 0.8008 1 12 0.67 alınmayan Adj Mod 0.1543 0 29 0.45mülk Noun Clas 0.8008 1 13 0.69 yarattı Verb Sen 0.0486 0 30 0.43uyum Noun Clas 0.8008 0 14 0.64 sadece Adv Mod 0.0144 0 31 0.42yönetmelik Noun Clas 0.8008 1 15 0.67 ve Conj Coo 0.0000 0 32 0.41kapsamına Noun Dat 0.6451 0 16 0.63 göre Postp Mod 0.0000 0 33 0.39cemaatlerine Noun Dat 0.6451 0 17 0.59
TFxIDF ile atanan a� ırlıklar ile sözcük türü ve cümle unsuru ile
atanan a� ırlıkların, indeks terimleri, sıralama içinde kümeledikleri
yerler için, derlem genelinde Wilcoxon i � aret testi i le yapılan
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
329
kar � ıla� tırma sonuçları da, Çizelge 11.2.3.3.2.’de tablo halinde
verilmi � tir.
Çizelge 11.2.3.3.2: OSTAD derlemi içinde seçilmi � belgeler üzerinde, TFxIDF ile sözcük türü ve cümle unsuru birlikte, yapılan a� ırlıklandırma ile elde edilen sıralamalar içinde, indeks terimlerin kümelendi � i yerlerin kar � ıla� tırma sonuçları.
SözCüm - TFxIDF N Ortalama Toplam Z Sig(-) Sıralar 13 89.0769 1158.0000 -15.7303 0.00(+) Sıralar 342 181.3801 62032.0000E � itlik 39Toplam 394
“Sig” de� eri 0’dır, yani anlamlılı � ın 0.05 düzeyinde, sözcük türü
ve cümle unsurunun birlikte kullanılması ile TFxIDF arasında bir
farklılık bulunmu� tur. Dolayısı ile, deneysel derlemimiz için, sözcük
türü ve cümle unsurunun birlikte kullanılmasından elde edilen
enformasyon esasında bir BGG sisteminin ba� arımı ile TFxIDF
esasında bir BGG sisteminin ba� arımlarının e� it olaca� ı hipotezini
reddedebilecek kadar delil vardır, sonucuna varıyoruz. Ayrıca, pozitif
(+) guruba dahil olan sıra numaralarının mutlak de� er toplamlarının,
negatif (-) guruba dahil olan sıra numaralarının mutlak de� er
toplamından büyük olması sebebiyle, farklılı � ın, cümle unsuru lehinde
oldu� una da karar veriyoruz.
11.2.3.4 Kelime guruplarının de� erlendirilmesi
Kelime gurupları üzerine genel indeks terim da� ılımları
incelenirken belirtti � imiz gibi, kelime guruplarını, sözcük türü dizileri
olarak ele alıyoruz. Dolayısı ile, tek kelimeden olu� mu� indeks terim
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
330
listesinde, a� ırlıklandırma yöntemine (Okapi, Ltu ve TFxIDF) ek
olarak kullanıyoruz. Herhangi bir yöntemle, kelime gurubunu
katı � tırmak için izlenen yol, seçilebilecek en basit yoldur. Farklı olarak,
daha karma� ık dil modelleri üzerinde, elbette çalı � ılabilir. Ancak, yalın
olarak etkiyi aramak tez kapsamımıza aldı � ımız hali ile yeterlidir.
Kelime gurupları, sözcük dizileri olarak ele alındı � ı için,
sınanacak yöntemlerde kullanılacak birlikler de uygun � ekilde
düzenlenmi � tir. Örne� in, kelime “Türkiye” ise, isim olan sözcük türü,
kelimeye kodu olan Noun eklenmi � hali i le, yani “NounTürkiye”
� eklinde de� erlendirmeye alınmı � tır. Bu 1-gram tanımıdır ve aslen
kelime gurubu ifade etmez. Kelime gurubu için, 2-gram kullanılmı � tır, yani bir önceki kelimenin sözcük türü, 1-gram ile olu� turulan birli � in
tekrar önüne eklenmi � tir. Örne� e devam edersek, diyelim ki bir önceki
kelime “büyük” , yani söz-dizisi “ büyük Türkiye” ise, sıfat olan sözcük
türü kodu Adj’de eklenerek, “AdjNounTürkiye” � eklinde bir birlik
yaratılmı � tır. Böylece, kelimenin sözcük türü olmayan yalın hali
“Türkiye” için, sadece kendisine ait sözcük türü ile “NounTürkiye”
kurulan birlik için ve bir öncesindeki kelimenin de sözcük türü
eklenmi � hali olan “AdjNounTürkiye” birli � i için geri-getirim
yöntemlerinin a� ırlıklandırma hesapları yapılmı � tır. Sözcük türü
enformasyonunun katı � tırılmasından da anla� ılaca� ı gibi, aslen bu
sınamada, derlemde bulunan birlik sayısı arttırılmı � , yani ba� lam da
sınadı � ımız bu yöntemin, tam bir kelime gurubu sınaması oldu� u
söylenemez, ancak kelime gurupları olu� turma u� ra� ı, maliyetli bir i �
oldu� u için, “kelime gurubunun etkisi anlamsızdır” genel kanısını
yıkmaya çalı � manın yanı sıra, yöntemin de basit olması gerekmektedir;
Dolayısı ile, bu yolla sınama yapmak her iki durumu da kolladı � ı için
makul bir seçim olarak gözükmektedir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
331
�ekil 11.2.3.4.1.’de, olu� turulan tüm birlikler için,
de� erlendirmeye alınan her geri-getirim yönteminin üstel-puanları
çizge olarak verilmi � tir.
TFxIDF TFxIDF TFxIDF
Okapi
Ltu Ltu Ltu
TF
TF TF
Okapi Okapi
1.2500
1.2550
1.2600
1.2650
1.2700
1.2750
1.2800
1.2850
1.2900
1.2950
1.3000
1.3050
TF 1.2731 1.2734 1.2762
TFxIDF 1.2959 1.2967 1.2982
Okapi 1.2763 1.2743 1.2685
Ltu 1.2908 1.2919 1.2934
Durum1 Durum2 Durum3
�ekil 11.2.3.4.1: OSTAD derleminde, kelime guruplarının geri-getirim ba� arımı
üzerine etki sınamasına ait üstel-puanlar.
�ekilde, her yöntemin, her birlik çe� idi için üstel-puanları hem
çizge olarak betimlenmi � , hem de tablo olarak listelenmi � tir. “Durum1”
sütununda, kelimenin kendisinden olu� turulan yalın � ekli için her
yöntemin üstel-puanları; “Durum2” sütununda, kelime ve kendisine ait
sözcük türü ile olu� turulan birlik için her yöntemin üstel-puanları;
“Durum3” sütununda da, kelime, kendisine ait sözcük türü ve bir
önceki kelimenin sözcük türü ile olu� turulan birlik için her yöntemin
üstel-puanları listelenmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
332
�ekilden de anla� ılabilece� i gibi, geleneksel TFxIDF
a� ırlıklandırması istatistiksel olarak, anlam düzeyi %10 (α=0.10,
p=0.08) ile, di � er yöntemlerden daha ba� arılıdır. Tüm yöntemler de,
“Durum” etkisinden ba� ımsız olarak, birbirlerinden %5 (α=0.05,
p=0.04) anlamlılık düzeyinde farklıdır (Friedman test istatisti � i).
Hiçbir yöntemin “Durum” de� i � keni üzerindeki da� ılımı, anlamlı
düzeyde bir de� i � iklik göstermemi � tir. Bir ba� ka söyleyi � le, yöntemler
kendi içinde, olu� turulan üç birlik için anlamlı düzeyde farklılık
göstermemi � tir. Ancak, çizgede ba� lam kullanıldı � ında, yani kelime
gurubunun tanımladı � ımız sözcük türü dizisi � eklindeki hali devreye
girince, yöntemlerin kendi içinde farklıla� ma e� iliminde oldu� u
söylenebilir. Friedman testi ile alınan istatistik de� erinin p de� erinin
%36 olması da, bunu desteklemektedir. Çünkü, de� er, %10 oldu� u
takdirde anlamlı bir farklılık oldu� u söylenebilecektir. �imdilik, kelime
gurupları ile ilgili kararımız “kelime guruplarının, tanımladı � ımız
� ekilde sözcük türü dizisi olarak, yani ba� lam etkisi biçiminde
kullanılması durumunda, yöntemlerin kendi içinde anlamlı düzeylerde
farklılık yaratmadı � ı hipotezini, reddedebilecek yeterli kanıtı deneysel
derlemimizden elde edemedik” � eklinde verilebilir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
333
12. SONUÇ
Bu tezin amacı, Türkçe yazılı belgeler için, bir bilgi geri-getirim
sistemlerinde dilbilgisi özelliklerini, özgün (novel) ve orijinal (original)
bir çalı � ma sayesinde kullanıma sunmak ve ba� arımda mevcudun
ötesine geçebilmektir. Özgün ile kastetti � imiz, BGG sahasında
geleneksel olarak kullanılan mevcut yöntem ve anlayı � ların, farklı
uygulama alanlarına ta� ınması, yani Türkçe üzerine çalı � mak; orijinal
ile kastetti � imizse, sahada genel geçer olan evrensel kabullenmelerin ve
bilinenlerin dı � ında yeni yöntemler ve bakı � açıları ortaya koymaktır.
Tezde, söz konusu iki vasfı kar � ılamak için, de� i � ik u� ra� sahalarının
içine giren, bir dizi ara� tırma ortaya konmu� ve hedefte olan
“ba� arımda mevcudun ötesine geçme” , hem u� ra� sahalarının kendi
içinde tam olarak, hem de bütünselli � e katkıları açısından kısmen
sınanmı � tır. Yapılan ara� tırmaların ve geli � tirilen yöntemlerin tamamı,
Türkçe odaklı oldu� undan ve uyarlama ile kullanılabildi � inden, hepsi
özgündür. Ancak, hepsi kuramsal ve fikren orijinal yanlar ta� ımalarına
ra� men, aralarında orij inallik derecelendirilebilir. Bu bölümde yapılan
çalı � maların sonuçları verilirken, orijinallik derecelerine de
de� inilecektir.
Tezin temel kapsamı, bilgi geri-getirim ve hesaplamalı dilbilim
sahalarıdır. Uygulamada Türkçe oldu� u için, Türkçe dilbilgisi de
kapsama, yan unsur olarak dahildir. Geli � tirilen yöntemler ve
ara� tırmalar istatistik/olasılık esasında oldu� undan, kapsam bu bakı �
açısına giren yöntem ve kuramlarla sınırlanmaktadır. Yönelim a� ırlık
olarak, bilgi geri-getirim sahasına do� rudur. Ancak, hesaplamalı
dilbilim sahası da, Türkçe dilbilgisi özelliklerinin kullanımı söz konusu
oldu� u için, bilgi geri-getirim sahasına uygun olarak inceltilmi � hali ile,
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
334
geni � yer tutmaktadır. Tez kapsamında yapılan çalı � malar, yukarıda
belirtilen özellikleri ve özet sonuçları ile birlikte, maddeler halinde
verilmi � tir.
1. Geli � tirilen yöntemler: Tez kapsamında, u� ra� olarak hesaplamalı dilbilim sahasına giren, ancak BGG sistemlerinde kullanılmak üzere uyarlanmı � 4 de� i � ik amaca sahip yöntem geli � tirilmi � tir. Yöntemlerin tamamı, kelime da� arcı � ı (sözlük) kullanmamaktadır. Sebebi ise, hesaplamalı dilbilim sahasında genel kabullenme olan ve tez kapsamında incelenip do � ru oldu� una dair delil bulunamayan, “ do� al dillerin kelime da� arcıklarının kapalı, yani sınırlı oldu� u” hipotezidir. Yöntemler, kelime da� arcı � ının açık, yani sınırsız olaca� ı kabullenmesine uygun olarak geli � tirilmi � tir.
1.1. Türkçe yazılı belgelerin tespiti için bir yöntem önerilmi � ve deneysel olarak ba� arımı sınanmı � tır. Yöntemin orijinal yanı, kelimelerin Türkçe hecelemeye uygunlu� una dayalı olarak seçim yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. � ngilizce ve Türkçe olmak üzere, karı � ık
� ekilde olu� turulmu� derlemlerde, hecelenme oranlarına göre yapılacak ayıklama ile, Türkçe belgelerin � ngilizce belgelerden ayırt edilebilece� i gösterilmi � tir.
1.2. Türkçe yazılı metinlerde, cümle sonunun tespiti için bir yöntem önerilmi � ve deneysel olarak ba� arımı incelenmi � tir. Yöntem istatistik/olasılık esasındadır ve orijinal yanı, Türkçe heceleme ile cümle sonu tespiti yapmasıdır. Ayrıca, hiçbir sözlük v.b. liste kullanmamaktadır. Deneysel olarak kullanılan derlem için, %96,24 ba� arım sa� lamı � tır.
1.3. Türkçe kelimeleri, gövdelemek için bir yöntem önerilmi � ve deneysel olarak ba� arımı sınanmı � tır. Yöntem istatistik/olasılık esasında kurgulanmı � tır. Türkçe harflerin çiftlerinden olu� an bir liste kullanmaktadır. Dolayısı ile, olu� an listenin boyutu sınırlıdır. Yöntem kurgu olarak tümüyle orijinaldir. Deneysel olarak ula� ılan ba� arım, %95,8’dir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
335
1.4. Türkçe kelimelerin sözcük türlerini tespit için bir yöntem önerilmi � ve deneysel olarak sınanmı � tır. Yöntem istatistik/olasılık esasına dayanmaktadır. Kurgusu gizli Markov zinciri dil modeline dayanmaktadır. Orijinal olan yanı, kelimelerin sözcük türlerini tespit ederken, kelime sonlarından alınan belirli sayıda harf dizisine göre karar vermesidir. Deneysel olarak yapılan çalı � malarda ula� ılan en iyi sonuç, %85,9’dur. Türkçe için yayınlanan en yüksek ba� arım, %93,95’dir (Hakkani-Tür ve arkada� ları, 2002). Ancak, yöntem sözlük kullanmakta ve gizli Markov zinciri dil modeline ek olarak kelimelerin biçimbirimsel analizlerine ihtiyaç duymaktadır. Önerdi � imiz yöntem, kelime da� arcı � ı açısından kapalıdır. Ayrıca, biçimbirimsel analize gereksinim duymamaktadır.
2. Genel istatistikler: Türkçe yazılı belgelerden olu� turulan derlemlerin, Zipf güç kanunları esasında uyumluluk sınamaları yapılmı � tır. Zipf güç kanunlarına uyum, BGG sistemleri için geli � tirilen yöntemlerin kuramsal tabanını olu� turmaktadır. Ayrıca, Zipf güç kanunları çerçevesinde, Türkçe derlemlerin kelime da� arcı � ının, boyut olarak incelemesi ve açık/kapalı olu� unun sınamaları da gerçekle� tirilmi � tir.
2.1. Ara� tırma kapsamına alınan her derlem için gövde esasında ve kelime esasında tanımlayıcı istatistikler yapılmı � tır.
2.2. Her derlem için Zipf ve Mandelbrot ifadelerine uyum sınamaları, hem gövde esasında hem de kelime esasında yapılmı � tır. Sınamalar sonucunda, Türkçe için W=1000 parametre de� eri olan Mandelbrot ifadesi en iyi uyumu göstermi � tir. � ngilizce için yapılan aynı çalı � mada, Mandelbrot ifadesi ile en iyi uyum sa� lanmı � , ancak W parametresi 100 de� erinde kalmı � tır. Mandelbrot, W parametresinin dilin kelime biçimi olarak zenginli � ini ölçeklendirdi � ini belirtmektedir, dolayısı ile Türkçe, � ngilizce’den, kelime biçimi olarak daha zengin çıkmı � tır (eklemeli dil olarak, Türkçe için beklenen bir sonuçtur).
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
336
2.3. Türkçe için, kelime da� arcı � ının yapılan incelemelerinde, boyut olarak, derlem boyutu arttıkça sınırsız � ekilde artaca� ı, yani açık oldu� u, hipotezini çürütecek bir delili elimizdeki derlemlerden elde edilememi � tir. Deneysel sınamalarımıza esas te� kil eden ölçüt olarak, Zipf birinci kanun ifadesindeki do� rusal uyumun e� imi kullanılmı � tır. Kelime da� arcı � ının açık oldu� unu reddedebilmek için, deneysel olarak Zipf birinci kanun ifadesindeki e� imin, 1’den küçük olması gerekmektedir, ancak, hiçbir sınamada e� im 1’den küçük çıkmamı � tır. Alınan bu sonuç, hesaplamalı dilbilim sahasında genel kabulün tersidir. Genel kabul: “ do� al diller için kelime da� arcı � ının, derlem boyutu sonsuza giderken kapalı oldu� u, yani sabit bir sayıya yakınsayaca� ıdır” . Oysa, deneysel sınamalarımızda, böyle yakınsanacak sabit bir sayının oldu� una dair delil bulunamamı � tır.
2.4. Türkçe için, kelime da� arcı � ının, derlem boyutu ile üstel bir i li � ki ile büyüme gerçekle� tirdi � i kabul edildi � inde, kelime
da� arcı � ının boyutunu hesaplamak için kullanılabilecek, ρN ifadesindeki katsayısı olarak: gövdeler için 0.4441≈gρ ,
kelimeler için 0.7821≈ρ bulunmu � tur. � fadede, N derlem boyutunu temsil etmektedir.
2.5. Türkçe derlemlerin, kelime da� arcıklarının içerdi � i kelime biçimlerinin, derlem içinde gözlenme sıklıklarına göre incelemeleri de yapılmı � tır. Bu kapsamda, derlem içinde bir kez gözlenen (hapaks kelimeler), iki kere gözlenen, üç kere gözlenen v.b. dü� ük frekanslı kelimeler detaylı olarak incelenmi � , kelime da� arcı � ını olu� turan kelime biçimlerinin oran olarak tahlilleri yapılmı � tır. Kelime da� arcı � ı içinde, bir kez gözlenen kelimelerin, sayıca oranının: kelime esasında yakla� ık %50, iki kere gözlenen kelime biçimleri de eklendi � inde oranın %65’e ula� tı � ı; gövde esasında bir kez gözlenenlerin yakla� ık %36,5, iki kere gözlenen gövde biçimleri de eklenince oranın %50’ye ula� tı � ı tespit edilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
337
2.6. Kelime da� arcı � ı kapsamında, Zipf ikinci kanunu ele alınmı � ve kelime da� arcı � ını olu� turan farklı kelime biçimlerinin, derlemde gözlenme sıklıkları ile orantılı olarak, kelime da� arcı � ındaki oranlarını hesaplamak için biçimsel ifadeler olu� turulmu� tur. Kelime biçimlerinin farklı derlem boyutları için, önerilen ifadelerle tahmin edilen de� erleri i le gerçekle� en de� erleri kar � ıla� tırmalı olarak verilmi � tir.
2.7. BGG sistemleri açısından önemli bir konu olan, metin içinde i � lev ve içerik olan kelimelerin, birbirlerinden ayırt edilmesi için, Zipf güç kanunları esasında frekansa dayalı bir yöntem hem gövdeler hem de kelimeler için sınanmı � ve sonuçları incelenmi � tir. BGG sistemlerinde, sayısal belge temsili için, metinlerde yer alan kelimelerin, içeri � e katkıları bulunanları seçilmektedir. Bu içeri � e katkıda bulunan kelimelere indeks terimler adı verilmekte; belgeler indeks terimlerin bir listesi
� eklinde temsil edilmektedir. � ncelemede, içerik kelime olarak ele alınan yazım birlikleri, indeks terimler olmaktadır.
3. Dilbilgisi özelliklerinin BGG sistemlerinde kullanımı: Tez hedefimizin ana çalı � ması, bu kapsam içinde gerçekle� mi � tir. Dilbilgisi özelli � i olarak: sözcük türlerinin (isim, fiil, sıfat v.b.), cümle unsurlarının (fiil, fail/özne, nesne v.b.) ve kelime guruplarının BGG sistemlerinin ba� arımları üzerindeki etkileri sınanmı � tır.
3.1. Sözcük türlerinin, cümle unsurlarının ve sözcük türü ile cümle unsurları birlikte kullanılarak, elle i � aretlenmi � indeks terimler üzerindeki olasılık da� ılımları çıkartılmı � tır. Kelime guruplarının indeks terimler üzerindeki da� ılımı da ayrıca verilmi � tir.
3.2. � ngilizce derlemlerde en yüksek ba� arım de� erlerine sahip olan TFxIDF, Okapi ve Ltu geri-getirim yöntemleri, Türkçe için, ba� arım açısından sınanmı � ve TFxIDF yönteminin, OSTAD derlemi üzerinde en iyi sonucu verdi � i tespit edilmi � tir.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
338
3.3. OSTAD derleminin seçilen kısmı için, sözcük türlerinin indeks terimler üzerindeki olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir. Sözcük türleri içinde özel isimler, ayrı olarak ele alınmı � ve kullanılmı � tır.
3.4. OSTAD derleminin seçilen kısmı için, cümle unsurlarının indeks terimler üzerindeki olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir.
3.5. OSTAD derleminin seçilen kısmı için, sözcük türlerinin ve cümle unsurlarının, indeks terimler üzerindeki birle� ik olasılık da� ılımı kullanılarak, TFxIDF yöntemi ile elde edilen ba� arımdan anlamlı düzeyde farklılık sa� landı � ı, tespit edilmi � tir.
3.6. OSTAD derleminin seçilen kısmı için, kelime gurubu olarak sadece 2 kelimeden olu� anlar üzerinde bir inceleme yapılmı � tır. �ncelemede, kelime gurupları, harf birlikleri dizisi olarak ele
alınmamı � , harf birliklerine kar � ılık gelen sözcük türleri de� erlendirilmi � tir. Bu sayede, kelime gurubunun, sözcük türleri üzerinden, yalın � ekilde ba� lam enformasyonu ile temsili sa� lanmı � tır. Deneysel sınanmalar için, sözcük türleri, kelimelerin önlerine basitçe eklenmi � ve frekanslar yeni birlikler için tekrar olu� turulmu� tur. Olu� turulan yeni birlikler için TFxIDF, Okapi ve Ltu geri-getirim yöntemleri ile a� ırlıklar hesaplanmı � tır. Sınama sonucunda, üç geri-getirim yönteminin de, aynı ba� arıma sahip oldu� u hipotezini çürütecek, delil bulunamamı � tır.
Tez kapsamında yapılan çalı � malardan çıkan özet sonuçlar
� öyledir: 1-) Hesaplamalı dilbilim sahasında genel kanı olan kapalı,
yani boyut olarak sınırlı kelime da� arcı � ını destekleyecek delil Türkçe
için derlemlerimizde bulunamamı � tır. 2-) Hesaplamalı dilbilim
yöntemlerinde, genel kurgu içinde sözlük kullanımı gerektiren u� ra� ları
için, Türkçe’nin kendine özgü kuralları sayesinde, sözlük kullanmaya
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
339
ihtiyaç duymayacak e� leniklerinin yapılabilece� i gösterilmi � tir. 3-)
BGG sahasında, yaygın kanı olan, dilbilgisi özelliklerinin geri-getirim
ba� arımına anlamlı katkısı olmadı � ına dair görü� ün aksi yönünde,
OSTAD derlemi üzerinde yapılan çalı � malarla delil verilmi � tir. Sözcük
türü ve cümle unsuru enformasyonunun, indeks terimler üzerindeki
olasılık da� ılımı ile, ba� arımda anlamlı farklılık yaratıldı � ı tespit
edilmi � tir. 4-) Zipf güç kanunları esasında, Türkçe derlemlerin çe� itli da� ılım özellikleri belirlenmi � , kelime da� arcıklarının kapalı/açık olu� u
konusu irdelenmi � ve hem kelime da� arcı � ı boyutu için hem de kelime
biçimlerinin da� arcık içindeki sayılarını tahmin için derlemde
gözlenme sıklıklarını esas alan, hesaplama ifadeleri verilmi � tir.
Listelenen lehte çalı � maların yanı sıra, Türkçe kelimelerin sözcük
türleri için önerilen yöntem, kabul edilebilir ba� arım sınırları (%90-
%95) içinde de� ildir. Ancak, yöntemin verilen hali ile dahi, önerimin
olabilirli � i için yeterli kanıt oldu� u ve üzerinde daha fazla çalı � ma
yapılması gerekli � ine inanıyoruz. Kelime gurupları ile yapılan
çalı � mada aynı � ekilde, olumsuz sonuç vermi � tir. Bu konuda da,
ara� tırmanın derinle� tirilerek yapılması ile müspet sonuçlara
çıkılabilece� i konusunda, zayıfta olsa delillerimiz mevcuttur.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
340
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
341
13. GEL ����� M NOKTALARI VE TARTI � MA
Bu tezin hedefi olan BGG sistemlerinde dilbilim özelliklerinin
(sözcük türü ve cümle unsuru) kullanımı ile geri-getirim ba� arımının
anlamlı düzeyde arttırılması Türkçe için ba� arılmı � tır. Aynı ba� lamda,
Türkçe ile yapısal olarak benzerlik gösteren di � er diller için, örne� in
Fince veya Macarca’da da aynı ba� arımların sa� lanabilece� i güdüsü ile
ara� tırma yoluna gidilebilir. Ayrıca, kelime guruplarında istatistiksel
olarak anlamlı bir ba� arım artı � ı olmadı � ı sonucuna çıkmamıza ra� men,
kelime guruplarının önerdi � imiz � ekli ile ele alınmasının dı � ında, ba� ka
Sözcük/kelime türü i � aretleme Part-of-Speech Tagging
Sözdizimsel Çözümleme Syntactic Parsing
Sözlük-bilim Lexicology
Ta� ma Burstness
Temel Bile� en � ncelemesi Principle Component Analysis
Vekil yazılım Software Agent
Veri Data
Yayılım Çizimi Scatter Plot
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
349
KAYNAKLAR
Allan, J. (editor), Aslam, J, Belkin, N., Buckley, C., Callan, J., Croft, B. (editor), Dumais, S., Fuhr, N., Harman, D., Harper , D.J., Hiemstra, D., Hofmann, T., Hovy, E., Kraaij , W., Laffer ty, J., Lavrenko, V., Lewis, D., L iddy, L., Manmatha, R., McCallum, A., Ponte, J., Prager, J, Radev, R., Resnik, P., Robertson, S., Rosenfeld, R., Roukos, S., Sanderson, M., Schwartz, R., Singhal, A., Smeaton, A., Turt le, H., Voorhees, E., Weischedel, R., Xu, J., Zhai, C., 2003, Challenges in Information Retrieval and Language Modeling, SIGIR Forum 37(1).
Aberdeen, J., Burger , J., Day, D., Hirschman, L., Robinson, P. and Vilain, M ., 1995, Mitre: Description of the alembic system used for muc-6, In The Proceedings of the Sixth Message Under-standing Conference (MUC-6), Columbia, Maryland. Morgan Kaufmann.
Aduriz, I . Alegr ia, J.M. Ar r iola, X. Artola, A. Diaz de I llarraza, N. Goj enola, E.K. and Maritxalar . M ., 1995, Different issues in design of a lemmatizer/tagger for Basque. In SIGDAT-95 (EACL-95 workshop).
Atalay, N.B., Oflazer , K . and Say, B., 2003, The annotation process in the Turkish Treebank, in Proceedings of the EACL Workshop on Linguistically Interpreted Corpora - LINC, Budapest, Hungary.
Baayen, R.H., 1996, The effect of lexical specialization on the growth curve of the vocabulary. Computational Lingusitics, 22, pp.455-480.
Baayen, R.H., 2001, Word patterns and story shapes: the statistical analysis of narrative style. Literary and Linguistic Computing 2, pp.61-70.
Baeza-Yates, R. and Ribeiro-Neto, B., 1999, Modern Information Retrieval. 2nd edn. Addison-Wesley, England.
Barton, G. E., 1986, Computational complexity in two-level morphology. In ACL Proceedings, 24th Annual Meeting.
Baker, J. K ., 1975, Stochastic modeling for automatic speech understanding. In D. Raj Reddy (eds.), Speech Recognition: Invited papers presented at the 1974 IEEE symposium, New York: Academic Press. Reprinted in (Waibel and Lee 1990), pp.297-307.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
350
Berghel, H., 1997, Cyberspace 2000: Dealing with Information Overload, Communications of the ACM, 40(2): 19–24.
Bir türk, A., 1998, Türkçenin yönetim ve ba� lama kuramı yakla� ımı ile bilgisayarla çözümlenmesi. Doktora. Orta Do� u Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 168 sayfa.
Blair D.C., 1990, Language Representation in Information Retrieval, Elsevier, Amsterdam.
Borko, H. and Bernier , L.B., 1978, Indexing concepts and methods,. Academic Press Inc., New York.
Brants, T. and Samuelsson, C., 1995, Tagging the Teleman Corpus, In Proceedings of the tenth Nordic Conference of Computational Linguistics.
Brants, T., 2000, TnT - a statistical part-of-speech tagger, In Proceedings of the 6th Applied NLP Conference, ANLP-2000, Seattle, WA.
Br ill, E., 1995a, Transformation-based error driven learning and natural language processing: A case study in part of speech tagging. Computational Linguistics, 21(4):543-566.
Brill, E., 1995b Unsupervised learning of disambiguation rules for part of speech tagging. In Proceedings of the Third Workshop on Very Large Corpora, Cambridge, MA.
Brin S. and Page, L, 1998, The anatomy of a large-scale hypertextual web search engine - Google Search Engine, avalible at (2004): http://dbpubs.stanford.edu:8090.
Broglio J., Callan J.P. and Croft W.B., 1994, INQUERY system overview. In Proceedings of the TIPSTER Text Program (Phase I). San Francisco, CA Morgan Kaufmann, pp 47-67.
Buckland, M., 1991, Information and Information Systems, Greenwood Press, Westport, USA.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
351
Buckley, C., Salton, G., Allen, J. and Singhal., A., 1995, Automatic query expansion using SMART: TREC-3. In Harman, Donna K. (editor). Overview of the Third Text REtrieval Conference (TREC-3). NIST Special Publication 500-225, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.69-80.
Buckley, C., Singhal, A. and Mitra, M., 1996, New retrieval approaches using SMART. In D.K. Harman, editor, Proceedings of the Fourth Text Retrieval Conference (TREC-4), Gaithersburg.
Burgin, R. and Dillion, M., 1992, Improving disambiguation in FASIT, Journal of the American Society for Information Science.
Callan, J.P., Croft. W.B. and Harding., S.M., 1992, The INQUERY retrieval system, in Database and Expert Systems Applications: Proceedings of the International Conference, Valencia Spain, pp. 78-83.
Chanod, J.P. and Tapanainen, P., 1995, Tagging French –comparing a statistical and constrained-based method. In EACL-95.
Chen, S.F. and Goodman, J., 1998, An empirical study of smoothing techniques for language modeling. Technical Report, TR-10-98, Center for Research in Computing Technology, Harvard University, Cambridge, Massachusetts.
Chomsky, N., 1957, Syntactic Structures. The Hague: Mouton.
Church, K .W., 1988, A stochastic parts program and a noun phrase parser for unrestricted text, In Proceedings of the Second Conference on Applied Natural Language Processing, Austin, Texas.
Cleveland, D.B. and Cleveland, A.D., 1983, Introduction to Indexing and Abstracting, Libraries Unlimited, Inc., Littleton, Colorado.
Cole, R (chief ed.), Mar iani, J., Uszkoreit, H., Mar ile, G.B. (man. ed.), Zaanen, A., Zampolli, A. (man. ed.), and Zue, V., 1997, State of the Art of the Human Language Technologies, Cambridge University Press and Giardini, UK.
Cover, T.M. and Thomas, J.A., 1991, Elements of Information Theory, John Wiley & Sons, New York.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
352
Craven, T., 2002, Introduction to Information Retrieval, Lecture Notes, MIT, USA, (unpublished) URL: http://instruct.uwo.ca/mit/026-98/index.htm
Croft, W.B., Turtle, H.R. and Lewis, D.D., 1991, The uses of phrases and structured queries in information retrieval, Proceedings of the 14th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 32-45.
Cussens, J., Dzeroski, S. and Er javec, T., 1999, Morphosyntactic tagging of Slovene using Progol, In Dzeroski, S., & Flach, P. (Eds.), Inductive Logic Programming: Proc. of the 9th International Workshop (ILP-99) Bled, Slovenia, Springer-Verlag.
Dalkılıç, M.E. and Dalkılıç, G., 2001, Some measurable language characteristics of printed Turkish, Proc. of the XVI International Symposium on Computer and Inf. Sciences, pp. 217-224.
Demir, C., 1993, Türkçe için bir ATN grameri. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1993, 94s.
Derouault, A.M. and Mer ialdo, B., 1986, Natural language modeling for phoneme-to-text transcriptions. IEEE Transactions on Pattern Analysis and Machine Intelligence (8), pp.649-742.
Dermatas, E. and Kokkinakis, G., 1995, Automatic stochastic tagging of natural language texts. Computational Linguistics, 21(2):137-164
Ekmekçioglu, F. Ç., Lynch, M. F. and Willett, P., 1996, Stemming and n-gram matching for term conflation in Turkish texts, Information Research, 1(1) Available at: http://informationr.net/ir/2-2/paper13.html
Ergin, M., 1999, Türk Dil Bilgisi, Bayrak Yayın/Da� ıtım, Fatih, � stanbul.
Evans, D. and Leffer ts, R., 1994, Design and evaluation of the CLARIT-TREC-2 system, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second TextREtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
353
Feldweg, H., 1995, Implementation and evaluation of a German HMM for POS disambiguation. In EACL SIGDAT Workshop.
Faloutsos, C. and Oard, D.W., 1995, A survey of information retrieval and filtering methods, Technical Report CS-TR-3514, University of Maryland, College Park, MD.
Foskett, A.C., 1996, The Subject Approach to Information, Fifth Edition, Library Association Publishing Ltd., London, U.K.
Garside, R., 1987a, The CLAWS word-tagging system. In Garside R., Leech, F., and Sampson, G., editors, The Computational Analysis of English. Longman.
Garside, R. and Leech, F., 1987b, The UCREL probabilistic parsing system. In Roger Garside, Geoffrey Leech, and Geoffrey Sampson (eds.), The Computational Analysis of English: A Corpus-Based Approach, Longman, London, 66-81.
Good, I .J., 1953, The population frequencies of species and the estimation of population parameters. Biometrica, 40(3 and 4), pp. 237-264.
Greene, B.B. and Rubin, M. G., 1971, Automated grammatical tagging of English. Department of Linguistics, Brown University.
Güngördü, Z., 1993, Türkçe için bir sözcüksel-i � levsel gramer. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 138 sayfa.
Haj i � , J. and Hladká, B., 1998, Tagging inflective languages: Prediction of morphological categories for rich, structured tag set. In Proceedings of COLLING/ACL’98, Montreal, Canada.
Hakkani, D.Z., 1996, Serbest ö� e sıralı bir dil olan Türkçe için yüzeysel üretici tasarımı ve gerçekle� tirilmesi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 135 sayfa.
Hakkani-Tür , D.Z., Oflazer, K . and Tür, G., 2002, Statistical morphological disambiguation for agglutinative languages, Computers and the Humanities.
Hankamer, J., 1984, Turkish generative morphology and morphological parsing, In Second International Conference on Turkish Linguistics. Istanbul.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
354
Herdan, G., 1960, Type-token mathematics. The Hague: Mouton.
Hersch, W.R., Elliot, D.L ., Hickam, D.H., Wolf, S.L., Molnar, A. and Lechtenstien, C., 1995, Towards new measures of information retrieval evaluation, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 164-170.
Hiemstra, D. and de Jong, F., 2001, Statistical language models and information retrieval: natural language processing really meets retrieval, Glot International 5(8), 288-294.
Hull D., 1996, Stemming Algorithms: A Case Study for Detailed Evaluation, Journal of theAmerican Society for Information Science, Vol 47(1): 70-84pp.
Hull, D.A., Grefenstette, G., Schulze, G.M., Gaussier , E., Schutze, H. and Pedersen, J.O., 1997, Xerox TREC-5 Site Report: Routing, Filtering, NLP, and Spanish Tracks. In Voorhees EllenM. and Donna K. Harman (editors). The Fifth Text Retrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp. 167-180.
Ingwersen, P., 1992, Information Retrieval Interaction. Taylor Graham Publishing, London.
Jacobs, P., 1994, GE in TREC-2: Results of a Boolean approximation method for routing and retrieval, In Harman, D., editor, National Institute of Standards and Technology Special Publication No. 500-215 on the The Second Text REtrieval Conference (TREC-2), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Jacqemin, C. and Royaute, J., 1994, Retrieving terms and their variants in a lexicalized unification-based framework, Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 132-141.
Jain, S. and Sharma, A., 1993, Probability is more powerful than team for language identification from positive data, Proceedings of the sixth annual conference on Computational learning theory, ACM Press, Santa Cruz, California, pp.192-198.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
355
Jain, S. and Sharma, A., 1994, On the intrinsic complexity of language identification, Proceedings of the seventh annual conference on Computational learning theory, ACM Press, New Brunswick, New Jersey, pp. 278-286.
Jelenic, F. and Mercer , R., 1980, Interpolated estimation of Markov source parameters from sparse data. In Proceedings of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands: North-Holland.
Jelenik, F., 1985, Markov source modeling of text generation. In J.K. Skwirzynski (eds.), The Impact of Processing Techniques on Communications, volume E91 of NATO ASI series, Dordrecht: M. Nijhoff, pp.569-598.
Jin, R., Faloutsos, C. and Hauptmann, A.G., 2001, Meta-Scoring: Automatically evaluating term weighting schemes in IR without Precision-Recall, In Proceedings of the 24th ACM SIGIR Conference on Research and Development in Information Retrieval, New Orleans, Louisiana.
Jones, K .S. and Kay, M., 1973, Linguistics and Information Science, Academic Press, New York.
Jones, K .S. and Kay, M., 1976, Linguistics and Information Science: A Postscript, In Donald E. Walker, Hans Karlgren, and Martin Kay (eds.) Natural Language in Information Retrieval – Perspectives and Directives for Research, Skriptor, Stocholm.
Jones, K .S., 1999, What is the Role of NLP in Text Retrieval, In Tomek Strzalkowski (ed.), Natural Language Information Retrieval, Kluwer, Boston.
Jurafsky D. and Martin J. M., 2000, Speech and Language Processing. Prentice-Hall, New Jersey USA.
Karlgren, J., 2000, The basics of information retrieval. Swedish institute of Computer Science, Survey, SICS, 49p, (unpublished).
Katz, S.M., 1987, Estimation of probabilities from sparse data for the language model component of a speech recognizer. IEEE Transactions on Acoustic, Speech and Signal Processing, ASSP-35(3), pp. 400-401.
Kenser , R. and Ney, H., 1995, Improved backing-off for m-gram language modeling. In Proceedings of IEEE International Conference on Acoustic, Speech and Signal Processing, volume 1, pp.181-184.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
356
Klein, S. and Simpson, R. A., 1963 Computational approach to grammatical coding of English words. JACM (10):344-337.
Kochen, M., 1983, Library science and information science. Broad or narrow? In Machlup, Fritz and Una Mansfield (editors), The Study of Information. John Wiley & Sons, Inc., New York, pp.371-377.
Korfhage R.R., 1997, Information Storage and Retrieval, Wiley, New York, NY.
Korkmaz, T., 1996, Sistemik-fonksiyonel gramer yakla� ımı ile türkçe metin üretimi. Yüksek Lisans. Bilkent Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 132 sayfa.
Kornai, A., 2002, How many words are there?, Glottometrics (4), pp.61-86.
Koskenniemi, K ., 1983, Two-level morphology: a general computational model for word-form recognition and production. In, Publications of the Department of General Linguistics, Vol.11. University of Helsinki, Helsinki .
Köksal A., 1979, Bilgi Eri � im Sorunu ve Bir Belge Dizinleme ve Er � im Dizgesi Tasarım ve Gerçekle� tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli � i Anabilim Dalı Doçentlik Tezi, Hacettepe Üniversitesi, Ankara.
Krovetz R., 1993, Viewing Morphology as an Inference Process, Proceeding 16th International Conference Research and Development in Information Retrieval, ACM, pp. 191-202.
Kupiec, J., 1992, Robust part-of-speech tagging using hidden markov models. Computer Speech and Language, pp.252-242.
Kupiek, J. M ., 1993, A robust linguistic approach for question answering using an on-line encyclopedia, Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 181-190.
Kut, A., Alpkoçak, A. and Özkarahan, E., 1995, Bilgi bulma sistemleri için otomatik Türkçe dizinleme yöntemi. Bili � im Bildirileri, Dokuz Eylül Üniversitesi, � zmir.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
357
Lahtinen, T., 2000, Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods. Phd Thesis, Department of General Linguistics, University of Helsinki, Finland, ISBN 951-45-9639-0.
Lancester, F.W., 1968, Information Retrieval Systems: Characteristics, Testing and Evaluation, Wiley Ltd., New York.
Lancaster , F.W., 1991, Indexing and abstracting in theory and in practice. Library Association Publishing Ltd., London.
Levinger, M., Ornan U. and I tai, A., 1995 Learning morpho-lexical probabilities from an untagged corpus with and application to Hebrew, Computational Linguistics, 21(3):383-404.
Lewis, D.D., 1992, An evaluation of phrasal and clustered representations on a text categorization task, Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 37-50.
Lewis, D.D. and Spark-Jones, K ., 1996, Natural language processing for information retrieval, Communications of the ACM, Vol. 39, No. 1, pp. 92-101.
Lextek International Inc., 2004, Language Identifier, 1051 E. Fir Ave Provo, UT 84604 USA Tel: 801.375.8332. URL: http://www.languageidentifier.com/
Losee, R. M., 1996, How part-of-speech tags affect text retrieval and filtering performance, Computational Linguistics.
Lovins, J.B., 1968, Developing of a Stemming Algorithm. In: Mechanical Translation and Computational Linguistics, Vol. 11, pp22-31.
Liddy, E.D. and Myaeng, S.H., 1993, DR-LINK: A system update for TREC-2, In Merchant, R., (ed.), Proceedings of the TIPSTER Text Program Phase I, San Mateo, California. Morgan Kaufmann.
Liddy, E.D., 1998, Enhanced text retrieval using natural language processing, Bulletin of the American Society for Information Science, 24(4).
Lidstone, G.J., 1920, Note on the general case of the Bayes-Laplace formula for inductive or a posteriori probabilities. Transactions of the Faculty of Actuaries, 8, pp. 182-192.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
358
Lins, D.R and Gonçalves, P, 2004, Automatic language identification of written texts, Proceedings of the 2004 ACM symposium on Applied computing, pp. 1128-1133.
Luhn, H.P., 1958, The automatic creation of literature abstracts. IBM Journal of Research and Development, 2, pp.159-165.
Luhn, H.P., 1960, Keyword-in-context index for technical literature (KWIC index), American Documentation 11:288-295.
Lyons, J., 1968, Introduction to Theoretical Linguistics, Cambridge University Press, Cambridge, Great Britain.
Lyons, J., 1977, Semantics 1, Cambridge University Press, Cambridge, Great Britain.
Manning, C.D. and Schütze, H., 2003, Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, London, England.
Mandelbrot, B., 1952, An information theory of the structure of the language based upon the theory of the statistical matching of messages and coding. In W. Jackson (ed.), Second Symposium on Information Theory, London.
Mandelbrot, B., 1961, On the theory of word frequencies and on related markovian models of discourse. In: R. Jackson (ed.), Structure of Language and its Mathematical Aspects, American Mathematical Society, pp.190-219.
Marshall, I ., 1987, Tag selection using probabilistic methods. In Roger Garside, Geoffery Sampson, and Geoffery Leech (eds.). The Computational Analysis of English: a copusbased approach, Longman, London, pp42-65.
Megyesi, B., 1999, Improving Brill’ s POS tagger for an agglutinative language. In Pascale Fung and Joe Zhou, (eds.), Proceedings of the Joint SIGDAT Conference on Emperical Methods in Natura� Language Processing and Very Large Corpora, Collage Park, Maryland, USA, pp275-284.
Mercer, R.L., 1993, Inflectional morphology needs to be authenticated by hand. In Working Notes of AAAI Spring Symposium on Building Lexicons for Machine Translation. Stanford, CA, AAAI Press, pp.91-99.
Miller , G.A., 1990, WordNet: An on-line lexical database, International Journal of Lexicography, 3(4).
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
359
Mikheev, A., 1997, Tagging sentence boundaries, Language Technology Group, University of Edinburgh.
Mitra, M., Buckley, C., Singhal, A. and Cardie, C., 1997, An analysis of statistical and syntactic phrases. In Proceedings of the RIAO’97, McGill University, Montreal, pp. 200–216.
Mizutani, S., (1989), Ohno’s lexical law: Its data adjustment by linear regression. In: S. Mizutani (ed.), Japanese Quantitiative Linguistics, Bachum: Brockmeyer, pp.1-13.
Ney, H., Essen, U. and Kneser, R., 1994, On structuring probabilistic dependencies in stochastic language modeling. Computer, Speech and Language, 8, pp.1-38.
Oard, D.W., 1997, Cross-language Bibliography, avalible at : http://citeseer.nj.nec.com/oard97crosslanguage.html.
Oflazer , K ., 1993, Two Level Description of Turkish Morphology. In: Proceedings of EACL’98. Utrecht, the Netherlands.
Oflazer , K . and Kuruöz, �., 1994, Tagging and morphological disambiguation of
Turkish text. In Proceedings of the fourth Applied Natural Language Processing Conference, ACL, pp144-149
Oflazer , K . and Tür , G., 1996, Combining hand-crafted rules and unsupervised learning in constrained-based morphological disambiguation, In Eric Brill and Kenneth Chuchh (eds.), Proceedings of the ACL-SIGDAT Conference on Emperical Methods in Natural Language Processing.
Oflazer , K . and Tür, G., 1997, Morphological disambiguation by voting constraints, In Proceedings of the thirty-fifth Annual Meeting of the Association for Computational Linguistics (ACL’97/EACL’97), Madrid, Spain.
Oflazer , K ., Say, B., Hakkani-Tür, D. and Tür, G., 2003, Building a Turkish Treebank, Chapter in Building and Using Parsed Corpora, Anne Abeillé (Ed.), Kluwer Academic Publishers.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
360
Orgun M.A., 1985, Gömü-Dili: Çok Dilli Bilgi Eri � im Gömülerinin Bilgisayar Ortamında Etkile� imli Biçimde Geli � tirilmesini Destekleyecek Bir Yazılım Dizgesinin Tasarımı ve Gerçekle� tirimi, Fen Bilimleri Enstitüsü, Bilgisayar Bilimleri Mühendisli � i Anabilim Dalı Yüksek Mühendislik Tezi, Hacettepe Üniversitesi, Ankara.
Peshkin, L ., and Savova, V., 2004, Part-of-speech tagging with minimal lexicalization, V. Invited chapter in Current Issues in Linguistic Theory (CILT), Publisher: John Benjamins, Amsterdam, Philadelphia.
Popovic M. and Willett P., 1992, The Effectiveness of Stemming for Natural Language Access to Slovene Textual Data, Journal of The American Society for Information Science, Vol 43, pp. 384-390.
Porter, M.F., 1980 An Algorithm for Suffix Stripping. In: Program, Vol.14, No.3, 130-137.
Powers, D.M., 1998, Applications and explanations of Zipf’s laws. In: D. Powers (ed.), NEMLAP3/CONLL98, New methods in language processing and Computational natural language learning, pp.151-160.
Ratnaparki, A., 1996, A maximum entropy model for part-of-speech tagging. In Proceedings of EMNLP.
Resnik, P., 1999, Mining the Web for bilingual text, Proceedings of the 37th conference on Association for Computational Linguistics, ACM, College Park, Maryland, pp. 527-534.
Reynar, J.C. and Ratnaparkhi, A., 1997, A maximum entropy approach to identifying sentence boundaries, In Proceedings of the Fifth A CL Conference on Applied Natural Language Processing (ANLP'97), Washington, D.C.
Riley, M.D., 1989, Some applications of tree-based modeling to speech and language indexing, In Proceedings of the DARPA Speech and Natural Language Workshop, pages 339-352. Morgan Kaufman.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
361
Riloff, E., 1995, Little words can make a big difference for text classification, Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 130-136.
Robertson, S.E. and Sparck Jones, K ., 1997, Simple, proven approaches to text-retrieval. Technical report 356, Computer Laboratory, University of Cambridge.
Robertson, S.E. and Walker , S., 2000, Okapi / Keenbow at TREC-8. In Proceedings of the eighth Text Retrieval Conference TREC-8, pp. 151–162, Gaithersburg, NIST Special Publications 500-246.
Salton, G., 1971, The SMART Retrieval System Experiments in Automatic Document Processing, Prentice Hall.
Salton, G. and Buckley, C., 1988, Term-weighting approaches in automatic text retrieval. Information Processing & Management, vol.24(5), pp.513-523.
Salton, G. and McGill, M.J., 1983, Introduction to Modern Information Retrieval, McGraw Hill Publishing Company, New York.
Sánchez León, F. and Nieto Serrano, A.F., 1995, Development of a Spanish version of the Xerox tagger, CRATER/WP6/FR1.
Samuelsson, C., 1996, Relating Turing’s Formula and Zipf’s Law. Proc. Forth Workshop on Very Large Corpora.
Sever , H., Karaka� , Ü., Akal, F., Olgun, B. ve Sezer , E., 1997, Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi, Teknik Rapor, Devlet Planlama Te� kilatı Destek No: 97K121330, Hacettepe Üniversitesi, 157s, (yayınlanmamı� ).
Sever , H. and Bitir im, Y., 2003, The analysis and evaluation of stemming algorithms for Turkish, 10th International Symposium on String Processing and Information Retrieval (SPIRE'03), Manaus, Brazil, October 8-10. Lecture Notes in Computer Science (LNCS), Springer, 2857: 238-51.
Sezer E., 1999, Smart Bilgi Eri � im Sistemi'nin Türkçe yerelle� tirilmesi ve otomatik gömü üretimi. Yüksek Lisans. Hacettepe Üniversitesi, Fen Bilimleri Enstitüsü, Ankara, 1999, 124 sayfa.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
362
Simon, H.A., 1955, On a class of skew distribution function. Biometrica 42, pp.425-440.
Sher idan, P. and Baller ini., J.P., 1996. Experiments in multilingual information retrieval using the SPIDER System, Proceedings of the 19th Annual International ACM SIGIR Conference on Research and development in Information Retrieval SIGIR 96: 58–65.
Shannon, C.E., 1949. The mathematical theory of communication. In Shannon, C.E. and Waver, W. (editor). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 3-91.
Schmid, H., 1994, Part-of-Speech Tagging with Neural Networks. Proceeding of COLING-94, pp172-176.
Sibun, P. and Spitz, A.L., 1994, Language determination: natural language processing from scanned document images, Proceedings of the fourth conference on Applied natural language processing, Morgan Kaufmann Publishers Inc., Stuttgart, Germany, pp.15-21.
Smeaton, A., 1992, Progress in the application of natural language processing to information retrieval tasks. The Computer Journal, 35(3).
Smeaton, A.F., O'Donnell, R. and Kelledy, F., 1995, Indexing structures derived from syntax in TREC-3: System description, In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Soergel, D., 1985, Organizing Information: Principles of Database and Retrieval Systems. Orlando: Academic Press, 9-20.
Solak, A. and Can., F., 1994, Effects of stemming on Turkish text retrieval. Technical report BUCEIS-94-20, Bilkent University, Ankara.
Sparck Jones, K ., 1972, A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation, vol.28(1), pp.11-20.
Sparck Jones, K ., 1995, Reflections on TREC. Information Processing & Management, vol.31(3), pp.291-314
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
363
Stolz, W. S., Tannenbaum P. H. and Carstensen, F. V. A., 1965, stochastic approach to the grammatical coding of English. Communications of ACM (8): 399-405.
Strassel, S., Maxwell, M. and Cier i, C., 2003, Linguistic resource creation for research and technology development: A recent experiment, ACM Transactions on Asian Language Information Processing (TALIP), 2(2): 101-117.
Strzalkowski, T., 1995, Natural language information retrieval. Information Processing & Management 31 (3), 397–417.
Strzalkowski, T., Carballo, J.P. and Mar inescu, M., 1995, Natural Language information retrieval: TREC-3 report. In National Institute of Standards and Technology Special Publication on the The Third Text REtrieval Conference (TREC-3), Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Strzalkowski, T., L in, F. and Perez-Carballo, J., 1998, Natural Language Information Retrieval TREC-6 Report. In Voorhees EllenM. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-366.
Suzuki, I ., Mikami, Y., Ohsato, A. and Chubachi, Y., 2002, A language and character set determination method based on N-gram statistics, ACM Transactions on Asian Language Information Processing (TALIP), pp. 269-278.
Tautanova, K . and Manning C., 2000, Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. In Proceedings of EMNLP/VLC.
Thagard, P., 1990. Information and concepts. In Hanson, Philip P. (editor). Information, language and cognition. The University of British Columbia Press, Vancouver, Canada, 168-174.
Turner, G.R., 1997, Relationship between vocabulary, text length and Zipf’s law. Avail at: http://www.btinternet.com/g.r.turner/ZipfDoc.htm.
Tür, G., 2000, A Statistical Information Extraction System. PhD Thesis, Bilkent University, Ankara, Turkey.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
364
Türkiye Bili � im Derne� i, 2003, Bili � im Terimleri Sözlü� ü, URL: http://eski.tbd.org.tr/sozluk.html
Türk Dil Kurumu, 2003a, Bilgisayar Terimleri Kar � ılıklar Kılavuzu, URL: http://www.tdk.gov.tr/bilter im
Türk Dil Kurumu, 2003b, Güncel Türkçe Sözlük, URL: URL: http://www.tdk.gov.tr/sozluk.html
Van Rijsbergen, C.J., 1979, Information Retrieval (2nd ed.), Butterworths, London.
Viterbi, A.J., 1967, Error bounds for convolution codes and an asymptotically optimal decoding algorithm. IEEE Transaction on Information Theory, pp. 260-269.
Voorhees, E., Gupta, N.K. and Johnson-Laird, B., 1995, The collection fusion problem. In National Institute of Standards and Technology SpecialPublication on the The Third Text REtrieval Conference (TREC-3), pages 95-104, Washington, DC. National Institute of Standards and Technology, U.S. Department of Commerce, U.S. Government Printing Office.
Voorhees E.M. and Harman, D.K., 1998. Overview of the Sixth Text Retrieval Conference (TREC-6). In Voorhees Ellen M. and Donna K. Harman (editors). The Sixth Text REtrieval Conference (TREC-6). NIST Special Publication 500-240, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.1-24.
Voorhees E.M. and Harman, D.K., 1998b. The seventh Text REtrieval Conference (TREC-7). NIST special publication, Galthersburg, Maryland, November 9-11. http ://trec.nist.gov/pubs.html.
Voutilainen, A., 1998, Does tagging help parsing? A case study on finite state parsing, Lauri Karttunen (ed), International Workshop on Finite State Methods in Natural Language Processing (FSMNLP'98), Association for Computational Linguistics, Somerset, New Jersey, pp.25-36.
Yao Y.Y., 1995, Measuring retrieval effectiveness based on user preference of documents, Journal of the American Society for Information Science, l 46:133-145.
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
365
Weaver, W., 1949, Recent contributions to the mathematical theory of communication. In Shannon, C. E. and Weaver, W. (editors). The Mathematical Theory of Communication. The University of Illinois Press, Urbana, 94-117.
Witten, I .H. and Bell, T.C., 1991, The zero-frequency problem: Estimating the probability of novel events in adaptive test compression. IEEE Transactions on Information Theory, 37(4), pp. 1085-1094.
Zhai, C., Tong, X., Miliçc-Frayling, N. and Evans., D.A., 1997, Evaluation of Syntactic Phrase Indexing - CLARIT NLP Track Report. In Voorhees Ellen M. and Donna K. Harman (editors). The Fifth Text REtrieval Conference (TREC-5). NIST Special Publication 500-238, National Institute of Standards and Technology, Gaithersburg, MD, (http://trec.nist.gov/pubs.html), pp.347-358.
Ziegenhain, U., Arranz, V., Bisani, M., Bonafonte, A., Castell, C., Conejero, D., Hartikainen, E., Maltese, G., Oflazer, K ., Rabie, A., Razumikin, D., Shammass, S. and Zong C., 2003, The LC-STAR: Lexica and corpora for speech-to-speech translation technologies. Technical Report, IST-2001-32216, Siemens AG, CT IC 5, München, Germany. URL: http://www.lc-star.com
Zipf, G. K ., 1929, Relative frequency as a determination of phonetic change. Harvard Studies in Classical Philology, 40:1-95.
Zipf, G. K ., 1949, Human Behaviour and the Principles of Least Effort. Cambridge, MA, Addison-Wesley.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
366
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
367
EKLER
EK-1 : BGG sahasında önceki çalı � malar.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
368
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
369
EK-1
BGG Sahasında Yapılan Önceki Çalı � malar
BGG sahasında bu güne kadar onlarca uygulama sistemi, farklı
guruplar tarafından ticari ve akademik amaçlı geli � tirilmi � tir. Tanıtaca� ımız sistemlerden, ticari olanlar LEXIS/NEXIS, DIALOG,
Dow QR, INSPECT, STAIRS, MEDLARS ve GARALDI (Türkçe);
akademik olanlarsa SMART, INQUERY, DR-LINK, TÜRDER ve
KMBGG sistemleridir (Ka� garlı Mahmut Bilgi Geri-Getirim Sistemi).
LEXIS/NEXIS sistemi ticari bir geri-getirim sistemidir. Sistem
hukuk (LEXIS) ve gazete (NEXIS) yazıları geri-getirimi üzerine
yo � unla� mı � tır. Sorgu yöntemi olarak boole e� le� tirme yordamını esas
alır, yani geri-getirilen belgeler, sorguda yazılan kelimelerle bire-bir
e� le� enleri içerenlerdir. Sorgu olu� turmada iki joker-karakter
kullanımına izin vermektedir: “ * ” karakteri herhangi bir tek harfi
(örne� in “ bilg*” ile “ bilgi” , “bilgiç” , “bilim” ve “bilgin” kelimeleri
ama “bilimsel” de� il) ve “ !” karakteri herhangi bir kelimeye
getirilebilecek � ngilizce dilbilimsel eki (örne� in, “ transport!” kelimesi
“ transportation” , “ transporting” vb. kelimeleri). (“ * ” için verilen
örnekte, böyle basite indirgenmi � bir nevi gövde üretiminin Türkçe için
kullanımında ne tür sakıncaları olabilece� i de rahatlıkla
görülebilmektedir. Yöntem analitik diller için uygundur, ancak kelime
türetmek için ek sistemi kullanan dillere uygun de� ildir. “bilim” ve
“bilgin” ). En son sürümlerinde do� al dilde yazılan sorguları kullanma
e� ilimindedir. Bunun sebebi geri-getirim modeli olarak vektör uzayını
benimsemesidir. Belge temsilinde: durma kelimelerini ayıklama ve
kelime gurupları tespit alt adımlarını kullanır. Sorgu olu� turma ve
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
370
sonuç listesinde göz-atma (browsing) hizmeti Z39.50 standardına
uygundur.
DIALOG sistemi ticari bir sistemdir. Sistem i � dünyası, hukuk,
resmi, tıbbi, gazete, insan, bilim, sosyal bilimler ve teknoloj i
sahalarında belgeler üzerinde i � lem yapar. Sorgu olu� turma ve
e� le� tirme yöntemi boole yordamıdır. Sistem sorguda “?” joker-
karakter kullanımına izin verir. Böylece bir kelimenin farklı yazım
biçimlerinin, örne� in “bilgi” , “bilgiler” ve “bilgin” kelimeleri “ bilgi?”
� eklindeki tek bir biçimde temsil edilebilmektedir. E� -anlamlılar
sözlü� ü kullanımı yoktur. Kullanıcının sorgularını kaydetmesine izin
verilir ve e� er sistemin hedefindeki belge uzayına kayıtlı sorgu ile
alakalı yeni bir belge eklenirse, kullanıcı uyarılır (routing/filtering).
DOW JONES NEWS/RETRIEVAL (Dow QR) sistemi ticari bir
sistemdir. Sistem 1900 civarında haber kayna� ını taramaktadır. Di � er
ticari sistemlerde oldu� u gibi sorgu olu� turma ve e� le� tirme yöntemi
boole yordamıdır. Sorgu ayrıca, tarih, kategori ve konu ba� lı � ı, belge
kısımları ve belirli kaynaklar esasında kısıtlanabilmektedir.
TOPIC sistemi de ticari bir geri-getirim sistemidir. Sistemin
kullanıcıya sa� ladı � ı � ey, kendi BGG sistemini kurabilmesi için geri-
getirim hizmetleridir. TOPIC “ içerik” olarak adlandırılan bir
hiyerar � iye dayalıdır, yani sisteme indekslemesi için yüklenen belge
kümesindeki konu ba� lıkları, bir hiyerar � iye göre sistem tarafından
düzenlenir. Sistem, ba� lıkları düzenlerken de� eri 0 (sıfır) i le 1 (bir)
arasında de� i � en nicel bir ili � ki/alaka ölçütü kullanır. Sorgu ile alakalı
bulunan sonuç kümesi belgeleri, bu hesaplanan alaka de� erinin azalan
sırasında listelenir. TOPIC “gövdeleme” yordamı kullanır. Ayrıca
joker-karakter kullanımına da izin verir: “ ?” tek harf, “ *” herhangi bir
B. Taner Dinçer, Doktora tezi, Ege.Ü. UBE
371
karakter dizisi ve “ [a-z]” iki kö � eli parantez içine alınmı � karakter
özelliklerin de sınanabildi � i bir sistemdir. TREC-I kapsamında
özellikle gövdeleme ve kelime guruplarının kullanımı yo � un bir � ekilde
sınanmı � tır. Ancak geri-getirim ba� arımında sa� lanan geli � im ya kayda
de� er bir miktar olmamı � ya da uygulanmasının maliyetine kar � ın
yetersiz kalmı � tır. Sadece kelime guruplarının sorgu inceltme için
kullanımında, umut veren bir takım geli � imler sa� lanabilece� i
belirtilmi � tir.
DR-LINK (Document Retrieval through Linguistic Knowledge)
yine TIPSTER projesi kapsamında Syracuse Üniversitesi tarafından
geli � tirilmi � tir (Liddy and Myaeng, 1993). DR-LINK dilbilim
kuramlarını esas alarak � imdiye kadar geli � tiri lmi � tek sistemdir. Sistem
sayısal belge temsili için di � er bilinen tüm sistemlerden farklı olarak,
kelime/belge a� ırlıkları ile olu� turulan belge vektörü yerine,
kelimelerin “ içerik” belirteçleri ile olu� turulmu� vektörleri
kullanmaktadır. Ancak yapılan bu etraflı çalı � manın sonuçları da
di � erlerinden farklı olmamı � tır.
B. Taner Dinçer, Doktora tezi, Ege Ü., UBE, 2004
374
TÜRDER, 1979 yılında Aydın Köksal’ ın Doçentlik tezi
kapsamında Hacettepe üniversitesi Bilgisayar Mühendisli � i bölümü
bünyesinde gerçekle� tirilmi � , vektör uzayı modelinde kısmen geri-
bildirimli bir bilgi geri-getirim sistemidir (Köksal, 1979). TÜRDER
esas olarak tasarım boyutunda kalmı � , bir kısmı gerçekle� tirilmi � tir. Sistemin gerçekle� tiriminde bildiri, kitap, makale, konu� ma/konferans
yayınları, tez, rapor � eklindeki bilimsel yayınları güvenli bir � ekilde
saklamak ve etkin eri � im sa� lamak amaçlanmı � sa da asıl amaç A.
Köksal tarafında � u biçimde ifade edilmektedir:
” TÜRDER, Türkçe Belge Dizinleme ve Eri � im Dizgesi, bilgi eri � im dizgesi tasarımı, geli � tir im ve i � letimine ili � kin çok yönlü kavramsal ve uygulamalı sorun alanlarında deneyler yapılabilmesi için gerekli ö� elerden olu� an, deneysel bir bilgi eri � im dizgesidir.”