T.C. İSTANBUL KÜLTÜR ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ RESİM TABANLI OSMANLICA BELGELERDE SINIFLANDIRMA YÜKSEK LİSANS TEZİ Ramazan PEHLİVAN 1009042002 Anabilim Dalı: Matematik - Bilgisayar Programı: Matematik - Bilgisayar Tez Danışmanı: Yrd. Doç. Dr. Levent ÇUHACI OCAK 2014 T.C. İSTANBUL KÜLTÜR ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ RESİM TABANLI OSMANLICA BELGELERDE SINIFLANDIRMA YÜKSEK LİSANS TEZİ Ramazan PEHLİVAN 1009042002 Anabilim Dalı: Matematik - Bilgisayar Programı: Matematik - Bilgisayar Tez Danışmanı: Yrd. Doç. Dr. Levent ÇUHACI OCAK 2014 ÖNSÖZ Bu çalısma, İstanbul Kültür Üniversitesi Fen Bilimleri Enstitüsü Matematik- Bilgisayar Anabilim Dalı Yüksek Lisans Tezi olarak hazırlanan “Resim Tabanlı Osmanlıca Belgelerde Doküman Sınıflandırma ” isimli tezi içermektedir. Çalışmalarımın her aşamasında bilgi ve deneyimleri ile yardımcı olan ve bana büyük emekleri geçen, kendisinden çok şey öğrendiğim danışmanım Sayın Yrd. Doç. Dr. Levent ÇUHACI’ya ve zaman zaman mesai dışına taşan uzun çalışma saatlerimize sabırla tahammül gösteren pek değerli eşi Sayın Sibel ÇUHACI’ya içtenlikle teşekkür ederim. Çalışmamın şekillenmesinde emeği olan, karşılaştığım problemlerde özgün fikirlerinden çokça istifade ettiğim Sayın Yrd. Doç. Dr. R. Murat DEMİRER’e, bilgi ve birikimlerini esirgemeden yol almamdaki yardımları için Sayın Doç. Dr. Banu DİRİ ve Sayın Yrd. Doç. Dr. S. Hikmet ÇAĞLAR’a, Başbakanlık Osmanlı Arşivleri Uzmanı ve Osmanlıca hocam Sayın Dr. Mustafa ÇAKICI ’ya teşekkür ederim. Yoğun iş tempomun haricinde onlara ait olduğuna inandığım vakitlerden çalarak tez çalışmamı tamamladığım için bana anlayış ve sabır gösteren, onun da ötesinde destek olan sevgili eşim Emel PEHLİVAN, çok sevdiğim kızlarım Merve ve Elif Erva ’ya sonsuz teşekkür ederim. Uzun bir aradan sonra yüksek lisansa başlamam konusunda beni yüreklendirerek bu çalışmanın ortaya çıkmasında manevi katkıda bulunmuş ve yıllarca beraber çalıştığım bir ağabey olarak çok sevdiğim her zaman saygı duyduğum Sayın Dr. Ramazan YILMAZ’a çok teşekkür ederim. Ocak 2014 Ramazan Pehlivan iv İÇİNDEKİLER ÖNSÖZ …………………………………………………………………………… iii İÇİNDEKİLER…………………………………………………………………… iv KISALTMALAR…………………………………………………………………. vi TABLO LİSTESİ…………………………………………………………………. vii ŞEKİL LİSTESİ …………………………………………………………………. viii SİMGE LİSTESİ ………………………………………………………………….. ix ÖZET…………………………………………………………………………………x ABSTRACT………………………………………………………………………… xi 1. GİRİŞ ……………………………………………………………………………...1 1.1 Osmanlıca'nın Yapısı ……………………………………………………….. 2 1.2 Osmanlı Arşivleri …………………………………………………………… 6 2. DOKÜMAN SINIFLANDIRMA ALANINDA YAPILMIŞ ÇALIŞMALAR.10 2.1 Metin Formatında Yazılmış Belgelerde Yapılan Çalışmalar…….…..…..10 2.2 Resim Formatında Taranmış Belgelerde Yapılan Çalışmalar……….…11 3. GÖRÜNTÜ İŞLEME (IMAGE PROCESSING) 13 4. RESİM FORMATINDA TARANMIŞ BELGELERDE GÖRÜNTÜ İŞLEME…………………………………………………………………………..15 4.1 İkilileştirme (Binarization)……………………………………………….....17 4.2 Gürültü Temizleme…………………………………………………………18 4.3 Satırların Belirlenmesi……………………………………………………...18 4.4 Satır Parçalama (Kelime/Harf Gruplarının Tespiti)……………………..19 4.5 Alan Etiketleme (Harf Gruplarının Etiketlenmesi)………………………20 5. BENZERLİK MATRİSİ………………………………………………………...21 5.1 Özellik Çıkarma (Feature Extraction)…………………………………….. 21 6. KÜMELEME (CLUSTERING)……………………………………….……….. 24 6.1 Kümeleme Analizinde Benzerlik\Uzaklık Ölçüleri……………………… 24 6.1.1 Öklid Uzaklık (Euclidean Distance) Ölçüsü……………………………25 6.2 Kümeleme Yöntemleri ….…………………………………………..…….. .25 6.2.1 Bölmeli Yöntemler …………………………………………………… 25 6.2.1.1 K Ortalamalar Kümeleme Yöntemi (K-Means)……………….... 25 6.2.2 Hiyerarşik Kümeleme (Hierarchical Clustering) Yöntemleri……....... 26 6.2.2.1 Ortalama Bağlantı (Average Linkage) ………….………………..27 7. DOKÜMAN SINIFLANDIRMA…….………………..……………………….. 28 7.1 N-Gram Model…………….……………………………………………...... 28 7.2 Terim Frekansları….………………………………………………………. 29 7.3 Sınıflandırma Yöntemleri………………………………….………………. 31 7.3.1 Naive Bayes………………….………………………………………...31 7.3.2 Destek Vektör Makinesi……………………………………………..... 32 7.3.3 K En Yakın Komşuluk (K-EYK, K-NN)………………….….………. 33 v 8. UYGULAMA VE MATERYAL……………………………………..…….….. 36 8.1 Kullanılan Yazılımlar……………………………………..……...………..36 8.1.1 Matlab………………………………………………………………. . 36 8.1.2 Weka…………………………………………………………………. 37 8.1.2.1 'Arff ' Dosya Yapısı……….………………………………….. 37 8.2 Uygulama……………………………………………………………………38 8.2.1 İkilileştirme…………………………………………………………... 38 8.2.2 Satır Belirleme (SB)…………………………………………….…... 39 8.2.3 Satır Parçalama (SP)………………………………..………………. 42 8.2.4 Alan Etiketleme (Harf Gruplarının İsimlendirilmesi)…………….... 44 8.2.5 Benzerlik Matrisi……………………………………………………. 45 8.2.5.1 YTV ve DTV Algoritmaları…………………………………… 45 8.2.5.2 Benzerlik Matrisinin Oluşturulması………………………….. 46 8.2.6 Kümeleme (Harf Gruplarının Kümelenmesi)………………....……. 49 8.2.7 Doküman Sınıflandırma Aşaması…………………………………… 50 9. SONUÇ…………………………………………………………………………. 51 9.1 Test Sonuçları…………………………………………………………….... 51 9.2 Tartışma ve Öneriler………………….…………………………………... 57 10.KAYNAKLAR ………………………………………………………………59 vi KISALTMALAR Bkz. : Bakınız BM : Benzerlik Matrisi CV : Cross Validation (Çapraz Doğrulama) Dİ : Doküman İşleme DTV : Dikey Tarama Vektörü DVM : Destek Vektör Makinesi Gİ : Görüntü İşleme HTD : Horizontal Traverse Density (Yatay Çizgi Hareketliliği) K-EYK : K-En Yakın Komşuluk NB : Naive Bayes OCR : Optical Character Recognition (Optik Karakter Tanıma) RO : Rastgele Orman SB : Satır Belirleme SP : Satır Parçalama VTD : Vertical Traverse Density (Dikey Çizgi Hareketliliği) YTV : Yatay Tarama Vektörü YSA : Yapay Sinir Ağı yak. : Yaklaşık vii TABLO LİSTESİ Tablo 1.1: Osmanlıca Harflerin Başta Ortada ve Sonda Yazılışları ............................ 5 Tablo 7.1: Metnin Kelime Frekans ve Oran Olarak İfadesi ...................................... 30 Tablo 8.1: Benzerlik Matrisi………………….. ....................................................... 47 Tablo 9.1: Weka’da Yapılan Testlerin Karşılaştırmalı Sonuçları ............................. 56 viii ŞEKİL LİSTESİ Şekil 1.1 : Osmanlıca Alfabe…………….…………………………………………... 3 Şekil 1.2 : Modelimizin Genel Adımlarını Belirten Blok Diyagram ………..…….…9 Şekil 3.1 : Pikseller………………………...………………………………………. 13 Şekil 3.2: Renkli Resimlerin Sayısal İfadesi……………………………………….. 14   Şekil 4.1: Bir Doküman İşleme Sisteminin Genel Yapısı………………………….. 16 Şekil 4.2 : Bir ‘A’ Harfi ve İkili (Binary) Görüntüsü……………..…..……………. 17 Şekil 4.3 : Latin Harfleriyle Örnek Satır Belirleme………………….…………..…. 19 Şekil 4.4 : Osmanlıca Yazıda Örnek Satır Belirleme…………………..…….….…. 19 Şekil 4.5 : Taranmış Osmanlıca Belgeden Elde Edilen Örnek Harf Grupları…..…. 20 Şekil 5.1 : Benzerlik Matrisinin Aşamaları…………………..…………………….. 21 Şekil 5.2 : ‘C’ Karakteri İçin DTV ve YTV’ nin Elde Edilişi……………………... 22 Şekil 5.3 : ‘S’ ve ‘V’ Karakterleri İçin HTD ve VTD’ nin Elde Edilişi……………. 23 Şekil 6.1 : Örnek Dendrogram……………………………………………………… 27 Şekil 7.1 : Örnek Terim Frekans Matrisi.…………………………………..……….. 29 Şekil 7.2 : Doğrusal Olarak Ayrılabilen İki Sınıflı Sınıflandırma Problemi….…… .32 Şekil 7.3 : Doğrusal Olarak Ayrılamayan Verilerin Yüksek Boyutlu Uzaylara Taşınması…………………………………………………………………………… 33 Şekil 7.4 : K-EYK Örnek Sınıflandırma …………………………………....…….34 Şekil 8.1 : Osmanlıca ‘y’ Harfi ve İkili (Binary) Matrisi…………………….…….. 38 Şekil 8.2 : Satırların Belirlenmesi…………………….………………………….... ..41 Şekil 8.3 : Satır Parçalama İşlemi…………………….…………………………… ..43 Şekil 8.4 : Örnek Harf Grubu Resmi ve Dosya İsmi….………………………..….. 44 Şekil 8.5 : Benzerlik Matrisi Şematik Algoritma Diyagramı …………………... ….48 Şekil 8.6 : Osmanlıca Belgenin Harf Gruplarına Ayrıştırılması ve Küme Numaraların dan Oluşan Metin Belgesine Dönüştürülmesi………………..……………………. ..49 Şekil 9.1 : ‘Suplied Test Set’ (35+15) ile Sınıflandırma Sonuçları…….………..… .51 Şekil 9.2 : CV (10) ile Sınıflandırma Sonuçları………………………………...…..52 Şekil 9.3 : ‘Percentage Split’ ile Sınıflandırma Sonuçları ………………...………. .53 Şekil 9.4 : CV (10) + ‘Attribute Selection’ ile Sınıflandırma Sonuçları………...…. 54 Şekil 9.5 : ‘Percentage Split’ + ‘Attribute Selection’ ile Sınıflandırma Sonuçları… .55   ix SİMGE LİSTESİ d(i,j) : i. ve j. Birimin Birbirine Uzaklığı dk(i,j) : k. Kümenin i. ve j. Kümelere Olan Uzaklığı dki : k. Kümenin i. Küme İle Olan Uzaklığı xik : i. Birimin k. Değişken Değeri xjk : j. Birimin k. Değişken Değeri P(A\B): B Olayının Gerçekleştiği Durumda A Olayının Meydana Gelme Olasılığı P(A) : A Olayının Gerçekleşme Olasılığı   x ÖZET Üniversite : İstanbul Kültür Üniversitesi Enstitüsü : Fen Bilimleri Enstitüsü Dalı : Matematik-Bilgisayar Programı : Matematik-Bilgisayar Tez Danışmanı : Yard. Doç. Dr. Levent Çuhacı Tez Türü ve Tarihi : Yüksek Lisans – Ocak 2014 RESİM TABANLI OSMANLICA BELGELERDE SINIFLANDIRMA Ramazan Pehlivan Bu çalışmanın amacı resim formatındaki Osmanlıca belgeleri içeriklerine göre sınıflandıran bir model ortaya koymaktır. Bu amaçla resim formatında taranmış Osmanlıca matbu belgelerde, ‘‘Görüntü İşleme’’, ‘‘Kümeleme’’ ve ‘‘Doğal Dil İşleme’’ tekniklerini birlikte kullanarak ‘‘Doküman Sınıflandırma’’ yapan etkin bir sınıflandırma yöntemi önerilmiştir. Çalışmamızda veri olarak Türkiye Büyük Millet Meclisi (TBMM) Kütüphane ve Arşiv Hizmetleri Başkanlığı’nın resmi web sitesinden alınan Osmanlıca belge örnekleri seçilmiştir. Görüntü işleme teknikleriyle belgeler sayısal forma dönüştürülmüş, ardından satırlar ve satırlardaki kelime ya da harf grupları tespit edilmiş ve her bir harf grubu ayrı birer resim olarak kaydedilmiştir. Resimler arasında kümeleme yapılarak aynı (ya da benzer) harf grupları aynı kümeye atanmıştır. Harf gruplarının ait oldukları küme bilgileri kullanılarak bu belgelerin, birbirini izleyen etiket numaralarını içeren metin formatındaki karşılıkları elde edilmiştir. Bu aşamadan sonra doküman sınıflandırma alanında geçerli bir teknik olan kelime frekans analizi, elde ettiğimiz dönüştürülmüş metin dosyalarında küme frekans analizi olarak uygulanmıştır. Sonuç olarak; resim formatında taranmış Osmanlıca belgeler; semantik analize tabi tutulmadan, belgeyi oluşturan harf gruplarının benzerlik ölçütleri baz alınarak sınıflandırılmıştır. Proje MATLAB ortamında geliştirilmiş ve bir makine öğrenmesi uygulaması olan WEKA programında sınıflandırma sonuçları elde edilmiştir. Ayrıca aynı veri seti üzerinde kelime frekans analizine dayalı bir doküman sınıflandırma uygulaması da gerçeklenmiştir. Anahtar Kelimeler: Osmanlıca belge, doküman sınıflandırma, resim kümeleme, frekans analizi, satır parçalama, hiyerarşik kümeleme.   xi ABSTRACT University : İstanbul Kültür University Institute : Institute of Science Department : Mathematic-Computer Literature Programme : Mathematic-Computer Supervisor : Assis. Prof. Dr. Levent Çuhacı Degree Awarded and Date : MA – January 2014 CLASSIFICATION OF IMAGE-BASED OTTOMAN RECORDS Ramazan Pehlivan Aim of this work is developing a model which classifies image-formatted Ottoman records by their contents. For this purpose, an effective classification method, which conjunctively uses “Image Processing”, “Clustering” and “Natural Language Processing” techniques, is proposed for image-formatted scans of Ottoman printed records. In our work, Ottoman record samples from the official web page of Turkish Grand National Assembly (TBMM) Library and Documentation Center were used as data. Records were converted into digital form via image processing techniques, then words or letter groups in documents were detected and stored separately as individual pictures. By clustering between these pictures, identical (or similar) letter groups were registered to the same cluster. By using cluster information of letter groups, text-formatted counterparts, which include consecutive label numbers, were obtained for records. After that step, word frequency analysis, which is a valid technique in document classification, was used on converted text files as cluster frequency analysis. As a result, image-formatted scans of Ottoman records were classified based on similarity criteria of constituting letter groups, without using semantic analysis. Project was developed on MATLAB environment and classification results were obtained by a machine learning application software, WEKA. Another classification method based on word frequency analysis was also implemented using the same data set. Keywords: Ottoman record, document classification, image clustering, frequency analysis, line segmentation, hierarchical clustering  1    1.GİRİŞ Bilişim çağını yaşayan modern dünyada, bilgi üretimi çok hızlı gerçekleştiğinden doğru bilgiye kısa zamanda ulaşma önemli bir sorun haline gelmiştir. Özellikle internet yoluyla elektronik ortamda bilgi ve belge üretimi çok hızlı gerçekleşmektedir. İhtiyaç duyulan bilgiye, sınırsız sayıda belge arasından kolayca erişebilme ihtiyacı, doküman sınıflandırma problemini ortaya çıkarmıştır. ‘‘Doküman sınıflandırmadaki amaç, bir dokümanın özelliklerine bakılarak önceden belirlenmiş belli sayıdaki kategorilerden hangisine dahil olacağını belirlemektir. Doküman sınıflandırma, Bilgi Alma (Information Retrieval), Bilgi Çıkarma (Information Extraction), Doküman İndeksleme, Doküman Filtreleme, otomatik olarak data elde etme ve web sayfalarını hiyerarşik olarak düzenleme gibi pek çok alanda önemli rol oynamaktadır. Doküman sınıflandırmadaki problemlerden biri, kime ait olduğu bilinmeyen veya yazarının kimliğinden şüphelenilen dokümanların yazarının tahmin edilmesi, bir diğer problem de dokümanın türünün veya yazarının cinsiyetinin belirlenmesidir’’[21]. Örneğin; web sitelerinde haber akışı takip etme, haberlerin sınıflandırılması, ulusal güvenlik, ticari güvenlik, e-posta sınıflandırma, spam filtreleme [26], posta yönlendirme, alıntı (intihal) takibi [14], arşiv tarama gibi alanlarda metin sınıflandırma teknikleri kullanılır. Bunlara ek olarak yazar tanıma [15,25], metin konusunu belirleme [43], metin yazarının cinsiyetini belirleme [15,25], gibi konular da doküman sınıflandırma sistemlerinin çalışma alanlarıdır. Belge sınıflandırma çalışmalarını; dijital ortamda yazılmış (metin) belgelerde ve resim formatında taranmış belgeler de olmak üzere, iki farklı zeminde inceleyebiliriz. Dijital ortamda yazılı olan belgelerde yapılan çalışmalar, ‘Doğal Dil İşleme’ tekniklerini kullanarak bir sınıflandırıcı yöntem yardımıyla, belgenin türünü belirlemektedir [2,10,22]. Resim tabanlı belgelerde ise öncelikle görüntü işleme teknikleri ve Optik Karakter Tanıma (Optical Character Recognition-OCR) ile bilgisayara tanıtılmakta, ikinci adımda ise yine ‘Doğal Dil İşleme’ ve değişik sınıflandırıcı yöntemler yardımıyla kategori belirlenmektedir [9,32]. Resim tabanlı  2    belgelerde OCR kullanmadan sınıflandırma yapılan çalışmalar da bulunmaktadır [1,5]. Teknolojik gelişmelere paralel olarak dokümanların dijital ortama aktarılması ve bunların işlenmesi, gerekli bilgiye ulaşım konusunda zamandan tasarruf sağlamaktadır. Ayrıca, günümüze kadar raflarda matbu eserler olarak korunmuş kütüphane arşivleriyle, resmi ve özel kurum arşivleri de resim formatında taranarak dijital ortama aktarılmaktadır. Böylece hem zaman ve yerden tasarruf edilmekte hem de kıymetli bilgiler içeren eserlerin güvenliği ve kalıcılığı sağlanmaktadır. Ülkemizdeki devlet arşivlerinin büyük bir bölümü Osmanlıca ve Arapça eserlerden oluşmaktadır. Ancak, ‘‘Doküman sınıflandırma sistemlerinin çoğunluğu İngilizce yazılan dokümanları işlemek için tasarlanmıştır. Bu nedenle Arapça yazılan belgeler için geçerli değildir. Arapça metin sınıflandırma sistemleri geliştirme, Arapça’nın karmaşık ve zengin bir dil olması nedeniyle oldukça zordur’’ [2]. ‘‘Ülkemiz Osmanlı İmparatorluğu'ndan devraldığı arşiv belgeleriyle, dünyanın en zengin arşivlerine sahip sayılı ülkelerinden biridir’’ [13]. Bu durumda Arapça ve Osmanlıca belgelerde yapılan doküman sınıflandırma işlemlerinin önemi daha iyi anlaşılmaktadır. 1.1 Osmanlıca’nın Yapısı 13-20. yüzyıllar arasında Anadolu’da ve Osmanlı Devleti’nin hüküm sürdüğüyerlerde yaygın olarak kullanılmış olan, özellikle 15. yüzyıldan sonra Arapça ve Farsça’nın etkisinde kalan Türk yazı dili, ‘Osmanlıca’ olarak adlandırılır. Osmanlı Türkçesi ya da eski yazı olarak da bilinen Osmanlıca Arapça, Farsça ve Türkçe’nin karışımıdır ve Arap alfabesiyle yazılır [30] . Arapça’da 28 harf, Osmanlıca’da ise 32 harf vardır. Osmanlıca’da Arap harflerinin yanı sıra Farsçadaki ‘p’ (پ), ‘ç’ (چ), ve ‘j’ (ژ) harfleri de mevcuttur. Bu 31 harfin dışında Türkçe’deki ince ‘g’ ünsüzünü belirtmek için kef harfine bir çizgi ekleyerek gef (گ) harfi de kullanılmıştır. Osmanlıca da Arapça gibi sağdan sola doğru yazılır.  3    Şekil 1.1 Osmanlıca Alfabe [30] Arapça ve Osmanlıca’ yı Latin alfabesinden ayıran ve bilgisayar tarafından tanınmasını zorlaştıran bazı özellikler vardır. Bu özellikleri şöyle sıralayabiliriz. 1) Harfler çoğunlukla birbirine bitişik şekilde yazılır. Bir harf grubu bazen bir kelimeyi gösterir bazen de bir kelime bir kaç parçalı harf grubundan oluşur. Dolayısıyla kelimeleri birbirinden ayırmak ilk hamlede zordur. 2) Harflerin bulunduğu konuma göre (başta,ortada,sonda) farklı yazılışları vardır (Bkz.Tablo1.1). 3) Bir dokümanda harfler farklı kalınlıklar gösterebilmekte, hatta aynı harf bir dokümanın farklı yerlerinde değişik kalınlıklarda yazılabilmektedir. 4) Latin alfabesinde herbir karakterin yatay sırada birbirini takip etmesine karşılık Arapça’da bazı karakterlerin üst ya da alt uzantıları birbirlerinin düşeyde hizalarına gelebilmektedir. 5) Osmanlıca dokümanlarda genelde satırlar birbirlerinden ayrılmış olmakla birlikte bazen bir satırın alt uzantısı, alttaki satırın üst sınırını veya bir satırın üst uzantısı, üstteki satırın alt sınırını aşmaktadır. Bu yüzden satırları birbirinden ayıran net bir hat bulunmamaktadır.  4    Bu özellikler doküman işlemenin temelini oluşturan ‘‘Alan Parçalama’’ ve ‘‘Alan Etiketleme’’yi zorlaştırmakta bu da sistemin çalışmasında hata oranını yükseltmektedir. ‘‘Latin harflerinin matbaa çıktıları üzerinde elde edilen sonuçlar günümüzde yeterli düzeye ulaşmıştır. Fakat Çince, Japonca ve Osmanlıca karakterler üzerinde sorun hala devam etmektedir. Özellikle Osmanlıca ve Arapça karakterlerin tanıtılması, dilin yapısı ve yazım şekli göz önünde tutulduğunda oldukça zorlaşmaktadır. Hatta matbaada hazırlanmış bir Osmanlıca metnin tanınması, el yazısı ile yazılmış bir Latince metinden daha zor olabilmektedir’’ [29].  5    Tablo 1.1 Osmanlıca Harflerin Başta, Ortada ve Sonda Yazılışları [30]  6    1.2 Osmanlı Arşivleri ‘‘Ünlü Osmanlı tarihçisi Prof. Dr. Halil İNALCIK ‘Bana Osmanlı Arşivleri’ni verin size bir kültür imparatorluğu kurayım’ diyerek Osmanlı Arşivleri'nin önemini çok veciz bir şekilde ortaya koymuştur. Bilindiği üzere, her millet bir tarihî mirasın sahibidir. Bu tarihî mirasın çok önemli bir bölümünü arşivler, kütüphâneler ve eski eserler gibi maddî ve manevî kültür varlıkları teşkil ederler. Millet olabilme ve kalabilmede bu kültür varlıklarının büyük yeri ve rolü vardır. Arşivler, devletin ve fertlerin haklarını ve milletlerarası münasebetleri belgeler ve korurlar. Bir konuyu aydınlatmaya ve tespite yararlar. Bu arada ait olduğu devrin örf ve âdetlerini, sosyal yapısını, meselelerini ve bunlar arasındaki münasebetleri ortaya koyarlar. Türkiye, arşiv malzemesi bakımından çok büyük zenginliğe sahiptir. Osmanlı Devleti'nden devralınan büyük mirasla, bugün dünyanın en zengin arşiv potansiyeline sahip sayılı ülkelerden birisi durumundayız. Bugün dünyada 19'u Arap, 11'i Balkan ve Avrupa, 3'ü Kafkas, 2'si Orta Asya Türk devleti, 2'si Kıbrıs, İsrail ve Türkiye Cumhuriyeti olmak üzere toplam 39 bağımsız ülke Osmanlı Devleti'nin hükümrân olduğu coğrafya üzerinde yer almaktadır. Bu ülkelerin Osmanlı dönemlerindeki tarihlerinin en zengin kaynağı Osmanlı Arşivleri'dir. Orta ve Yakın Doğu, Balkan ve Akdeniz ülkeleri içerisinde kudretli ve kuvvetli devlet olabilme vasfını uzun süre devam ettiren Osmanlı Devleti'nde, arşiv fikri çok eskilere kadar uzanmaktadır. Arşivin, bir milletin tarih ve kültür hazinesi olduğunu idrâk eden ecdâdımız, bunun içindir ki, kurduğu arşiv teskilâtına "Hazîne-i Evrâk" adını vermiştir […] ’’ [8]. ‘‘Osmanlı devlet belgeleri çok iyi tutulur, sağlam kâğıtlara, silinmez mürekkeple yazılır ve çok iyi muhafaza edilirlerdi. Defter emini, istenen defter ve vesikayı, milyonlarca defter ve vesika arasından birkaç dakika içinde bulabilirdi. Çünkü en iyi şekilde ve fevkalade tasnif edilmişlerdi[…]. Şu anda 100 milyonun üzerinde tarihi vesika bulunduran Başbakanlık Osmanlı Arşivi yalnız Türkiye'nin değil, Osmanlı İmparatorluğu'nun sona ermesinden sonra kurulan 40 a yakın devletin de ana arşivi durumundadır’’[31].  7    ‘‘Arşivlerimizdeki belgeler, yalnızca Türkiye için değil Avrupa, Kuzey Afrika ve Yakındoğu ülkelerinin siyasi, iktisadi ve kültürel konulardaki sorunlarının çözümünde de önem taşımaktadır. Bu nedenle arşivlerimizde araştırma yapmak isteyen yerli ve yabancı araştırmacıların sayısı da gün geçtikçe artmaktadır’’[13]. Başbakanlık Osmanlı Arşivleri’ndeki belgeler halen taranarak elektronik ortama aktarılmaktadır. Arşivlerdeki belgeler 400 uzman tarafından elle tasnif edilmeye çalışılmaktadır [17]. Milyonlarca belgenin elle tasnifinin ne kadar zor olduğu ve ne kadar uzun süre gerektirdiği aşikardır. Osmanlı arşivlerinin ülkemiz ve dünya için önemi düşünüldüğünde, günümüzün teknolojik gelişmelerinden yararlanılarak, belgelerin en kısa sürede araştırmacıların hizmetine sunulması gerektiği anlaşılmaktadır. Osmanlı arşivlerindeki eserlerin bir kısmı matbu olup, büyük çoğunluğu el yazmasıdır. El yazısı karakterlerin kişiden kişiye farklılıklar göstermesi, harflerin birleşmesi, matbaa çıktılarına göre tam bir standardının olmaması ve özellikle Osmanlıca’daki çok çeşitli ve süslü yazı tipleri nedeniyle, el yazması eserlerin bilgisayar tarafından algılanması çok zordur. Bu alanda yapılan başarılı çalışmalar [2,3,30] olmasına rağmen henüz optimal bir sistem geliştirilememiştir. Bu çalışmada, elektronik ortamda bulunan matbu haldeki Osmanlıca belgelerin, bilgisayar tarafından sınıflandırılabilmesi için yeni bir model ortaya konmuştur. Kullandığımız yöntemde ‘Görüntü İşleme’ (Image Processing) ve ‘Doğal Dil İşleme’ (Naturel Language Processing) teknikleri bir araya getirilerek resim formatında taranmış Osmanlıca arşiv belgelerinin, bilgisayar tarafından anlamsal (Semantic) analize girmeden sınıflandırılması amaçlanmıştır. İlk olarak resim formatındaki taranmış belgeler, ikilileştirme (Binarization) ile sayısal ( 0-1) forma getirilmiştir. Bir sonraki aşamada belgedeki satırların alt ve üst sınırları piksel bazında tespit edilerek satırlar belirlenmiş ve satır parçalama ile satırları oluşturan harf grupları farklı birer resim olarak kaydedilmiştir. Her bir resmin özellik vektörleri çıkarılmış, özellik vektörleri ikili kombinasyonlar halinde karşılaştırılarak belirlenen benzerlik\farklılık puanları ile resimler arasında kümeleme (Clustering) yapılmıştır. Hiyerarşik kümeleme (Hierarchical Clustering) sonucunda benzer resimlere aynı etiket numarası verilmiştir. Böylelikle belge, harf gruplarının  8    sayısal etiket numaraları birer kelime gibi düşünülmek suretiyle; resim formatından ardışık dizilmiş sayısal karakterlerden oluşan özel bir metin formatına dönüştürülmüştür. Belgelerde, her bir sayısal etiket numarasının kaç kez geçtiğini içeren özellik vektörleri çıkarılmış ve bir makine öğrenmesi uygulaması olan WEKA paket programında sınıflandırma sonuçları elde edilmiştir. Ayrıca özel olarak yazılan bir programla, kelime frekans analizine göre sınıflandırma yapan bir çalışma gerçeklenmiştir. Böylece Doğal Dil İşleme’nin en yaygın yöntemlerinden olan ve karakterlerin dokümanda yer alma sıklığına göre sınıflandırma yapan kelime frekans analizi, tezimizde resim formatında taranmış Osmanlıca belgelere uygulanabilmiştir. Denemelerde, Türkiye Büyük Millet Meclisi (TBMM) Kütüphane ve Arşiv Hizmetleri Başkanlığı’nın resmi web sitesinden üç farklı sınıftan (roman, sosyoloji, tarih) 50’şer tane olmak üzere toplam 150 belge ile çalışılmıştır. Yapılan çalışmalarda MATLAB programından yararlanılmıştır. Modelimizin genel adımlarını belirten blok diyagram Şekil 1.2 de görülebilir.  9    Şekil 1.2 Modelimizin Genel Adımlarını Belirten Blok Diyagram BELGELER (resim) Harf Gruplarına Ayırma Ön İşlemler  Eşikleme   İkilileştirme  (binarization) • Satır Belirleme  • Satır Parçalama  • Alan Etiketleme  Kümeleme (Clustering) • Özellik Vektörleri • Benzerlik Matrisi • Hiyerarşik Kümeleme Belge Sınıflandırma (Classification) • Kelime Frekans Analizi • WEKA  • Naive Bayes    10    2. DOKÜMAN SINIFLANDIRMA ALANINDA YAPILMIŞ ÇALIŞMALAR Doküman sınıflandırma alanında ilk çalışmalar 70’ li yıllarda karşımıza çıkmaktadır. Belli konularda özel sözlükler oluşturulmuş ve bu sözlük içindeki kelimeler birer kategori olarak atanarak doküman sınıflandırma yapılmıştır. Doküman sınıflandırma alanındaki çalışmaları metin formatında yazılmış belgelerde ve resim formatında taranmış belgelerde olmak üzere iki başlıkta inceleyeceğiz. 2.1 Metin Formatında Yazılmış Belgelerde Yapılan Çalışmalar Keselj ve arkadaşları (2003), yazar tanıması yaptıkları çalışmalarında değişik boyutlarda n- gram yöntemini kullanmışlar ve İngilizce, Yunanca ve Çince’ye uygulayarak karşılaştırmalı sonuçlarını vermişlerdir [33]. Diri ve Amasyalı (2003), yazar belirleme için Türkçe dokümanlar üzerinde yaptıkları çalışmada metin içeriğine bağlı sınıflamada Navie Bayes yöntemini, 22 farklı stil özelliğini kullanan diğer bir sınıflamada ise kendi geliştirdikleri ‘Automatic Author Detection for Turkish Text’ metodunu kullanmışlardır’’ [34]. Doğan ve Diri (2006), Türkçe bir dokümanın türü yazarı ve cinsiyetini belirlemek için üç farklı veri seti üzerinde yaptıkları çalışmada n-gram yöntemini kullanmışlardır. Naive Bayes (NB), Destek Vektör Makinesi (DVM), Rastgele Orman (RO), K-En Yakın Komşuluk (K-EYK) gibi sınıflandırıcıların yanında kendi geliştirdikleri Ng-ind’ yöntemini de kullanarak testler yapmış ve başarı performanslarını birbirleri ile karşılaştırmışlardır. ‘Ng-ind’ yönteminin cinsiyet ve tür belirlemede diğer yöntemlere göre daha iyi sonuçlar verdiğini gözlemlemişlerdir [15]. Khreisat (2006), Arapça metinlerin sınıflandırılması için çalışmıştır. Bunun için Arapça çevrimiçi gazetelerden derlediği metinlerde n-gram frekansı kullanarak ‘‘Manhattan Benzerliği’’ ve ‘‘Dice’’ benzerlik ölçütünü kullanmıştır [2].  11    Zaki ve arkadaşları (2010), Arapça belgelerdeki çalışmalarında; klasik Boole modelinden ilham alarak belgeleri oluşturan terimler arasındaki yakınlığı, fuzzy ilkesiyle anlamlandırarak sınıflandırma yapan bir model teklif etmişlerdir [12]. 2.2 Resim Formatında Taranmış Belgelerde Yapılan Çalışmalar Huang ve arkadaşları (2003), resim tabanlı belgelerde sınıflandırma için kelime şekil analizine dayalı bir yöntem teklif etmişlerdir. Bu çalışmada, OCR yerine doğrudan doğruya kelime resim özellikleri çıkarılır ve belge görüntüleri kelime birimleri halinde dik yönde parçalanır. Daha sonra dikey çubuk desenleri elde edilerek doküman özellik vektörleri oluşturulur. Son olarak doküman özellik vektörlerinin skaler çarpımlarından ikili benzerlik ölçütleri bulunarak sınıflandırma yapılır [4]. Özhan (2005), çalışmasında el yazısı ayrık yazılmış Osmanlıca harfleri tanımaya ilişkin bir yapay sinir ağı (YSA) tasarlamış ve uygulamıştır. Osmanlıca harflerin yazılı olduğu taranmış bir belge görüntü işleme teknikleri kullanılarak sayısal verilere dönüştürülmüştür. Verilerin düzenlenmesi için bir normalizasyon isleminden geçirilerek, YSA için giriş-çıkış değerleri elde edilmiştir.YSA’nın eğitim işlemi uygulamaları yapıldıktan sonra deneysel sonuçların değerlendirilmesi yapılmıştır [30]. Tan ve arkadaşları (2006), OCR kullanmadan görüntülü belgelere erişim için bir metot önermişlerdir. Belgeler karakter bölümlerine ayrılarak, her bir karakterin resim görüntüsü alınır. Her sütundaki dikey çizgi sayısı (Vertical Traverse Density - VTD) ile her satırdaki yatay çizgi sayısı (Horizontal Traverse Density -HTD) birer vektör şeklinde alınarak karakter resimlerinin görüntü özellikleri çıkarılmıştır. Bu özelliklere bağlı olarak bir n-gram tabanlı belge vektörü oluşturularak, belgeler arasında metin benzerliği, vektörlerin skaler çarpımı ile ölçülmüştür [1]. Yalnız ve arkadaşları (2009), resim formatında taranmış, basılı Osmanlı belgelerindeki çalışmalarında bağlı harfler için entegre edilmiş segmantasyon ve bir karakter tanıma modeli önermişlerdir. Önerilen model ilk olarak belli bir yazıdaki bir dizi segmenti ayıklar ve hangi bölümlerin en benzer olduklarını belirler. Daha sonraki işlem bu aday harflerin herbirinin sözdizimsel olarak doğru sırada puanlanmasıdır. Puan fonksiyonunu maksimize eden aday harfler sırasını bulmak  12    için, çevrimsiz yönetilen grafik oluşturulmuştur. Harfler bu grafikteki en uzun yolun hesaplanmasıyla tanınmıştır. Önerilen yöntem %90 doğruluk sağlamıştır [3].  13    3. GÖRÜNTÜ İŞLEME (IMAGE PROCESSING) Dijital resimlerin, bilgisayar ortamına aktarıldıktan sonra görüntüden istenilen bilgilerin elde edilebilmesi ya da görüntü üzerinde istenilen değişikliklerin yapılabilmesi için uygulanan işlemlerin tümüne ‘Görüntü İşleme’ (Gİ) denir. Resimlerin bilgisayar ortamında işlenebilmeleri için bilgisayar ortamına uygun hale getirilmeleri gerekmektedir. Bu dönüşüme sayısallaştırma (digitizing) adı verilir. Bir görüntünün temel bileşeni pikseller (pixel-picture element) dir. Pikseller bireysel olarak üzerine düşen görüntüye ait renk ve parlaklık değerini taşıyan sayısal değerleri yansıtırlar. Resmin sözü edilen sayısal değerlerle ifadesine ''sayısal görüntü'' (digital image) denir. Sayısal görüntü satır ve sütünlardan oluşan bir matristir. Satır ve sütünların kesiştiği her bölgeye piksel denir. Dolayısı ile görüntü deyince piksellerdeki renk ve parlaklık değerlerinin saklandığı mxn boyutlu bir matris akla gelmelidir. Şekil 3.1 Pikseller [38] Yüksek çözünürlüklü ve renk ayrıntılarını taşıyacak biçimde algılanmış bir görüntü, daha küçük piksellerden oluşmakta yani piksel sayısı artmakta ve daha fazla sayısal veri ile temsil edilebilmektedir. Siyah beyaz bir resim iki boyutlu bir matris ile ifade edilirken renkli bir resim, Şekil 3.2 de görülebileceği gibi görüntünün renk tonlarını  14    oluşturan kırmızı-yeşil-mavi (Red-Green-Blue, RGB) kodlarını tutan 3 kademeli matris grubuyla ifade edilir [38]. Şekil 3.2 Renkli Resimlerin Sayısal İfadesi [38]  15    4. RESİM FORMATINDA TARANMIŞ BELGELERDE GÖRÜNTÜ İŞLEME Üzeri satırlarca yazı dolu olan bir kağıt okuma bilmeyen bir çocuk için bir şey ifade etmediği gibi, bilgisayarlar için de değersiz bir resimden ibarettir. Bilgisayarın bu resmin içindeki bilgiyi kullanabilmesi için yorumlaması gerekmektedir. Başka bir deyişle, bu resimdeki yazıların bilgisayarın anlayacağı daha kolay ve verimli olarak saklayıp bulabileceği sembollere çevrilmesi gerekmektedir [19]. Kısaca, resim formatındaki belge üzerinde yapılan Gİ işlemlerine ‘Doküman İşleme’ (Dİ) denmektedir. Dİ’nin önemli adımlarından biri belge üzerindeki nesne ve karakterleri tanıma teknikleridir. Bu işlemi gerçekleştiren sistemlere ‘Optik Karakter Tanıma’ (Optical Character Recognition-OCR) sistemleri denir. Modern OCR sistemlerinin günümüzde kullanım alanı oldukça yaygındır. Banka çeklerinin, posta adreslerinin, anket formlarının okunması ve işlenmesi; havayolu bilet okuyucuları, sahte imza tespiti gibi insan eliyle yapılması çok zor olan birçok işlem bugün OCR sistemleri yardımıyla çok hızlı ve kolayca yapılabilmektedir. Özellikle el yazısının bilgisayar tarafından tanınması OCR’ ın ilgilendiği en önemli problemdir. Bu alanda oldukça başarılı çalışmalar olmasına [27,29,32,45] rağmen hatasız çalışan bir sistem henüz geliştirilememiştir. Bununla birlikte günümüzde hızla yaygınlaşan tablet bilgisayarlarda ve akıllı cep telefonlarında elle ekran yüzeyinden girilen karakterlerin anlık olarak dijital sembollere dönüştürülmesi OCR tekniklerinin geldiği seviyeyi göstermektedir. Genel bir Dİ sisteminin genel yapısı Şekil 4.1 deki gibidir.  16    Şekil 4.1 Bir Doküman İşleme Sisteminin Genel Yapısı Bu çalışmada Dİ sisteminin İkilileştirme, Alan Parçalama (Satır Belirleme-SB, Satır Parçalama-SP), Alan Etiketleme (Harf gruplarını etiketleme) adımları uygulanmıştır.  Grafik Anlama Doğal Dil İşleme Fotoğraf    Grafik Analizi OCR Fotoğraf Analizi DOKÜMAN TANIMA Doküman Görüntüsü    Alan Parçalama   Alan Etiketleme Gürültü Temizleme      İkilileştirme  17    4.1 İkilileştirme (Binarization) ‘Dİ’ siteminde dokümanın renkli resmi yerine siyah beyaz görünümü üzerine çalışmak çoğu zaman yeterli olmaktadır. Eldeki görüntü siyah ile beyaz arası gri tonlardan oluşur veya renk özellikleri ilgili gri tonlara dönüştürülür. Resmi oluşturan pikseller, (8 bitlik piksel tanımlama formatında) farklı seviyedeki gri tonları, 0-255 arasında seviye değerleri ile temsil ederler. Burada 0 (siyah) dan 255 (beyaz) e kadar her piksel kendi gri tonunu temsil eden seviye değerini alır. Resmi oluşturan siyah ve beyaz arası 256 farklı gri tonu işlem kolaylığı açısından, belli bir eşik değerine göre indirgenerek 0 veya 1 ile temsil edilir. Resim karanlık ise eşik değeri, orta seviye olan 128 değerinden yüksek; resim aydınlık ise 128 den düşük seçilir. Bu indirgemeye göre resimleri ikili hale getirmeye ‘İkilileştirme’ (Binarization) denir. Burada 1 siyah pikselleri, 0 ise beyaz pikselleri temsil eder (Bazı uygulamalarda ise 0 siyah pikselleri, 1 beyaz pikselleri temsil edebilmektedir). Bu aşamada iki renkli (siyah-beyaz) bir resim elde edilmiş olur. Şekil 4.2 Bir ‘A’ Harfi ve İkili (binary) Görüntüsü [27]  18    4.2 Gürültü Temizleme Taranmış görüntüde, arka zeminde bulunan fakat asıl resme ait olmayan istenmeyen lekeler bulunabilir. Bunlara Gİ terminolojisinde ‘gürültü’ adı verilir. Sayısal forma geçme aşamasında gürültülerin yok edilmesi gerekir. Aksi takdirde pikseller üzerindeki farklı lekeler görüntünün bir parçası gibi algılanır bu da resmin tanımlanmasında hatalara neden olur. Görüntüdeki lekeleri yok etme işlemlerine ‘Gürültü Temizleme’ denir. 4.3 Satırların Belirlenmesi Belgenin içeriğine ulaşabilmek için öncelikle tek bir resim halinde mevcut olan belgenin satırlarının tespit edilmesi gerekir. Bu işlemlere ‘‘Satır Belirleme- SB’’ diyoruz. SB işlemleri şu şekilde yapılır. Doküman görüntüsünün dikey başlangıç noktasından başlanarak her bir piksel satırı (görüntü matrisinin satırları), siyah pikselle karşılaşıncaya kadar yatay olarak taranır (Görüntü matrisinde ilk kez 1 rakamıyla karşılaşılan satıra kadar tarama yapılır). İlk siyah piksele rastlanılan piksel satırı, metnin başlangıç satırı olarak kabul edilir. Böylece metnin başlangıç satırının üst sınırı tespit edilmiş olur. Tarama işlemine devam edilerek siyah piksel içermeyen ilk satır (matriste sadece 0 lardan oluşan satır) bulunduğunda metnin başlangıç satırının bitimine (alt sınıra) ulaşılmış olur. Matrisin, üst sınırı veren satır numarası ile alt sınırı veren satır numarası arasındaki fark ilgili satırın yüksekliğidir (Bkz. Şekil 4.3 ve Şekil 4.4). Satır belirlemenin en önemli problemi; bazı karakterlerin alt ve üst noktalarının bulunduğu piksel satırlarının ayrı birer metin satırı gibi algılanmasıdır. Bunu önlemek için tespit edilen her satırın yüksekliği ile alt ve üst satırlara olan uzaklıklarına bakılır. Şöyle ki;  İki satır arasındaki uzaklığın ikinci satıra oranı 0,2 yada daha küçükse,  İlk satırın yüksekliğinin ikinci satırın yüksekliğine oranı 0,2 veya daha küçükse, iki satır birleştirilerek tek bir satır haline getirilir [19] .  19    Şekil 4.3 Latin Harfleriyle Örnek Satır Belirleme [19] Şekil 4.4 Osmanlıca Yazıda Örnek Satır Belirleme 4.4 Satır Parçalama (Kelime/Harf Gruplarının Tespiti) Satır belirleme işlemleri tamamlandıktan sonra ‘Satır Parçalama-SP’ işlemleri dediğimiz, her bir metin satırındaki kelimelerin tespit edilmesi gerekmektedir. Bu aşamada ilk olarak satırın üst ve alt sınırları arasında yatay başlangıç noktasından başlanarak dikey doğrultuda tarama yapılır. Osmanlıca’da sağdan sola, Latin alfabesinde ise soldan sağa tarama yapılır. SB’de olduğu gibi sadece beyaz piksellerden oluşan sütunlar geçilir, siyah piksel içeren ilk sütun, karakterin başlangıcı olarak kabul edilir. Tarama işlemine devam edilerek tamamı beyaz piksellerden oluşan ilk sütun ise kelime/harf grubunun sonu kabul edilir. Bu işlem tüm satırlara, satır başından sonuna kadar uygulanarak belgedeki kelimelere ulaşılmış olur. Latin alfabesi ile yazılı dokümanlarda karakter aralıkları ve kelime aralıkları standart olduğundan SP ile kelimelerin elde edilmesi kolaydır. Ancak Osmanlıca yazılarda karakter boşlukları standart değildir. Harfler genelde bitişik yazıldığından karakterlerin ayrı ayrı parçalanması zordur (Bkz. Şekil 4.5 (a)). Diğer taraftan bazı kelimeler ise bitişik yazılmayan harfler nedeniyle iki veya daha fazla parçadan oluşabilmektedir (Bkz. Şekil 4.5 (c)). Ayrıca bazı durumlarda dikey yönde uzantısı birbirinin üstüne gelen harflerden dolayı beyaz piksel sütununa  20    rastlanmadığından kelime boşluğu tespit edilemez ve parçalama gerçekleşmez. Böylece iki farklı kelime, iki resim gibi algılanması gerekirken, tek bir resim gibi işlem görebilir (Bkz. Şekil 4.5 (b)). Bu yüzden Latin alfabesinden farklı olarak, Osmanlıca’da karakteri tespit etmek yerine kelime ya da harf grubunu tespit etmek, anlamsal çıkarımın gerekli olmadığı durumlarda daha doğru bir işlem olacaktır. (a) (b) (c) Şekil 4.5 Taranmış Osmanlıca Belgeden Elde Edilen Örnek Harf Grupları Elde edilen harf gruplarının çevresel boşluklardan arındırılması gerekir. Bunun için görüntünün resim matrisi, alt üst ve yanlardan taranarak tamamı 1’lerden oluşan (yani tamamen beyaz piksel içeren) satır ve sütunlar hariç tutularak; siyah piksel içeren ilk satır ve sütunun numaraları belirlenip bir alt matris oluşturulur. Bu alt matris, resmin çevresel boşluklarından arındırılmış şeklinin sayısal formudur. 4.5 Alan Etiketleme (Harf Gruplarının Etiketlenmesi) SP işleminden sonra ‘Alan Etiketleme’ yapılır. Bu aşama satır parçalama işleminden sonra elde edilen kelime ya da karakter\harf gruplarına birer etiket ismi ya da etiket numarası verilme işlemidir.  21    5. BENZERLİK MATRİSİ Belgelerde karakter veya harf gruplarına ulaşıldıktan sonra karakterlerin bilgisayar tarafından tanınması ve belgenin sınıflandırılabilmesi için optik karakter tanıma (OCR) ya da benzer nesneleri gruplandırmak için kümeleme (clustering) işlemlerine geçilir. Kümelemede ilk aşama nesnelerin birbirlerine olan benzerlik ya da farklılıklarının hesaplanarak bir matrise alınmasıdır. Bu matrise ‘‘Benzerlik (veya Farklılık) Matrisi (BM)’’ adı verilir. Öncelikle uygun bir özellik çıkarma yöntemiyle resimlerin belirleyici özellikleri bir vektöre aktarılır ve bu vektörler üzerinden resimler arası benzerlik puanları hesaplanır. Özellik çıkarma tekniklerinden biri aşağıda anlatılmıştır. 5.1 Özellik Çıkarma (Feature Extraction) Özellik çıkarma; görüntü üzerinde bazı ölçümler yaparak, görüntünün özelliklerini çıkarmak ve bunları bir özellik vektörüne aktarmaktır. SP den gelen görüntü dikey ve yatay olarak taranıp, görüntüye ilişkin Dikey Tanımlama Vektörü (DTV) ve Yatay Tanımlama Vektörü (YTV) elde edilir. Bu vektörler karakterlerin dikey ve yatay yönlerde sıkıştırılmış şeklidirler. Resmin boyut özellikleri ortadan kalktığından, aynı karakterin farklı boyutlardaki görüntülerinin özellik vektörleri birbirine benzerdir. Görüntü Şekil 5.1 Benzerlik Matrisinin Aşamaları Özellik Çıkarma     Modülü  Özellik Vektörleri  (DTV YTV’ler)  X = ( ଵܺ, ܺଶ,…, ܺ௠)  Karşılaştırma Modülü  (Benzerlik  Matrisi)   22    DTV’ yi elde etmek için görüntünün her sütunu sol alt köşeden başlamak üzere dikey olarak taranır. Bu işlem sonunda örnek ‘C’ (Bkz.Şekil 5.2) karakterinin ilk sütunu için ‘001111100’ dizisi bulunur. Bu dizinin ardışık 0 ve 1’ leri tekleştirmek suretiyle ‘010’ dizisi elde edilir. Tüm sütunlar için bu işlem tekrarlandığında ܶܦ öܸ௡௖௘ bulunur. Bu vektörde ardışık birbirine eşit vektör elemanlarının tekleştirilmesi ile de DTV elde edilir. Aynı işlemler yatay doğrultuda tekrarlandığında ise YTV elde edilmiş olur [19]. Şekil 5.2 ‘C’ Karakteri İçin DTV ve YTV’ nin Elde Edilişi [19] Bu yönteme benzer olarak Tan ve arkadaşları (2006), görüntüdeki siyah-beyaz geçişleri yerine yatay ve düşey her sıradaki siyah çizgi sayılarına (hareketliliğine) göre özellik çıkaran bir yöntem önermişlerdir [1]. Bu yöntemde SP den gelen karakterin resim görüntüsünde, her sütundaki dikey çizgi hareketliliği (Vertical Traverse Density - VTD) ile her satırdaki yatay çizgi hareketliliği (Horizontal Traverse Density - HTD) birer vektör şeklinde alınarak karakter resimlerinin görüntü özellikleri çıkarılır. 010 01010  101 101  101 01010  01010  23    Şekil 5.3 ''S'' ve ''V'’ Karakterleri İçin HTD ve VTD’ nin Elde Edilişi [1] Örnekte ''S'' ve ''V'’ karakterleri için, görüntünün satırları üst satırdan başlayarak aşağıya doğru her satır yatay şekilde taranır. Satırlardaki doğru parçası sayıları sırasıyla alınarak Şekil 5.3’deki gibi HTD vektörü oluşturulur. Benzer şekilde, VTD soldan sağa dikey tarama ile elde edilen başka bir vektördür. Şekil 5.3’de yatay ve dikey hat kesimleri, ilgili HTD ve VTD altında küçük kareler olarak temsil edilmiştir.  24    6. KÜMELEME (CLUSTERING) Herhangi bir veri setini belli yöntemlerle analiz ederek daha önceden isimleri belli olmayan gruplara ya da alt gruplara ayırma işlemine ‘Kümeleme (Clustering)’ denir. Kümelemede en önemli nokta, küme içi benzerliklerin olabildiğince yüksek, kümeler arasındaki benzerliğin ise olabildiğince düşük olmasıdır. Kümeleme analizi ilk kez 1939 yılında Tryon tarafından kullanılmıstır. 1960’lı yıllardan sonra kullanımı yaygınlaşmıştır. 1963 yılında Robert Sokal ve Peter Sneath’ın yazdığı “Sayısal Sınıflandırma İlminin Temelleri” adlı kitap bu alanda önemli bir adım olmuştur [40]. Kümeleme işleminin adımları aşağıdaki gibidir. 1) Dağınık yapıda bulunan veri setlerinden alınan ve hangi gruba ait olduğu bilinmeyen nesnelere ait özelliklerin çıkarılması. 2) Uygun bir benzerlik ölçüsü ile değişkenlerin birbirlerine olan uzaklıklarının hesaplanması (Benzerlik ya da farklılık matrisinin oluşturulması). 3) Benzerlik matrisindeki bilgilere göre, tercih edilen bir kümeleme yöntemiyle verilerin uygun sayıda kümelere ayrılması. 6.1 Kümeleme Analizinde Benzerlik\Uzaklık Ölçüleri Nesneleri kümelerken, aralarındaki benzerliğin bulunması için değişik uzaklık ölçüleri kullanılır. Bu ölçülerden bazıları: Öklid (Euclidean Distance), Pearson, Manhattan, Minkowski uzaklık ölçüleridir. Bu çalışmada kullanılan ölçü ‘‘Öklid’’ uzaklık ölçüsüdür.      25    6.1.1 Öklid Uzaklık (Euclidean Distance) Ölçüsü Öklid uzaklığı en sık kullanılan uzaklık ölçüsüdür. Öklid uzaklık ölçüsü kullanılarak, p boyuta sahip iki birim arasındaki uzaklık :        2222211, jpipjiji xxxxxxjid   formülüyle hesaplanır. : i. birimin k. değişken değeri . : j. birimin k. değişken değeri .  ,d i j : i. ve j. birimin birbirine olan uzaklığı . i =1, . . . , n ; j =1, . . . , n ve k =1, . . . , p ’dir. (n birim ve p değişken sayısıdır).[39] 6.2 Kümeleme Yöntemleri Kümeleme yöntemleri hiyerarşik olmayan kümeleme yöntemleri (bölmeli yöntemler ) ve hiyerarşik kümeleme yöntemleri olarak iki kategoride incelenebilir. 6.2.1 Bölmeli Yöntemler (Hiyerarşik Olmayan Yöntemler) Bu metotlar, n adet birimden oluşan veri setini başlangıçta belirlenen k. [9]. Amasyalı, M. F., Balcı,S., Varlı, E., N., Mete, E., ‘‘ Türkçe Metinlerin Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması’’, Elektrik Elektronik Fakültesi, Bilgisayar Mühendisliği Bölümü Yıldız Teknik Üniversitesi. [10]. Gharib, T. F., Habib,M. B., Fayed, Z. T., ‘‘Arabic Text Classification Using Support Vector Machines’’, Faculty of Computer and Information Sciences, Ain Shams University, Cairo, Egypt. [11]. Suen, C.Y., Bergler,S., Nobile, N., Waked,B., Nadal,C.P., Bloch, A., ‘‘Categorizing Document Images Into Script And Language Classes’’ Proc. Int'l Conf. on Advances in Pattern Recognition, ICAPR'98, 1998.  60    [12]. El-Halees,A.M., ‘‘Arabic Text Classification Using Maximum Entropy’’ The Islamic University Journal (Series of Natural Studies andEngineering)Vol. 15, No.1, pp 157-167, 2007, ISSN 1726-6807, [13]. Erişim Tarihi: 28.07.2013 [14]. Vega, F.S., Tello, E.V., Gomez, M. M., ‘‘Determining and characterizing the reused text for plagiarism detection’’ Elsevier 2012, www.elsevier.com/locate/eswa Erişim Tarihi : 28.08.2013 [15]. Doğan S.,‘‘Türkçe Dokümanlar İçin N-Gram Tabanlı Sınflandırma:Yazar Tür ve Cinsiyet’’,Yüksek Lisans Tezi, Yıldız Teknik Üniv., Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Bölümü, İstanbul 2006. [16]. Sanan, M., Rammal, M., Zreik, K., ‘‘ Arabic document classification using N- gram’’IEEE, Paris 8 University, Paris, France, Lebanese University, Beirut, Lebanon. [17]. Erişim Tarihi: 29.07.2013 [18]. Erişim Tarihi: 30.07.2013 [19]. Nabiyev, V.V., “Yapay Zeka”, Seçkin Yayıncılık, Ankara, 506 -525 (2012). [20]. Mahmoud, R., Majed, S., ‘‘Improving Arabic Information Retrieval Systemusing n-gram method’’ , WSEAS Transactions on Computers, Volume 10 Issue 4, Pages 125-133, April 2011. [21]. Diri B., Doğan S., ‘‘Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet’’ Türkiye Bilişim Vakfı Bilgisayar Mühendisliği Dergisi, Sayı 3, Haziran 2010. [22].Keikha,M., Khonsari, A., Oroumchian, F.,‘‘Rich document representation and classification: An analysis’’ ELSEVIER , Knowledge-Based Systems 22, 67-71,2009 [23]. Srihari N. S., Ball R.G., Srinivasan H., ‘‘Versatile Search of Scanned Arabic Handwriting’’ Center of Excellence for Document Analysis and Recognition (CEDAR),University at Buffalo, State University of New York,Amherst, New York 14228 [24]. Marwan A. H.,Omer M.S.L., ‘‘Stemming Algorithm To Classify Arabic Documents’’ , Symposium on Progress in Information & Communication Technology 2009. [25]. Amasyalı, M. F., Diri, B., “Automatic Turkish Text Categorization in Terms of Author, Genre and Gender”, 11th International Conference on Applications of Natural Language to Information Systems-NLDB2006, LNCS Volume 3999, 2006.  61    [26]. Çiltik, A. ve Güngör, T., “Time-Efficient Spam E-mail Filtering Using N-gram Models”, Pattern Recognition. [27]. Aras, P., ‘‘Bilgisayar Destekli El Yazısı Karakterlerini Tanıma Sistemi Tasarımı’’ Yüksek Lisans Tezi, İstanbul Üniversitesi, Bilgisayar Mühendisliği Bölümü, İstanbul, Haziran 2006. [28]. Günay Atbaş, A. C., ‘‘Kümeleme Analizinde Küme Sayısının Belirlenmesi Üzerine Bir Çalışma’’, Yüksek Lisans Tezi, Ankara Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Ana Bilim Dalı, Ankara 2008. [29]. Eroğlu, Y., ‘‘Osmanlıca El Yazısı Harfleri Çevrim İçi Tanıma’’, Yüksek Lisans Tezi, Gazi Üniversitesi, Bilişim Enstitüsü, Elektronik-Bilgisayar Eğitimi Bölümü, Ankara, Temmuz 2007. [30]. Özhan, D., ‘‘Osmanlıca Karakterlerin Yapay Sinir Ağları İle Tanınması’’, Yüksek Lisans Tezi, Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Elektrik Eğitimi Bölümü, Ankara, Aralık 2005. [31]. Erişim Tarihi: 28.07.2013 [32]. Caballero, F.A., Lopez, M. T., Castillo, J. C., ‘‘Display text segmentation after learning best-fitted OCR binarization parameters’’, ELSEVIER, Expert Systems with Applications 39, 4032–4043, 2009. [33]. Peng F., Keselj V., Cerconey N., Thomasy C., (2003), “N-Gram-Based Author Profiles For Authorship Attribution”, Faculty of Computing Science, Dalhousie University, Canada. [34]. Diri B., Amasyalı, M.F., (2003), “Automatic Author Detection for Turkish Text”, 13th International Conference on Neural Information Processing, Turkey. [35]. Alpaydın, E., Akın, L., Aratma, S., Yagcı, M., “ Yapay Sinir Agları İle Görüntü Tanıma”, TÜBİTAK Proje, EEEAG-41, Ankara, 8-15. (1994). [36]. Erişim tarihi 22.08.2013 [37]. Erişim tarihi: 22.0 8.2013 [38]. < http://www.yildiz.edu.tr/~bayram/sgi/saygi.htm> Erişim tarihi : 28.07.2013 [39]. Erişim tarihi : 22.0 8.2013 [40]. Anderberg M.R. 1973. ‘‘Cluster Analysis for applications’’. Academic Press, New York. Page 553–555.  62    [41]. George H., 1995, “Estimating Continuous Distributions in Bayesian Classifiers”, Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, pp. 338-345. Morgan Kaufmann, San Mateo. [42]. Erişim Tarihi: 28.07.2013 [43]. Zeng J., Wu C., Wang W., ‘‘Multi-grain hierarchical topic extraction algorithm for text mining’’ , ELSEVIER, Expert Systems with Applications 37, 2010, 3202– 3208. [44]. Akşehirli Ö:Y:, Ankaralı H.,Aydın D.,Saraçlı Ö., ‘‘Tıbbi Tahminde Alternatif Bir Yaklaşım:Destek Vektör Makineleri’’, Turkiye Klinikleri Journal of Biostatistics 2013 - Volume 5 Issue 1,19-28. [45] Erişim Tarihi: 19.09.201