İletişim ve bilgisayar teknolojilerindeki gelişmelere paralel olarak, insanlar daha fazla bilgiye erişim olanağı bulmuşlardır. Bilginin çok kısa sürede toplanması, depolanması, işlenmesi ve bilgiye dönüştürülüp yeniden istenilen birimlere aktarılması ihtiyacı yeni disiplinlerin ortaya çıkmasına neden olmuştur. Metin madenciliği bu yeni disiplinlerin doğuşuyla ortaya çıkan bilgi analiz yöntemlerinden biridir ve yapısal olmayan verilerden yani metinlerden anlamlı ve kullanılabilir bilgilerin çıkarılması için metinin çeşitli istatistiksel yöntemlerle analiz edilmesini amaçlamaktadır.Bu çalışmanın amacı, metin madenciliğinin her aşamasında kullanılan dilbilgisel ve istatistiksel teknik ve algoritmaların incelenmesi ve karşılaştırılması, ayrıca sınıflandırma algoritmaların metin madenciliği uygulamalarında gösterdiği performansın incelenmesidir. Çalışmada metin madenciliği uygulaması olarak, siyasi parti liderlerinin yaptığı grup genel toplantı konuşma metinlerinin sınıflandırılması için gerekli analiz ve sonuçlarına yer vermiştir. Bu amaç doğrultusunda Türkiye'deki üç büyük siyasi parti liderine ait 10'ar konuşmanın yer aldığı 30 adet konuşmadan oluşan veri seti kullanılmıştır. Özellik çıkarımı tekniklerinden gövdeleme yöntemi, grup genel toplantı konuşmaları kullanılarak elde edilen 2-gramlar ve 3-gramlar, kelime kümeleme yöntemlerinden K-Means algoritması gibi dilbilgisel ve istatistiksel özellikler kullanılarak 8 farklı özellik vektörü oluşturulmuştur ve bu özellik vektörleri frekansa göre ve terim frekansı x ters doküman frekansı ağırlıklandırma yöntemlerine göre ağırlıklandırılmıştır. Makine öğrenmesi yöntemlerinden olan Naive Bayes, Destek Vektör Makinesi, K-En Yakın Komşuluk Algoritması ve Karar Ağaçları algoritmaları kullanılarak her bir özellik vektörünün sınıflandırmadaki başarıları karşılaştırılmıştır.Çalışmanın sonuçlarına göre, en başarılı sınıflandırma algoritması Naive Bayes ve Destek Vektör Makinesi algoritmalarıdır. Dokümanların sınıflandırılmasında, grup genel toplantı konuşmaları kullanılarak elde edilen 2-gramların ve K-Means algoritması ile elde edilen özellik vektörlerinin konuşmaları sınıflandırma üzerinde daha başarılı sonuçlar ürettikleri görülmüştür.Anahtar kelimeler: Metin Madenciliği, N-gram, Vektör Uzay Modeli, Naive Bayes, Metin Madenciliği Uygulamaları
In parallel with the developments in communication and computer technologies, much more information is available today. Collecting information in a very short time, storing, processing, transmitting and transforming it into new information for the demanding departments have given way to the emergence of new disciplines. Text mining is one of these disciplines. Text mining is analyzing un-structured data, namely texts, by means of various statistical methods to extract meaningful and usable information.The first aim of this study is to conduct research on linguistics and technical algorithms which are used in text mining, to compare them and to analyze performance of different classification algorithms with an application. In application part, the aim of this study was to determine by which political party leader the chosen party caucus speeches were made. In this thesis, on this basis, a data set made up of 30 different speeches, every 10 of which were made by one of 3 political leaders, were used. By using parsing method, a feature extraction method, and 2-grams and 3-grams gained from caucus speeches as well as word clustering methods such as K-Means algorithms having characteristics of linguistic and statistical features, 8 different feature vectors were formed. By weighting of these feature vectors were made according to weighting methods of term frequency and term frequency x inverse document frequency. By means of Naive Bayes, a machine learning method, support vector machines, k-nearest neighbor algorithm and decision trees algorithms, the success of each feature vector in classification was compared with that of others.In this study, the most successful classification methods were Naive Bayes and support vector machines. As to classifying documents, 2-grams, gained from caucus speeches, and feature vectors, obtained with the help of K-Means algorithms, were seen to produce more successful results in classifying the speeches.Key words: Text Mining, N-gram, Vector-space Model, Naïve Bayes, Applications of Text Mining