Açık Akademik Arşiv Sistemi

Geliştirilmiş ki-birleştirme algoritması ile ayrıklaştırılan verinin veri madenciliği yöntemleri ile sınıflandırılması

Show simple item record

dc.contributor.advisor Profesör Doktor Cemalettin Kubat
dc.date.accessioned 2022-01-26T08:10:16Z
dc.date.available 2022-01-26T08:10:16Z
dc.date.issued 2021
dc.identifier.citation Peker, Nuran. (2021). Geliştirilmiş ki-birleştirme algoritması ile ayrıklaştırılan verinin veri madenciliği yöntemleri ile sınıflandırılması. (Yayınlanmamış Doktora Tezi). Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Sakarya.
dc.identifier.uri https://hdl.handle.net/20.500.12619/96613
dc.description 06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır.
dc.description.abstract Veri ayrıklaştırma, sürekli bir özniteliği mümkün olan en az bilgi kaybı ile sınırlı sayıdaki aralığa bölme işlemi olarak tanımlanabilir. Verinin bölündüğü her bir aralığa belirli bir değer atanır. Ayrıklaştırma, birçok veri madenciliği ve makine öğrenmesi algoritması açısından oldukça önem arz eden bir veri önişleme yaklaşımıdır. Çünkü bazı algoritmalar ya sürekli veri ile çalışamaz, ya da daha düşük performans ortaya koyar. Öte yandan ayrık verinin sürekli veriye göre anlaşılması ve yorumlanması daha kolaydır, ayrıca ayrık veri; tahmin, sınıflandırma ve birliktelik kuralları gibi farklı veri madenciliği problemlerinin çalışma süresini de kısaltmaktadır. Bu çalışmada, Chi-kare istatistiğine dayalı ve literatürde oldukça sık kullanılan bir ayrıklaştırma yöntemi olan Ki-Birleştirme (KiB) algoritmasının performansını arttıran dört farklı ayrıklaştırma yöntemi önerilmektedir. Dirsek Ki-Birleştirme (dKiB), Siluet Ki-Birleştirme (sKiB), Karekök Ki-Birleştirme (kkKiB) ve 2-10'lu ayrıklaştırma olarak adlandırılan bu yöntemlerin, original KiB algoritması ile olan karşılaştırmalı sonuçları tartışılmaktadır. Bu yöntemlerden dKiB ve sKiB, k-ortalama algoritması kullanılarak, verinin bölüneceği en uygun küme sayısının bulunması esasına dayanmaktadır. Bu yöntemlerin uygulanmasında, dKiB için veri seti bütün olarak; sKiB için veri setinin herbir özniteliği ayrı ayrı ele alınmaktadır. Veri setinin herbir özniteliği için bulunan karekök değeri kkKiB algoritmasında, verinin bölüneceği küme sayısı olarak belirlenmektedir. 2-10'lu ayrıklaştırmada ise very, sırasıyla 2-10 arası kümeye bölünmekte ve sonuçlar KiB ile karşılaştırılmaktadır. Yöntemlerin sınıflama başarısı; Karar Ağaçları (DT), Naive Bayes (NB), K-En yakın Komşular (KNN) ve Destek Vektör Makineleri (SVM) kullanılarak, 11 gerçek dünya veri seti üzerinde, katmanlı 10-kat çapraz doğrulama yöntemi ile ölçülmektedir. Elde edilen sonuçlar, önerilen dört yöntemin de orijinal KiB algoritması ile karşılaştırıldığında genelde daha iyi performans gösterdiğini ortaya koymaktadır.
dc.description.abstract Data discretization can be defined as the process of dividing a continuous feature into a limited number of intervals with the least possible loss of information. Each interval in which the data is divided is assigned a specific value. Discretization is a very important data preprocessing approach for many data mining and machine learning algorithms. Because some algorithms either cannot work with continuous data or show lower performance. On the other hand, discrete data is easier to understand and interpret than continuous data, and it also decreases the running time of different data mining problems such as prediction, classification, and association rules. In this study, four different discretization methods are proposed to increase the performance of the ChiMerge (KiB) algorithm, which is based on the Chi-square statistics and is a widely used discretization method in the literature. The comparative results of these methods, called Elbow ChiMerge (dKiB), Silhouette ChiMerge (sKiB), Square Root ChiMerge (kkKiB), and 2-10 discretization, with the original ChiMerge algorithm, are discussed. Among these methods, dKiB and sKiB are based on finding the most appropriate number of clusters into which the data will be divided by using the k-means algorithm. In the application of these methods, the data set for dKiB is considered as a whole; for sKiB, each attribute of the data set is handled separately. The square root value found for different values of each attribute of the data is determined in the kkKiB algorithm as the number of clusters into which the data will be divided. In 2-10 discretization, the data is divided into 2-10 clusters, respectively, and the results are compared with KiB. Classification success of the methods is measured by stratified 10-fold cross-validation method on 11 real-world datasets using Decision Trees (DT), Naive Bayes (NB), KNearest Neighbors (KNN), and Support Vector Machines (SVM). The obtained results reveal that all four proposed methods generally perform better when compared to the original KiB algorithm.
dc.format.extent ix, 82 yaprak : grafik, tablo ; 30 cm.
dc.language Türkçe
dc.language.iso tur
dc.publisher Sakarya Üniversitesi
dc.rights.uri http://creativecommons.org/licenses/by/4.0/
dc.rights.uri info:eu-repo/semantics/openAccess
dc.subject Veri madenciliği
dc.subject makine öğrenmesi
dc.subject Ki-Birleştirme
dc.subject ayrıklaştırma
dc.subject sınıflandırma
dc.title Geliştirilmiş ki-birleştirme algoritması ile ayrıklaştırılan verinin veri madenciliği yöntemleri ile sınıflandırılması
dc.type doctoralThesis
dc.contributor.department Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Endüstri Mühendisliği Anabilim Dalı,
dc.contributor.author Peker, Nuran
dc.relation.publicationcategory TEZ


Files in this item

This item appears in the following Collection(s)

Show simple item record

http://creativecommons.org/licenses/by/4.0/ Except where otherwise noted, this item's license is described as http://creativecommons.org/licenses/by/4.0/