dc.contributor.advisor |
Profesör Doktor Cemalettin Kubat |
|
dc.date.accessioned |
2022-01-26T08:10:16Z |
|
dc.date.available |
2022-01-26T08:10:16Z |
|
dc.date.issued |
2021 |
|
dc.identifier.citation |
Peker, Nuran. (2021). Geliştirilmiş ki-birleştirme algoritması ile ayrıklaştırılan verinin veri madenciliği yöntemleri ile sınıflandırılması. (Yayınlanmamış Doktora Tezi). Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Sakarya. |
|
dc.identifier.uri |
https://hdl.handle.net/20.500.12619/96613 |
|
dc.description |
06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır. |
|
dc.description.abstract |
Veri ayrıklaştırma, sürekli bir özniteliği mümkün olan en az bilgi kaybı ile sınırlı sayıdaki aralığa bölme işlemi olarak tanımlanabilir. Verinin bölündüğü her bir aralığa belirli bir değer atanır. Ayrıklaştırma, birçok veri madenciliği ve makine öğrenmesi algoritması açısından oldukça önem arz eden bir veri önişleme yaklaşımıdır. Çünkü bazı algoritmalar ya sürekli veri ile çalışamaz, ya da daha düşük performans ortaya koyar. Öte yandan ayrık verinin sürekli veriye göre anlaşılması ve yorumlanması daha kolaydır, ayrıca ayrık veri; tahmin, sınıflandırma ve birliktelik kuralları gibi farklı veri madenciliği problemlerinin çalışma süresini de kısaltmaktadır. Bu çalışmada, Chi-kare istatistiğine dayalı ve literatürde oldukça sık kullanılan bir ayrıklaştırma yöntemi olan Ki-Birleştirme (KiB) algoritmasının performansını arttıran dört farklı ayrıklaştırma yöntemi önerilmektedir. Dirsek Ki-Birleştirme (dKiB), Siluet Ki-Birleştirme (sKiB), Karekök Ki-Birleştirme (kkKiB) ve 2-10'lu ayrıklaştırma olarak adlandırılan bu yöntemlerin, original KiB algoritması ile olan karşılaştırmalı sonuçları tartışılmaktadır. Bu yöntemlerden dKiB ve sKiB, k-ortalama algoritması kullanılarak, verinin bölüneceği en uygun küme sayısının bulunması esasına dayanmaktadır. Bu yöntemlerin uygulanmasında, dKiB için veri seti bütün olarak; sKiB için veri setinin herbir özniteliği ayrı ayrı ele alınmaktadır. Veri setinin herbir özniteliği için bulunan karekök değeri kkKiB algoritmasında, verinin bölüneceği küme sayısı olarak belirlenmektedir. 2-10'lu ayrıklaştırmada ise very, sırasıyla 2-10 arası kümeye bölünmekte ve sonuçlar KiB ile karşılaştırılmaktadır. Yöntemlerin sınıflama başarısı; Karar Ağaçları (DT), Naive Bayes (NB), K-En yakın Komşular (KNN) ve Destek Vektör Makineleri (SVM) kullanılarak, 11 gerçek dünya veri seti üzerinde, katmanlı 10-kat çapraz doğrulama yöntemi ile ölçülmektedir. Elde edilen sonuçlar, önerilen dört yöntemin de orijinal KiB algoritması ile karşılaştırıldığında genelde daha iyi performans gösterdiğini ortaya koymaktadır. |
|
dc.description.abstract |
Data discretization can be defined as the process of dividing a continuous feature into a limited number of intervals with the least possible loss of information. Each interval in which the data is divided is assigned a specific value. Discretization is a very important data preprocessing approach for many data mining and machine learning algorithms. Because some algorithms either cannot work with continuous data or show lower performance. On the other hand, discrete data is easier to understand and interpret than continuous data, and it also decreases the running time of different data mining problems such as prediction, classification, and association rules. In this study, four different discretization methods are proposed to increase the performance of the ChiMerge (KiB) algorithm, which is based on the Chi-square statistics and is a widely used discretization method in the literature. The comparative results of these methods, called Elbow ChiMerge (dKiB), Silhouette ChiMerge (sKiB), Square Root ChiMerge (kkKiB), and 2-10 discretization, with the original ChiMerge algorithm, are discussed. Among these methods, dKiB and sKiB are based on finding the most appropriate number of clusters into which the data will be divided by using the k-means algorithm. In the application of these methods, the data set for dKiB is considered as a whole; for sKiB, each attribute of the data set is handled separately. The square root value found for different values of each attribute of the data is determined in the kkKiB algorithm as the number of clusters into which the data will be divided. In 2-10 discretization, the data is divided into 2-10 clusters, respectively, and the results are compared with KiB. Classification success of the methods is measured by stratified 10-fold cross-validation method on 11 real-world datasets using Decision Trees (DT), Naive Bayes (NB), KNearest Neighbors (KNN), and Support Vector Machines (SVM). The obtained results reveal that all four proposed methods generally perform better when compared to the original KiB algorithm. |
|
dc.format.extent |
ix, 82 yaprak : grafik, tablo ; 30 cm. |
|
dc.language |
Türkçe |
|
dc.language.iso |
tur |
|
dc.publisher |
Sakarya Üniversitesi |
|
dc.rights.uri |
http://creativecommons.org/licenses/by/4.0/ |
|
dc.rights.uri |
info:eu-repo/semantics/openAccess |
|
dc.subject |
Veri madenciliği |
|
dc.subject |
makine öğrenmesi |
|
dc.subject |
Ki-Birleştirme |
|
dc.subject |
ayrıklaştırma |
|
dc.subject |
sınıflandırma |
|
dc.title |
Geliştirilmiş ki-birleştirme algoritması ile ayrıklaştırılan verinin veri madenciliği yöntemleri ile sınıflandırılması |
|
dc.type |
doctoralThesis |
|
dc.contributor.department |
Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Endüstri Mühendisliği Anabilim Dalı, |
|
dc.contributor.author |
Peker, Nuran |
|
dc.relation.publicationcategory |
TEZ |
|