A hybrid predictıon approach using multiple linear regression and decision tree = Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım

Azeez, Maryam Arif

DSpace Home
→
Enstitüler / Institutes
→
Fen Bilimleri Enstitüsü / Instıtute of Scıence and Technology
→
Tez Koleksiyonu
→
2023 Yüksek Lisans Tezleri Koleksiyonu
→
View Item

dc.contributor.advisor	Doktor Öğretim Üyesi Kayhan Ayar
dc.date.accessioned	2024-01-26T12:22:48Z
dc.date.available	2024-01-26T12:22:48Z
dc.date.issued	2023
dc.identifier.citation	Azeez, Maryam Arif. (2023). A hybrid predictıon approach using multiple linear regression and decision tree = Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım. (Yayınlanmamış Yüksek Lisans Tezi). Sakarya Üniversitesi Fen Bilimleri Enstitüsü
dc.identifier.uri	https://hdl.handle.net/20.500.12619/101737
dc.description	06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır.
dc.description.abstract	xxii değişken (Xi) olduğu anlamına gelir. Yanıt değişkeni, açıklayıcı değişkenlerin doğrusal bir kombinasyonu ile doğrudan ilişkili olduğundan, her iki senaryoda da "doğrusal" terimi kullanılmaktadır. Bölme, ağacı düğümlerinden iki veya daha fazla düğüme ayıran bir prosedürdür. Kök düğüm, tüm örneklemi veya popülasyonu temsil eder ve homojen gruplar olarak iki veya daha fazla gruba bölünür. Alt düğümlerin ayrıldığı düğümlere ebeveyn ve alt düğümler denir. Bölünemeyen ve minimum bölünmeye ulaşmış düğümlere yaprak düğümler denir. Budama, bölmenin tersidir, alt düğümleri kök düğümden çıkarır. Eğitim veri setleri kullanılarak sınıflandırma ve regresyon ağaçları oluşturulmuştur. İnşa edilen ağaçların derinliği üçtü. Daha sonra her bir derinlik seviyesi ve düğüm noktası için farklı MLR denklemleri oluşturulmuştur. Yaklaşımımızı test etmek için maksimum derinlik üç olarak seçildi. Bir sonraki adımda, ağaç oluşturulduktan sonra, her düğüm veri kümesi için bir filtre olarak kullanıldı. Her veri seti için toplam MLR modelleri 15 farklı filtre kullanılarak oluşturulmuştur. Sonraki bölümde, üç veri seti değerlendirildi ve geleneksel CART ve MLR modelleriyle karşılaştırıldı. Bu çalışmada sonuçlar, bağımlı değişkenin (Y) değerini tahmin etmek için regresyon ağacı yöntemi, çoklu doğrusal regresyon ve regresyon ağacını bölme ve ondan çoklu doğrusal regresyon modelleri oluşturma özel araştırma yöntemi kullanılarak karşılaştırıldı. R2, MSE ve MAPE değerlerine dayalı olarak en iyi tahmini veren en iyi yöntem olarak tespit edildi. Karar verme ve olayları tahmin etme hayatımızın ayrılmaz bir parçasıdır. Regresyon ağaçları, kararlarımızı düzenlemenin yaygın yollarından biridir ve makine öğrenimi yöntemlerinden biri olarak kabul edilir. Çoklu doğrusal regresyon modeli algoritması da tahminde önemli bir yöntemdir. Bu araştırmada, regresyon ağacından çoklu doğrusal regresyon modelleri oluşturmak için regresyon ağacı algoritması ile çoklu doğrusal regresyon algoritmasını birleştiren bir süreç önerilmiştir. Üç tür veriye uygulanmıştır. Birinci veri setinde üçüncü seviyeye (L3) bağlı olarak hatayı azaltarak en iyi sonucu verdiği görülmüştür. İkinci veri setinden farklı olarak trende en ufak hatayı üçüncü seviyede (L3) verirken, testte üçüncü seviyede (L3) en iyi sonucu vermeye yetmedi. Bu durumda optimal seviye L1 olarak bulunmuştur. Bu, çalışılan soruna bağlıdır. Ayrıca, en iyi sonucu seçmek için tek bir ölçüme güvenmek imkansızdır. Bununla birlikte, en iyi sonucu, yani en iyi modeli elde etmek için başka hata ölçüleri eklenmelidir. Üçüncü veri setinin birinci seviyede (L1) en iyi sonucu verdiği, ancak üçüncü seviyenin (L3) de en iyi sonucu verdiği için tek olmadığı not edilebilir. Veri setini bölmenin uygun bir yöntem olduğu söylenebilir çünkü en azından üç veri seti olan L1, L2 ve L3'te L0'a veya tam ağaca kıyasla en iyi sonuçları vermiştir. Ancak çoklu doğrusal regresyon modelini tek başına kullanmak en iyi sonucu vermez. Ancak, veri setini bölmek ve hibrit ağaç ve çoklu doğrusal regresyon modelinden en iyi sonucu bulmak için bir sınıflandırma ve regresyon ağacı ekleyebilir. Bu çalışmada, regresyon ağacına dayalı çoklu doğrusal regresyon yöntemi kullanılarak verilerin bölünmesinin, tek başına çoklu doğrusal regresyon yöntemi veya yalnızca regresyon ağacı kullanılmasına göre iyi bir sonuç verdiği görülmüştür. Ayrıca, bir hata ölçüsü kullanımının yeterli olmadığı, optimal bir model elde etmek için birden fazla hata ölçüsünün eklenmesi gerektiği görülmüştür. Ancak, veri setini bölmek ve en iyi sonucu bulmak için bir sınıflandırma ve regresyon ağacı ekleyebilir. hibrit ağaçtan ve çoklu doğrusal regresyon modelinden. Kapsamlı bir gerçek yaşam veri kümesindeki ağacın derinliği, yüksekliğin etkisini görmek için artırılacaktır. Ayrıca, ayrı birçalışmada doğrusal regresyona alternatif yaklaşımları inceleyeceğiz. Ağaç boyutunu ve güçlü makine öğrenimi tekniklerini artırmada ölçeklenebilir ve etkili olabilir. Doğrusal olmayan verilerin analizi söz konusu olduğunda, karar vericiler genellikle hataları azaltma zorluğuyla karşı karşıya kalır. Neyse ki, regresyon ve CART'ı birleştiren hibrit bir yaklaşımın bunu başarmak için etkili bir yöntem olduğu kanıtlanmıştır. Doğrusal regresyonun ilişkisel tahminini ve CART'ın gruplandırmasını kullanan bu yaklaşım, büyük miktarda veriyi yönetmek ve veriye dayalı kararların doğruluğunu artırmak için güçlü bir araç sunar. Regresyon ağacı, kararı karmaşık ve basit hale getirmek için kullanılan istatistiksel araçlardan biridir. Regresyon ağaçları, ayrık değerler yerine sürekli değerlerle çıktıyı tahmin eder. Tepki değişkenine bağlı olarak, yordayıcıların veya ortak değişkenlerin bir vektörüne bakmak. Regresyon ağacı, basit ve çoklu doğrusal regresyon gibi parametrelere ihtiyaç duymaması bakımından diğer geleneksel regresyon yöntemlerinden farklıdır. Güçlü değişken alt bölümleri üzerinde çalışmasında fark yaratır, aykırı değerlerden etkilenmez ve farklı veri türleri üzerinde uygulanabilir.
dc.description.abstract	When you wake up one winter morning, you may wonder whether it will rain or will the weather be fine? In our life we fall into many choices that require prediction and anticipation of the answer before starting work. In this thesis, a hybrid method was used between decision tree (regression tree) and multiple linear regression based on the CART mechanism. It used three different datasets to test the approach. The first is the advertising data set, which was represented by using (TV, radio, and newspapers) (X) to show the relationship between these advertising methods with sales (Y) in terms of their impact on sales and purchasing power. This dataset is called as "Advertising". The second data set contains (Species of fish, length, height, width), which are the independent variables (X) and their impact on the weight of the fish, which represents the dependent variable. This dataset is called as "Fish". The third dataset is the effect of the car's specifications on its price, which was considered the dependent variable. The car specification was (car name, fuel type, aspiration, door number, car body, drivewheel, engine location, wheelbase, car length, car width, car height, curb weight, engine type, cylinder number, engine size, fuel system, bore ratio, stroke, compression ratio, horsepower, peak rpm, city mpg, and highway mpg). This dataset is called "Car". The datasets were divided into train and test 80% - 20%, respectively. Where the research steps that represent the study were implemented, by making accurate predictions with the help of linear regression and CART. First, we split datasets using CART. For each leaf, different sub-datasets are filtered and created. The splitting point in the dataset was found with nodes. Our hypothesis is to divide the dataset using CART to increase the accuracy of the estimates. It applied multiple linear regression to filtered datasets. Then, it is compared multiple linear regression estimations using whole data and splitting dataset. The classification and regression tree (CART) algorithm represents a dataset's connection between the dependent variable and independent factors. It consists of a sequential binary dataset partition based on the variable values. Fitting tree models involves repeatedly splitting the data into homogenous groups. The output is a hierarchical tree of relevant decision rules for classification or prediction. Splitting is a procedure that divides the tree from its nodes into two or more nodes. The root node represents the entire sample or population and is divided into two or more groups as homogeneous groups. The nodes that sub-nodes are separated into are called parent and child nodes. Nodes that cannot be divided and have reached the minimum division are called leaf nodes. Pruning is the opposite of splitting, removing child nodes from the root node. xx In this study, results were compared to predict the value of the dependent variable (Y) using the regression tree method, multiple linear regression, and the particular research method of splitting the regression tree and constructing multiple linear regression models from it in order to select the best method that gives the best prediction based on the R2, MSE, and MAPE values. It was found in this study that splitting the data using multiple linear regression based on the regression tree gave a good result compared to using the multiple linear regression method alone or using the regression tree only. It was also found that the use of one error measure is not sufficient, but more than one error measure must be added to obtain an optimal model.However, it can add a classification and regression tree to divide the data set and find the best result from the hybrid tree and multiple linear regression model. The depth of the tree in an extensive real-life dataset will be increased to see the effect of height. Furthermore, we will delve into alternative approaches to linear regression in a distinct study. It could be scalable and effective in increasing tree size and powerful machine learning techniques. It was found in this study that splitting the data using multiple linear regression based on the regression tree gave a good result compared to using the multiple linear regression method alone or using the regression tree only. It was also found that the use of one error measure is not sufficient, but more than one error measure must be added to obtain an optimal model.
dc.format.extent	xxiv, 46 yaprak : şekil, tablo ; 30 cm.
dc.language	İngilizce
dc.language.iso	eng
dc.publisher	Sakarya Üniversitesi
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.rights.uri	info:eu-repo/semantics/openAccess
dc.subject	Bilgisayar Mühendisliği Bilimleri,
dc.subject	Bilgisayar ve Kontrol,
dc.subject	Computer Engineering and Computer Science and Control
dc.title	A hybrid predictıon approach using multiple linear regression and decision tree = Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım
dc.type	masterThesis
dc.contributor.department	Sakarya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı, Bilişim Bilim Dalı
dc.contributor.author	Azeez, Maryam Arif
dc.relation.publicationcategory	TEZ