Bu çalışmada, Millî Eğitim Bakanlığı'na bağlı olarak uzaktan eğitim yöntemi ile hizmet veren açık öğretim liselerinde öğrenim gören öğrencilerin mezuniyet, okul terk ve devam durumlarının tahmini, okul terk durumlarının erken tahmini ve okulu terk eden öğrencilerin profillerinin Eğitsel Veri Madenciliği ile incelenmesi amaçlanmıştır. Eğitsel Veri Madenciliği, sağlık ve pazarlama gibi hayatın birçok alanında başarıyla uygulanan veri madenciliği yönteminin eğitim alanındaki sorunların çözümü için uygulanmasıdır. Çalışma kapsamında açık öğretim liseleri öğrencilerine ait öğrenci bilgi sisteminden alınan verilerle üç farklı modelleme çalışması yapılmıştır. Modelleme çalışmalarında veri madenciliği çalışmalarında izlenen genel süreç izlenmiş ve bu sürecin net bir şekilde tanımlandığı CRISP-DM (Cross Industry Standard Processfor Data Mining) süreç modeli takip edilmiştir. İlk olarak 2013 yılında açık öğretim liselerine ilk kez kayıt yaptıran 484.164 öğrenciye ait veri seti kullanılarak öğrencilerin normal öğrenim süresi sonundaki mezuniyet, okul terki ve devam durumlarının tahmini için sınıflandırma analizi yapılmıştır. Sınıflandırma analizinde Eğitsel Veri Madenciliği çalışmalarında sıklıkla kullanılan J48, Decision Tree, kNN, Naive Bayes ve Random Forest algoritmaları kullanılmış ve farklı veri dönüştürme teknikleri uygulanarak modeller geliştirilmiştir. Modellerin geçerliliğini sağlamak için veri seti dışarda tutma yöntemine göre %70 eğitim, %30 test veri seti olmak üzere ikiye ayrılarak eğitim veri seti ile geliştirilen modeller, modellerin daha önce görmedikleri test veri seti ile test edilmiştir. Analizler sonucunda geliştirilen modellerin performansları genel sınıflandırma ölçütlerine göre raporlanarak doğru sınıflandırma oranı (DSO) ve Kappa ölçütlerine göre değerlendirilmiştir. Değerlendirme sonucunda J48 algoritmasıyla geliştirilen modelin %80,47 DSO ve 0,61 Kappa değeriyle en başarılı model olduğu görülmüştür. Bu modele göre öğrencilerin durumlarını tahmin etmede en önemli özelliğin toplam kredi sayısı olduğu tespit edilmiştir. İkinci modelleme çalışmasında öğrencilerin okul terk durumlarının erken tahmin edilip edilemeyeceği araştırılmıştır. Bu amaçla ilköğretim mezunu olarak doğrudan açık öğretim liselerine kayıt yaptıran öğrencilerin, normal öğrenim süreleri sonundaki okul terk durumlarının tahmini için sınıflandırma analizi yapılmıştır. Analizlerde geliştirilen modeller performans ölçütlerine göre değerlendirildiğinde J48 algoritması ile geliştirilen modelin %70,85 DSO ve 0,208 Kappa değeri ile öğrencilerin öğrenimlerini bırakma durumlarını kayıt yaptırdıkları tarih itibariyle tahmin edebileceği tespit edilmiştir. Bu modele göre öğrencilerin okul terk durumlarını erken tahmin etmede en önemli özelliğin kayıtlı oldukları açık öğretim lisesinin türü olduğu tespit edilmiştir. Çalışmada açık öğretim liselerine kayıt yaptırmış fakat daha sonra öğrenimlerini bırakmış olan toplam 2.317.130 öğrenci verisi kullanılarak bu öğrencileri özelliklerine göre gruplandırmak için kümeleme analizi yapılmıştır. Kümeleme analizinde k-Means algoritması kullanılmıştır. Her bir lise türü için ayrı ayrı gerçekleştirilen analizlerde öğrencilerin özelliklerine göre üç kümede toplandıkları görülmüştür. Öğrencilerin kümelere ayrılmasında ortalama toplam kredi sayısı ve ortalama toplam aktif olunan dönem sayısı özelliklerinin etkili olduğu görülmüştür. Ayrıca kümeleme analizi ile öğrencilerin homojen bir grup olmadığı ve bazı özelliklere göre farklılaştıkları görülmüştür. Çalışma sonuçları öğrenimlerini bırakma eğilimlerindeki öğrenciler için bir erken uyarı sistemi geliştirilerek risk altındaki öğrencilerin önceden belirlenip bu öğrencilerin öğrenimlerini bırakmamaları için önlemler alınabileceğini göstermektedir. Kümeleme analizi sonuçları ise öğrenimlerini bırakmış olan öğrencilerin yeniden öğrenimlerine dönmeleri için geliştirilecek stratejilerde bu öğrencilerin özelliklerinin dikkate alınarak, özelleştirilmiş uygulamalar geliştirilmesinde kullanılabileceğini göstermektedir.
This study aimed to predict the dropout, graduation, and attendance status of students, early prediction of dropout and clustering students who dropped out of open high schools using Educational Data Mining. Educational Data Mining is the application of data mining methods, which is successfully applied in many areas of life such as health and marketing, to solve the problems in the field of education. Within the scope of the study, three different modeling studies were carried out with data obtained from the student information system of open education high schools. In modeling processes, CRISP-DM (Cross Industry Standard Process for Data Mining) model was used. Firstly, a classification analysis was performed to predict the status of students at the end of their normal education duration with the data set of 484,164 students who registered for open high schools for the first time in 2013. Students' status was defined in three categories as continuing, graduation and dropping out of education. In the classification analysis; J48, Decision Tree, kNN, Naive Bayes and Random Forest classification algorithms, which are frequently used in Educational Data Mining studies, were used and models were developed by applying different data transformation techniques. In order to ensure the validity of the models, the data set was divided into two as 70% training and 30% test dataset according to the holdout method, and the models developed with the training dataset were tested with the test dataset. The performances of the models were reported according to the classification metrics and evaluated according to the accuracy and Cohen's Kappa coefficient. As a result of the evaluation, it was seen that the model developed with the J48 algorithm was the most successful model with 80.47% accuracy and 0.61 Kappa coefficient. According to this model, it has been determined that the most important attribute in predicting the success of students is the total number of credits. In the second modeling study, it was examined whether the dropout status of students could be predicted early. For this purpose, classification analysis was conducted to predict the dropout status of the students who were registered for open education high schools directly as primary school graduates. When the developed models are evaluated according to performance metrics, it has shown that the model developed with the J48 algorithm can predict the dropout status of the students as of the day they register, with 70.85% accuracy and 0.208 Kappa. Finally, cluster analysis was conducted to discover groups of 2,317,130 students who had previously registered for open high schools but dropped out of school. The k-Means algorithm was used in the cluster analysis, and the analyzes performed separately for each high school type, it was seen that the students were gathered in three clusters according to the average total number of credits and the average number of active terms. With cluster analysis, it was seen that the learners were not a homogeneous group, but they differed according to some attributes. The results of the study show that an early warning system can be developed for students with a tendency to drop out, and additional measures can be taken to identify students at risk and not to drop out of their education. Cluster analysis results show that it can be used to develop customized applications, taking into account the characteristics of these students, in the strategies to be developed for students who have dropped out to return to their education again.