Atıksu arıtma tesisi işletmesi sırasında suyun kalitesini gösteren parametreleri hızlı bir şekilde takip edebilmek ve müdahale edebilmek önem arz etmektedir. Atıksu arıtma tesislerine gelen atıksuyun arıtılmasında bakteri bazlı biyolojik yöntemler kullanılmaktadır. Gelen suyun kirlilik yükleri ve oksijen dengesi tesisin içerisindeki yaşamsal döngüyü etkilemektedir. Tesise aniden çok yüksek kirlilik oranına sahip su girdiği zaman operatör hiçbir müdahalede bulunmaz veya yanlış müdahalede bulunur ise bakteriler ölmeye başlar. Dolayısıyla biyolojik denge bozulacağı için arıtma işlemi gerçekleştirilemez. Su kalitesi yönetimi ve planlamasında önemli bir değişken olan Biyolojik Oksijen İhtiyacının (BOİ5) laboratuvar ortamında ölçülmesi diğer parametrelere göre daha uzun sürelerde (5 gün) gerçekleşmektedir. Sakarya da bulunan bir atıksu arıtma tesisinde yapılan bu çalışmada, online ölçüm cihazları ile ölçülebilen parametrelerden alınan verilerin otomasyon ve kontrol sistemlerine aktarılması ve elde edilen bu verilere yapay zeka yöntemleri uygulanarak Biyolojik Oksijen İhtiyacının (BOİ5) tahmin edilmesi amaçlanmıştır. BOİ5'nın tahmin edilmesi amacıyla Bulanık Kaba Kümeleme, SmoteR ve Makine Öğrenmesi Regresyon Algoritmalarını (Güçlendirilmiş Karar Ağacı Regresyonu, Karar Ormanı Regresyonu Yapay Sinir Ağları, Bayesyen Doğrusal Regresyon ve Doğrusal Regresyon) içeren hibrit bir model geliştirilmiştir. Tahmin için kullanılan makine öğrenmesi algoritmalarının performansının arttırılması amacıyla Bulanık Kaba Kümeleme tabanlı Nitelik Seçimi ve SmoteR yöntemleri uygulanırken, gereksiz veya gürültülü örneklerin elenmesi için bulanık kaba kümeleme tabanlı Örnek Seçimi Algoritması uygulanmıştır. Elde edilen veri setleri üzerinde makine öğrenmesi regresyon algoritmaları eğitilerek performansları karşılaştırılmıştır. Karşılaştırmalı sonuçlar, Bulanık Kaba Kümeleme tabanlı Nitelik Seçimi, Örnek Seçimi ve özellikle SmoteR yöntemlerinin Makine Öğrenmesi Algoritmalarının performanslarını arttırdığını göstermektedir. Çalışmanın ilk aşamasında (Bulanık Kaba Kümeleme tabanlı Nitelik Seçimi, bulanık kaba kümeleme tabanlı Örnek Seçimi ve SmoteR yöntemlerinin uygulanmadan) en iyi performansı %91,56 R2 değeri ile Bayesyen Doğrusal Regresyon ve %10,35 MAPE değeri ile Doğrusal Regresyon algoritması göstermektedir. Bulanık Kaba Kümeleme tabanlı Nitelik Seçimi, bulanık kaba kümeleme tabanlı Örnek Seçimi ve SmoteR yöntemlerinin uygulanmasıyla yapılan çalışmanın sonucunda makine öğrenmesi algoritmaları arasında en iyi performansı, %97,18 R2 değeri ve %6,07 MAPE değeri ile Güçlendirilmiş Karar Ağacı Regresyon Algoritması göstermiştir.
During the operation of wastewater treatment in plants, it is important to quickly monitor and intervene the quality of water. Some bacterial-based biological methods are used for the wastewater which is coming to wastewater treatment plants. The pollution and oxygen balance of the incoming water affects the life cycle within the facility. In sudden rises in pollution parameters values at the entrance of the facility, bacteria that provide biodegradation begin to die in the cases where the operator does not intervene or improperly intervenes. Therefore, treatment cannot be carried out as the biological balance will be disrupted. When compared to other parameters, the measurement of Biological Oxygen Demand (BOD), which is an important variable in water quality management and planning, in the laboratory environment takes longer times (5 days). In this study, which was carried out in a wastewater treatment plant in Sakarya, it was aimed to transfer the data obtained from the parameters that can be measured with online measurement devices to the automation and control systems and to estimate the Biological Oxygen Demand (BOD5) by applying artificial intelligence methods to these data. In order to predict BOD5 a hybird model which includes Fuzzy Rough Set, SmoteR and machine learning Regression algorithms (Boosted Decision Tree Regression, Bayesian Linear Regression, Decision Forest Regression, Neural Networks, Linear Regression) has been developed. While applying Fuzzy Rough Set based feature selection and SmoteR methods in order to increase the performance of machine learning algorithms used for prediction, Fuzzy Rough Set instance selection algorithm has been applied to eliminate unnecesary instances. Machine learning regression algorithms were trained on the obtained data sets and their performances were compared.The comparative results show that Fuzzy Rough Set based feature selection, instance selection and especially SmoteR methods clearly increase the performance of machine learning algortihms. In the first stage of the study (without applying Fuzzy Rough Set based feature selection, Fuzzy Rough Set instance selection, SmoteR methods), Bayesian Linear Regression algorithm with a R2 value of 91.56% and Linear Regression algorithm with a MAPE value of 10.35% show the best performances. As a result of the study by applying Fuzzy Rough Set based feature selection, Fuzzy Rough Set instance selection, SmoteR methods, the Boosted Decision Tree Regression Algorithm showed the best performance among the machine learning algorithms, with a R2 value of 97.18% and a MAPE value of 6.07%.