Bu çalışmada, internet altyapı sağlayıcılarının (İAS) yatırım yapılacak potansiyel lokasyonları ve arıza oranlarını ay ve/veya yıl düzeyinde belirlemesi amaçlanmıştır. Arıza oranları tekil ve toplam arıza olarak Big Data yöntemiyle belirlenmiş olup Lojistik Regresyon Analizi kullanılarak var olan arıza oranlarından potansiyel ―stabile‖/―unstabile‖ lokasyonlar belirlenmiştir. Farklı veritabanlarından (VT) alınan anlamsız gözüken veriler, Big Data yöntemleri kullanılarak hadoop distributed file system (HDFS) üzerinde depolanmıştır. Depolanmış olan anlamsız verilerle pig script kullanılarak veri analizi yapılmıştır. Pig script, veri analizinde HDFS üzerindeki veri kümelerini ortak kolon isimlerine göre birleştirerek tek bir dosya üzerine kaydedebilmek için kullanılmış, komplike işlemlerin gerçekleştirilmesine olanak sağlamıştır. Komplike işlemler, anlamsız görünen verilerin Big Data mantığı ile değerlendirilip anlamlandırılması ile tahminleme kısmına hazırlanması amaçlanmıştır. Tahminlemenin ikili sonuç şeklinde oluşması hedef alınmış, bu sebeple lojistik regresyon analizi uygulanmaya el verişli son rapor elde edilmiştir. Elde edilen ve HDFS üzerinde tutulan sonuç dosyası python programlama dili ve lojistik regresyon uygulaması ile potansiyel ―stabile‖/―unstabile‖ lokasyonların tespiti için kullanılmıştır. Lojistik regresyon ile daha önceden belirlenmiş arıza sayıları (tekil ve toplam arıza) ve var olan diğer kolonlar bir bütün halinde değerlendirilmiş olup, yeni verilerde potansiyel ―stabile‖/―unstabile‖ lokasyonları tespit edilmiştir. Sonuç olarak yatırım yapılacak lokasyonların önceden tespit edilmesi; elde edilen sonuç verisi ve lokasyonların potansiyel stabilitesi ile çok daha anlaşılır bir şekilde gösterilmiştir. Bu çalışma, Big Data ve Lojistik Regresyon Analizi ortak kullanımı ile anlamlı veriler üzerinden yorum yapabilmeyi kolaylaştırmayı hedeflemiştir. Anahtar kelimeler: big data, hdfs, lojistik regresyon analizi, pig script
In this study, it is aimed that Internet Infrastructure Providers (IIP) determine the potential locations to be invested and the failure rates are determined at the month and/or year level. The failure rates are determined by the Big Data method as single and total failures and the locations where potential failure will occur from the existing failure rates are determined by using Logistic Regression Analysis. The meaningless data obtained from different databases were stored on Hadoop Distributed File System (HDFS) by using Big Data methods. Data analysis was performed by using pig script with stored meaningless data. Pig script has been used in data analysis to save the data sets on HDFS into a single file by combining them according to common column names, allowing complicated operations to be performed. Complicated cleanup is goal-oriented for the forecasting department by evaluating and interpreting it with Big Data logic in a meaningless view. It is aimed to form a binary result of the estimation, so the last report, which can be applied Logistic Regression Analysis, was obtained. The result file obtained on HDFS was used to determine potential fault locations with python programming language and Logistic Regression Analysis. With the Logistic Regression Analysis, the pre-determined number of failures (single and total failures) and other existing columns are evaluated as a whole and potential fault locations are determined in the new data. As a result, predetermining the locations to be invested; generated result data and potential fault locations will be obtained more clearly. This study aims to facilitate the interpretation of meaningful data through the joint use of Big Data and Logistic Regression Analysis. Keywords: big data, hdfs, logistic regression analysis, confusion matrix, pig script