Nesnelerin İnterneti 'nin işletmeler arasında popülerliğinin artmasıyla, izleme ve analiz IoT verilerinin araştırılması ve geliştirilmesi artmıştır. Büyük veri kaynaklarından biri olan Nesnelerin interneti, veri mühendislerinden dikkat çekiyor. Asıl zorluk, büyük miktarda IoT olayının gerçek zamanlı akış işlemesidir. Veri transferini, büyük ölçekli verileri gerçek zamanlı olarak depolamayı, işlemeyi ve analiz etmeyi içerir. Milyarlarca IoT cihazı, istihbaratı gerçek zamanda elde etmek için analiz edilmesi gereken çok miktarda veri üretir. Bu tezde, IoT için gerçek zamanlı akış işlemek için birleştirilmiş bir çözüm önerilmiştir. Önerilen yöntemde, hava istasyonu verilerinin IoT olayları Apache Kafka kullanılarak üretilir ve bir konuya yayınlanır. Bu veriler Apache Spark tüketicisi tarafından tüketilmekte ve RDD'ye dönüştürülmektedir. Spark SQL'i kullanarak, verileri analiz etmek için farklı sorguların uygulandığı veri çerçeveleri oluşturulur. Veriler Cassandra'ya kaydedilir ve Zeppelin notebook verileri görselleştirmek için kullanılır. Spark'deki makine öğrenme kütüphanesini kullanarak gerçek zamanlı tahminler yapmak için bir veri kümesine Lojistik Regresyon algoritması uygulanır. Sonunda, tüm ölçüm farklı metrikleri değiştirerek ve gecikmeyi azaltarak hızlanır. Sonuçlar, bu yöntemin gerçek zamanlı olarak büyük IoT veri kümelerini işlemek için eksiksiz bir çözüm sunduğunu göstermektedir.
With the increase in popularity of IoT among enterprises, the research and development in the field of monitoring and analyzing IoT data has been increased. Iot, being one of the major sources of big data is getting attention from data engineers. The main challenge is real time stream processing of large amount of IoT events. It includes data transfer, storing, processing and analyzing large scale of data in real time. Billions of IoT devices generate huge amount of data that should be analyzed for deriving intelligence in real time. In this thesis, a unified solution for real time stream processing for IoT is proposed. In the proposed method, sample IoT events of weather station data are generated using Apache Kafka and published to a topic. This data is consumed by Apache Spark consumer which converted it into RDDs. Using Spark SQL, data frames are generated, on which different queries are applied to analyze the data. Data is saved to Cassandra and Zeppelin notebook is used to visualize the data. Logistic Regression algorithm is applied on a data set to make predictions in real time using machine learning library in Spark. In the end, the whole method is speed up by altering different metrics and reducing delay. Results show that this method provides a complete solution to process large IoT data sets in real time.