İnternetteki veri hacimlerinin genişlemesiyle ortaya çıkan büyük veri kavramı, hayatın birçok alanında olduğu gibi tıp dünyasında da adından bahsettirmeye başlamıştır. İçerisinde makine öğrenmesi yöntemlerinin kullanımını da gerektiren büyük veri analitiği, geniş ve karmaşık veri setleri üzerinden faydalı bilginin çıkartılarak karar süreçlerinde kullanımını sağlar. Büyük veri kapsamındaki veri setleri üzerinde makine öğrenme stratejileri uygulamak, işlemci ve hafıza alanı gibi kaynakların yoğun olarak kullanımını gerektirdiği için, pahalı bir süreçtir. Bu nedenle, büyük veri analitiği için özel olarak geliştirilmiş platformlar tasarlanmıştır. Bu tür sistemlerinden biri olan Apache Spark regresyon, sınıflandırma ve kümeleme yapabilen çeşitli makine öğrenmesi algoritmalarını bünyesinde bulundurur ve özellikle gerçek zamanlı veri analitiği konusunda çok güçlüdür. Bu çalışmada, Lojistik Regresyon algoritması kullanılarak EKG verilerinden gerçek zamanlı hastalık tanısı koymayı sağlayan bir sistemin ilk sonuçları sunulmuştur. Elde edilen ilk bulgular Apache Kafka ve Apache Spark ile oluşturulan bu mimarinin, EKG verilerinin gerçek zamanlı olarak işlenmesinde önemli bir tasarım seçeneği olabileceğini göstermiştir.
The concept of big data emerging from the expansion of data volumes on the Internet has begun to talk about its name in medicine as well as in many fields of life. Big data analytics, which also require the use of machine learning methods, enable the use of decision-making processes by extracting useful information from large and complex data sets. Implementing machine learning strategies on data sets within big data is an expensive process because it requires extensive use of resources such as CPU and memory. For this reason, platforms specially developed for big data analytics are designed. One of these systems, Apache Spark, has built-in machine learning algorithms ranging from regression to classification and clustering, and is a very powerful engine for real time stream processing. In this study, the first results of a system that provides real-time disease diagnosis from ECG data using Logistic Regression are presented. The first findings obtained show that this architecture, built with Apache Kafka and Apache Spark, can be an important design option in real time processing of ECG data.