Breast malignant cancer is one of the most dangerous diseases that women suffer from. In this research, Data Mining (DM) with machine learning (ML) and its various techniques were applied for processing the Breast Cancer (BC) digital images. MIAS dataset images were used for analysis and prediction of cancer diseases; Mammography Image Analysis Society (British research groups organization http://peipa.essex.ac.uk/). This work analyzes breast cancer images in three main stages; preparing images using digital image processing tools, then using clustering techniques for segmentation of mammogram images and extracting the affected area and using classification techniques for cancer data classification. Before using DM techniques, digital image processing involving image enhancement techniques were applied to the images. Digital image processing represents functions and techniques which aim to improve the quality of images and prepare the data for the next processes. Preparing data is a very important stage in DM since it removes the unwanted details from data. Segmentation of BC images using clustering techniques mainly K Means (KM) and Fuzzy C Means (FCM) was achieved for detecting the abnormal region in the images based on the intensity of pixels. The algorithms were implemented in MATLAB for analysis. During these implementations, the used clustering techniques' performances were compared. Three parameters were considered; run time, a number of clusters, and memory space used for saving and storing the clustered results images. Both algorithms gave proved significant results. The run time of KM was three time less than FCM but memory space of FCM clustered images results was two time less than KM. Four images were clustered by FCM and five images were clustered by KM. For more checking and evaluating the performances of clustering algorithms' results; classification algorithms were used for classifying of extracted data from the clustered images and other BC data. The classification technique was used for categorical class label prediction of cancer disease. The main attributes for classification where the number of pixels representing cancer affected area which was found and extracted by clustering techniques. Six attributes were given to the classification algorithms. Classification algorithms; Artificial Neural Network (ANN), K Nearest Neighbor (KNN), and Support Vector Machine (SVM) were used for classification of BC data and prediction of cancer possibility. The highest accuracy was found using ANN (97%), followed by KNN (94%) and SVM (52%) in the last.
En tehlikeli hastalıklardan biri, genellikle kadınların mağdur olduğu kötü huylu meme kanseridir. Farklı tekniklerle veri madenciliği; makine öğrenmesi ve algoritmaları yardımı ile kümeleme ve sınıflandırma için meme kanseri dijital görüntülerine uygulanmaktadır. MIAS (Mammography Image Analysis Society) veri kümesi görüntüleri, kanserin analizi ve tahmini için kullanılmıştır. Bu çalışma meme kanserini üç ana aşamada analiz edecektir; dijital görüntü işleme araçlarını kullanarak görüntülerin hazırlanması, daha sonra mammogram görüntülerinin bölütlemesi için kümeleme tekniklerinin kullanılması, kanser sınıflandırma tekniklerinin kullanılması için etkilenen bölgenin çıkarılması. Piksel yoğunluğuna bağlı olarak görüntülerdeki anormal bölgenin saptanması için esas olarak K Means (KM) ve Fuzzy C Means (FCM) kümeleme teknikleri kullanılarak meme kanseri görüntülerinin bölümlere ayrılması sağlanmıştır. Analiz için algoritmalar MATLAB'da geliştirilmiştir. Bu uygulamalar sırasında kullanılan kümeleme tekniklerinin performansları karşılaştırılmıştır. Temel olarak üç parametre dikkate alınmıştır; çalışma süresi, küme sayısı, kümelenmiş sonuç görüntülerinin kaydedilmesi ve saklanması için kullanılan bellek alanı. Her iki algoritma da önemli sonuçlar vermiştir. KM'nin çalışma süresi FCM'den daha az, ancak FCM kümelenmiş görüntülerin sonuçlarının bellek alanı KM'den daha azdır. Dört görüntü FCM tarafından kümelenmiş ve beş görüntü KM tarafından kümelenmiştir. Kümeleme algoritmalarının sonuçlarının performanslarının daha fazla denetlenmesi ve değerlendirilmesi için; kümelenmiş görüntülerden ve diğer meme kanseri verilerinden çıkarılan verilerin sınıflandırılması için sınıflandırma algoritmaları kullanılmıştır. Sınıflandırma tekniği, kanser hastalığının kategorik sınıf etiketi tahmini için kullanılmıştır. Sınıflandırma için ana özellikleri kanserden etkilenen piksel sayısı alanı temsil eder. Bu nedenle, sınıflandırma algoritmalarına altı öznitelik atandı. Kanser verilerinin sınıflandırılması ve kanser olasılığının öngörülmesi için Support Vector Machine (SVM), K Nearest Neighbor (KNN) ve Artificial Neural Network (ANN) gibi sınıflandırma algoritmaları kullanılmıştır. Kanser verilerinin sınıflandırılmasında en yüksek doğruluk ANN (97%), ardından KNN (94%) ve son olarak SVM (52%) kullanılarak bulunmuştur.