Günümüzde, derin öğrenme ağlarının kullanımı, birden fazla alandaki performansından ve sürekli gelişen yeteneklerinden yararlanmak için, günümüzde bu tür ağlara güveni artıran en önemli konulardan biridir. Ancak, klasik etkileşim derin öğrenme ağları ve kamera veya videoya dayalı sıradan görüntüler arasında belirgin olabilir. Bazı ciddi hastalıkların tespitinde çok fazla doğruluk gerektiğinden ve örneğin trafik gibi ihlallerin baş edilmesi ile ilgili kullanımlar doğru ve doğru olmayı gerektirdiğinden, iki boyutluluk bu alanda ilerlemek için gereken istek ve gelişmelerin gerisinde kalmaktadır. Tüm bunlar, sistemin sağlam bir şekilde görülmesi, iki boyutlu perspektifte olmayan faydaları nedeniyle üç boyutlu bir perspektifle temsil edilen görüntünün yeni ve doğru yüzü ile ele alınması için çalışmayı gerektirmiştir. Sinir ağını, tanımlama yeteneğinde daha fazla doğruluk ve performansta doğruluk sağlayan özelliklerle zenginleştirmek gerekmektedir. Tanıma alanında iki boyutlu görüntülerin sunduğu geniş seçeneklere rağmen, yine de istenen hedefe ulaşmakta yetersiz kalmaktadır ve bu, en son görüntü teknolojilerine güvenmek, bunları derin öğrenme yoluyla işlemek ve ele almak için sürekli gelişmeyi gerektirmektedir. Ağlar, derin öğrenme ağları, (kenarlar, çizgiler, eğriler, açılar, noktalar vb.) dahil olmak üzere temel bilgileri çıkarmak için çok sayıda 2B görüntüyü manipüle edebilen ağlardır. Konvolüsyonel sinir ağları, sırayla değişen ağırlıklara ve yer değiştirmelere sahip nöronlardan meydana gelmesi bakımından normal sinir ağlarına çok benzemektedir. Her nöron bazı girdi verilerini alır, standart ürünü hesaplar ve isteğe bağlı olarak doğrusal olmayan bir aktivasyon fonksiyonu kullanır. Ağın tamamı, daha önce olduğu gibi, tek ayırt edilebilir değerlendirme işlevidir: bir uçta ilk piksel kümesinden (görüntü), diğer uçta belirli bir sınıfa ait olma olasılık dağılımına kadar. Bu ağlar, son (tamamen bağlı) katmanda hala bir kayıp fonksiyonuna (örneğin, SVM/Softmax) sahiptir ve normal sinir ağlarıyla ilgili olarak verilen tüm tavsiyeler, evrişimli sinir ağlarıyla da ilgilidir. Evrişimli sinir ağlarının mimarisi, girdi verilerinin bazı özelliklerini, ağ mimarisinin kendisinde dikkate almamıza izin veren girdide açıkça görüntü edinmeyi içerir. Bu özellikler, doğrudan dağıtım işlevinin daha verimli uygulanmasına ve ağdaki toplam parametre sayısını önemli ölçüde azaltılmasına imkan tanır. Gerçekleştirilen bu araştırmada, 3D evrişimli sinir ağı olan 3DCNN'ye dayalı olarak derin öğrenme kapsamında tam bir 3B tıbbi görüntü tanıma modeli tasarlanarak uygulanmıştır. Sistemi meydana getirmek amacıyla, 3D görüntü veri seti "MosMedData" kullanılmıştır. Kullanılan veri setinde her gibi 12800 kısımdan oluşan ve 64 bölüm içeren 100 normal ve 100 anormal 3D görüntüden yararlanılmıştır. Kullanılan veri seti, %70 eğitim veri seti ve %30 doğrulama veri olmak üzere ayrıştırılmıştır. Önerilen derin öğrenme modelini oluşturmak için dört temel adım yer almaktadır. İlki, ön işleme aşaması, ardından veri çoğaltma süreci, ardından derin öğrenme modeli yapılandırması ve son aşama ise eğitim ve değerlendirme kısmından oluşmaktadır. Ön işleme adımı için, akciğer dokularını elde etmek için yeniden boyutlandırma, yeniden ölçeklendirme ve normalizasyon gibi birçok ön işleme işlemi kullanılmaktadır. İkinci adım, eğitimin sahte eğitim sorununu ortadan kaldırabilmesi için aynı görüntünün döndürülmüş, çevrilmiş ve kontrastı değiştirilmiş kopyalarını kullanarak eğitim görüntülerinin sayısını artırmak için uygulanan veri büyütme ve veri artırmadır. Karıştırma işlemi, eğitim örneğinin eğitim sürecine karıştırılma sırasına göre verilmesi için de uygulanmaktadır. Eğitim modeli için 3B CNN ağının değiştirilmiş bir versiyonu önerilmektedir. Tamamen bağlı katmanı küresel ortalama havuzlama katmanıyla değiştirerek ve son iki yoğun katman arasına bir bırakma katmanı ekleyerek mimari değiştirilmiştir. Deneyler, farklı eğitim dönemleri, farklı veri artırma durumları ve tüm 3D görüntülerin veya yalnızca akciğer dokularının kullanıldığı birçok senaryoda uygulanmaktadır. Gerçekleştirilen deneylerde, en iyi dönem 25 olduğunu ve en iyi durumun tüm akciğer 3D görüntüsünü kullanmak yerine sadece akciğer dokularını kullanmak olduğunu göstermektedir. Eğitim için %70 doğruluk ve %71 doğrulama doğruluğu elde ediyoruz. Gelecekteki çalışmalar için, 3D CNN mimarisi aşağıdaki özelliklerle değiştirilebilir: -Verileri daha iyi ölçeklendirmek için standardizasyon yöntemini uygulamak. -Resnet101 gibi transfer öğrenme yöntemini kullanarak verileri eğitmek veya InceptionV3 derin sinir ağları. -Verilerin artırılması.
At the present time, the use of deep learning networks is one of the most important issues that have increased reliance on them at the present time in order to take advantage of its capabilities in multiple fields and its constantly evolving capabilities, but the classic interaction between deep learning networks and between ordinary images based on camera or video can be apparent. The two-dimensionality falls short of the aspirations and developments required to advance in this field, as some serious diseases need a lot of accuracy in identifying them, and the uses related to dealing with violations, such as traffic, for example, require accurate and sound vision of the site, all of this necessitated work to deal with the view with its new and accurate face Which is represented by a three-dimensional perspective because of its benefits that may not be available in the two-dimensional perspective, in addition to enriching the neural network with features, which gives more accuracy in its ability to identify and accuracy in performance. Despite the wide options offered by two-dimensional images in the field of recognition, they still fell short of achieving the desired goal, and this called for continuous development in order to rely on the latest vision technologies, processing and dealing with them through deep learning networks. Deep learning networks are networks capable of manipulating 2D images in large numbers in order to extract basic information including (edges, lines, points, curves, angles, points, etc.). Convolutional neural networks are very similar to regular neural networks in that they consist of neurons, which in turn have variable weights and displacements. Each neuron receives some input data, computes the standard product, and optionally uses a nonlinear activation function. The entire network, as before, is the only distinguishable evaluation function: from the initial set of pixels (the image) at one end to the probability distribution of belonging to a particular class at the other end. These networks still have a loss function (e.g., SVM/Softmax) on the last (fully connected) layer, and all the advice and recommendations that have been given regarding normal neural networks are also relevant to convolutional neural networks. The architecture of convolutional neural networks explicitly includes image acquisition at the input, which allows us to consider some properties of the input data in the network architecture itself. These characteristics allow you to implement the direct distribution function more efficiently and significantly reduce the total number of parameters in the network. Convolutional Neural Networks (CNNs) in deep learning use two-dimensional images in their matrix form in order to process them and extract features from them, and these matrices must be processed and search for the most important locations of the two-dimensional image. Resulting in more accurate results than the results of the human contestants. Convolutional neural networks use the fact that the input data are images, so they form a structure that is more sensitive to this type of data unlike ordinary neural networks, layers in a convolutional neural network arrange neurons in 3 dimensions - width, length, and depth. So, the neurons in one layer must be connected to a small number of neurons in the previous layer, instead of connecting to all the previous neurons in the layer. Moreover, the image output layer will have a dimension of 1×1×10, because when we approach the end of the neural network, we will reduce the image size to the vector class estimates located along the depth In this research, a full 3D medical image recognition model based on deep learning have been designed and implemented based on 3D convolutional neural network 3DCNN. 3D image dataset "MosMedData" is used for building the system. The used dataset consists of 100 normal and 100 abnormal 3D images each of which includes 64 slices resulting in 12800 slices. The used dataset is decomposed into 70% as a training dataset and 30% for validation dataset. Four basic steps are involved to build the proposed deep learning model. The first is preprocessing step, then the data augmentation process, after that there is the deep learning model configuration and the last step is the training and evaluation part. Forthe preprocessing step,rotate the volumes by random degrees, to get different image rotation results so that the model will be robust orientation variations. Scale HU values to be between 0 and 1(Convert pixel density values into a home field (CT number) by calculating pixel density values in different CT images and in order to compare these measurements statistically, the grayscale value is from 0-255 and we need to convert the values to HU (-100 to 1000)). Change the size, width, height, and depth (This change requires cropping in order to obtain the same image in several consistent or inconsistent sizes, as well as making it cropped sometimes and at other times while maintaining the size, in order to increase the number of the same perspective of the image). Resizing, rescaling and normalizationare used to get the lung tissues. The second step isthe data augmentation and data increase which are applied in order to increase the number of training images by using a rotated, flipped and contrast-modified copies of the same image so that the training will avoid the problem of fake training. The shuffling operation is also applied in order to provide training sample in a shuffle order to the training process. For the training model, we suggest using a modified version of 3D CNN network. We modified the architecture by replacing the fully-connected layer by the global average pooling layer and insert a dropout layer between the last two dense layers. After that, the dataset is splitted into 70% for training, 30% for validation. The experiments are applied in many scenarios using different training epochs, different data augmentation cases and using either the entire 3D images or the lung-tissues only. Experiments shows that the best epochs number is 25 and the best case is using the lung tissues only rather than using the entire lung 3D image. We get 70% accuracy for training and 71% validation accuracy. For future work, 3D CNN architecture can be modified by the following features: -Implementing the standardization method to better scale the data. -Training data using transfer learning method such as Resnet101 or augmenting data with InceptionV3 deep neural networks. -Increase the volume of data.