Gelişmiş Israrcı Tehditler (Advanced Persistent Threat-APT) tarafından gerçekleştirilen veri sızıntıları kurumlar ve devletler için her geçen gün artan bir sorun olmaktadır. Yapılan çalışmalar APT kaynaklı risklere karşı belli aşama kaydetse de veri sızıntısı önleme (Data Leakage Prevention-DLP) konusunda yeterli başarımı gösterememektedirler. APT'ler sofistike yöntemlerinin yanında içerik-tabanlı veri sızdırma yöntemleri de kullanmakta ve literatürde bulunan çözümleri aşarak veri sızıntılarına neden olmaktadırlar. Bununla beraber, sistem çağrılarının zararlı tespitinde kullanımının etkinliği ve anlamsal analizin bir saldırıya ait ilişkileri açığa çıkarma başarımı ortaya konulmuştur. Bu tez kapsamında, etmen tabanlı bir mimari içerisinde ontoloji temelli bir karar verme mekanizması ile APT kaynaklı veri sızıntılarını önleme sistemi, APTONSYS sunulmaktadır. Sunulan yaklaşım, bir saldırının sistem çağrısı, proses, içerik gibi alt-seviye detayları, MITRE ATT&CK çerçevesi içerisinde yer alan teknik ve taktiklerle anlamsal olarak ilişkilendirebilme imkânı sunmaktadır. İçerik tabanlı saldırılara karşı dayanıklı yeni bir içerik sınıflandırma algoritması ve içerik tabanlı saldırıları tespit etme yöntemi de çözüm içerisinde yer almaktadır. Ayrıca sistem üzerinde tespit edilen teknik ve taktiklere dayalı bir APT risk seviyesi tespiti yaklaşımı sunulmaktadır. Sunulan çözümün etkinliği gerçek senaryolar ve açık kaynaklı APT simülasyon araçları ile yapılan testler ile ortaya konulmuştur. DLP sistemleri hassas içerikli verilerin kurum dışındaki ya da içindeki uygun olmayan konumlara aktarılmasını önlemeye yarayan sistemlerdir. Çeşitli içerik takip, eşleştirme ve sınıflandırma yöntemleri kullanarak durağan, hareket halinde ya da kullanımda olan verilerin hassasiyet seviyesini belirlemekte ve sonuca göre yapılmak istenen işleme izin vermekte ya da engellemektedirler. Basit ve genellikle yanlışlıkla yapılan sızıntıları engellemede başarılı olurlarken, son yıllarda artan şekildeki sızıntı olaylarının da gösterdiği üzere, maksatlı ve hedef odaklı sızıntılarda başarımlarını koruyamamaktadırlar. APT'ler, hedef odaklı, çoğu durumda arkasında bir komuta kontrol mekanizması olan, hedef sistemlerde mevcut olan araçları da kullanabilen sofistike yöntemlere sahip saldırganlardır. APT'ler, hedef sistemde uzun süreli kalarak, hak yükseltme yaparak, sistem içerisinde yayılarak ve sistemde var olan prosesleri kendi amaçları için kullanarak DLP tespit mekanizmalarını atlatabilmektedirler. DLP çözümleri genellikle "durum farkındalığı" taşımayan ve statik politika kurallarına dayanan denetim mekanizmaları içermektedirler. Bu kurallar, ilgili prosesin "çalıştırılabilir dosya", "kaynak" ve "hedef" gibi bileşenlerini dikkate almaktadırlar. APT kaynaklı saldırılarda ise sistem programlarını değiştirme, başka proseslerin hafıza alanına erişme, içeriği değiştirerek farklı konuma kaydetme, farklı ağ protokolleri kullanma, Powershell komut dosyaları kullanma, hak yükseltme gibi yöntemlerle bu politika kuralları aşılabilmektedir. DLP çözümlerinin APT'lere karşı yapısal zayıflıklarının yanında, kullandıkları içerik eşleştirme ve sınıflandırma yöntemlerinin maksatlı veri sızdırma saldırılarına karşı da zayıflıkları bulunmaktadır. İçeriğin değerlendirilmesinde kullandıkları istatistiksel analiz, parmak izi çıkarma ve düzenli ifadeler gibi yöntemler, içerik üzerinde yapılabilen basit ve küçük değişiklikler ile atlatılabilmektedir. İçerik üzerinde yapılabilecek bölüm, kelime ya da harf değiştirme saldırıları bu yöntemleri atlatabilmektedir. Ayrıca eş veya çok anlamlı kelime kullanma, kitap şifreleme, özet çıkarma gibi birçok farklı yöntemle içerik, orijinal halinden çıkarılarak DLP sistemleri etkisiz hale getirilebilmektedir. Veri sızdırma en temel amaçlarından birisi olan APT'ler de benzer içerik tabanlı saldırıları kullanarak DLP sistemlerini atlatmaktadırlar. Bu tez çalışması ile DLP sistemlerinde APT kaynaklı veri sızıntılarının önlenmesi amacıyla bütüncül bir sistem önerisi geliştirilmiştir. Bu kapsamda, ontoloji bilgisine dayalı etmen tabanlı bir sistem sunulmuştur. Bu sistem ile, ölçeklenebilir ve çevrimiçi olarak APT riski tespit edilebilmekte ve veri kaçırma atakları ile ilişkisi kurulabilmektedir. Ayrıca sistem içerisinde geliştirilen özgün içerik sınıflandırma algoritması ile maksatlı veri kaçırma saldırılarına dayanıklı bir içerik sınıflandırma gerçekleştirilebilmektedir. APT ve zararlı tespiti yönünde yapılan çalışmalar, APT'lerin hedefe ulaşana kadar izledikleri adımlar APT'ler arasında farklılık göstermekle beraber davranışsal yönün aynı kaldığı ve başarılı bir tespit için bir davranışsal analiz modeline ihtiyaç duyulduğunu göstermektedir. Bu kapsamda MITRE ATT&CK'ye dayalı olarak bir APT ile ilişkilendirilen Teknik ve Taktikleri tespit etmenin, savunma sisteminin geliştirilmesi, bakımı ve sağlamlığı açısından önemli bir yöntem olduğu görülmektedir. Bu sebeple, sunulan çözümde bu yönde bir çıkarım mekanizması oluşturulmuştur. APT'lerin özellikleri sebebiyle tek başına çalıştırabilir dosya analizi yapılması APT kaynaklı saldırıların bütün aşamalarında tespit sağlamak için yeterli değildir. Bu statik analiz adımına ek olarak sistemdeki proseslerin sürekli takip edilerek dinamik bir analiz gerçekleştirilmesi gerekir. Dinamik analiz için olay kayıtlarından (event logs) faydalanmak gibi yöntemler var olmakla beraber, bunlar sadece önceden tanımlanmış, belirli olayların tespit edilmesini sağlayabilirler. Bunun yanında, bu olay kayıtları Tehdit Algılama Sistemleri tarafından sürekli takip edildiği ve onları tetikleyebilecek durumlar sabit olduğundan APT'ler bu tür olay günlüklerini oluşturacak işlemleri yapmamaya çalışırlar. Bu noktada, işletim sistemi kütüphanelerinin uygulama programlama arayüzü (Application Programming Interface-API) çağrılarını kullanmak önemli bir fayda sağlayacaktır. Bu çağrılar, literatürde "sistem çağrıları" olarak adlandırılır. Kullanılan araç ne olursa olsun, sistem üzerinde gerçekleştirilen her işlem, bir sistem çağrısı ile gerçekleşir. Bu nedenle, APT'ler sistem çağrılarını kullanmaktan kaçınamazlar. Bir sistem çağrısının türü, kaynağı, kullanıcısı ve işlem gibi unsurlar APT'lerin TTP'leri ile ilişkilendirilebilirse saldırının ilerleyişi belirlenebilir. Bu nedenle tez kapsamında sunulan sistemde sistem çağrılarına ait bileşenler ve bunların ilişkileri değerlendirilerek APT davranışları tespit edilmektedir. Bir sistemi oluşturan bileşenler arasındaki ilişkilerin tespit edilmesinde ontoloji kullanımı ve anlamsal analiz literatürde önemli bir yer tutmaktadır. Çeşitli çalışmalarda saldırının kaynak, hedef, operasyon ve içerik gibi bileşenlerinin arasındaki anlamsal ilişkinin saldırı tespiti açısından önemi ortaya konulmuştur. Bu sebeple, tez kapsamında sistem çağrısına ait kategori, kaynak, hedef, kullanıcı hesabı gibi bileşenlerin, proses güvenlik değerlendirmesinin, içerik ve içerik atak tespiti durumlarının bütüncül olarak tanımlandığı ve ilişkilendirildiği özgün bir ontoloji, APTON sunulmuştur. Ontolojideki sınıf ve ilişkiler kullanılarak özgün APT teknik, taktik ve risk tespit kuralları sunulmuştur. Bu yönüyle APT tespiti ve DLP yaklaşımlarının birleştirildiği yeni bir çözüm sunmaktadır. APT'lerin birden fazla yürütülebilir dosya kullanabilmesi, sistemde var olan yazılım ve araçlardan faydalanmaları ve farklı bilgisayarlarda operasyonlarına devam edebilmeleri nedeniyle tekil proses ya da bilgisayar bazlı bir değerlendirme yerine, bütün ağdaki bilgisayarları içeren sistem genelinde bir analiz yapılması gerekmektedir. Bu sebeple, sunulan sistemde uç sistemlerde çalışan etmenler aracılığıyla sistem çağrılarının toplanması ve değerlendirilmeleri sağlanmaktadır. Etmenler arasında veri paylaşımı yapılması ile sonuçları birbirleriyle paylaşarak sistem genelinde bir tespit gerçekleştirmesi sağlanmıştır. DLP çözümlerinin APT'lerin içerik tabanlı saldırılarına karşı zayıflıklarına karşı literatürde bütüncül bir çözüm bulunmamakla beraber gerek saldırılara karşı direnci arttıracak gerekse de sınıflandırma başarımı sağlayacak yöntemler bulunmaktadır. Bu yöntemler ışığında, tez kapsamında içerik tabanlı saldırılara karşı dayanıklı, çok aşamalı özgün bir içerik sınıflandırma yöntemi sunulmuştur. Ayrıca proseslerin eriştiği içeriklerin sürekli takibi ile bilinen içerik tabanlı atakların tespiti sağlanarak APT davranış tespitine katkı sunulmaktadır. Son olarak, önerilen modeller ve sistem iki aşamalı olarak test edilerek başarımı gösterilmiştir. Öncelikle önerilen ontoloji modeli sistemden toplanan verilerle bağımsız olarak test edilmiştir. İçerik sınıflandırma algoritması da veri kümeleri ile bağımsız olarak test edilmiştir. Nihai olarak, kurulan ağ üzerinde APT ataklarının icra edilmesi ve bunun neticesinde sistem tarafından tespitlerin yapılması ile tez kapsamında sunulan etmen tabanlı APT veri sızıntısı tespit sisteminin başarımı bütüncül olarak sergilenmiştir.
Data leakage caused by Advanced Persistent Threats (APTs) is a growing concern for organizations and governments. Although recent studies have made progress addressing APT risks, they still lack sufficient capabilities for data leakage prevention (DLP). APTs employ content-based methods for data exfiltration alongside their sophisticated methods, increasing the risk of data exfiltration and reducing the effectiveness of the current solutions in the literature. On the other hand, using system calls has proven to be effective in malware detection and semantic analysis has been used for inferring relations regarding an attack successfully. This thesis proposes APTONSYS, an agent-based system that utilizes ontology-driven reasoning mechanism to prevent the data leakage caused by APTs. The proposed approach establishes semantic connections between low-level details of an attack, such as system call, process, and content information with the APT Technique and Tactics defined within the MITRE's ATT&CK framework. A novel content classification method and mechanism to detect content-based attacks executed by APTs are also integrated into the solution. Further, an APT Risk definition is introduced by using Techniques and Tactics that are applied in the system. The effectiveness of the solution is presented using experimental tests using data from real-life scenarios and open-source APT simulation tools. DLP systems are applications that prevent the transfer of sensitive content to inappropriate locations outside or inside an organization. By employing various content tracking, matching, and classification methods, they determine the sensitivity level of data at rest, in-motion, or in-use. Regarding the outcome, they allow or block actions. While they are successful in preventing simple and often accidental leaks, they have been unable to maintain their effectiveness in deliberate and targeted leaks, as evidenced by the increasing number of leakage incidents in recent years. APTs are attackers that utilize sophisticated methods, often with a command-and-control mechanism. They employ targeted methods and can utilize tools existing within target systems. They bypass DLP detection mechanisms by remaining in the target system for extended periods, elevating privileges, spreading within the system, and repurposing existing processes for their objectives. DLP solutions typically utilize static policy-based control mechanisms that lack "situational awareness". These rules take into account components such as the executable file, source, and destination of the process in question. However, in APT-based attacks, these policy rules can be circumvented by methods like altering system programs, accessing memory areas of other processes, saving content in different locations, using different network protocols, employing PowerShell scripts, and elevating privileges. Besides the structural vulnerabilities of DLP solutions against APTs, their employed content matching and classification methods also possess weaknesses against purposeful data exfiltration attacks. Methods such as statistical analysis, fingerprinting, and regular expressions employed in content classification can be bypassed through simple and minor alterations to the content. Attacks involving changes in sections, words, or letters on the content can evade these methods. Additionally, using synonymous or polysemous words, employing book ciphers, extracting summaries, and many other different methods can render the content ineffective against DLP systems by altering it from its original form. APTs, whose primary goal is data leakage bypass DLP systems by utilizing such content-based attacks. In this thesis, a comprehensive system proposal has been developed to prevent APT-sourced data leaks in DLP systems. Within this scope, an agent-based system relying on ontology knowledge has been presented. This system enables scalable and online detection of APT risks and establishes a connection with data leakage attacks. Additionally, the system incorporates a novel content classification algorithm that facilitates resilient content classification against purposeful data leakage attacks. In the context of research conducted towards APT and malware detection shows that while the steps taken by APTs may vary until they reach their target, their behavioral aspect remains consistent. This signifies the need for a behavioral analysis model for successful detection. Accordingly, it is observed that associating Techniques and Tactics with an APT based on MITRE ATT&CK is a crucial method for the development, maintenance, and robustness of the defense system. Therefore, the proposed solution includes such an inference mechanism. Due to the characteristics of APTs, conducting executable file analysis alone is insufficient to detect APT-originated attacks at all stages. A dynamic analysis is also needed on top of this static analysis by continuous monitoring of system processes. While methods like leveraging event logs exist for dynamic analysis, they can only identify predefined, specific events. Moreover, as these event logs are constantly monitored by Intrusion Detection Systems and triggered by certain conditions, APTs avoid performing actions that generate such event logs. In this context, utilizing Application Programming Interface (API) calls of operating system libraries becomes crucial. These calls are commonly known as "system calls" in literature. Regardless of the tool used, every operation executed on the system is conducted through a system call. Hence, APTs cannot evade using system calls. If the type, source, user, and operation of a system call can be associated with APTs' Tactics, Techniques, and Procedures (TTPs), the progression of an attack can be determined. Therefore, within the framework of this thesis, APT behaviors are identified by evaluating components related to system calls and their relationships. The literature shows that the use of ontology and semantic analysis holds significant importance in identifying relationships among components constituting a system. Numerous studies have highlighted the significance of semantic relationships between components such as the source, target, operation, and content concerning attack detection. Therefore, within the scope of this thesis, a novel ontology, APTON has been presented. It allows to define and correlate system call properties, such as category, source, target and user account with process security assessment, content classification, and content attack detection results. Novel APT technique, tactic, and risk detection rules are presented using the classes and relations in the ontology. This presents a novel solution that merges APT detection with DLP approaches. APTs can utilize multiple executable files, leverage existing software and tools within the system, and persist operations across different computers. Therefore, it is imperative to conduct an analysis across the entire system, encompassing all computers on the network. Hence, in the presented system, the collection and evaluation of system calls are facilitated through agents operating on endpoint systems. These agents can share results with each other, leading to a comprehensive detection across the system. While there is no comprehensive solution in the literature addressing the weaknesses of DLP solutions against content-based attacks used by APTs, there exist methods that can enhance resistance against such attacks and improve classification accuracy. By using these methods, a more resilient, multi-stage content classification method against content-based attacks is presented in this thesis. Additionally, by continuously monitoring the content accessed by processes, the detection of known content-based attacks is performed, aiding in APT behavior detection. Finally, the proposed models and system were tested in two stages to demonstrate their performance. Firstly, the proposed ontology model was tested independently with data collected from the system. The content classification algorithm was also independently tested with data sets. The comprehensive performance of the agent-based APT data leakage detection system was demonstrated by executing APT attacks on the established network and subsequently detecting them by the system.