A faithfulness-aware pretraining strategy for abstractive text summarization = Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi

Alrefaai, Mohanad

DSpace Home
→
Enstitüler / Institutes
→
Fen Bilimleri Enstitüsü / Instıtute of Scıence and Technology
→
Tez Koleksiyonu
→
2023 Yüksek Lisans Tezleri Koleksiyonu
→
View Item

dc.contributor.advisor	Profesör Doktor Devrim Akgün
dc.date.accessioned	2024-07-10T08:29:17Z
dc.date.available	2024-07-10T08:29:17Z
dc.date.issued	2023
dc.identifier.citation	Alrefaai, Mohanad. (2023). A faithfulness-aware pretraining strategy for abstractive text summarization = Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi. (Yayınlanmamış Yüksek Lisans Tezi). Sakarya Üniversitesi Fen Bilimleri Enstitüsü
dc.identifier.uri	https://hdl.handle.net/20.500.12619/102452
dc.description	06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır.
dc.description.abstract	Metin özetlemesi, bir metinden anahtar noktaları çıkarmak ve metnin özünü yakalayan kesin bir temsil oluşturmakla ilgilidir. Bu süreç, bilgi zengini bir dünyada bilgi korumayı ve anlamayı kolaylaştırır. Soyutlama, temel kavramları kısa ve tutarlı bir şekilde iletmek için orijinal materyalin sıkıştırılmasını, yeniden ifade edilmesini ve kaynak metin sözcüklerinden farklı sözcükler kullanılarak yeni cümleler oluşturulmasını içerir. Derin Öğrenme son yıllarda soyutlayıcı metin özetlemede önemli ilerlemelere yol açmıştır. Soyutlama oluşturmanın geleneksel yolu, LSTM ve GRU gibi tekrarlayan yapıdaki sinir ağlarından (RNN) oluşan diziden diziye (seq2seq) modellerini kullanmaktır. Ancak RNN modelleri, giriş dizilerindeki kelimeler arasındaki anlamsal ve bağlamsal ilişkilerin anlaşılması ve yavaş hesaplama sorunu yaşamaktadır. Transformer mimarisi, özellikle metnin yeniden ifade edilmesi, makine çevirisi ve metin özetleme gibi metin oluşturma faaliyetlerinde doğal dil işleme teknolojisi (NLP) alanını önemli ölçüde etkilemiştir. Büyük dil modelleri (LLM) modelleri son yıllarda yapılan çalışmalarda giderek daha fazla kullanılmakta ve soyutlayıcı metin özetlemede önemli başarılar elde etmektedir. Bu gelişmelere rağmen son dönemde yapılan çalışmalar hazırlanan özetlerde "halüsinasyon" olarak adlandırılan bir durumunun ön plana çıktığını göstermektedir. Halüsinasyon, kaynak metindeki bazı önemli ifadelerin ve öğelerin özetten çıkarıldığı, konu dışı bilgilerin yanlışlıkla dahil edildiği anlamına gelir. Bu durum özetin kaynak materyale ne ölçüde sadık kaldığını vurgulama ihtiyacını ortaya çıkarmaktadır. Çok sayıda araştırma soyutlayıcı metin özetlemenin doğruluğu üzerine araştırmalar gerçekleştirmiştirr. Bu çalışmalar üç ana kategoriye ayrılabilir: süreç sonrası yaklaşımlar, sadakat bilinci oluşturma yöntemleri ve özel eğitim yöntemleri. Bazı süreç sonrası yaklaşımlar, özeti oluşturduktan sonra halüsinasyonlu varlıklar sorununu çözmeyi amaçlamaktadır. Bu süreç, halüsinasyonlu varlıkların tanımlanmasını ve daha doğru adlandırılmış varlıklarla değiştirilmesini içerir. Ayrıca, diğer çalışmalar alternatif bir süreç sonrası strateji uygulamak için karşılaştırmalı bir öğrenme yaklaşımı kullanmıştır. Öte yandan, sadakat bilincine sahip üretim stratejileri, kod çözme aşamasında sadakati önceliklendirmek için ışın aramayı (beam search) kullanarak özet sürecinin üretim aşamasında sadakati artırmaya odaklanır. Bunun yanında bazı çalışmalar sadakati geliştirmek için özelleştirilmiş eğitim yöntemleri önermektedir. Birçok çalışma metin oluşturma görevleri için özelleştirilmiş ön eğitim hedeflerini kullanılmıştır. Örneğin, soyutlayıcı metin özetlemede gerçekçiliği geliştirmek için özel bir sadakat-farkındalığı ön eğitim stratejisi tanıtılmıştır. Ek olarak, adlandırılmış varlıkların soyutlayıcı özetlemeye dahil edilmesini geliştirmek için başka bir özelleştirilmiş ön eğitim yöntemi önerilmiştir. Ancak bu çalışmalar öncelikle model düzeltme ve son işlemlere odaklanmakta ve ön eğitimin kritik rolünü ihmal etmektedir. Bu araştırmanın amacı ön eğitim yöntemlerinin sadakat üzerindeki etkisini araştırmak ve bunu geliştirmeye yönelik yeni bir yaklaşım sunmaktır. Önerilen ön eğitim stratejisi, BART büyük dil modelini sadakatle güçlü bir şekilde ilişkili olan belirteçlere ve varlıklara öncelik verme konusunda yönlendirir. Model bu belirteçlerin bağlamsal temsillerine yönelirse daha aslına uygun özetler üretme olasılığı daha yüksektir. Ön eğitim sürecini üç ayırt edilebilir adım oluşturur. İlk adım, kaynak belgelerde yer alan her cümle için bir derecelendirme sağlamak amacıyla eğitim öncesi veri kümesini ön işlemek olacaktır. Bunu takiben her cümleye verilen önem doğrultusunda belirteçleri (token) seçici olarak maskelenmiştir. Daha yüksek önceliğe sahip cümleler, daha düşük önceliğe sahip cümlelere göre daha önemli sayıda maskelenmiş belirtece sahiptir. Çalışmada LLM modellerini sadakat üzerinde olumlu etkisi olan varlıklara ve belirteçlere daha fazla öncelik vererek yönlendirmek amaçlanmıştır. Maskeli dil modelleme (MLM), BART dil modelinin temel eğitim yaklaşımıdır. Bu yöntemde, rastgele bir kelime alt kümesi maskelenir ve eğitimin amacı, doğru bir şekilde maskelenen belirteçleri oluşturmaktır. BART görevin belirli amacına göre kullanılabilecek MLM'e yönelik diğer yaklaşımlar için bir temel oluşturabilir. BART, belirli bir maskeli token grubunu tahmin etmek için önceden eğitildiğinde, bu belirteçlere daha fazla dikkat eder ve onlara daha duyarlı hale gelir. Bundan dolayı,maskeleme için en uygun belirteçleri belirlemek amacıyla yeni bir yöntem tasarlamak önemlidir. Bu amaçla, maskelemenin doğru bir şekilde tahmin edilmesine ve dolayısıyla her bir belirtecin maskelenip maskelenmeyeceğine karar verilmesine olanak tanıyan bir strateji geliştirilmiştir. Bu yöntem, varlıklar olarak adlandırılan veya cümlelerde diğerlerinden daha büyük anlam taşıyan belirteçlere daha yüksek puanlar atar. Tez çalışmasında, her bir ifadenin önem düzeyini belirlemek için iki temel metrik kullanılmıştır. Bunlardan ilki ROUGE-1 puanı ilk ölçümüdür ve bir ifadenin ve tüm metnin kelimeler arasındaki örtüşme derecesini belirlemek için kullanılır. İkinci metrik ise bir cümlede bulunan adlandırılmış varlıkların sayısıdır. ROUGE-1'in seçimi, dikkatin bir kısmının özetten oluşan göreve ayrılması ve aynı zamanda belirtilen varlıkların sayısı da dikkate alınarak yapılmıştır. Listelenen öğelerin benzersiz bağlamına daha fazla vurgu yapılarak ve doğrudan sadakatle ilişkilendirilerek metriklerin kullanılması, süreci iyileştirme potansiyeline sahiptir. BART'ın adlandırılmış varlık belirteçleri ile diğer maskelenmiş belirteçler arasında tanımlama yapabilmesini sağlamak için iki tür maske oluşturduk. Maskelerin ilk kategorisi adlandırılmamış varlık belirteçlerini içerirken, ikinci kategori adlandırılmış varlık belirteçlerine ayrılmıştır. Ön eğitim aşaması öncelikle maskelenmiş belirteçlerin tahmin edilmesiyle ilgili olduğundan ve alt hedefin özet yapı olması amaçlandığından, ön eğitim ve ince ayar aşamaları arasında hala bir boşluk bulunur. Bundan dolayı, bağlayıcı belirtecini belgenin başına dahil ederek transfer öğrenme sürecinin etkinliğini artırmak için her iki aşamada da giriş belgesine bir bağlayıcı belirteci eklemeyi içeren bağlayıcı stratejisini kullanılmıştır. Geliştirilen yöntem iki soyutlayıcı özetleme veri seti olan XSUM ve ARXIV üzerinde değerlendirilmiş ve iki veri seti üzerinde BART'ın ön eğitimi ile elde edilen modeller BART-XFA ve Bart-AFA olarak adlandırılmıştır. Deneysel sonuçlar ince ayarlı BART-XFA'nın, QuestEval metriği ile ölçülen, BART-MLM'ye kıyasla tüm deneylerde daha yüksek doğruluk puanları elde ettiğini göstermiştir. Bunun yanında, aslına uygunluktaki bu iyileşmenin özetleme puanı üzerinde olumsuz bir etkisi gözlenmemiştir. BART-XFA ve BART-AFA modelleri, neredeyse tüm özet metriklerde tipik BART-MLM sonuçlarına göre daha olumlu sonuçlar elde edilmiştir. Adlandırılmış varlık tespit yöntemlerinin güvenilirliğinin, özelleştirilmiş ön eğitim yaklaşımımızla elde edilen sonuçların doğruluğu üzerindeki etkisi incelenmiştir. Soyutlayıcı metin özetlemedeki doğruluk derecesini doğru bir şekilde ölçmek için özelleştirilmiş bir QuestEval metriğini uygulanmıştır. Ayrıca özel maskeleme işlevinin, diğer sadakat ölçütlerini de dahil ederek daha da özelleştirilebileceğini gösterilmiştir. Bu, zaman alıcı yapısı ve metriklerin ölçümlerinin gerektirdiği yoğun hesaplamalar nedeniyle genellikle daha fazla işlem kaynağı gerektirir. Aslına sadık kalma ve özetleme sağlama arasında bir uzlaşma sağlamak için maskeleme tekniği özel fonksiyonumuzda tanımlanan skalerler kullanılarak yapılmıştır. Elde edilen sonuçlara göre, ön eğitim tekniklerinin soyutlayıcı metin özetlemenin doğruluğu üzerindeki önemli etkisini açıkça görülmektedir. Elde edilen sonuçlar, doğal dilin inceliklerinin ve karmaşıklıklarının daha derinlemesine anlaşılmasına yardımcı olarak gelecek çalışmalarda daha güvenilir ve kesin özetleme sistemleri oluşturmasına faydalı olacaktır.
dc.description.abstract	One of the main challenges in abstractive text summarizing is maintaining the faithfulness of the generated summaries compared to the source documents. In abstractive text summarizing, the term "faithfulness" refers to the degree to which a summary accurately and completely captures the essential information from the source text while maintaining the overall meaning and context. Recent works have made remarkable progress in addressing the issue of faithfulness in abstractive text summarization from several perspectives. For instance, some works suggested a post-process method to refine faithfulness. Others focused on the relationship between the decoding generation phase of the generative model and faithfulness. Furthermore, many studies put efforts into customizing the training phase in order to improve faithfulness. Nevertheless, these researches fail to adequately explore a central aspect, which is how pretraining strategies can impact and enhance the accuracy and reliability of faithfulness in abstractive text summarization. To address this problem, we have introduced an innovative pretraining strategy that stimulates the BART large language model to attend more to tokens and contexts correlated with faithfulness of the source text. To assess our approach, we conducted a thorough examination of its effects on both faithfulness and summarization. Our research revealed that the proposed technique improves the model's attention to the critical contexts that are strongly connected to the faithfulness of the original text. Furthermore, our experiments and analysis demonstrated that the introduced method outperforms the baseline model, which is pretrained using the traditional MLM techniques, in terms of different faithfulness metrics, such as QuestEval and BS-Fact metrics, in two downstream abstractive text summarization datasets. In addition, we investigated the possibility that the pretraining processes that were provided could improve the quality of the summaries that were created. This was determined by using summarization metrics such as ROUGE-N and BERT-Score.
dc.format.extent	xxvi, 58 yaprak : şekil, tablo ; 30 cm.
dc.language	İngilizce
dc.language.iso	eng
dc.publisher	Sakarya Üniversitesi
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.rights.uri	info:eu-repo/semantics/openAccess
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol,
dc.subject	Computer Engineering and Computer Science and Control
dc.title	A faithfulness-aware pretraining strategy for abstractive text summarization = Soyutlayıcı metin özetleme için sadakat-farkında bir ön eğitim stratejisi
dc.type	masterThesis
dc.contributor.department	Sakarya Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
dc.contributor.author	Alrefaai, Mohanad
dc.relation.publicationcategory	TEZ