Açık Akademik Arşiv Sistemi

Arabic text summarization using pagerank and word embedding algorithms = Pagerank ve kelime gömme algoritmaları kullanarak arapça metin özetleme

Show simple item record

dc.contributor.advisor Doktor Tuğrul Taşcı
dc.date.accessioned 2022-12-14T14:09:32Z
dc.date.available 2022-12-14T14:09:32Z
dc.date.issued 2022
dc.identifier.citation Alselwi, Ghadir Abdulhakim Abdo Abdullah. (2022). Arabic text summarization using pagerank and word embedding algorithms = Pagerank ve kelime gömme algoritmaları kullanarak arapça metin özetleme. (Yayınlanmamış Yüksek Lisans Tezi). Sakarya Üniversitesi Fen Bilimleri Enstitüsü, Sakarya.
dc.identifier.uri https://hdl.handle.net/20.500.12619/98818
dc.description 06.03.2018 tarihli ve 30352 sayılı Resmi Gazetede yayımlanan “Yükseköğretim Kanunu İle Bazı Kanun Ve Kanun Hükmünde Kararnamelerde Değişiklik Yapılması Hakkında Kanun” ile 18.06.2018 tarihli “Lisansüstü Tezlerin Elektronik Ortamda Toplanması, Düzenlenmesi ve Erişime Açılmasına İlişkin Yönerge” gereğince tam metin erişime açılmıştır.
dc.description.abstract Arapça, 200 milyondan fazla insanın ilk dili olarak kullandığı, dünyanın en sık konuşulan dillerinden biridir ve 26 ülkenin resmi dilidir. Arapça metin özetleme (ArTS) son yıllarda popülaritesini artırmış olsa da, mevcut ATS sistemlerinin kalitesinin iyileştirilmesi gerekmektedir. Arapça doğal dil işlemede grafik tabanlı teknikler son yıllarda açıkça popülerlik kazanmıştır. Büyük ve zor yapıları standart ve biçimsel yollarla düzenleme yeteneklerinden dolayı, grafikler Arapça dil zorluklarını fethetmeye ve en aza indirmeye yardımcı olmak için yararlı bir şekilde kullanılabilir ve geliştirilebilir. Bu çalışma, tek belgeli bir Grafik tabanlı Ekstraktif Arapça Metin Özetleme (GEATS) önerdi. PageRank yöntemi, kelime gömme ile birlikte kullanılır. Herhangi iki cümlenin benzerliği, cümlelerin kosinüs benzerliğine göre sıralanmasıyla hesaplanır. Her cümle için nihai puan PageRank puanlaması kullanılarak belirlenir ve yüksek puan alan cümleler, belgenin cümlelerinin %40'ı olan sıkıştırma oranı dikkate alınarak özete dahil edilir. Bu tekniğin performansını test etmek için EASC Corpus kullanıldı. ROUGE-1, ROUGE-2 ve BLUE metrikleri de değerlendirme sürecinde kullanılmaktadır. Bulgular, önerilen yöntemin en gelişmiş yaklaşımlardan daha iyi performans gösterdiğini göstermiştir.
dc.description.abstract Arabic is one of the world's most frequently spoken languages, with over 200 million people using it as their first language, and it is the official language of 26 nations. Although Arabic text summarization (ArTS) has increased in popularity in recent years, the quality of current ATS systems need improvement. Graph-based techniques on Arabic natural language processing have clearly gained popularity in recent years. Because of their ability to arrange large and difficult structures into standard and formal ways, graphs may be used and developed in a helpful way to assist in conquering and minimizing Arabic language challenges. This study proposed a single-document Graph-based Extractive Arabic Text Summarization (GEATS). The PageRank method is used, along with word embedding. The similarity of any two sentences is calculated by ranking the sentences based on cosine similarity. The final score for each sentence is determined using PageRank scoring. Then, the summary includes the sentences with the highest ratings taking into account the compression ratio, which is 40% of the document's sentences. The EASC Corpus is used as a standard corpus to test the performance of this technique. ROUGE-1, ROUGE-2, and BLUE metrics are also employed in the evaluation process. The findings demonstrated that the proposed strategy outperforms state-of-the-art approaches.
dc.format.extent xi, 54 yaprak : şekil, tablo ; 30 cm.
dc.language İngilizce
dc.language.iso eng
dc.publisher Sakarya Üniversitesi
dc.rights.uri http://creativecommons.org/licenses/by/4.0/
dc.rights.uri info:eu-repo/semantics/openAccess
dc.subject Arabic text summarization,
dc.subject pagerank algorithm,
dc.subject word embedding,
dc.subject graph-based,
dc.subject word2vec,
dc.subject extractive Arabic text summarization,
dc.title Arabic text summarization using pagerank and word embedding algorithms = Pagerank ve kelime gömme algoritmaları kullanarak arapça metin özetleme
dc.contributor.department Sakarya Üniversitesi Institute of Science and Technology, Information Systems Engineering,
dc.contributor.author Alselwi, Ghadir Abdulhakim Abdo Abdullah
dc.relation.publicationcategory Yüksek Lisans


Files in this item

This item appears in the following Collection(s)

Show simple item record

http://creativecommons.org/licenses/by/4.0/ Except where otherwise noted, this item's license is described as http://creativecommons.org/licenses/by/4.0/