Bilgisayarların insan hayatında aktif olarak kullanılmasından bu yana gelişen çoklu ortam teknolojileri ve konuşma teknolojileri bilgi ve iletişim çağında önemli rol oynamaktadır. Doğada üretilen veya müziksel enstrümanların ortaya çıkardıkları seslerin yanı sıra insanların ürettikleri sesler, yani insanın konuşması ve konuşulanları anlaması, konuşan kişiyi sesinden tanıması ile ilgili zaman içinde fiziko-akustik modeller geliştirilmiş olup, sinyal işleme teknolojileri de kullanılarak bu modeller bilgisayarlar yardımıyla gerçeklenmiştir. Zaman içinde konuşmanın geçtiği dilin iyi bir şekilde modelleyebilmenin de performansı ciddi şekilde etkilediği görülmüş ve doğal dil işleme teknolojileri ile işaret işleme teknolojileri entegre edilerek daha iyi sonuçlara ulaşılmıştır.Konuşma teknolojileri arasında metinden ses sentezleme konusu oldukça yoğun bir konuşma ve dil işleme çalışması gerektirir. Sentezlemede, sinyal işleme aşamalarından önce, bölütleme ve metin normalleştirme gibi ön işlemlere ihtiyaç duyduğundan, Doğal Dil İşlemenin en yoğun olarak kullanıldığı ses teknolojisi alanı olarak karşımıza çıkmaktadır. Başarılı bir sentezleyicinin geliştirilmesi için ister istemez sentezlenecek metnin dilinin çok iyi analiz edilmesi ve modellenmesi gerekmektedir.Bu çalışmada Türkçe'nin fonetik ve bürünsel özellikleri incelenmiş ve Türkçe ses kümesi oluşturulmuştur. Türkçe için üçlü seslerin sıklık analizi yapılmış ve en çok kullanılan üçlü sesler belirlenmiştir. Sentezleyicide kullanılacak veritabanı belirlenirken bu üçlü seslerden istifade edilerek hazırlanan veritabanı kullanılmıştır. Yöntem olarak ikili ve üçlü seslerin birleştirilmesine dayanan eklemeli bir sentezleyici geliştirilmiştir. Standart olmayan kelimelerin sentezlenebilmesi için metin normalleştirme birimi geliştirilmiştir. Sentezlenen konuşmaların kalitesinin değerlendirilmesi için öznel bir değerlendirme testi olan Mean Opinion Score (MOS) kullanılmıştır ve bu test çok özel bir altyapı olan yarı yansımasız. Odalarda ve öznel test odasında icra edilmiştir.
Since the actively use of computers and penetration of technologies have risen, multimedia technologies as well as speech technologies play an important role in the information and communication era. In the recent past physico-acoustic models have been developed and combined with signal processing techniques to understand not only the natural non-human voices or musical utterances but also human voice and identify the source of voice or speech. Although the former studies were mostly based on signal processing theory, modeling the spoken language has become a key point that affects the performance of the speech technologies. This has resulted with the efficient combination of natural language processing and signal processing technologies and this strategy has presented better results.Among the speech technologies, speech synthesis requires a dense work of speech and language processing. In synthesis, before the signal processing phase, segmentation and text normalization are required seriously. This makes synthesis one of the most renowned speech technology that uses NLP dominantly. In order to obtain a well-performing synthesizer, the studied language should be analyzed and modeled appropriately.In this thesis prosodic and phonetic properties of Turkish are studied and Turkish phoneme set is prepared. The frequency analysis of Turkish triphones is performed and speech database is prepared by taking these triphones into account. The synthesis method is based on an agglutinating method that combines diphones and triphones. In order to synthesize nonstandard words, text normalization is also applied. The quality of the final system is measured in terms of Mean Opinion Score (MOS) in very special subjective test room.