Son yıllarda, konuşma tanıma sistemlerinin performansını iyileştirmek için derin öğrenme modelleri yaygın olarak kullanılmaktadır. Bu modeller, girdi verilerindeki kalıpları öğrenme ve tanıma ve bu kalıplara dayalı tahminler yapma yeteneğine sahiptir. Bununla birlikte, bu modellerin bir sınırlaması, girdi verilerinde doğrusal olmayan ilişkileri yakalayamamalarıdır. Bu çalışmada, yeni bir katman ikinci dereceden 1D Volterra Convolution (Volt1D) katmanı tanıtarak derin öğrenme modelleri kullanarak konuşma tanıma performansını iyileştirmeyi amaçladık. Volt1D katmanı, çok çeşitli doğrusal olmayan işlevleri temsil edebilen matematiksel bir araç olan Volterra serisi konvolüsyonu temel alan özel bir TensorFlow katmanıdır. Volt1D katmanının performansını, 20 sözlü sözcük sınıfından oluşan konuşma komutları veri kümesi v0.01'de standart Conv1D katmanının performansıyla karşılaştırdık. Sonuçlarımız, Volt1D katmanının 10 dönemle %64,91'lik bir doğruluğa ulaştığını gösterdi; bu, 10 dönemle Conv1D katmanı kullanılarak elde edilen %60,02'lik temel doğruluktan önemli ölçüde daha yüksek. Bu, Volt1D katmanının konuşma verilerindeki doğrusal olmayan ilişkileri çıkarmadaki etkinliğini gösterir. Volt1D katmanını kullanarak konuşma verilerindeki doğrusal olmayan ilişkileri yakalamak olan çalışmamızın ana amacı ile ilgili olarak bu yaklaşımların güçlü yanlarını ve sınırlamalarını da tartıştık. Doğrusal olmayan ilişkileri etkili bir şekilde yakalayabildiği ve derin öğrenme modellerinin performansını iyileştirebildiği için Volt1D katmanının konuşma tanıma için umut verici bir yaklaşım olduğunu bulduk. Volt1D katmanının ana güçlü yönlerinden biri, çok çeşitli doğrusal olmayan fonksiyonları temsil etme yeteneğidir. Bu, onu, konuşulan sözcükleri doğru bir şekilde metne dönüştürmek için önemli olan girdi verilerindeki karmaşık ilişkileri yakalamak için çok uygun hale getirir. Ek olarak, Volt1D katmanı hesaplama açısından verimlidir, bu da gerçek zamanlı konuşma tanıma uygulamalarında önemli bir hesaplama yüküne maruz kalmadan kullanılabileceği anlamına gelir. Bununla birlikte, Volt1D katmanının bazı sınırlamaları da vardır. Bir sınırlama, girdi verilerindeki karmaşık doğrusal olmayan ilişkileri öğrenmek için büyük miktarda eğitim verisi gerektirmesidir. Bu, daha küçük veri kümeleri veya büyük miktarda eğitim verisine sınırlı erişimin olduğu uygulamalar için zor olabilir. Ek olarak, Volt1D katmanı, RNN'ler veya LSTM'ler gibi diğer yaklaşımlarla karşılaştırıldığında girdi verilerindeki uzun vadeli bağımlılıkları yakalamada o kadar etkili olmayabilir. Sonuç olarak, Volt1D katmanı, derin öğrenme modellerini kullanarak konuşma tanıma performansını iyileştirmek için umut verici bir yaklaşımdır. Girdi verilerindeki doğrusal olmayan ilişkileri etkili bir şekilde yakalayabilir ve doğruluk ve hesaplama verimliliği açısından diğer yaklaşımlardan daha iyi performans gösterebilir. Ancak, büyük miktarda eğitim verisine duyulan ihtiyaç ve girdi verilerindeki uzun vadeli bağımlılıkları yakalama yeteneği ile sınırlı olabilir.
Deep learning algorithms have garnered much attention recently, their success in enhancing the accuracy of automatic speech recognition systems has caused an increase in their usage. These models have the ability to identify patterns within input data and generate predictions based on these patterns. However, a limitation of these models is their inability to capture nonlinear relationships within input data. This study aimed to enhance the performance of automatic speech recognition through the incorporation of a second-order, one-dimensional Volterra Convolution (Volt1D) layer into deep learning models. The Volt1D layer is a custom TensorFlow layer that is founded on the Volterra series convolution, a mathematical tool capable of representing a wide array of nonlinear functions. To evaluate the efficacy of the Volt1D layer, we compared its performance to that of the standard Conv1D layer using the speech commands dataset v0.01, which consists of 20 classes of spoken words. Our results indicated that the Volt1D layer achieved an accuracy of 64.91% over 10 epochs, a significant improvement over the baseline accuracy of 60.02% using the Conv1D layer over 10 epochs. This demonstrates the Volt1D layer's effectiveness in extracting nonlinear relationships within speech data. We talked about the advantages and disadvantages of these approaches. with regard to the main objective of the study, which was to capture nonlinear relationships in speech data through the use of the Volt1D layer. We found that the Volt1D layer is a promising approach for speech recognition due to its ability to effectively capture nonlinear relationships and enhance the effectiveness of deep learning models. One of the primary strengths of the Volt1D layer is its capability to represent a wide range of nonlinear functions, making it suitable for capturing complex relationships within input data, a crucial factor in accurately transcribing spoken words into written text. In addition, the Volt1D layer is computationally efficient, allowing for its utilization in real-time speech recognition applications without incurring excessive computational overhead. However, there are also some limitations to the Volt1D layer. One limitation is that these models require a vast amount of training data to effectively learn the intricate nonlinear relationships within input data, which can be problematic for smaller datasets or applications with limited access to ample training data. Additionally, the Volt1D layer may not be as effective at capturing long-term dependencies within input data as other methods like RNN or LSTM models In conclusion, the Volt1D layer represents a promising approach for improving the performance of automatic speech recognition through deep learning models. It is able to effectively capture nonlinear relationships within input data, exhibiting superior accuracy and computational efficiency compared to other methods. However, the model may be constrained by the need for a substantial amount of training data and its capacity to identify long-term dependencies within input data.