Spektrogram Tabanlı Derin Öğrenme ile Rakam Seslerinin Sınıflandırılması

Authors

  • M. Alptekin Engin Elektrik Elektronik Mühendisliği Bölümü, Bayburt Üniversitesi, Türkiye
  • Latif Akçay Elektrik Elektronik Mühendisliği Bölümü, Bayburt Üniversitesi, Türkiye

DOI:

https://doi.org/10.59287/as-proceedings.139

Keywords:

Ses İşleme, İşaret İşleme, Sınıflandırma, Derin Öğrenme, Rakam Seslerinin Sınıflandırılması

Abstract

Konuşmacıdan bağımsız olarak konuşma seslerinin makineler tarafından tanınması problemi günümüzde geçerliliğini sürdüren bir problem olarak karşımıza çıkmaktadır. Bu seslerin içerisinde olan rakam seslerini günlük hayatımızda birçok eylemimizde yaygın olarak kullanmaktayız. Yapılan çalışmada temel amaç 0 dan 9 a kadar olan tüm rakam seslerinin yüksek doğruluk ile sınıflandırılmasının sağlanmasıdır. Temel olarak ilgili çalışma toplam 10 sınıf üzerine bir sınıflandırma probleminin derin öğrenme ve spektrogram yaklaşımları ile değerlendirilmesidir. Yapılan çalışmada rakam seslerinden meydana gelen geniş bir veri tabanı kullanılarak bu seslerin farklı derin öğrenme mimarileri aracılığı ile sınıflandırılması sağlanmıştır. Kullanılan Free Spoken Digit Dataset (FSDD) içerisinde farklı konuşmacılar tarafından seslendirilen 0 ile 9 arasındaki rakamlarından oluşan 3000 adet farklı rakam sesi örneği bulunmaktadır. Yapılan çalışmada bu ses işaretlerinin zaman-frekans gösterimlerinden spektrogram çıkarımı yöntemi uygulanmıştır. Daha sonra elde edilen spektrogram görüntülerine yapay zekâ temelli derin öğrenme üzerine VGG16, VGG19, Densenet201, InceptionV3 ve MobilenetV2 sınıflandırma mimarisi yöntemleri transfer öğrenme aracılığı ile uygulanmıştır. Sınıflandırma modeli oluşturulurken tüm verilerin %90 ı eğitimde kullanılmıştır. Kalan veriler ise oluşturulan sınıflandırma modelinin sınanmasında yani test aşamasında kullanılmıştır. Eğitim aşamasında 5 katmanlı çapraz doğrulama yöntemi aracılığı ile eğitim modelinin doğrulanması sağlanmıştır. Sonuç olarak kullanılan derin öğrenme tabanlı mimariler içerisinde en yüksek sınıflandırma doğruluk değeri VGG19 mimarisinde %93.33 olarak tespit edilmiştir.

Downloads

Published

2023-04-01

How to Cite

Engin, M. A., & Akçay, L. (2023). Spektrogram Tabanlı Derin Öğrenme ile Rakam Seslerinin Sınıflandırılması. AS-Proceedings, 1(2), 138–142. https://doi.org/10.59287/as-proceedings.139