Modlar Arası Transfer Öğrenimi İle Ses Sinyallerinden Duygu Tanıma

Fatma Patlar AkbulutKILIÇ, FAHREDDİN RAŞİT2024-01-102024-01-102023https://hdl.handle.net/11413/8953▪ Yüksek lisans tezi.İnsanların konuşma sırasında ifade ettikleri duyguları anlamak, uygun şekilde tepki vermek için önemlidir. Ses sinyallerinden anlayabileceğimiz bilgileri maksimize edebilmek için ilgili ses ve görüntünün transfer öğrenimi yöntemi ile analiz edilmesi önemlidir. Duygu tanıma çalışmalarıyla alakalı olarak derin öğrenme ve yapay zekâ algoritmalarıyla araştırmalar hız kazanmıştır. Özellikle yapay zekâ ve robotik sistemlerde, doğal ve empatik bir insan-makine etkileşimi sağlamak için ses sinyallerinden duygu analizi esastır. Bu sistemler sayesinde kullanıcı deneyimini zenginleştirerek daha etkili ve tatmin edici hizmetler sunulabilmektedir. Duygu analizi sağlık sektöründe de önemli bir rol oynamaktadır. Psikolojik hastalıkların teşhis ve takibinde, hastaların duygu durumlarını doğru bir şekilde tespit etmek, uygun tedavi ve müdahalelerin gerçekleştirilmesi için kritiktir. Eğitim sektöründe ise, öğrencilerin ve öğretmenlerin duygusal durumlarını anlamak, eğitim ve öğretim süreçlerini daha etkili hale getirmektedir. Reklam ve pazarlama alanında, tüketici duygularını analiz etmek, müşteri memnuniyetini ve marka sadakatini artırarak satışları ve karlılığı yükseltmektedir. Ayrıca, duygu analizi, oyun endüstrisinde daha gerçekçi ve etkileyici oyun deneyimleri sunmak için de kullanılmaktadır. Bu tez çalışmasında, ses sinyallerinden ve ses sinyallerine ait ilgili görüntülerden transfer öğrenme yöntemi ile bu verilerin duygu durumlarını tespit etmeye yönelik gelişmiş sınıflandırma ve analiz yöntemlerini kullanılarak doğru duygu tahminlerinde bulunmayı hedeflenmektedir. Bu çalışmada veri seti nötr, sakin, mutlu, üzgün, kızgın, korkulu, tiksinme ve şaşırmış olmak üzere 8 farklı duygu durumu kullanılmıştır. Ses verilerini analiz edebilmek için MFCC ve Log Mel Filter Bank olmak üzere iki yöntem, Dense ve LSTM olmak üzere iki derin öğrenme tekniği kullanılmıştır. Video veri setini analiz edebilmek içinse CNN ağ modeli kullanılmıştır. Toplamda 11 farklı uygulama gerçekleştirilen bu uygulamada modellerin başarısı analiz edilmiş ve sonuç olarak görüntü verilerinden sınıflama gerçekleştiren modelden konuşma ses sinyalleri verilerinden sınıflama gerçekleştiren modele transfer öğrenmesi yöntemi ile bilgi aktarımı gerçekleştirilip %6,78'lik başarı artışı sağlanmıştır. Ayrıca MFCC yönteminin LMFB'a göre daha başarılı olduğu, şarkı ses türünün ise konuşma ses türüne göre daha yüksek doğrulukla etiketlendiği görülmüştür.trinfo:eu-repo/semantics/openAccessSes SinyalleriDuygu AnaliziDerin ÖğrenmeTransfer ÖğrenmesiCNNLSTMMFCCLMFBDenseModlar Arası Transfer Öğrenimi İle Ses Sinyallerinden Duygu TanımaEmotion Recognition From Audio Signals With Cross-modal Transfer LearningmasterThesis806700