Mutual information based feature selection for acoustic autism diagnosis

Mutual information based feature selection for acoustic autism diagnosis

Advisor: 

Fikret Gurgen

Assigned to: 

Sefika Yuzsever

Type: 

Year: 

2015

Status: 

Summary:

Pervasive Developmental Disorders (PDD) are known to affect children's social interactions and mental development. Prosodic and linguistic cues can be used to diagnose the disorders at early ages. Computational paralinguistics can be applied for tele-monitoring and/or educating the children with PDD. For better understanding the disorders, a small subset of highly informative features is needed. From machine learning perspective, feature selection (FS) is an important step for generalization ability of the learner and drawing inferences about the underlying problems. Since, the high dimensional data are vulnerable to comprise redundant and irrelevant features. The most popular FS methods depend on Mutual Information (MI), that resort to discretization of features. Though the effect of different discretization schemes are studied in literature, to the best of our knowledge the effect of different number of bins for equal width z-score discretization is not studied for MI based FS. Since MI computation depends on the number of discrete categories, we hypothesize that the feature ranking and therefore performance trajectory also changes. We carry out extensive experiments using eight MI based FS methods on the INTERSPEECH 2013 Autism sub-challenge corpus. The comparative results verify our hypothesis and lead to interesting remarks for future studies. Also in this thesis, adjustment for chance factor is proposed for normalizing MI measures, therefore obtaining a new MI based FS criterion. Finally, we choose the candidate ranked features by considering the effect of discretization, and achieve 70.68\% Unweighted Average Recall (UAR) performance on the test set using only 2\% of the feature set. This result advances state-of-the-art performance on the test set adhering to the challenge protocol.

Özet:

Çocukların sosyal etkileşimi ve zeka gelişiminin yaygın gelişsel hastalıklar (YGH) tarafından etkilendiği bilinmektedir. Bu hastalıkların erken yaşta teşhis edilmesinde vezinsel ve dilbilimsel ipuçları kullanılabilir. YGH'li çocukları uzaktan izlemek ve/veya eğitmek için hesaplamasal paralinguistik uygulanabilir. Hastalıkları daha iyi anlamak için, oldukça bilgi verici özniteliklerin küçük bir altkümesine ihtiyaç vardır. Makine öğrenimi perspektifinden bakıldığında, öznitelik seçimi (ÖS) öğrenicinin genelleme kabiliyeti için ve altta yatan problemler hakkında çıkarımlar yapmak için çok önemli bir aşamadır. Çünkü, yüksek boyutlu veriler bağıntısız ve artık özniteliklerden oluşmaya eğilimlidir. Ortak bilgiye dayalı en popüler öznitelik seçim yöntemleri, özniteliklerin ayrıklaştırılmasına başvurur. Literatürde farklı ayrıklaştırma yöntemlerinin etkisi incelenmiş olmasına rağmen, bildiğimiz kadarıyla eşit genişlikte z-skor ayrıklaştırma için farklı sayıda aralığın etkisi ortak bilgiye dayalı öznitelik seçimi için çalışılmamıştır. Ortak Bilgi (OB) hesaplaması ayrık bölümlerin sayısına bağlı olduğundan, öznitelik dizimi ve dolayısıyla performans yörüngesinin değişeceğini varsaymaktayız. INTERSPEECH 2013 Otizm alt müsabaka veri kümesinde ortak bilgiye dayalı öznitelik seçim yöntemleri kullanarak kapsamlı deneyler yaptık. Karşılaştırmalı sonuçlar varsayımımızı doğrulamakta olup gelecek çalışmalar için ilgi çekici yorumlara yol açmaktadır. Ek olarak bu tezde, OB normalizasyonu için şans faktörü düzeltmesi önerilmiş ve yeni bir OB temelli ÖS kriteri elde edilmiştir. Son olarak ayrıklaştırmanın etkisini dikkate alarak aday sıralı öznitelikleri seçiyor ve özniteliklerin sadece \%2'sini kullanarak test kümesinde \%70.68 Ağırlıksız Ortalama Tanıma (AOT) performansı elde ediyoruz. Bu sonuç, yarışma protokülüne bağlı kalarak test kümesi üzerinde alandaki en iyi performansı iyileştiriyor.

Bize Ulaşın

Bilgisayar Mühendisliği Bölümü, Boğaziçi Üniversitesi,
34342 Bebek, İstanbul, Türkiye

  • Telefon: +90 212 359 45 23/24
  • Faks: +90 212 2872461
 

Bizi takip edin

Sosyal Medya hesaplarımızı izleyerek bölümdeki gelişmeleri takip edebilirsiniz