Integrating Morphology into Automatic Speech Recognition: Morpholexical and Discriminative Language Models for Turkish

Advisor:

Tunga Gungor

Co-Advisor:

Murat Saraclar

Assigned to:

Hasim Sak

Type:

Year:

2011

Status:

Completed

Full text (pdf)

Summary:

Languages with agglutinative or inflectional morphology have proven to be challenging for speech and language processing due to relatively large vocabulary sizes leading to a high number of out-of-vocabulary (OOV) words. In this thesis, we tackle with these challenges in automatic speech recognition (ASR) for Turkish which has an extremely productive inflectional and derivational morphology. First, we build the necessary tools and resources for Turkish, namely a finite-state morphological parser, a perceptron-based morphological disambiguator, and a text corpus collected from the world wide web.Second, we introduce two complementary language modeling approaches to alleviate the OOV word problem and to exploit morphology as a knowledge source. The first, morpholexical language model, is a generative n-gram model, where modeling units are lexical-grammatical morphemes instead of commonly used words or statistical sub-words. The second is a linear reranking model trained discriminatively with a variant of the perceptron algorithm, word error rate (WER) sensitive perceptron, using morpholexical and morphosyntactic features to rerank n-best candidates obtained with the generative model. We apply the proposed models in Turkish broadcast news transcription task and give experimental results. We also propose a novel approach for integrating morphology into an ASR system in the finite-state transducer framework as a knowledge source. The morpholexical model is highly effective in alleviating the OOV problem and improves the WER over word and statistical sub-word models by 1.8% and 0.8% absolute, respectively. The discriminatively trained model further improves the WER of the system by 0.8% absolute. Finally, we present an algorithm for on-the-fly lattice rescoring with low-latency.

Özet:

Göreceli olarak geniş bir dağarcığa sahip sondan eklemeli ya da çekimsel biçim-bilime sahip diller konuşma ve dil işlemede yüksek sayıda dağarcık dışı (DD) kelimenin görülmesine neden olduğundan bazı zorluklar sunmaktadır. Bu tezde, bu zorluklar ile otomatik konuşma tanıma (OKT) kapsamında çok üretken çekimli ve türevsel biçimbilime sahip olan Türkçe için ilgilenilmiştir.İlk olarak, Türkçe için gereken kaynakları ve araçları oluşturduk. Bunlar sonlu-durum biçimbilimsel çözümleyici, perceptron-tabanlı biçimbilimsel tekleştirici, ve metin derlemidir.İkinci olarak, DD kelime sorununu gidermek ve biçimbilimsel bilgiden kaynak olarak yararlanmak için birbirini tamamlayan iki dil modeli yaklaşımı geliştirilmiştir. İlk model, sıklıkla kullanılan kelime ve kelime-altı birimler yerine sözlüksel-dilbilgisel biçimbirimleri kullanan üretici n-birimli bir model olan biçim-sözlüksel dil modelidir. Ayrıca, sonlu durum dönüştürücü çerçevesinde biçimbilimi bir bilgi kaynağı olarak OKT sistemine bütünleştirmek için yeni bir yöntem sunulmuştur. İkinci model, üretici model ile elde edilen en iyi adayları tekrar sıralamak için biçim-sözlüksel ve biçim-dizimsel öznitelikleri kullanan kelime hata oranı (KHO) duyarlı algılayıcı bir algoritma ile ayırıcı olarak eğitilmiş doğrusal bir modeldir. Önerilen yöntemler haber kayıtlarının yazılandırılması için kullanıldı ve deneysel sonuçlar elde edildi. Biçim-sözlüksel model dağarcık dışı kelime sorununu nispeten gidermiş ve konuşma tanımada kelime hata oranını kelime ve istatistiki kelime-altı modellere göre sırasıyla %1.8 ve %0.8 oranında iyileştirmiştir. Ayırıcı olarak eğitilmiş model sistem başarımını %0.8 oranında daha da iyileştirmiştir. Son olarak, konuşma tanıma çıktısı olan kelime örgülerini tanıma yapılırken tekrar değerleyen bir algoritma geliştirilmiştir.

Search form

Main Menu

Integrating Morphology into Automatic Speech Recognition: Morpholexical and Discriminative Language Models for Turkish