Efficient Action And Event Recognition In Videos Using Extreme Learning Machines

Summary:

A great deal of research in computer vision community has gone into action and event recognition studies. Automatic video understanding for actions are crucial for application areas such as video indexing, surveillance and video summarization. In this thesis, we explore action and event recognition on RGB videos both in terms of feature extraction and classification. We propose a novel approach for large-scale action recognition in a realistic setting. After reviewing the technical background about recent popular video description methods, we present our approach in which improved dense trajectory features in combination with Fisher vector encoding are fed to extreme learning machine classifier. It is shown that extreme learning machine provides a fast and accurate alternative to other traditional classifiers such as support vector machines. Additionally, we investigate the usability of some mid-level features that we introduce to encode information about human part regions. We extensively study each step of our pipeline in a comparative manner. We evaluate our approach on recently published benchmarks which were introduced as challenge datasets: UCF101, THUMOS 2014 and ChaLearn Looking at People 2014 Track 2. Videos in the first dataset contain cropped actions while the ones in the last two datasets are temporally untrimmed, introducing more challenge. On 102 action classes of THUMOS 2014 dataset, we achieve 63.37% mean average precision using the challenge protocol, which has ranked 3rd among other participants. Our results show that, using extreme learning machine, efficient learning can be performed in terms of both time and computational complexity while preserving high performance.

Özet:

Bilgisayarla görme alanında, hareket ve etkinlik tanıma üzerine birçok araştırma yapılmıştır. Video indeksleme, gözetim ve video özetleme gibi uygulama alanları için videolarda hareket tanıma oldukça önem taşır. Bu tezde, KYM videolarda hareket ve etkinlik tanıma, hem öznitelik çıkarma hem de sınıflandırma açısından araştırılmaktadır. Gerçekçi ortamda büyük ölçekli hareket tanıma problemi için yeni bir yaklaşım önerilmektedir. Video betimleme yöntemlerinin üzerinden geçildikten sonra, önerilen yaklaşım tanıtılmaktadır. Bu yaklaşımda, Fisher vektörleri ile tanımlanmış yerel yörünge öznitelikleri, aşırı öğrenme makinesi (extreme learning machine) sınıflandırıcısına verilmektedir. Aşırı öğrenme makinesinin, destek vektör makinesi gibi diğer sınıflandırıcılara göre daha hızlı ve başarılı bir alternatif olduğu gösterilmiştir. Ek olarak bu çalışmada, insan vücudu bölümleri hakkında bilgi içeren bazı orta seviye özniteliklerin bu problem için kullanılabilirliği araştırılmaktadır. Önerilen yaklaşımın her basamağı yoğun ve karşılaştırmalı bir şekilde incelenmektedir. Değerlendirmeler yakın zamanda ilk olarak yarışmalar için yayınlanmış gösterge veri kümeleri üzerinde yapılmaktadır. Bunlar UCF101, THUMOS 2014 ve ChaLearn Looking at People 2014 Track 2 olarak sıralanabilir. İlk veri kümesindeki videolar sadece hareket içerecek şekilde kırpılmışken, diğer iki veri kümesindekiler zamansal olarak kırpılmamıştır ve dolayısıyla daha zor koşullar içerir. THUMOS 2014 veri kümesindeki 102 hareket sınıfı üzerinde %63.37 ortalama başarı elde edilmiştir. Bu sistem THUMOS yarışmasında üçüncülük almıştır. Sonuçlarımız aşırı öğrenme makinesinin hem hesaplama açısından etkin, hem de yüksek başarılı bir sınıflandırıcı olduğunu göstermiştir.

Search form

Main Menu

Efficient Action And Event Recognition In Videos Using Extreme Learning Machines