Softly Semi-Supervised Learning For Bioinformatics Applications

Summary:

Binary classification of biological data is an important research problem both in the Bioinformatics and Machine Learning fields. This problem is particularly challenging when the number of labeled instances is very few. There are three main machine learning approaches for classification: supervised methods, which only use labeled data, unsupervised methods, which only use unlabeled data, and semi-supervised methods, which use both labeled and unlabeled data. In this study, we compare the supervised and various developed semi-supervised methods which are based on k-NN (k Nearest Neighbor), SVM (Support Vector Machine) with linear kernel, and SVM with RBF (Radial Basis Function) kernel for two different Bioinformatics problems: predicting reccurrence in colorectal cancer from microarray data and predicting HIV-1-Human protein-protein interactions. As distinct from traditional semi-supervised learning approaches, we introduce the definition of `softly labeled' data that defines unlabeled data with additional information about their highly expected labels. We also evaluate our algorithms on a well-known optical digit dataset to classify the numbers `5' and `6' by generating synthetic noise and use as softly labeled data to better understand the behaviors of our algorithms. For all datasets, we concluded that softly labeled data are informative and enhances the evaluation results. Our semi-supervised methods SS-kNN (Semi-supervised kNN) and SS-SVM (Semi-supervised SVM) perform better than other algorithms in terms of accuracy for colorectal cancer and optical digit data, and area under the precision-recall curve for HIV-1-human protein-protein interaction data. Furthermore, in general, our semi-supervised methods achieve better performances than the supervised ones.

Özet:

Biyolojik verilerin ikili sınıflandırması hem Biyoenformatik hem de Makine Öğrenmesi alanları için önemli bir araştırma problemidir. Özellikle etiketlenmiş verilerin sayısı çok azsa, bu problem daha da zorlaşmaktadır. İkili sınıflandırma için kullanılan üç ana makine öğrenmesi yontemi bulunmaktadır: sadece etiketlenmiş verileri kullanan gözetimli öğrenme, sadece etiketlenmemiş verileri kullanan gözetimsiz öğrenme ve hem etiketlenmiş hem de etiketlenmemiş verileri kullanan yarı-gözetimli öğrenme. Bu çalışmada, k-NN (En Yakın k Komşu), Liner ve RBF (Radyal Temelli Fonksiyon) çekirdek fonksiyonları ile SVM (Destek Vektör Makinesi) algoritmalarını temel alan gözetimli öğrenme ve bizim geliştirdiğimiz çeşitli yarı-gözetimli öğrenme algoritmaları, iki farkli biyoenformatik verisi olan insan HIV-1 virüsü protein-protein etkileşimlerini öngörmek ve kolon kanseri tekrarlamasını öngörmek için karşılaştırılmıştır. Geleneksel yarı-gözetimli öğrenme yaklaşımlarından farklı olarak, belirli bir sınıfa ait olduğuna dair bulgular bulunan etiketlenmemiş verileri anlatan `kesin olarak etiketlenmemiş' veri kavramı ortaya atılmıştır. Geliştirdiğimiz algoritmaların davranışsal özelliklerini gözlemlemek adına bilindik bir optik sayı verisi üzerinde `5' ve `6' sayıları sınıflandırılmıştır. Bu veri kümesinde `kesin etiketlenmemiş veri' oluşturmak için etiketlenmiş verilere yapay gürültü eklenmiştir. Tüm veri kümelerinde kesin etiketlenmemiş veri kullanımının performans göstergelerini arttırdığı görülmüştür. Bu çalışmada geliştirilen yarı-gözetimli yöntemlerden SS-kNN (Yarı-gözetimli k-NN)'nin ve SS-SVM (Yarı-göze-timli SVM)'in diğer algoritmalara göre kolon kanseri verisi ve optik sayılar verisi için doğruluk ve insan HIV-1 protein-protein etkileşimi verisi için kesinlik-geri getirme eğrisinin altında kalan alan açısından daha iyi sonuç verdiği gözlemlenmiştir.

Search form

Main Menu

Softly Semi-Supervised Learning For Bioinformatics Applications