PLoS ONE: Feature Selection and Cancer Classification kautta Harva Logistinen regressio kanssa Hybrid L1 /2 +2 Regularisointi

tiivistelmä

Syöpä luokittelu ja ominaisuus (geeni) valinta on tärkeä rooli tiedon löytö genomista tietoa. Vaikka logistinen regressio on yksi suosituimmista luokitusta menetelmiä, se ei indusoi ominaisuuksien hallintaan. Tässä artikkelissa, me esitteli uuden hybridi L

1/2 +2 laillistamista (HLR) funktio, lineaarinen yhdistelmä L

1/2 ja L

2 seuraamuksia, valitaan haluttu geeni logistinen regressio. HLR lähestymistapa perii kiehtovia ominaisuuksia L

1/2 (niukkuus) ja L

2 (ryhmittely vaikutus missä korreloi muuttujat ovat tai ulos mallin yhdessä) seuraamuksia. Ehdotimme myös uudenlainen univariate HLR kynnysarvovalvonta lähestymistapa päivittää arvioitua kertoimet ja kehittänyt koordinoida laskeutumisen algoritmia HLR rangaistaan ​​logistinen regressiomalli. Empiiriset tulokset ja simulaatiot osoittavat, että ehdotettu menetelmä on erittäin kilpailukykyinen joukossa useita state-of-the-art menetelmiä.

Citation: Huang HH, Liu XY, Liang Y (2016) Ominaisuus valinta ja Cancer Classification kautta Harva logistinen regressio kanssa Hybrid L

1/2 +2 Regularisointi. PLoS ONE 11 (5): e0149675. doi: 10,1371 /journal.pone.0149675

Editor: Fengfeng Zhou, Jilin University, Kiina

vastaanotettu: 18 syyskuu 2015; Hyväksytty: 2. helmikuuta 2016 Julkaistu: 02 toukokuu 2016

Copyright: © 2016 Huang et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Data Saatavuus: Kaikki asiaankuuluvat tiedot ovat paperi- ja sen tukeminen Information tiedostoja.

Rahoitus: Tätä työtä tukivat Macao Science and Technology Kehitetään Funds (Grant nro 099/2013 /A3) Macaon Kiinassa.

Kilpailevat edut: patentti liittyvä uusi hybridi L

1 /2-2 laillistamista (HLR) funktio, lineaarinen yhdistelmä L1 ja L

1/2 seuraamuksia, valitse asiaan muuttujat korkealla demensional data on parhaillaan vireillä. Tämä ei muuta meidän noudattamista PLoS One politiikkaa jakaa tietoa ja materials.The kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

1. Johdanto

Kehityksen kanssa suurikapasiteettisten molekyylitekniikkaa, tutkijat voivat tutkia ilmaus kymmenien tuhansien geenien samanaikaisesti. Cancer luokittelu perustuu geeniekspressiotasot on yksi keskeisistä ongelmista genomitutkimusta. Logistinen regressio on suosittu luokitus menetelmä ja sen nimenomaisena tilastollinen tulkinta, joka voi saada todennäköisyydet koskevasta luokituksesta syöpä fenotyyppi. Useimmissa geeniekspressiotutkimuksissa geenien lukumäärä on tyypillisesti paljon suurempi kuin määrä näytteen koosta. Tällaista tilannetta kutsutaan korkea-ulotteinen ja alhainen otoskoko ongelma, ja normaali logistinen regressio menetelmää ei voida suoraan käyttää arvioimaan regressioparametrit.

ongelman ratkaisemiseksi korkean dimensionality, yksi suosituimmista tekniikoita on laillistaminen menetelmällä. Tunnettu laillistaminen menetelmä on L

1 rangaistus [1], joka on vähiten ehdoton kutistuminen ja valinta operaattori (Lasso). Se suoritetaan jatkuvaa kutistuminen ja geenin valinta samanaikaisesti. Muut L

1 normi tyyppi laillistaminen menetelmiä ovat tyypillisesti tasaisesti-leikattu-absoluuttinen-poikkeama (SCAD) rangaistus [2], joka on symmetrinen, nonconcave, ja on singulariteetteja origossa tuottaa harva ratkaisuja. Mukautuva Lasso [3] rangaistaan ​​eri kertoimet dynaamisella painot L

1 rangaistus. Kuitenkin L

1 tyyppinen regularisointi voi tuottaa epäjohdonmukaisia ​​ominaisuus valinnat joissakin tilanteissa [3] ja usein esittelee ylimääräisiä harhaa estimoinnissa parametrit logistinen regressio [4]. Xu

et al

. [5] esitettiin L

1/2 rangaistus, menetelmä, joka voidaan ottaa edustajana L

q (0

q

1) seuraamuksia sekä niukkuus ja laskennallisen tehokkuutta, ja on osoittanut monia houkuttelevia ominaisuuksia, kuten harhattomuus, ja oraakkeli ominaisuudet [5-7]. Kuitenkin samanlainen useimmat laillistaminen menetelmissä L

1/2 rangaistus sivuutetaan korrelaatio ominaisuudet, ja näin ollen pysty analysoimaan tietoja riippuvainen rakenteisiin. Jos on joukko muuttujia, joiden joukosta pareittain korrelaatiot ovat erittäin korkeat, niin L

1/2 menetelmä on taipumus valita vain yhden muuttujan edustaa vastaavaan ryhmään. Geenien ilmentyminen tutkimuksessa, geenit ovat usein korreloi jos niillä on sama biologinen koulutusjakson [8]. Jotkut oli yritetty käsitellä ongelmaa korreloi muuttujia. Zhou ja Hastie ehdotettu Elastinen netto rangaistus [9], joka on lineaarinen yhdistelmä L

1 ja L

2 (harjun tekniikka) seuraamuksista, ja tällainen menetelmä painottaa ryhmittymän vaikutus, jossa korreloivat voimakkaasti geenit tapaavat olla tai ulos mallin yhdessä. Becker

et al

. [10] ehdotti Elastinen SCAD (SCAD – L

2), yhdistelmän SCAD ja L

2 seuraamuksia. Tuomalla L

2 sakkotermi, Elastinen SCAD toimii myös ryhmien ennustavat.

Tässä artikkelissa ehdotimme HLR (Hybrid L

1/2 + 2 Regularisointi) lähestymistapa sopivaksi logistinen regressio malleja geenin valintaan, jossa laillistaminen on lineaarinen yhdistelmä L

1/2 ja L

2 seuraamuksia. L

1/2 rangaistus saavutetaan ominaisuuksien hallintaan. Teoriassa tiukasti kupera sakkofunktiota tarjoaa riittävän ryhmittelyn ehto vaikutus muuttujien ja L

2 rangaistus takaa tiukan kuperuus [11]. Siksi L

2 rangaistus indusoi ryhmittelyä vaikutus samanaikaisesti HLR lähestymistapaan. Kokeelliset tulokset keinotekoinen ja todellisen geenien ilmentyminen tietoja tässä asiakirjassa osoittavat, että meidän ehdotettu menetelmä on hyvin lupaava.

Loput artikkeli on järjestetty seuraavasti. Jaksossa 2, ensin määritellään HLR lähestymistapa ja esitetään tehokas algoritmi ratkaisemiseen logistisen regressiomallin kanssa HLR rangaistus. 3 jaksossa, arvioimme suorituskyky meidän Ehdotettu lähestymistapa on simuloitu data ja viisi julkista geeniekspression aineistoja. Esitimme tekemisestä paperin 4§

2. Menetelmät

2,1 Regularisointi

Oletetaan, että aineisto

D

on

n

näytteitä

D

= {(

X

1,

y

1), (

X

2,

y

2), …, (

X

n

,

y

n

)}, jossa

X

i

= (

x

i

1,

x

i

2, …,

x

ip

) on

i

th näytteen

p

ulotteinen ja

y

i

on vastaava riippuva muuttuja.

ei-negatiivinen

λ

, normaali laillistaminen muoto on: (1) missä

P

(

β

) edustaa laillistamisen aikavälillä. On olemassa monia laillistamisella menetelmiä ehdotettu viime vuosina. Yksi suosituimmista menetelmistä on L

1 laillistamista (Lasso), jossa. Toiset L

1 tyyppinen regularizations sisältävät SCAD, mukautuva Lasso, joustava verkko, Stage viisasta Lasso [12], Dantzig valitsin [13] ja Elastinen SCAD. Kuitenkin genomitutkimuksen, tulos L

1 tyyppinen laillistamista ei saa harva tarpeeksi tulkinnanvaraa. Oikeastaan ​​tyypillinen microarray tai RNA-seq tietokokonaisuus on useita tuhansia ennustavia (geenien), ja tutkijat usein halu valita vähemmän mutta informatiivinen geenejä. Rinnalla tämä, L-

1 laillistaminen on asymptoottisesti puolueellinen [14,15]. Vaikka L

0 laillistaminen, jossa saadaan sparsest ratkaisuja, se on käsiteltävä NP-kova kombinatoorista optimoinnin ongelma. Saada tiiviimmäksi ratkaisu ja parantaa ennustavan tarkkuutta luokittelumallin, meidän täytyy ajatella pidemmälle L

1 ja L

0 regularizations L-

q (0

q

1) laillistamisen. L

1/2 säännönmukaistaminen voidaan pitää edustajana L

q (0

q

1) seuraamukset ja on sallittu analyyttisesti ilmeikäs kynnysarvovalvonta edustus [5]. Kun kynnystystä edustus, ratkaisemalla L

1/2 laillistaminen on paljon helpompaa kuin ratkaista L

0 laillistamisen. Lisäksi L

1/2 rangaistus on harhattomuus ja on oraakkeli ominaisuudet [5-7]. Nämä ominaisuudet tekevät L

1/2 rangaistus tuli tehokas työkalu korkea ulotteinen ongelmia [16,17]. Kuitenkin johtuen epäherkkyys korreloi tiedot, L

1/2 rangaistus on taipumus valita vain yksi muuttuja edustamaan korreloi ryhmää. Tämä haitta saattaa heikentää suorituskykyä L

1/2 menetelmällä.

2.2 Hybrid L

1/2 +2 Regularisointi (HLR) B

kaikki kiinteitä ei-negatiivinen λ

1 ja λ

2, me määrittelemme hybridi L

1/2 +2 laillistamista (HLR) kriteeri: (2) missä

β

= (

β

1, …,

β

p

) ovat kertoimet voidaan arvioida ja

HLR estimaattori on minimizer yhtälön (2) : (3) B

Anna α =

λ

1 /(1 +

λ

2), sitten ratkaista kaavassa (3) vastaavat optimointiin ongelma: (4) B

Me kutsumme funktiota

α

Vastaa