PLoS ONE: Käyttämällä sääntöihin perustuva Machine Learning for Candidate Disease Gene priorisointi ja näyte luokittelu Cancer Gene Expression Data

tiivistelmä

Microarray data-analyysi on osoitettu tarjota tehokas väline opiskeluun syöpää ja geneettisiä sairauksia. Vaikka klassinen koneoppimismenetelmiä onnistuneesti sovellettu löytää informatiivinen geenejä ja ennustamaan luokan etiketit uuden näytteen, yhteinen rajoituksia mikrosiruanalyysi kuten pienet otoskoot, suuri määrite tilaa ja korkean melutason edelleen rajoittaa sen tieteellisen ja kliiniset sovellukset. Lisääminen tulkittavuutta ennustemallit säilyttäen korkean tarkkuuden auttaisi hyödyntää tietosisältöä mikrosirulähestymistavassa tietoja tehokkaammin. Tätä varten me arvioimme sääntöihin perustuva kehittyvä kone oppimisen järjestelmiä, BioHEL ja GAssist, kolme julkista microarray syöpä aineistoja saaminen yksinkertainen sääntö perustuvia malleja näytteen luokittelun. Vertailu muihin benchmark microarray näyte luokittimet perustuu kolmeen monipuolinen ominaisuuksien hallintaan algoritmeja viittaa siihen, että nämä evoluution oppiminen tekniikat voivat kilpailla state-of-the-art menetelmiä kuten tukivektorikoneet. Saatu mallit päästä tarkkuudet yli 90% kahdessa tason ulkoinen ristivalidointi, jossa lisäarvo helpottaa tulkinnan käyttämällä vain yhdistelmiä yksinkertaisia ​​if-then-else sääntöjä. Toisena etu, kirjallisuudesta kaivos- analyysi paljastaa, että tärkeimmät painopisteet on informatiivinen geenien uutettu BioHEL luokittelun sääntöjoukot ovat parempia geeni rankingissa saatu tavanomaisesta ensemble ominaisuuksien hallintaan kannalta pisteittäin keskinäisen tietojärjestelmän kyseisen taudin ehdot ja standardoitu nimet huipputason sijoittui geenejä.

Citation: Glaab E, Bacardit J, Garibaldi JM, Krasnogor N (2012) käyttäen sääntöihin perustuva Machine Learning for Candidate Disease Gene priorisointi ja Sample luokittelu Cancer Gene Expression Data. PLoS ONE 7 (7): e39932. doi: 10,1371 /journal.pone.0039932

Editor: Christos A. Ouzounis, keskus tutkimus ja teknologia, Hellas, Kreikka

vastaanotettu: 29 tammikuu 2012; Hyväksytty: 29 toukokuu 2012; Julkaistu: 11 heinäkuu 2012

Copyright: © 2012 Glaab et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Toteamme tukea Marie Curie varhaisvaiheen-koulutusohjelma (myöntää MEST-CT-2004- 007597), Yhdistyneen kuningaskunnan Engineering ja fysikaalisten tieteiden tutkimusneuvosto (EP /E017215 /1, EP /H016597 /1 ja EP /J004111 /1) sekä biotekniikan ja biologista Sciences Research Council (BB /F01855X /1). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

geeniekspressioprofilointi ja data-analyysi on laajalti käytetty lähestymistapa saada uusia oivalluksia sääntelyn soluprosesseihin biologisissa järjestelmissä kohteisiin. Tätä varten yhteiset tilastolliset menetelmät ja koneoppimisen tekniikoita voidaan käyttää, mukaan lukien klusterointi menetelmät löytää luokkiin liittyvien biologisten näytteiden ominaisuuksien hallintaan menetelmiä tunnistaa informatiivinen geenien ja luokittelun menetelmiä luokitellessaan luokkanimiin soluun näytteiden tuntemattomia biologisia olosuhteita.

Tässä keskitymme valvotuista geeniekspressioanalyysiä syövän microarray dataa ominaisuuksien hallintaan ja luokittelun menetelmiä. Lisäedistys tarkkuutta ja tulkittavuutta mikrosi- luokitus malleja on suuri käytännön kiinnostusta, koska tarkempi syöpädiagnoosin käyttäen mikrosiruja auttaisi vältyttäisiin hoidon valinnassa.

Vaikka korkea ennustuksen tarkkuus on jo saavutettu monilla microarray syöpä aineistoja, mallit ovat usein hyvin monimutkaisia ​​ja vaikeasti tulkittavia, ja puuttuu kestävyys, kun sovelletaan ulkoisista tietoja muista kokeiluympäristöjä. Erityisesti haasteet johtuvat pienestä otoksesta, suuri määrä epäinformatiivisia geenejä, korkea melutaso, useita vieraita havaintoja ja systemaattista harhaa. Vaikka kokeet voidaan usein suorittaa erittäin toistettavasti yhdessä laboratoriossa, saadut tulokset perustuvat eri siru teknologioita ja kokeellisia toimenpiteitä eri laboratorioissa ovat usein vaikea verrata. Joitakin näistä asioista voidaan ratkaista käyttämällä tutkimustenväliseen normalisointi menetelmiä ja integroiva mikrosiruanalyysillä [1], [2] tai yhdistämällä microarray data kliiniset tiedot [3], [4]. Saada lisää parannuksia, aiemmissa tutkimuksissa olemme palkanneet ensemble oppimistekniikoihin [5] – [7] ja integroituja tietoja solureiteillä, koekspressoimalla verkkojen ja molekyylivuorovaikutusten tehtävän analyysin [8] – [11]. Kuitenkin on olemassa tarve tarkemman, vankka ja helposti tulkittavaa ennustaminen menetelmiä.

Jotta lievittää joitakin tyypillisiä ongelmia nykyisten microarray tutkimuksia ja osoittamaan niiden edut sääntöihin perustuva kehittyvä kone oppimisen järjestelmiä microarray näytteen luokittelu, jotka johtuvat ominaisuudet evoluutiolaskennan ja tehostettua tulkittavuutta päätöksen sääntöjä, arvioimme aiemmin kehitetty kone oppimisen järjestelmiä BioHEL [12] – [15] ja GAssist [16] – [20] on kolme suurta, julkinen mikrosirujen syöpä aineistoja.

Evolutionary oppimisen menetelmiä on jo sovellettu menestyksellisesti eri microarray tutkimuksia, esimerkiksi valitsemiseksi informatiivinen subsets geenien [21] – [23], sillä klusterointi ja biclustering [24] – [26] ja näytteen luokittelu [27] – [29]. Lisäksi viime vuosina uusi sääntöihin perustuva luokitus lähestymistapoja testattiin menestyksekkäästi high-ulotteinen geenijärjestelyillä data [30] – [33], joka tarjoaa ihmisen tulkittavissa sääntöjoukot malleina.

koneoppimisen järjestelmät esitellään tämä paperi yhdistää nämä kaksi paradigmoja, kehittyvä etsintä ja sääntö oppiminen, joka tarjoaa sekä tehokas haku avaruustutkimuksen ja parannettu malli tulkittavuutta. Erityisesti BioHEL n conjunctive säännöt voivat viitata kokeen mahdollisille toiminnallinen yhdistys geenien välillä [34], ja sen arvoalue säännöt antaa käyttäjälle tieto siitä, onko geeni on yleensä ylös- tai alaspäin säädeltyjä vastaava biologinen kunnossa, annetaan täydellinen arvoalueella kaikissa näytteissä. Esimerkki koko analyyttisen protokollan esitetään kuviossa. 1. Ensin normalisoida kukin microarray aineisto ja esisuodatin määritteet vähentää dimensionality. Seuraavaksi sovellamme meidän oppiminen algoritmit

BioHEL

[12] – [15] ja

GAssist

[16] – [20] yhdistettynä eri ominaisuuksien hallintaan algoritmien rajat validointi järjestelmä ja tämä toistetaan kolme vaihtoehtoista luokittelijoiden (katso Kokeellinen protokolla). Viimeisessä vaiheessa syntyy tulosennusteita ja geenikoettimina (myöhemmin niiden vastaavien geenien), joka pidettiin informatiivisin mukaan oppimisen järjestelmää analysoidaan tilastollisesti ja käyttämällä tekstinlouhintavälineiden lähestymistapa löytää assosiaatioita kyseisen taudin ehdot ja vastaava standardoitu geeniä tunnisteita.

protokolla koostuu kolmesta vaiheesta: 1) Pre-processing; 2) Valvottu analyysi; 3) Post-analyysi.

Aiomme keskustella näiden vaiheiden yksityiskohtaisesti mukaan seuraava rakenne: Kun Menetelmät jaksossa tarjoamme askel-askeleelta kuvaus kokeissa ja selittää näitä käytetyn tekniikoita yksityiskohtaisesti, ensin käsitellään ominaisuus valinta lähestymistapoja, niin koneen oppimisen järjestelmiä BioHEL ja GAssist, ja lopuksi aineistot ja esikäsittelymenetelmiin. Tulokset osio sisältää ennustuksen tulokset käynnissä BioHEL, GAssist ja vaihtoehtoinen luokittelijoiden kolmeen mikrosirulla syöpä aineistoja. Lisäksi tässä osassa esitetään post-analyysin tulosten avulla biolääketieteen kirjallisuuden kaivos. Vuonna Johtopäätökset osiossa tarjoavat näkymät edelleen mahdollisia laajennuksia luokituksen puitteissa.

Yhteenvetona yleistä Tutkimuksen tarkoituksena oli hankkia lisää biologisesti tulkittavissa malleja microarray syöpä näytteen luokittelu, joka mahdollistaa vankan priorisointi otaksuttu biomarkkereiden ja saavuttaa kilpailukykyinen ennustaminen tarkkuuksia. Sen sijaan säätämistä algoritmien tai uudelleen kehittää niitä tyhjästä maksimoida tarkkuuden kustannuksella suurempi monimutkaisuus, tavoite saavutettiin uusi analyysi putki, joka tutkii, miten eri algoritmeja voittoa ulkopuolisilta ominaisuuksien hallintaan, ja joka hyödyntää tunnettuja hyötyjä nykyisten evoluution algoritmeja suhteen hakuavaruudesta etsintään ja hyödyntämiseen, sekä sääntöihin perustuvan oppimisen menetelmiä kannalta tulkittavuutta.

Methods

Kokeellinen Protocol

analyysi putki verrata molemmat ominaisuus valinta ja ennuste menetelmiä microarray näytteen luokittelun se kolmessa vaiheessa: data esikäsittelyä, valvottu analyysi tiedoista ja post-tulosten analysointi.

ensimmäisessä vaiheessa mikrosiru aineistot ovat esikäsitellyt ja normalisoitu (ks Datasets). Seuraavaksi ulkoinen ristivalidointi suoritetaan [35], eli kussakin syklissä ristivalidointi, ensimmäinen ominaisuus valintatapa levitetään nykyistä koulutusta tietojen ja tuloksena osajoukko ominaisuuksia käytetään luokittelemaan testipakkauksesta näytteiden kone oppimisen menetelmällä. Tämä menettely työskentelee käyttäen sekä 10-kertainen ristivalidointi (CV, jossa satunnainen halkeamia mutta johdonmukainen halkeaa kaikissa vertailuissa) ja jätä-yksi-out CV (LOOCV) ja erilaisia ​​yhdistelmiä ominaisuuksien hallintaan ja luokittelu algoritmeja. Tarkemmin sanottuna ominaisuuksien hallintaan menetelmiä ovat yhden muuttujan suodatin ”Osittainen-Least-Squares pohjainen Feature Selection” (plss), kombinatorinen suodatin ”korrelaatio-pohjainen Feature Selection” (CFS) [36] ja sulautettujen ominaisuus valintatapa ”Random Forest perustuvat Feature Selection ”(RFS, kaikki valinta menetelmiä käsitellään yksityiskohtaisesti alla). Luokittelu menetelmiä ovat omia menetelmiä BioHEL ja GAssist, tukivektoriluokitin [37], joka on Random Forest luokittelijan (RF) [38] ja ”Prediction Analysis mikrosirujen” menetelmä (PAM) [39]; katso vuokaavio kuvion. 1.

viimeisessä vaiheessa pöytäkirjan, käytämme kirjallisuutta kaivos analyysi verrata rankingissa informatiivinen geenikoettimina (kutsutaan

geenien

Tulokset-osassa, koska kaikki valitut geenikoettimina voitaisiin kuvata ainutlaatuinen geeni tunniste kautta kartoitus antamat tiedot siru valmistaja), saatu klassisen ominaisuus valintamenetelmiä ja siitä jälkikäsittely sääntöihin perustuvia malleja syntyy BioHEL lähestymistapaa.

Datasets

Kaikki menetelmät arvioidaan kolme julkista mikrosirujen syöpä aineistot, jotka edustavat kolmea eri syöpätyyppien: Eturauhassyöpä (52 kasvainnäytteestä vs. 50 ohjaa) [40], lymfooma (58 Diffuusi suurten B-solujen lymfooma näytteitä vs. 19 follikulaarinen lymfooma näytettä) [41], ja rintasyöpä aineisto saatu yhteistyötä Queens Medical Centre Nottingham (84 luminal näytteet vs. 44 ei-luminal näytteistä) [6], [42] – [44] (katso taulukko 1 ). Tiedot kunkin aineisto ja esikäsittelyä menetelmää käytettiin tässä vertailevassa arvioinnissa annetaan Materiaaliin S1. Kaikki esikäsitellyt aineistot ovat myös saatavilla verkossa (https://icos.cs.nott.ac.uk/datasets/microarray.html), mukaan lukien ristivalidointi subsets jälkeen ominaisuuksien hallintaan.

ominaisuus valinta menetelmät

suuri määrä ominaisuuksia (geenikoettimina) ja suhteellisen pieni havaintojen määrä (näytteet) tyypilliseen microarray tutkimuksissa aiheuttavat erilaisia ​​tilastollisia ongelmia, jotka tunnetaan nimellä ”kirous dimensionality” koneoppimisen (katso [45]). Siksi kun normalisoituminen ja ennalta suodatus alkuperäisen aineistoja, käytämme erilaisia ​​ominaisuuksien hallintaan lähestymistavat poimia kompakti sarjaa syrjiviä ominaisuuksia ennen soveltamista luokittelun menetelmiä. Lisäksi jotta voidaan arvioida, missä määrin evoluutioprosessimme koneoppimisen lähestyy BioHEL ja GAssist pystyvät luokittelussa näytteistä ilman ennalta määrite valintaa, arvioimme ennustearvo suorituskykyä näiden lähestymistapojen sekä ilman omistettu ulkoista ominaisuuksien hallintaan.

Jotta voidaan ottaa huomioon erilaiset ominaisuuden valintamenetelmien, kolmenlaisia ​​valikoima lähestymistapoja tarkastellaan erikseen A univariate suodatin (plss [46]), kombinatorinen suodatin (CFS [36]) ja sulautettu valinnan lähestymistapaa (RFS [38]) . Mikä tärkeintä, me vain harkita algoritmeja, jotka ovat taatusti olla toteuttamiskelpoinen runtime jopa erittäin suuria aineistoja, ja sen sijaan että yritetään tunnistaa kaikki asiaankuuluvat ominaisuudet, pyrimme välttämään valinta tarpeeton ominaisuuksia, jotka voivat huonontaa luokituksen suorituskyky (katso [47 ] varten vertailun

kaikki asiaankuuluvat

valinnan ongelma vastaan ​​

minimaalinen-optimaalinen

valinta ongelma käsitellä tässä). Yleiseen Arvioi ominaisuuksien hallintaan lähestymistapoja bioinformatiikan, katso [48].

Kaikille ominaisuus valintamenetelmien suurin ominaisuus osajoukon koko on asetettu 30 estämään yli-liitoksen vähentää mallin monimutkaisuutta ja todennäköisyys sisällyttää vääriä positiivisia piirteitä (mutta menetelmät voivat joustavasti valita alle 30 ominaisuuksia). Tämä yläraja valittiin mukaan tutkimustulokset suuruusluokan arviointiin useita ominaisuuksia, jotka valitaan erityyppisissä microarray tutkimuksia saadakseen vain geenikoettimina merkittäviä informatiivinen arvo tuloksista määrite (käyttäen erilaisia ​​malleja laskea p-arvo merkitys tulokset katso [49] – [51]). Valinta menetelmät kuvataan yksityiskohtaisesti seuraavissa kappaleissa.

Osittainen-Least-Squares Based Feature Selection (plss) B

edustajana klassisen univariate suodattimesta, jossa käytetään osittainen pienimmän Ruudut (PLS) [52] algoritmia. Erityisesti ominaisuuksia tilataan itseisarvojen painoarvovektorin määritellään ensimmäinen piilevä komponentin PLS malli, joka rakentuu harjoitusdatasta. Kuten aiemmin on esitetty [53], tilaus ominaisuuksia on saatu tämä lähestymistapa on yhtä suuri kuin F-tilastoa käytetään varianssianalyysi (ANOVA). Näin ollen, sen sijaan, että PLS laskelma, F-tilastoa itse olisi voitu käyttää, mutta plss tarjoaa tehokkaamman suorittaa laskennan (nopea SIMPLS algoritmi [54] on käytetty tähän tarkoitukseen).

korrelaatio Based Feature Selection (CFS) B

kombinatorisista suodattimen menetelmässä CFS [36] etsii subsets ominaisuuksia, jotka ovat suuri korrelaatio tuloksiin vaihtelee, mutta alhainen korrelaatio keskenään. Tämä käsite on virallistaa seuraavan ominaisuuden osajoukkoa pisteet: (1) missä on valittu osajoukko ominaisuuksia, on keskimääräinen ominaisuus luokan korrelaatio ja keskimääräinen ominaisuus-ominaisuus korrelaatio. Vaikka nimittäjä vähentää pisteet vastaaviin ominaisuuksiin poistaa tarpeettomia muuttujia, osoittajassa edistää ominaisuuksia korkea korrelaatio luokan muuttuja säilyttää niitä voimakkaita vaikuttavia tekijöitä. Kuten ehdotti alkuperäisessä CFS julkaisu, ahne parhaiten ensimmäinen hakustrategia käytettiin tutkimaan ominaisuuden osajoukon tilaan [36].

Random Forest perustuu Feature Selection (RFS) B

Vastakohtana CFS ja plss algoritmi, määrite valinta perustuu Random Forest luokittelija [38] käyttää menetelmää suoraan upotettu ennustusalgoritmi. Tarkemmin, Random Forest malli rakennetaan kouluttamalla monet binary, unpruned päätös puut bootstrap alaotoksia harjoitustietosivut. Tärkeys ominaisuutta voidaan arvioida perustuen Gini-indeksi solmu epäpuhtaus toimenpide [55], laskemalla keskimääräinen lasku tämän toimenpiteen (MDG) ylemmän solmut niiden suora jälkeläinen solmujen yli kaiken puu solmut, tai vaihtoehtoisesti, jonka keskimääräinen vähennys tarkkuus (MDA). Eri koneoppimisen tutkimuksissa on saatu erilaisia ​​tuloksia koskien vertaileva luotettavuutta MDA ja vuosituhattavoitteiden [56], [57], mutta microarray geenien ilmentyminen tietojen tulokset näiden kahden epäpuhtauden välillä on havaittu olevan hyvin samankaltainen [58]. Näin ollen ainoastaan ​​MDG kriteeri pidetään tässä tutkimuksessa. Ominaisuus osajoukko saadaan vastaavasta määritettä ranking valitsemalla huippuominaisuudet (tässä, on valittu siten, että saadaan osajoukko koot ovat verrattavissa CFS menetelmällä).

Luokittelu: BioHEL ja GAssist

BioHEL (bioinformatiikan-Oriented hierarkkinen Learning) [12] – [15] on kehittyvä koneoppimisen käyttävässä järjestelmässä iteratiivinen säännön Learning (IRL) paradigma [59], [60] (BioHEL n lähdekoodi on saatavilla verkossa: http: //icos.cs.nott.ac.uk/software/biohel.html). IRL menettely alkaa tyhjällä sääntöä ja täydellinen havaintoja syötteenä. Luokitussäännöt lisätään iteratiivisesti että sääntöjä kunnes niiden yhdistelmä kattaa kaikki näytteet. Lopulliset lähdöt ovat rakenteeltaan sääntöjoukot, joka tunnetaan myös nimellä

päätöksen luetteloita

[61]. Todellinen esimerkki sääntöä saatu eturauhasen syöpä aineisto on esitetty kuviossa. 2 ja korostetaan eri sääntöä tyypit BioHEL:

konjunktiivista sääntöjä

, joka voi antaa tietoa mahdollisista toiminnallinen yhdistysten välillä geenejä;

arvoalueen sääntöjä

, jotka korostavat etuoikeutettu ylä- tai alas-säätely geenien eri biologisia olosuhteita ja vahvuutta luokan tehtävän kannalta suhteellisen leveyden tai suppeus ilmaus arvoalueen; ja

oletussääntöjä

, joita sovelletaan, jos mikään edellisistä erityisiä sääntöjä on sovitettu. Aina uuden päätöksen sääntö on opittu ja lisättiin vastaava sääntöjäsi havainnot se kattaa poistetaan esimerkit.

”Exp (x)” on lyhenne ”Expression of geeni X”, jossa x on HUGO geeni symboli ”,” edustaa conjunctive AND-operaattori, ”[x, y]” on väli ilmaisun arvot kuin attribuutin arvo täytyy olla noudattamatta lähtökohta säännön, ja ”- ”on luokan sijoitusoperaattorin, jonka jälkeen lähtö luokan sääntö. Sääntö 5 on oletusarvo sääntö, että sovelletaan, jos mitään sääntöä edellä sovitetaan.

tutkia hakuavaruudesta mahdollisten sääntöjen tehokkaasti, BioHEL käyttää standardia sukupolvien Geneettinen algoritmi (GA), jota sovelletaan jokaiseen IRL iteraatio löytää paras sääntö näytteitä, joita ei vielä sisälly sääntöjä aiemmissa toistojen. Koska kaasu eivät epädeterministinen, useita toistoja säännön oppimisprosessin samanlainen koulutus sarjaa voidaan lisätä todennäköisyyttä löytää optimaalinen sääntö. Lisäksi toistojen täydellisen oppimisprosessin (eli tuottaa täydellinen sääntö joukko eikä vain yksi sääntö) voidaan soveltaa myös, jotta yhdistää useita sääntö kovettuu enemmistön ääni konsensus ennuste ja hyötyä varianssi alentavat vaikutukset ensemble oppiminen [62].

jotta löydettäisiin paras sääntöä jokaisessa IRL iteraation sopivuuskerroin käytetty GA voitiin käyttää sekä tarkkuutta ja yleisyyttä, eli määrä kattaa havaintoja, on sääntö . Vuonna BioHEL, tämä sopivuuskerroin perustuu Minimum Description Length (MDL) periaate [63] ja palkintoja säännöt kanssa.

korkea tarkkuus, eli sääntöjä, jotka luokittelevat useimmat näytteet oikein,

suuri kattavuus eli sääntöjä, jotka vastaavat monia näytteitä, ja

alhainen monimutkaisuus, eli säännöt yksinkertaisia ​​predikaatteja.

tarkka määritelmä BioHEL kunto toiminto on esitelty ja käsitelty muualla [15]. Mitä kuitenkin tulee sääntö kattavuus, on syytä mainita, että säännöt BioHEL jotka kattavat tietyn vähimmäisprosenttimäärä havainnot saavat korkean tuoton, mutta sen jälkeen ylitti tämän rajan, ylimääräinen palkkio, joka kattaa enemmän näytteitä on pienempi.

BioHEL on pitkälti sen edeltäjä ohjelmisto

GAssist

[16] – [20] (https://icos.cs.nott.ac.uk/software/gassist.html), josta se on peri tietämyksen esittäminen. Toisin kuin IRL lähestymistapa työskentelee BioHEL, GAssist on Pittsburgh-tyyli oppimisen luokittelija järjestelmä [64], eli henkilöt, jotka ovat kehittyneet Sukupolvenvaihdostilanteen GA eivät ole yhden Luokitussäännöt mutta sääntöjoukot edustavat täydellisiä alustava ratkaisut data mining ongelma . Jotta tarkka määritelmä GAssist kunto kaava, katso [16].

Aiemmissa kokeellisissa vertailuissa BioHEL ja GAssist ovat osoittaneet, että GAssist taipumus tehdä paremmin pieniin aineistoja, kun taas sen seuraaja BioHEL tarjoaa erinomaisen suorituskyvyn suuria aineistoja , olipa kyse useissa tapauksissa ja /tai määrä määritteitä. Niinpä käytämme molemmat menetelmät täällä tutkia niiden suhteellinen ennusteita microarray data. Erityisesti BioHEL oli ainoa ennustaja, joka hakemuksen microarray tietoja ilman ulkoista ominaisuus valinta oli mahdollista toteuttamiskelpoinen runtime varten LOOCV kulkee, joten tämä oppiminen menetelmää sovellettiin sekä ilman ulkoista ominaisuuksien hallintaan.

rajat vahvistusmenettelyyn BioHEL ja vaihtoehtoinen vertailukohtana algoritmien ja ominaisuuksien hallintaan menetelmiä on integroitu osaksi julkisesti saatavilla web-pohjainen microarray data-analyysin ohjelmisto

ArrayMining

[5].

Evaluation Methods ja toteutus parametrit

tärkein arviointimenetelmä käytettiin tässä tutkimuksessa on rajat validointi järjestelmä tunnetaan

kaksitasoinen ulkoinen ristivalidointi

[35]. Eräässä

ulkoinen

ristivalidointi, ominaisuus valinta algoritmia käyttää erikseen kullekin opetusjoukolla syntyy koko sykliä validointimenettelyn. Tämä lähestymistapa vältetään valinta bias klassisen sisäisten ristivalidointi, jossa ominaisuus valinta suoritetaan vain kerran koko aineisto ennen ristivalidointi [65].

Kahden tason

ulkoinen ristivalidointi käyttää ylimääräistä sisäkkäisiä ristivalidointi optimoida parametrit ennustusalgoritmi avulla ruudukkohaulla. Käytämme tätä toista tasoa ristivalidointi sopimaan parametrit vaihtoehtoisen benchmark ennustavia SVM, RF, ja PAM.

BioHEL käytetään samoja oletusparametrit kuten [15] lukuun ottamatta määrä toistojen joka on asetettu 500 ja todennäköisyydet yleistyksen ja erikoistuminen, joka on asetettu 0,5. GAssist levitetään sen oletusarvoja [19], paitsi iteraatioiden määrä, joka on asetettu 500 samoin. Sekä GAssist ja BioHEL ajettiin 100 kertaa kutakin koulutuksen asettaa eri satunnainen siemeniä. Jokainen ajaa johti sääntö asettaa. Kokonaisuus tuloksena 100 sääntöjoukot käytettiin ennustamaan vastaavaan Koepakettia.

Jotta vertailla BioHEL ja GAssist vastaan ​​yleisesti käytettyä menetelmää microarray näytteen luokittelun koko ristivalidointi menettelyä sovellettiin kolmea vaihtoehtoista benchmark luokittelijoiden: tukivektoriluokitin (SVM) [37], satunnainen metsä luokittelijan (RF) [38] ja ”Prediction Analysis mikrosirujen” menetelmä (PAM) [39].

tukivektorikone käytämme lineaarista ydin C-SVM päässä E1071-paketti R tilastollisen oppimisympäristö, kääre tunnettu LibSVM kirjasto. Muut polynomi ytimistä ja säteen perusteella funktio ytimen testattiin ilman, että parempia tuloksia kokeissa (tietoja ei ole esitetty). Tämä havainto sopii hyvin löydöksiä kirjallisuudessa, jonka mukaan lineaarista ydintä SVMs usein suorittaa samankaltaisia ​​tai parempi microarray tietoja kuin SVMs käyttäen polynomi ytimiä korkeampi [66], [67]. Palkata RF ja PAM menetelmä, käytimme vastaava R paketit

randomForest

ja

PAMR

jotka ovat saatavilla verkkosivuilla Comprehensive R Archive Network (CRAN, http: //cran .r-project.org).

vertaaminen menetelmämme vaihtoehdoilla kirjallisuudesta me vain harkita lähestymistapoja käyttäen ristivalidointi arvioitavaksi, koska menetelmät perustuvat yhteen satunnainen koulutus /Koepakettia osio nyt pidetään yleisesti epäluotettavina [65]. Samasta syystä myös sulkea menetelmät kirjallisuudesta käyttämällä sisäistä ristivalidointi sijasta ulkoisen ristivalidointi, missä tämä oli selvästi kirjoittajien.

Koska korkeamman tason tilastollinen analyysi microarray data voi riippua merkittävästi datan esikäsitte.lyproseduuria, me lisäksi tutkia luotettavuutta ennusteen ja ominaisuuksien tuloksia eri valmiiksi käsittelyt levitetään suurin benchmark aineisto. Uusi pre-processings saatiin käyttämällä kahta eri kertamuutosta suodattimet ja 4 eri asetuksia enimmäismäärä valitut ominaisuudet, ja koko analyyttiset ajettiin jälleen jokaiselle näistä variantteja. Vakaus tulosten analysoitiin olipa kyse rajat validoitu tulosennusteita ja määrä jaetun valitut ominaisuudet kaikissa CV-aikana (ks materiaali S1 tuloksia ja keskusteluun kaikista kestävyyden analyysit).

Tärkeää on, että saadut ennustemallit sovelletaan vain näytteitä samalla alustalla, solutyyppi, ympäristöolosuhteet ja koemenetelmä. Koska meidän luokittelijoiden tukevat sekä jatkuvaa ja diskretoidaan lähtötiedot, ne ovat yhteensopivia useimpien tutkimustenväliseen normalisointi menetelmiä, joita on kirjallisuudessa ehdotettu laajentaa sovellettavuutta koneoppimismalleja eri kokeiluympäristöjä (olemme aiemmin kehittäneet vastaava ohjelmisto kehys, joka tarjoaa pääsyn useisiin näistä cross-platform integraatio menetelmiä verkossa [5]).

Literature Mining analysoimalla valikoituja Genes

tilastollisesti merkitsevä ero geenien ilmentymistä ja niiden käyttökelpoisuus ennustajia koneessa oppimisen malli näytteen luokittelu voidaan osoittaa toiminnallinen yhdistysten välillä näitä geenejä ja biologiset olosuhteet solujen harkitaan (tarkkaan ottaen meidän malleissa käytetään geenikoettimina sijaan geenien, mutta koska saimme ainutlaatuisen kartoitus kaikille valituille antureista, me viittaavat vastaavien geenien seuraavassa). Vaikka nämä tietolähteet ovat hyödyllisiä priorisointia ehdokas tautigeenejä biolääketieteen tutkimuksissa vain kokeellista näyttöä tai aikaisempaan tietoon kirjallisuudesta voi osoittaa toiminnallinen yhdessä biologisissa olosuhteissa kiinnostava.

Yksi lupaava ehdokas geenit saadaan analyysimme rintasyövän aineisto onnistuneesti arvioitiin kokeellisen tutkimuksen yhdessä kuningattaren Medical Centre Nottingham immunohistokemiallisesti käyttämällä kudossiruina poikki 1140 invasiivisen rintasyövän näytteitä (katso edellinen julkaisu [6], visualisointi Aineiston in [68], ja tulokset alla), mutta kokeellinen validointi kaikista kärkipään geenien kaikissa kolmessa mikrosirujen syöpä aineistoja ei ollut piiriin tässä tutkimuksessa.

Siksi jotta voidaan tutkia mahdollisia assosiaatioita sairaustiloja, jota edustaa kolme aineistoja ja informatiivinen geenit saatu ominaisuus valintamenetelmiä ja useimmin esiintyvä attribuutteja BioHEL sääntö asetetaan, kirjallisuus kaivos analyysiä sovellettiin näiden geenien avulla koko teksti artikkeleita PubMed-tietokanta. Erityisesti meidän sijoitettiin otaksuttu yhdistysten välillä standardoidun nimet kärkipään geenien ja sairauksien suhteen kontrolloidusta sanastosta (Medical Subject Headings (MeSH) tauti otsikot) määrittämällä esiintymistiheyden ja yhteistyön esiintyminen vastaavien, ja laskemalla pisteittäistä keskinäinen tiedotus (PMI) [69]. PMI kahdesta termistä ja, esiintyvät suhteellisen taajuuden f () ja f (), ja yhdessä esiintyvät suhteellisen taajuuden f (,) tietokantaan asiakirjoja määritellään seuraavasti: (2) B

erityiset MeSH tauti termejä käytetään tässä olivat ”eturauhasen kasvaimet” eturauhasen syöpä aineisto, ”rintojen kasvaimet” varten rintasyövän aineisto, ja ”lymfooma, b-solu” varten b-solulymfooman aineisto (PubMed artikkelit manuaalisesti selityksin asiantuntijat näiden ja muiden termit MeSH sanaston sanasto). PMI-arvo pari geenin /sairauden suhteen voidaan siten käyttää sijoitus ja priorisoida potentiaali toiminnallinen yhdistysten ja vastaavat PMI-pohjainen pisteytys järjestelmiä on aikaisemmin käytetty sijoitus samankaltaisuutta geenien ja lääkkeiden kirjallisuuden kaivos- [70].

Koska PMI-tulokset yhden geenin /tauti aikavälillä parit eivät ole riittävän luotettavia vertailla hyödyllisyys eri tautigeenin priorisoinnin, ensin lasketaan summa positiivisten PMI-tulokset kaikissa kärkipään geenejä saatu joko ominaisuus valintamenetelmien tai useimmin esiintyvä määritteitä BioHEL sääntöjen sarjaa. Geenit negatiivinen PMI-tulokset katsottiin olevan tarpeettomia ja vastaava pisteet nollattiin, koska suuruus negatiivisten arvojen todennäköisesti edellyttää kohinaa. Lopullinen summia pisteitä verrattiin vastaavaan pistemäärät 100 satunnaisesti valitun sovitetun koko geeni setit vastaavasta microarray alustoille. P-arvo merkitys tulokset arvioitiin osuutta kertaa suurempi PMI-tulokset saavutettiin satunnainen mallin verrattuna algoritmisten valintamenetelmien. Kärkipään geenejä määritellään ne geenit, jotka oli valittu vähintään kaksi erilaista toimintoa valintamenetelmiä, (eli vastaavien geenien kokonaisuus valinta), mikä johti kompakti sarjaa alle 20 valitut määritteet kunkin kolmen aineistot (katso tulokset jakso). Sama määrä geenejä valittiin useimmin esiintyvä piirteitä BioHEL sääntöjen sarjaa saadakseen oikeudenmukaisen verrattaessa tätä BioHEL-pohjainen ominaisuuksien hallintaan ja ensemble ominaisuuksien hallintaan saatu omistettu valintamenetelmiä.

tulokset ja niiden tarkastelu

vertailu Prediction tulokset

katsaus vertailevan ennustuksen saadut tulokset kaikki yhdistelmät ominaisuuksien hallintaan, ennustaminen menetelmät ja aineistot on esitetty taulukossa 2 10-kertaiseksi CV ja taulukko 3 LOOCV. Alla tuloksia kaikille aineistoja käsitellään.

Eturauhassyöpä

On eturauhassyöpä aineisto, paras ennuste tulokset BioHEL saavutettiin ilman ulkoista ominaisuuksien hallintaan, tarjoamalla keskimääräinen tarkkuus 94% (10-kertainen CV), tai kun yhdistetään BioHEL kanssa plss suodatin (ka. acc. 94%, LOOCV). Niistä vaihtoehtoisen vertailukohteen luokittelijoiden pidetään tässä tutkimuksessa (SVM, RF ja PAM, katso taulukot 2 ja 3) vain PLS /PAM yhdistelmä saavutetaan sama tarkkuus 10-kertainen CV ja CFS /RF yhdistelmä saavutti hieman suurempi tarkkuus LOOCV (95%).

Vastaa