PLoS ONE: Multi-Class Klusterointi Cancer Alatyypit kautta SVM Based Ensemble of Pareto-optimaalisia ratkaisuja Gene Marker Identification

tiivistelmä

Kanssa etenemistä microarray tekniikka, nyt on mahdollista tutkia ekspressioprofiilit tuhansien geenien eri koeolosuhteet tai kudosnäytteitä samanaikaisesti. Microarray syöpä aineistoja, järjestetään näytteet vs. geenit muoti, käytetään luokittelun kudosnäytteiden osaksi hyvän- että pahanlaatuisia tai niiden alatyyppejä. Ne ovat myös hyödyllisiä tunnistaa mahdolliset geenimerkkejä kunkin syövän alatyypin, joka auttaa onnistunut diagnoosi erityisen syöpätyyppeihin. Tässä artikkelissa olemme esittäneet valvomattoman syövän luokitustekniikka perustuu Monitavoitteisen geneettiseen kasautumiseen kudosnäytteet. Tässä suhteessa todellista koodattu koodaus klusterin keskusten käytetään, ja klusterin tiiviyttä ja erottaminen samanaikaisesti optimoitu. Tuloksena joukko lähes Pareto-optimaaliset ratkaisut sisältävät useita ei-hallitsevat ratkaisuja. Uudella tavalla yhdistää klustereiden tiedot hallussa ei-hallitsevat ratkaisuja Support Vector Machine (SVM) luokittelija on ehdotettu. Lopullinen klusterointi saadaan yksimielisiä clusterings kertyvät eri ytimen toimintoja. Suorituskyky Ehdotetun Monitavoitteisen klusterointimenetelmä on verrattu että useiden muiden microarray klusterointialgoritmeja kolme julkisesti saatavilla benchmark syöpä aineistoja. Lisäksi tilastollista merkittävyyttä ole tutkittu laatia tilastolliset paremmuus ehdotetun klusterointimenetelmä. Lisäksi asiaan geenimerkkejä on tunnistettu käyttämällä klusterointi tuloksen tuottama ehdotetun klusterointimenetelmä ja osoitti visuaalisesti. Biologinen välisten suhteiden geenimerkkejä tutkitaan myös perustuvat geeni ontologian. Saadut tulokset on todettu olevan lupaava ja voi mahdollisesti olla merkittävä vaikutus alalla valvomattoman syövän luokittelu sekä geenimerkkitietoa tunnistaminen useille syöpään alatyyppejä.

Citation: Mukhopadhyay A, Bandyopadhyay S, Maulik U (2010 ) Multi-Class klusterointi Cancer alatyypit kautta SVM Based Ensemble of Pareto-optimaalisia ratkaisuja Gene Marker Identification. PLoS ONE 5 (11): e13803. doi: 10,1371 /journal.pone.0013803

Editor: Alfons Navarro, University of Barcelona, ​​Espanja

vastaanotettu: toukokuu 26, 2009; Hyväksytty: 28 syyskuu 2010; Julkaistu: 12 marraskuu 2010

Copyright: © 2010 Mukhopadhyay et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: SB ja UM tunnustaa Department of Science and Technology, Intia (Grant No. DST /INT /MEX /RPO-04/2008 (ii)) ja osittain tukee tätä työtä. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

kynnyksellä microarray-teknologia on tehnyt mahdolliseksi tutkimuksen ilmentymisen profiilit valtava määrä geenejä eri koeolosuhteissa tai kudosnäytteiden samanaikaisesti. Tällä on merkittävä vaikutus syöpätutkimukseen. Microarray-teknologiaa hyödynnetään syövän diagnosoinnissa kautta luokituksen kudosnäytteistä. Kun mikrosirujen aineistot järjestetään näytteinä vs. geeni muoti, niin ne ovat erittäin hyödyllisiä luokitteluun erilaisten kudosten ja määritettäessä niitä geenejä, joiden ekspressiotasoja ovat hyviä diagnostisia indikaattoreita. Microarray aineistot, jossa kudosnäytteitä edustavat näytteet syöpä (pahanlaatuinen) ja ei-syöpä (hyvänlaatuinen) solujen luokittelu niistä johtaa binary syövän luokitteluun. Toisaalta, jos näytteet ovat eri alatyyppejä syövän, niin se on ongelma multi-luokan syövän luokitus. Multi-luokan syövän luokittelu ja havaitseminen geenimerkkejä kunkin syöpä alatyyppi on enemmän haastava tehtävä verrattuna kaksijakoinen luokittelu.

Suurin osa tutkimusten alalla syövän diagnoosi ovat keskittyneet ohjattua luokittelusta syöpä aineistot kautta koulutus, validointi ja testaus luokitella kasvain näytteissä pahanlaatuisia tai hyvänlaatuinen, tai niiden alatyyppejä [1] – [6]. Kuitenkin ilman valvontaa luokitteluun tai ryhmittely kudosnäytteiden tulisi selvittää myös, koska monissa tapauksissa on merkitty kudosnäytteet eivät ole käytettävissä. Tässä artikkelissa olemme tutkineet soveltamisesta Monitavoitteisen geneettisten klustereiden valvomatta luokituksen kudosnäytteiden monen luokan syöpätietojen.

mikrosiru geeniekspression aineisto koostuu geenien ja kudosnäytteiden tyypillisesti järjestetty 2D matriisin kokoa. Jokainen elementti edustaa ilmentymistason th geenin th kudosnäyte. Klusterointi [7], [8], joka on tärkeä mikrosiruanalyysi väline, jota käytetään ilman valvontaa luokittelu kudosnäytteistä. Clustering menetelmiä osioida joukko esineitä ryhmiin perustuen joitakin yhtäläisyyksiä /erilaisuus metrinen, joiden arvo voi olla tai ei olla tiedossa

a priori

.

Geneettiset algoritmit (kaasu) [9] on tosiasiallisesti käytetty kehittää tehokkaita kasaustekniikoiden [10], [11]. Nämä tekniikat käyttävät yhden klusterin pätevyys toimenpiteen sopivuuskerroin pohtimaan hyvyyden koodatun klusterointi. Kuitenkin yksi klusteri pätevyys toimenpide on harvoin soveltaa yhtä hyvin erilaisia ​​tietoja ominaisuuksista. Tämä artikkeli ongelmana on klusterointi kuin monitavoiteoptimoinnin (MOO) [12] – [15] ongelma. Toisin kuin yksittäinen tavoite optimointi, Moo, haku toteutetaan useiden, usein ristiriitaisia, objektiivisia toimintoja. Lopullinen ratkaisu setti sisältää useita Pareto-optimaalisia ratkaisuja, joista yksikään ei voi vielä parantaa tahansa yhteen tavoitteeseen heikentämättä sitä toisessa. Non-hallitsevat lajittelu Geneettinen algoritmi-II (NSGA-II) [15], joka on suosittu evoluution monitavoiteoptimoinnin työkalu, on onnistuneesti sovellettu alalla klusterointi ja luokittelu microarray geenien ilmentyminen tietojen [16] – [18]. Tässä artikkelissa myös, joka on NSGA-II-pohjainen monitavoiteoptimoinnin klusterointialgoritmi [13] on hyväksytty, joka optimoi klusterin tiiviyttä ja klusterin erottaminen samanaikaisesti. Haastava kysymys Moo on saada lopullinen ratkaisu joukko Pareto-optimaalisia ratkaisuja. Tässä suhteessa uuden menetelmän avulla Support Vector Machine (SVM) [19] luokittelija on kuvattu tässä artikkelissa. Menetelmässä käytetään kohtia, joille suurin osa ei-hallitsevat ratkaisut tuottavat saman luokan tarrat kouluttaa SVM luokitin tietyn ytimen. Jäljellä olevia luokitellaan koulutetun luokittelija. Lopullinen luokitus saadaan yksimielisiä klusterointi ratkaisuja tuottamia erilaisia ​​ytimen toimintoja.

Lisäksi klusterointi liuosta, joka on ehdotettu MOGASVM klusterointi tekniikkaa on käytetty tunnistamaan geenimerkkejä jotka ovat pääosin vastuussa erottaa tietystä kasvain luokastaan ​​jäljellä olevat. Signaali-kohina-suhde (SNR) tilastotieto-pohjainen geeni ranking on käytetty tähän tarkoitukseen.

Suorituskyky Ehdotetun MOGASVM klusterointi tekniikka on osoitettu kolmelle julkisesti saatavilla benchmark syöpä aineistoja, nim. SRBCT , Adult maligniteetti ja Aivokasvain. Paremmuuden ehdotetun tekniikan, verrattuna K-means klusterointi [7], Odotus maksimointi (EM) klusterointi [20], yksi tavoite GA-pohjainen klusterointi, joka optimoi yhdistelmä klusterin tiiviyttä ja erottaminen (SGA), hierarkkinen keskimääräinen sidos klustereiden [7], Self Organizing Map (SOM) klusterointi [21], konsensus klustereiden [22] ja ehdotti äskettäin klusterointi tekniikkaa kutsutaan Simm-TS [12], on osoitettu sekä määrällisesti että visuaalisesti. Paremmuuden MOGASVM klusterointi tekniikkaa on myös osoittautunut tilastollisesti merkitsevä kautta tilastollista merkittävyyttä testejä. Lopuksi, on osoitettu, kuinka MOGASVM klusterointi tulosta voidaan käyttää tunnistamaan kyseisen geenin markkereina SRBCT aineistoja. Myös tutkimus biologista merkitystä geenin markkereita on tehty perustuen geenin ontologian.

Materiaalit ja menetelmät

monitavoiteoptimoinnin käyttäen Geneettiset algoritmit

Monissa reaalimaailman tilanteissa voi olla useita tavoitteita, jotka on optimoitu samanaikaisesti, jotta voidaan ratkaista tietyn ongelman. Tämä on päinvastoin kuin ongelmakentät tavanomaisilla kaasu, joka liittyy optimointi vain yksi kriteeri. Suurin vaikeus harkitsee monitavoiteoptimoinnin on, että ei ole hyväksyttyä määritelmää optimaalisen tässä tapauksessa, ja sen vuoksi on vaikea verrata yhden ratkaisun toiseen. Yleensä nämä ongelmat myönnettävä useita ratkaisuja, joista jokainen pidetään hyväksyttävänä ja vastaavan kun suhteellinen merkitys tavoitteiden on tuntematon. Paras ratkaisu on subjektiivinen ja riippuu tarpeesta suunnittelija tai päätöksentekijä.

Perinteiset etsintä ja optimointimenetelmiä kuten kaltevuus laskeutumisen haku, ja muut epätavalliset mekanismeja, kuten simuloitu jäähdytys on vaikea laajentaa kuin se on monitavoiteoptimoinnin tapauksessa, koska niiden perusrakenne on esteenä käsittelyn useita ratkaisuja. Päinvastoin, väestöpohjainen menetelmiä kuten evoluutioalgoritmit soveltuvat hyvin käsittelemään tällaisia ​​tilanteita. Monitavoiteoptimoinnin voidaan muodollisesti totesi [23], [24]. Etsi vektori päätöksen muuttujista joka täyttää epätasa rajoituksia: (1) tasa rajoitukset (2) ja optimoi vektori funktio (3) liitteessä ja Eqns. (1) ja (2) määrittelee toteuttamiskelpoinen alue, joka sisältää kaikki tutkittavaksi ratkaisuja. Mikä tahansa ratkaisu tämän alueen ulkopuolella ei voida tutkia, koska se rikkoo yhtä tai enemmän rajoituksia. Vektori tarkoittaa optimaalinen ratkaisu. Yhteydessä monitavoiteoptimoinnin, vaikeus piilee määritelmään optimaalisuuden, koska se on vain harvoin, että löydämme tilanteeseen, jossa yksittäinen vektori edustaa optimaalisen ratkaisun kaikkiin kohdefunktioiden.

Käsite

Pareto-optimaalisuuden

on käyttökelpoinen verkkotunnuksen monitavoiteoptimoinnin. Muodollinen määritelmä Pareto-optimaalisuuden näkökulmasta Minimointitehtävä voidaan antaa seuraavasti. Päätös vektoria kutsutaan Pareto-optimaalinen, jos ja vain jos ei ole, joka hallitsee, eli, ei ole olemassa sellaista thatIn Toisin sanoen, on Pareto-optimaalinen, jos ei ole olemassa toteuttamiskelpoisia vektori, joka aiheuttaa alennuksen joissakin kriteerin ilman samanaikaista lisäystä ainakin toinen. Tässä yhteydessä kaksi muuta käsitykset nim.

heikosti ei-hallitsevat

ja

vahvasti ei-hallitsevat

ratkaisut määritellään [23]. Piste on heikosti ei hallitsema ratkaisu, jos ei ole olemassa sellaista, että. Piste on vahvasti ei-hallitsema ratkaisu, jos ei ole olemassa sellaista, että, ja ainakin yhden,. Yleensä Pareto optimaalinen myöntää joukko ratkaisuja kutsutaan

ei-hallitsevat

ratkaisuja.

On olemassa erilaisia ​​lähestymistapoja ratkaista monitavoiteoptimoinnin ongelmien [23], [24], esimerkiksi yhdistämällä, väestö pohjainen ei-Pareto ja Pareto-pohjaiset tekniikat. Vuonna kokoamiseen tekniikoita, eri tavoitteet ovat yleensä yhdistetään yhdeksi käyttäen painotusta tai tavoite perustuvan menetelmän. Vector Evaluated Geneettinen algoritmi (VEGA) on tekniikka väestössä pohjainen ei-Pareto lähestymistapaa, jossa eri alapopulaatioiden käytetään eri tavoitteita. Useita Tavoite GA (Moga), Non-hallitsevat lajittelu GA (NSGA), niched Pareto GA (NPGA) muodostavat useita tekniikoita alla Pareto lähestymistapoja. Kuitenkin kaikki nämä tekniikat, jotka on kuvattu [24], ovat olennaisesti ei-elitistinen luonteeltaan. NSGA-II [15], Strength Pareto evoluutioalgoritmin (SPEA) [25] ja SPEA2 [26] ovat uudempaa elitistinen tekniikoita. NSGA-II on parannus edellisestä versiosta NSGA suhteen laskenta-aikaa. Lisäksi NSGA-II tuo romaanin elitistinen malli yhdistämällä vanhemman ja lapsen väestön ja kasvattamaan ei-hallitsevat ratkaisuja yhteenlaskettu väestö seuraavan sukupolven varmistamalla parempi lähentymisnopeus kohti maailmanlaajuisesti optimaalisen Pareto edessä. Lisäksi se ehdottaa tungosta vertailun menetelmän binary turnauksen valinta, joka antaa paremman monimuotoisuutta Pareto edessä. In [15], on osoitettu, että NSGA-II toimii paremmin verrattuna useisiin muihin Moo tekniikoita. Siksi monitavoiteoptimoinnin klusterointi tekniikkaa pidetään tässä työssä käytetään NSGA-II taustalla optimoinnin puitteissa. Kuitenkin mitä tahansa muuta evoluution monitavoiteoptimoinnin väline olisi voitu käyttää.

NSGA-II pohjainen Multiobjective Clustering

Tässä osiossa olemme kuvanneet käyttöä NSGA-II kehittyvä joukon lähellä -Pareto optimaalisen klusterointi ratkaisuja [13]. Cluster tiiviyttä ja klusterin erotus pidetään tavoitteena toimintoja, jotka on optimoitu samanaikaisesti. Tekniikka on kuvattu alla yksityiskohtaisesti.

String edustus ja Väestö Alustus.

NSGA-II perustuva klusterointi, kromosomit muodostuvat todellisia numeroita, jotka edustavat koordinaatit keskuksista klusterit. Oletetaan, että koko aineisto on, eli algoritmi klusterit kudosnäytteet, joista kukin on kuvattu geenit (ominaisuudet). Klustereihin kukin kromosomi on siis pituus, jossa on tiedot mitta (joukko geenejä tässä tapauksessa). Kuten olemme käyttäneet 200 geeniä, jotka ovat suurempia varianssit poikki näytteet, mitta on siis 200 jokaiselle aineisto. Keskukset koodattu kromosomi alkupopulaatiosta valitaan satunnaisesti erillisiä kohtia aineisto.

Computing Tavoitteet.

Computing kohdefunktioiden ensin keskukset koodattu tietyssä kromosomissa ovat uutettu. Tämän jälkeen kukin datapiste on osoitettu sen lähimpään klusterikeskuksen ja klusterin keskusten päivitetään ottamalla keskiarvo pisteiden sille. Pisteet lasketaan virkamieskierrossa lähimmän klusterin keskuksissa. Kromosomi on myös päivitetään uudella klusterin keskusten.

Maailmanlaajuinen tiiviyttä klusterointi ratkaisu määritellään seuraavasti: (4) missä tarkoittaa etäisyyttä nnen pisteen ja th klusterikeskuksen. tarkoittaa nnen klusterin. Huomaa, että alhainen arvo ilmaisee, että klusterit ovat erittäin kompakti. Siksi tavoitteena on minimoida.

Toinen tavoite on klusteri erottaminen. Tämä määritellään seuraavasti: (5) Saadakseen hyvin erillään klustereita, tavoitteena on maksimoida. Kuten tässä NSGA-II mallinnetaan minimointitehtäväksi, toinen tavoite otetaan käänteisluvun.

Genetic Operations.

kansa käyttää geneettiset toiminnot ovat

valinta

crossover

ja

mutaatio

. Valinnan toiminta käytetty tässä tungosta binary turnauksen valintaan käytetään NSGA-II [15]. Valinnan jälkeen valitut kromosomit laitetaan pariutumisen allas ja tavanomainen yhden pisteen crossover suoritetaan perustuu crossover todennäköisyys. Sen jälkeen kukin kromosomi läpikäy mutaation riippuen mutaatio todennäköisyys, jossa satunnainen klusterikeskuksen valitaan se ja sitten siirretään hieman.

tyypillisimmistä osa NSGA-II on sen elitismi toimintaa, jossa vanhempi ja lapsi populaatiot yhdistetään ja ei-hallitsema ratkaisuja yhteenlaskettu väkiluku etenevät seuraavalle sukupolvelle. Saat lisätietoja eri geneettinen prosesseja, lukijat voivat viitata [15]. Lähes Pareto-optimaalista jouset viimeisen sukupolven tarjoavat erilaisia ​​ratkaisuja klustereiden ongelmaan.

tukivektoriluokitin

tukivektorikone (SVM) luokittelijoiden inspiroi tilastollisen oppiminen teoria ja he tekevät rakenteellista riskien minimointia on sisäkkäinen joukko rakennetta erottamalla hyperplanes [19], [27]. Tarkasteleminen lähtötiedot kuin kaksi vektorit ulotteinen avaruus, SVM rakentaa erottavan hypertaso tuossa tilassa, joka maksimoi välinen marginaali kaksi luokkaa pistettä. Laskea marginaali, kaksi rinnakkaista hyperplanes on rakennettu kummallakin puolella pilkkomalla, jotka ovat ”työntää vastaan” kahden luokan pistettä. Intuitiivisesti, hyvä erotus saavutetaan hypertason, joka on suurin etäisyys viereisen datapisteet molempien luokkien. Suurempi marginaali tai välimatka näiden rinnakkaisten hyperplanes ilmaisee paremmin yleistys virhe luokittimen. Pohjimmiltaan SVM luokittelija on suunniteltu kahdelle luokan ongelmia. Se voidaan laajentaa käsittelemään multi-class ongelmat suunnittelemalla useita yhden vastaan-kaikki tai yksi-vastaan-yksi, kaksi,-luokan SVMs.

Oletetaan aineisto koostuu piirrevektorit,, jossa, tarkoittaa luokan merkintä datapisteen. Ongelmana on löytää painoa vektori voidaan muotoilla minimoimalla seuraava funktio: (6) sovelletaan (7) Tässä on harhaa ja toiminto kartat tulon vektorin piirrevektorin. Dual valmiste annetaan maksimoimalla seuraavasti: (8) edellyttää (9) Vain pieni osa kertoimet ovat nollasta poikkeavia. Vastaava parit merkinnät tunnetaan tukea vektoreita ja ne täysin määrittelevät päätösfunktion. Geometrisesti tuki vektorit ovat kohtia lähiluokkiin erottavan hypertaso. Tässä kutsutaan

ytimen toiminto

.

Kernel toiminnot auttavat kartoittamaan piirreavaruudesta korkeampiin ulotteinen avaruus. Kernel toiminto voi olla lineaarinen tai epälineaarinen, kuten polynomi, sigmoidal, radial kantafunktiot (RBF), jne neljä ydintä toimintoja käytetään tässä artikkelissa ovat seuraavat:

Lineaarinen:

Polynomi:

sigmoidal:

Radial Basis Function (RBF):.

laajennettu versio kahden luokan SVM joka käsittelee usean luokan luokittelun ongelman suunnittelemalla useita yhden vastaan-kaikki kahden luokan SVMs [27] käytetään tässä. Esimerkiksi luokan ongelma on käsiteltävä kahden luokan SVMs, joista jokainen käytetään erottamaan luokan pisteitä kaikista jäljellä pistettä.

saaminen Final Clustering ei-hallitsevat Solutions

Koska monitavoiteoptimoinnin klusterointi tuottaa joukko ei-hallitsevat ratkaisuihin lopullisessa sukupolvi, se on sovellettava joitakin tekniikka saadaan lopullinen klusterointi ratkaisu sarjasta. Tässä osassa kuvataan ehdotettu järjestelmä yhdistämiseksi NSGA-II-pohjainen monitavoiteoptimoinnin klusterointialgoritmi kanssa SVM luokittelija tähän tarkoitukseen. Yhdistetyssä lähestymistavassa nimeltään MOGASVM, jokainen ei-hallitsema ratkaisu annetaan yhtä tärkeitä ja enemmistöäänestysmenettelyn menetelmää sovelletaan. Tätä perustellaan sillä, että koska läsnä koulutuksen pistettä, ohjattu luokitus yleensä toimii paremmin kuin valvomattomia tai klustereiden. Tässä olemme Hyödyntämällä tätä etua, kun valitaan jonkin verran koulutusta pistettä käyttämällä enemmistöpäätöksiä ei-hallitsevat ratkaisujen tuottaman monitavoiteoptimoinnin klusterointi. Enemmistösäännösten tekniikka antaa joukko pisteitä, joille suurin osa ei-hallitsevat ratkaisuja antaa samaa luokkaa tarrat. Siten nämä kohdat voidaan ajatella ryhmitellään kunnolla ja näin voidaan käyttää koulutukseen olevia SVM luokittelija. Tämän jälkeen jäljellä olevat alhaisen luottamuksen pisteet luokitellaan joko koulutettu luokittelija. Prosessi toistetaan eri ytimen toimintoja ja lopullinen klusterointi saadaan aikaan enemmistöpäätös joukossa klusterin etiketti vektorit tuotetaan eri ytimen toimintoja. Vaiheet MOGASVM on kuvattu alla.

Vaihe 1: Suorita Moga klusterointi saada joukko, jotka ovat muuta kuin hallitsevat liuosta jouset koostuu klusterin keskusten.

Vaihe 2: Decode kutakin liuosta ja saada klusterin etiketti vektorin kunkin ratkaisun antamalla kullekin pisteen lähimmän klusterikeskuksen.

Vaihe 3: uudelleenjärjestelemiseksi klusterin etiketti vektorit, jotta ne johdonmukaisesti eli klusteri ensimmäinen ratkaisu tulisi vastata klusterin kaikilla muita ratkaisuja. Esimerkiksi, klusteri etiketti vektori vastaa.

Vaihe 4: Lisää kohdat, jotka annetaan samaan luokkaan etiketin vähintään ratkaisuja, kuten koulutuksessa pistettä, jossa on suurin ääniraja. Luokan etiketit pisteistä tulee olemaan luokkaa.

Vaihe 5: Junan SVM luokitin joidenkin ytimen toiminnon käyttäen koulutus pistettä.

Vaihe 6: Luo luokan etiketit jäljellä pisteiden avulla koulutettu SVM luokittelija.

Vaihe 7: Toista vaiheet 5-6 neljän ytimen toimintoja pidetään täällä ja saada neljä klusterin etiketti vektorit.

Vaihe 8: Yhdistä neljä klusterointi etiketti vektorit kautta enemmistöpäätöksen ensemble, eli jokainen piste määritetään class tarra, joka saa suurimman äänimäärän joukossa neljä klusterointi ratkaisuja. Siteet ovat rikki sattumanvaraisesti.

koot koulutuksen ja testaus sarjat riippuvat parametrin (enemmistöpäätöksen kynnys), joka määrittää vähimmäismäärä ei-hallitsevat ratkaisuja, jotka on sovittava keskenään äänestykseen yhteydessä. Jos arvo on suuri, koko harjoitussetti on pieni. Kuitenkin tämä tarkoittaa, että enemmän määrä ei-hallitsevat ratkaisuja sopia keskenään ja siten luottamus harjoitussetti on korkea. Päinvastoin, jos arvo on pieni, koko harjoitussetti on suuri. Mutta se osoittaa, että vähemmän määrää ei-hallitsevat ratkaisut ovat asiasta keskenään ja opetusjoukolla on alhainen luotettavuustasolla. Kokeiden yhteydessä, olemme yrittäneet erilaisia ​​arvoja ja totesi, että suorituskyky MOGASVM on yleensä parhaiten, kun on alueella välillä 0,4 ja 0,6. Tämä on havaittu kaikkien aineistojen pidetään täällä. Siksi saavuttaa kompromissi välillä koon ja luottamus koulutuksen asetettu, kun useita kokeita, olemme asettaneet parametrin arvoon 0,5. Tämä parametri voi altistua käyttäjälle, joka voi virittää sen mukaan hänen /hänen tarvitse.

määrä Clusters

määrän asettamisesta klustereita, siluetti indeksiä käytetään [28] . Se määritellään seuraavasti. Oletetaan edustaa keskimääräinen etäisyys pisteen muista olevia klusterin, johon piste on määritetty, ja se edustaa vähintään keskimääräisen etäisyydet pisteen olevia muihin ryhmiin. Nyt siluetti leveys piste määritellään seuraavasti: (10) siluetti indeksi on keskiarvo siluetti leveys kaikki datapisteet (kasvain näytettä), ja se heijastaa tiiviyttä ja erottaminen klustereita. Arvo siluetti indeksin vaihtelee -1-1 ja suurempi arvo osoittaa parempaa klustereiden tulokseen. Arvo ei ole monotoninen lisäämällä tai vähentämällä taipumus lukumäärän kanssa klustereita. Siksi tämä indeksi on hyvä indikaattori lukumäärän valitsemiseen klustereita [28].

Valitse numero klustereiden MOGASVM algoritmi suoritetaan eri arvoilla alkaen ja, ollen datapisteiden lukumäärä. Jokaisen, se suoritetaan kerran eri alkukonfiguraatiot ja ajaa antaa parhaan arvo otetaan. Näistä parhaita ratkaisuja eri arvoilla, arvo ratkaisua, jolla saavutetaan suurin indeksin arvo on valittu. Samaa arvoa käytetään kaikille algoritmit tasapuolisen vertailun.

käsittelystä Outliers

Tiedetään, että vieraiden havaintojen voi vaikuttaa suorituskykyyn klusterointialgoritmeja. Ehdotettu MOGASVM klusterointialgoritmi laskee keino klustereiden aikana kromosomissa updation joka todennäköisesti vaikuttaa takia läsnäolon harha, että aineisto. Selviytyä tästä, muutimme ehdotettu algoritmi seuraavasti. Aikana kromosomi updation sen sijaan, että keinot kohdat klusterin laskemme

medoid

klusterin. Klusteri medoid, toisin kuin klusteri tarkoita, on todellinen mittauspiste klusterin josta summa etäisyydet muihin kiinnostaviin klusterin on pienin. Koska medoid on todellinen mittauspiste, se on vähemmän herkkä vieraiden havaintojen [29]. Loput vaiheet modifioidun algoritmin pysyy samana. Kokeiden yhteydessä, on havaittu, että medoid perustuva monitavoiteoptimoinnin klusterointialgoritmi toimii samalla tavalla kuin keskimääräinen lähestymistapa kolmen aineistoja käsitellään tässä artikkelissa. Siksi emme ole raportoineet tulokset medoid lähestymistapaa. Tämä viittaa siihen, että aineistot pidetään tässä ovat mahdollisesti vapaita poikkeavia havaintoja. Kuitenkin, tämä ei voi olla totta, että muita aineistoja ja siinä tapauksessa, se on parempi käyttää medoid lähestymistavan sijasta keskiarvo-pohjainen yksi. On huomattava, että löytää medoids on laskennallisesti kalliimpaa kuin löytää keinoja. Mutta on mahdollista precompute koko matkalla, matriisi ja pitää sen muistissa aikana suorituksen klusterointialgoritmi nopeamman suorituskyvyn, koska näytteiden määrä näytteessä-geeni microarray aineistoja on yleensä paljon pienempi verrattuna määrä geenejä.

tehokkuuden mittaaminen

Kaksi suorituskykyä toimenpiteitä eli prosenttiyksikön Classification Tarkkuus () ja oikaistu Rand Index () harkitaan vertaamalla tuottamat tulokset eri algoritmeja. Ne on määritelty alla.

Prosentti Classification Tarkkuus.

Määrittelemme prosenttiosuus Classification Tarkkuus () verrata klustereiden ratkaisu todellisen klusterointi. Oletetaan on todellinen ryhmittely näytteiden geeniekspressiovektoria aineisto ja on klustereiden tulosta, joita jotkut klusterointialgoritmi. Antaa on määrä pisteparista jotka kuuluvat samaan klustereiden molempia ja oltava lukumäärä pisteparista jotka kuuluvat eri klustereiden molemmat ja, ja kokonaismäärä paria pistettä, so. Määritellään seuraavasti: (11) Korkeampi arvo tarkoittaa parempaa yhteensovittamista ja. Ilmeisesti.

oikaistu Rand Index.

oikaistu Rand-indeksi () [30] käytetään myös verrata niputtamisesta ratkaisu todellisen klusterointi. Oletetaan on todellinen ryhmittely näytteiden geeniekspressiovektoria aineisto ja on klustereiden tulosta, joita jotkut klusterointialgoritmi. Antaa,, ja vastaavasti merkitse lukumäärä pisteparista kuuluvat samaan klusteriin sekä ja määrä pareja, jotka kuuluvat samaan klusteriin mutta eri klustereiden määrä pareja, jotka kuuluvat eri klustereiden mutta samaan klusterin vuonna, ja parien määrä, jotka kuuluvat eri klustereihin sekä ja. Oikaistu Rand indeksi sitten määritellään seuraavasti: (12) arvo on välillä 0 ja 1 ja suurempi arvo merkitsee, että on lähempänä. Ilmeisesti.

tunnistetiedot geenimerkit

Tässä osiossa olemme osoittaneet kuinka ehdotettu MOGASVM klusterointi tekniikkaa voidaan käyttää tunnistamaan geenimerkkejä jotka ovat pääosin vastuussa erottaa eri luokkiin kudosnäytteistä. Tässä olemme osoittaneet prosessia varten SRBCT aineisto (kuvataan seuraavassa osiossa). Tämä on tehty seuraavasti.

Aluksi MOGASVM levitetään klusterin näytteet esikäsitellään aineisto neljään luokkaan, joka vastaa kasvaimen alatyyppeihin EWS, NB, BL ja RMS, vastaavasti. Saadakseen geenimerkkejä EWS alatyyppi, klusterointi tulos käsitellään kahteen luokkaan: yksi luokka vastaa EWS kasvaimia ja toinen luokka vastaa jäljellä kasvain tyyppejä. Ottaen huomioon nämä kaksi luokkaa, kunkin geeneistä, tilastollinen nimeltään Signal-to-Noise Ratio (SNR) [1] lasketaan. SNR määritellään (13), missä ja, vastaavasti tarkoittavat keskiarvoa ja keskihajontaa luokan vastaavan geenin. Huomaa, että suuremmat itseisarvo SNR geenin osoittaa, että geenin ilmentymisen taso on korkea yhden luokan ja alhainen toisessa. Siksi tämä harha on erittäin hyödyllinen erottamaan geenit, jotka ilmentyvät eri tavalla kahteen luokkaan näytteiden. Sen jälkeen laskettaessa SNR tilastotieto kunkin geenin, geenit lajitellaan alenevassa järjestyksessä niiden SNR arvoja. Vuodesta lajiteltu luettelosta, top 10 geenit valitaan geenimerkkejä (5 alassäädetty eli negatiivinen SNR ja 5 säädelty, toisin sanoen positiivinen SNR) varten EWS alatyyppi. Top 10 geenimerkkejä muiden kasvaimen alatyypit on valittu samalla tavalla, eli ottamalla huomioon kaksi luokkaa aina yksi vastaava kasvaimen luokkaan, jota varten geenin markkerit tunnistetaan, ja muut vastaavat kaikki jäljellä olevat kasvaimen luokkiin.

on havaittu, että joukko top 10 geenien valittu eri ajojen MOGASVM vaihtelee hieman eri ajon välillä. Joten vaikka raportointi lopullinen geenimerkkejä varten SRBCT tiedot, olemme raportoineet useimmin valittu 10 geenit kaikessa kulkee. Taajuudet valitaan geeneistä on myös raportoitu. Lisäksi, klusterointi tulos saadaan käyttämällä 40 markkerigeenejä varten SRBCT tietojen (10 kunkin 4 syövän alalajit) verrataan klusterointi käyttäen saadut tulokset alun perin valittu 200 geenit osoittavat tehokkuutta käyttämällä vain markkerigeenejä klusterointi.

Tietoaineistot

tässä artikkelissa, kolme julkisesti saatavilla benchmark syöpä aineistoja, nim.

SRBCT

,

Adult pahanlaatuisen

ja

Aivokasvain

aineistot on käytetty kokeissa. Aineistot on kuvattu tässä osiossa.

pieni pyöreä veren kasvaimet (SRBCT).

pieni pyöreä verisolujen kasvaimet (SRBCT) 4 eri lapsuuden kasvaimia nimetty niin, koska niiden samanlainen ulkonäkö tavanomaisia ​​histologia [5]. Näytteiden määrä on 63 ja kokonaismäärä geenejä on 2308. Niissä Ewingin perheen kasvaimet (EWS) (23 näytettä), neuroblastooma (NB) (8 näytettä), Burkittin lymfooma (BL) (12 näytettä) ja rabdomyosarkooma (RMS ) (20 näytettä). Tämä aineisto on julkisesti saatavilla osoitteessa https://www.ailab.si/supp/bi-cancer/projections/info/SRBCT.htm.

Adult Maligniteetti.

Tämä tieto koostuu 190 kasvain näytteet, ulottuen 14 yhteinen kasvaintyyppeihin oligonukleotidimerkkeihin mikrosirujen [6]. 14 kasvain tyypit ovat: rinnan adenokarsinooma (BR) (11 näytettä), eturauhasen adenokarsinooma (PR) (10 näytettä), keuhkon adenokarsinooma (LU) (11 näytettä) ja peräsuolen adenokarsinooma (CR) (11 näytettä), lymfooma (LY) (22 näytettä), virtsarakon siirtymäkauden cell carcinoma (BL) (10 näytettä), melanooma (ML) (11 näytettä), kohdun adenokarsinooma (UT) (10 näytettä), leukemia (LE) (30 näytettä), munuaissolukarsinooma (RE ) (11 näytettä), haiman adenokarsinooma (PA) (11 näytettä), munasarjojen adenokarsinooma (OV) (11 näytettä), keuhkopussin mesoteliooma (ME) (11 näytettä) ja keskushermosto (CNS) (20 näytettä). Määrä geenejä on 1363. Tämä aineisto on julkisesti saatavilla Internetissä osoitteessa: https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer.

aivosyövän.

Vastaa