PLoS ONE: parantaminen Cancer luokitustarkkuudesta käyttäminen Gene Parit

tiivistelmä

Viimeaikaiset tutkimukset viittaavat siihen, että vapauttaminen polkuja, eikä yksittäisiä geenejä, voi olla kriittinen laukaisi syövän synnyn. Reitti vapauttaminen johtuu usein samanaikaisesti sääntelyn purkaminen useamman kuin yhden geenin kautta. Tämä viittaa siihen, että vankka geenipari yhdistelmät voivat hyödyntää taustalla biomolekulaaristen reaktioita, jotka ovat merkityksellisiä koulutusjakson sääntelyn purkamista ja siten ne voivat tarjota parempia biomarkkereita syöpä, verrattuna yksittäisiin geeneihin. Voidakseen vahvistaa tämän hypoteesin, tässä asiakirjassa, käytimme geenipari yhdistelmä, nimeltään kaksoispiikki, syötteenä syövän luokitusta algoritmeja sijasta alkuperäisen ilmaisun arvoja, ja osoitimme, että luokitustarkkuudesta johdonmukaisesti parannettu eri aineistot ja luokittelu algoritmeja. Me validoitu Ehdotetun lähestymistavan avulla yhdeksän syöpää aineistoja ja viisi luokittelu algoritmeja kuten Prediction Analyysi mikrosirut (PAM), C4.5 Päätös Trees (DT), naiivi Bayes (NB), Support Vector Machine (SVM), ja k-lähimmän naapurin (

k-

NN).

Citation: Chopra P, Lee J, Kang J, Lee S (2010) parantaminen Cancer luokitustarkkuudesta käyttäminen Gene paria. PLoS ONE 5 (12): e14305. doi: 10,1371 /journal.pone.0014305

Toimittaja: Joel S. Bader, Johns Hopkins University, Yhdysvallat

vastaanotettu: 2. helmikuuta 2010 Hyväksytty: 18 marraskuu 2010; Julkaistu: 21 joulukuu 2010

Copyright: © 2010 Chopra et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat toinen Brain Korea 21 Project Grant, Microsoft Research Grant, National Research Foundation of Korea (NRF) se rahoitettiin Korean hallitus (MEST) (2010-0015713, 2009-0086140), ja Koreassa tiede ja Engineering Foundation (KOSEF) se rahoitettiin Korean hallitus (MEST) (R01-2008-000-20564-0). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

käyttö DNA mikrosiruja on johtanut tunnistamisen ja seurannan lukuisten syöpämarkkerina geenejä. Nämä geenit ovat laajalti käytetään erottamaan paitsi syöpäkudoksen näytteitä normaalista terveistä, mutta myös eri osa-syöpätyyppien [1] – [3]. Vuodesta diagnostinen kannalta on tärkeää tunnistaa oikein syöpäkudokseen jotta sopivin hoito voidaan antaa niin pian kuin mahdollista.

Lukuisia luokittelijoiden on ehdotettu ja arvioitiin niiden vertailevaa tarkkuus tunnistaa oikein syöpä kasvaimia [4] – [7]. Näkyvin näistä luokittelijoiden ovat PAM [8], SVM [9], [10],

k-

NN [11], DT [12], Top Scoring Pair (TSP) [13], ja

k-

Top Scoring Pair (

k-

TSP) [6]. Tulokset näistä tutkimuksista osoittavat, että ei ole olemassa yhtä luokittelija, jolla on suurin tarkkuus kaikkien mikrosiru ilmaisua aineistot. Tässä artikkelissa esittelemme uuden menetelmän, joka käyttää geeni paria parantaa yleistä tarkkuutta nykyisen luokituksen menetelmät muuttamatta taustalla olevia algoritmeja.

Viimeaikainen tutkimus on paljastanut, että biomolekyylitason reitit voivat olla vahvempia biomarkkereita syöpä, kuten verrattuna vapauttamisen yksittäisten geenien [14]. Vapautuminen eri osajoukon geenejä, jotka liittyvät samaan reittiin, voi johtaa sääntelyn purkamista reitin. Tarkistus geeniyhdistelmiä voi siten olla tehokkaampaa syövän luokitteluun verrattuna itsenäisesti tarkastaa yksittäisiä geenejä. Motivoi, että ehdotettu menetelmä käyttää tietoja, jotka ovat peräisin geenistä parin yhdistelmä, sen sijaan, että alkuperäinen ilmentymisen geenien arvoja. Käytämme johdettu tietoja tulona nykyisen luokituksen menetelmiä. Osoitamme, että nämä geeni parin yhdistelmä, jota kutsutaan dubletti, parantaa johdonmukaisesti luokittelun tarkkuutta nykyisen luokituksen algoritmeja.

merkitys ehdotettu menetelmä on se, että muuttamatta taustalla luokittelu algoritmeja voidaan merkittävästi parantaa suorituskykyä algoritmit yksinkertaisesti rakentaa dubletti ja käyttämällä niitä tulo, sen sijaan, että raaka-geenin ilmentymisen arvoja. Dublettien voidaan konstruoida eri tavoin. Tässä artikkelissa, me kokeiltu kolmea erilaista kaksoispiikki:

sumdiff

,

mul

ja

allekirjoittaa

dupleteiksi.

sumdiff

dubletti on rakennettu ottamalla summa ja erotus kaikkien parien ilmentämisvektoreita siten, että dubletti on edustettuna vektorin summa tai erotus kahden geenin vektorit.

mul

dupleteiksi samalla tavoin rakennettu ottamalla kerto- ja

allekirjoittaa

dupleteiksi rakennetaan ottamalla merkkejä erot kahden geenivektoreina. Katso ”Materiaalit ja menetelmät” -osassa lisätietoja.

Tulokset

LOOCV

(

Jätä Out Cross Validation

) suoritettiin mittaamiseksi tarkkuutta doublet-luokituksessa. Testata näyte, kaikki näytteet, mutta testataan yksi, käytetään laskemaan geenien ja geenien on järjestetty mukaisesti laskeva itseisarvojen tulokset. Kaava laskennassa käytetty tämä tilanne on (1), jossa ovat luokkaa tarkoittaa; edustavat varianssit; ja edustavat useita näytteitä kahteen luokkaan ja, vastaavasti.

valitse alkuun 0,2%, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, 10% kokonaismäärä geenien aineisto tehdä dupleteiksi. Olemme edelleen karsia dupleteiksi niin, ettei geeni esiintyy useammin kuin kerran viimeinen dupletti. Algoritmi käytämme muotoilla näitä ainutlaatuisia dupleteiksi alkuperäisestä microarray ilmaisun aineisto on kuvattu alla.

Input

: Gene Expression Matrix geeneillä ja näytteitä, luokka vektori näytteiden sekä useita geenejä analyysi edellyttää.

Output

: Unique dupleteiksi

1. Laske t-pisteet matriisi luokan vektori.

2. Tee järjestetyn listan kaikista geeneistä, alenevassa arvo niiden absoluuttinen t-pisteet.

3. Ota alkuun geenien järjestetty lista, ja purkaa niiden ilmaisun arvot. Uusi ilme matriisi on rivejä ja sarakkeita.

4. Tee dupleteiksi mistä saada uusi matriisi, jossa on rivejä ja sarakkeita.

5. Laske t-pisteet matriisi luokan vektori.

6. Tee järjestetty luettelo kaikista dupletti in, alenevassa arvo niiden absoluuttinen t-pisteet.

7. Alusta kuin tyhjän listan.

8. forall

dupleteiksi

do (alenevassa absoluuttinen t-pisteet järjestyksessä); Jos kumpikaan geenien dupletti on, lisää sitten kaksinkertainen

9. Paluu

tarkkuus alkuperäisen algoritmien mitataan kaikki raaka ilmaus arvot geenien syötteenä. Meidän viittaa tarkkuuteen alkuperäisen algoritmin, esimerkiksi PAM, PAM, ja tarkkuus saadaan käyttämällä

sumdiff /mul /allekirjoittaa

dupleteiksi syötteenä PAM kuin

sumdiff /mul /sign-

PAM, vastaavasti. Kuviossa 1 verrataan tarkkuus standardin PAM luokittelija kuin

sumdiff /mul /solmimalla

PAM, joka on saatu ottamalla alkuun% geenit, yhdeksän aineistot on lueteltu taulukossa 1. Voidaan nähdä, että jopa ottamalla pieni prosenttiosuus suosituimmista geenien ja tekemällä dupleteiksi voitaisiin parantaa suorituskykyä PAM.

sumdiff /mul /sign-

PAM luokittelija päihittää standardin PAM luokittelija monissa aineistoja.

Kahden aineistoja, keskushermoston ja DLBCL, tämä voitto on merkittävä. Esimerkiksi kanssa

sign-

PAM käyttäen top 2% geeneistä, tarkkuutta on kasvanut 82,4%: sta 91,2%: CNS-aineisto; sekä DLBCL aineisto, tarkkuus on kasvanut 85,5%: sta 97,4%. Keskimääräinen tarkkuus PAM luokittelija yhdeksän aineistoja on kasvanut 88,7%: sta 90,6%, 89,3% ja 91,7%, jossa

sumdiff

,

mul

ja

sign-

PAM top 2% geenejä, tässä järjestyksessä.

Voimme tehdä kaksi huomiota tästä tuloksesta. Vain pieni joukko alkuun geenejä, jotta voidaan saavuttaa parannuksia ja että parannukset ovat melko yhdenmukaisia ​​koko aineistot. Sen osoittamiseksi, ovatko nämä havainnot ovat edelleen voimassa muiden luokitusten menetelmiä, suoritimme samoja kokeita eri luokitusta menetelmiä kuten DT, NB, SVM ja

k-

NN luokittelijoiden.

Kuva 2 esittää vertailun tulokset DT: n kanssa. Tarkkuus DT jatkuvasti parantunut koko yhdeksän aineistot. Joissakin tapauksissa parannukset olivat merkittäviä. Esimerkiksi

sumdiff-

DT paransi tarkkuutta DT mistä 64,8%: sta 77,3% vuonna Pros.2 aineisto käyttäen top 4% geeneistä; välillä 73,6%: sta 93,1%: in Leukemia aineisto vain top 0,2% geeneistä; ja 80,5%: sta 98,7% vuonna DLBCL aineisto vain top 0,2% geenejä. Vastaavasti

moni-

DT paransi tarkkuutta DT mistä 64,8%: sta 84,1% vuonna Pros.2 aineisto käyttäen alkuun 0,4% geeneistä; välillä 84,9%: sta 100% vuonna Pros.3 aineisto yläreuna 0,4% geeneistä; ja 80,5%: sta 97,4% vuonna DLBCL aineisto kanssa top 1% geeneistä. Lopuksi

sign-

DT paransi tarkkuutta DT mistä 84,9%: sta 97,0% vuonna Pros.3 aineisto käyttäen alkuun 0,2% geeneistä; välillä 73,6%: sta 95,8%: in Leukemia aineisto yläreuna 0,6% geeneistä; ja 77,4%: sta 93,6%: in Colon aineisto yläreuna 0,6% geenejä. Keskimäärin yli yhdeksän aineistoja, tarkkuutta DT parani 78,9%: sta 85,2%, 84,2% ja 89,1% käyttämällä

sumdiff

,

mul

ja

allekirjoittaa

dupleteiksi yläosan kanssa 0,8% geenejä, tässä järjestyksessä.

vastaavasti NB tarkkuus parani merkittävästi kanssa

sumdiff

ja

mul

dupleteiksi. Tulos on esitetty kuviossa 3. Yksi mielenkiintoinen havainto teimme on se, että NB

allekirjoittaa

dupleteiksi ovat olleet jatkuvasti huonompi kuin muut riippumattomat lukumäärästä alkuun geenejä käytetään doublet sukupolvi. Tämä johtuu siitä, että

allekirjoittaa

dupleteiksi muuttaa ilmaisun arvot binary muuttujien järjestystä ilmaiseva ekspressiotason välillä geenien geenissä pareittain ja transformoidut binary arvot eivät säilytä tarpeeksi tietoa luokan todennäköisyys käyttää luokitusta . Siten

allekirjoittaa

dupleteiksi eivät sovellu NB luokittelijoiden. Tästä huolimatta suorituskyky voitot kanssa

sumdiff

ja

mul

dupleteiksi olivat huomattavia. Vuonna Pros.1 aineisto, sekä

sumdiff /moni-

NB parani tarkkuutta 62,8%: sta 91,2%: n top 0,2% geeneistä; Colon aineisto, tarkkuus parani 56,5%: sta 87,1% ja 88,7% kanssa top 1% geenejä, tässä järjestyksessä. Lopuksi DLBCL aineisto, tarkkuus parani 80,5%: sta 96,1% ja 92,2% yläosan kanssa 0,2% geenejä, tässä järjestyksessä. Keskimäärin tarkkuus parani 81%: sta 90,7% ja 89,5%, jossa

sumdiff

ja

mul

dupleteiksi yläosan kanssa 0,2% geenejä, tässä järjestyksessä.

SVM tiedetään olevan yksi vahvimmista luokittelijoiden monilla aloilla. Vaikka sen suorituskyky oli vakuuttava itse, havaitsimme, että joissakin tapauksissa meidän kaksinkertainen lähestymistapa paransi suorituskykyä merkittävästi. Tulos on esitetty kuviossa 4. Colon aineisto, suorituskyky voitto oli silmiinpistävin. Tarkkuus parani välillä 82,3% ja 87,1%, 87,1% ja 93,6%, jossa

sumdiff /mul /sign

dupleteiksi kanssa top 1% geenejä, tässä järjestyksessä. Vuonna Pros.2 aineisto, tarkkuutta parannettiin 76,1%: sta 80,7%, 84,1% ja 85,2% yläosan kanssa 8%, 0,2% ja 1% geenejä, tässä järjestyksessä. Keskimäärin, tarkkuutta parannettiin 91,2%: sta 92%, 91,9%, ja 89,4%: lla

sumdiff /mul /allekirjoittaa

dupleteiksi kanssa top 4% geenejä, tässä järjestyksessä.

Lopuksi varten

k-

NN, samalla havaittiin, kuten on esitetty kuviossa 5.

k-

NN, suorituskyky voitto oli huomattavia lähes kaikissa aineistoja. Esimerkiksi Leukemia aineisto, tarkkuutta parannettiin 84,7%: sta 98,6%, 98,6%, ja 100%: lla

sumdiff /mul /sign

dupleteiksi yläosan kanssa 2%, 0,8% ja 0,2% geeneistä vastaavasti. Keskimäärin, tarkkuutta parannettiin 84,3%: sta 91%, 90,1% ja 90,7%, jossa

sumdiff /mul /allekirjoittaa

dupleteiksi kanssa top 4% geenejä, tässä järjestyksessä.

muu kuin

kirjautua

dupleteiksi NB luokittelija, käytetään kolmea dupletti parantanut suorituskykyä lähtötilanteessa luokittelijoiden. Perustaso luokittelijoiden keskimääräinen tarkkuus hinnat yli yhdeksän aineistot vaihteli 79%: sta 91% (so DT = 79%, KNN = 84%, NB = 81%, SVM = 91%, ja PAM = 89%). Toisaalta, niiden keskiarvot kanssa dubletti pysytellyt suuremmalla alueella, tai 89%: sta 92% (eli

sign-

DT = 89%,

sumdiff-

KNN = 91 %,

sumdiff-

NB = 89%,

sumdiff-

SVM = 92%, ja

moni-

PAM = 90%; kaikki luvut top 4% geeneistä ). Perustaso luokittelijoiden osoitti merkittävää suorituskyvyn ero joukossa. Kun se tulee kaksoispiikki, mutta ero oli minimoitu ja suorituskyky parani. Kaikki kolme kaksinkertainen tyyppiä lähes yhtä vaikuttaneet suorituskyvyn parantamiseksi politiikan eri aineistojen (paitsi

kirjautua

dupleteiksi NB).

sumdiff /mul /allekirjoittaa

dupleteiksi kanssa top 4% geeneistä merkitty keskimäärin tarkkuudet viiden luokittelijoiden 88,7% (vakio. 3.4), 88,5% (vakio. 3.8), ja 85,4% (std. 9.9 ), vastaavasti.

sumdiff

dupleteiksi osoitti hieman paremman suorituskyvyn kuin muut tekivät. Tämä tulos on mahdollisesti seuraavista seikoista johtuvat tosiasia:

sumdiff

dupleteiksi kaapata molemmat ylös- ja alaspäin suhteet (eli ylös-ylös, alas-alas ja ylös-alas) sekä tilauksen suhteiden ilmaus arvot jokaisesta geenistä parin. Päinvastoin,

mul

dupleteiksi kaapata entinen yksin, ja

allekirjoittaa

dupleteiksi vangita jälkimmäinen yksin. (Katso kohdasta Materiaalit lisätietoja.) B

Keskustelu

Tuoreessa tutkimuksessa todettiin, että polku taso sääntelyn purkaminen on tärkeämpää karsinogeneesiin kuin sääntelyn yksittäisten geenien [14]. Polku on tyypillisesti vapautettu että sääntelyn purkaminen useamman kuin yhden geenin, joka liittyy että polku. Tämä tukee motivaatiota käyttää dupleteiksi kuin varustelu luokittelun, koska dupleteiksi voisi kaapata mahdollisesti lisätietoja koulutusjakson tasoa sääntelyn kuin yksittäiset geenit. Tässä tutkimuksessa kuitenkin dupleteiksi yhdistettiin erilaisista reittejä; nimittäin, ei rajoitu näihin geenin paria kuuluvat samaan reittejä. Sallimalla kaikki mahdolliset geeniyhdistelmiä, yritimme kaapata paitsi suoraan sisäiseen koulutusjakson vuorovaikutuksia, mutta myös joitakin mahdollisia epäsuoria välisen reitin yhdistyksiä. Aiomme jatkaa meidän tulevaan työhön, tapaukset, joissa vain sisäisen reitin dupleteiksi käytetään.

Useat riippumattomat tutkimukset ovat todistaneet sen tehokkuutta yhdistämisen geenin paria. Zhou ja hänen kollegansa ovat ottaneet käyttöön tekniikkaa nimeltä

toisen kertaluvun korrelaatioanalyysiä

jossa pari-viisasta korrelaatiot geenien hyödynnetään toiminnallista luokittelua geenien [15]. Niiden lähestymistapa toimii seuraavasti: Ensin lasketaan kaikki pareittaiset korrelaatiot geenien kussakin aineisto (1. asteen korrelaatioita); Sitten korrelointimalleista analysoidaan useiden aineistot (2. asteen korrelaatioita). Valinta tehdään geenin pareja, jotka osoittavat korkeat korrelaatiot useita aineistoja, ja valitun lomakkeen dupleteiksi. Dupletti esitetään vektorina siten, että sen ulottuvuus ja arvo vastaavasti vastaavat aineisto ja korrelaatioarvon geenin parin vastaavassa aineisto. Dublettien jälkeen ryhmittyneet käyttämällä korrelaatiota kuin samankaltaisuutta metristä. Dublettien ryhmittyneet yhteen katsotaan samanlaisia ​​tehtäviä, koska ne käännetään päälle ja pois yhdessä yli aineistoja.

Olemme myös kehittäneet microarray tietojen integroinnin tekniikoita, jotka hyödyntävät välisten geeni suhteet, kuten

korrelaatio allekirjoitus

[16] ja

allekirjoitus kuutio

[17].

korrelaatio allekirjoitus

projektit heterogeeninen microarray ilmaisun dataa johdonmukaisen tiedon tila, jossa geeni edustaa vektorin sen korrelaatioita vastaan ​​joukon maamerkki geenejä. Jos samoja maamerkkejä käytetään, heterogeeninen microarray aineistoja, joita ei olisi voitu suoraan yhdistetty, voidaan integroida, koska korrelaatio allekirjoitukset geenien on yhteensopivat mitat.

allekirjoitus kuutio

yleistää periaatteita korrelaatio allekirjoituksen tarjoamalla heterogeeninen microarray data mining puitteet, joissa tiedot ovat edustettuina suhteellisesti (eli muun geenin suhteet). Siten kaivos algoritmi on johdonmukaisesti sovelletaan kaikkialla aineistoja. Lisäksi microarray tietojen integroinnin, meillä on myös sovelsi että klustereiden ongelman ja on otettu käyttöön uusia klusterointi puitteet,

SignatureClust

[18].

SignatureClust

klustereita microarray data jälkeen ulkonevat sen allekirjoituksen rajaamaan tilaan joukon maamerkki geenien käyttäjän valitsema, jolloin biologit saada eri näkökulmia samasta pohjatiedot yksinkertaisesti vaihtamalla maamerkin geenejä.

Se on myös osoittautunut, että inter-geenin tieto on hyödyllistä syövän luokittelua varten.

k-

TSP hyödyntää muutoksia ekspressiotasot geenin paria parantamiseksi luokittelun tarkkuutta [6].

k-

TSP luokittelija käyttää geeni pareja, jotka muistuttavat meidän

allekirjoittaa

dupleteiksi.

k-

TSP luokittelija tunnistaa geeni pareja, joiden ilmentymistä tilaukset ovat johdonmukaisesti peruutetaan poikki luokkiin; eli jos useimmissa vertailunäytteet sekä useimmissa syöpä näytteet, niin

k-

TSP luokittelija osalta geenipari ja hyvänä indikaattorina luokista.

k-

TSP luokittelija löytää ylä- paria, jota kutsutaan TSP (Top Scoring Parit), ja se käyttää niitä määrittää luokkia.

k-

TSP luokittelija yhdistyvät ennustaminen jokaisen TSP avulla painottamaton enemmistöpäätöksen ratkaisee lopullisen luokka näytteen. Äskettäin

k-

TSP algoritmi on käytetty myös parantamaan luokittelun tarkkuutta SVM luokittelija [19].

menetelmä eroaa

k-

TSP luokittelija kolme tärkeää näkökohtaa. Ensinnäkin -TSP on suunniteltu toimimaan vain yhdenlaisia ​​geenin liittäminen (samanlainen kuin meidän

allekirjoittaa

dupleteiksi), kun taas meidän menetelmä ei ole rajoitettu tietyntyyppisiin pariksi. Tässä artikkelissa olemme määritelleet kolme kaksoispiikki, eli

sumdiff

,

mul

ja

allekirjoittaa

, mutta erilaiset muut dupleteiksi voidaan myös käyttää ehdotettua kehystä. Toiseksi, meidän menetelmä Nykyisiä vakiintunut luokittelijoiden sijaan suunnitella uusia luokitus malleja. Tämä oli mahdollista, koska meidän menetelmä erottaa geenin liittäminen vaiheessa (eli ominaisuus uuttovaiheessa) luokittelusta mallista rakentamiseen. Lopuksi

k-

TSP luokittelija käyttää taajuutta kuin metrinen määrittää pisteet niiden geeniä paria, kun taas me käytämme luotettavia

t-tulokset

. Taulukossa 2 esitetään yhteenveto tarkkuus tulokset dubletti ja perustason luokittelijoiden, sekä tarkkuus TSP ja

K

TSP. TSP viittaa tapaukseen, jossa vain yksi vaikutusvaltaisimmista TSP käytettiin luokitteluun. TSP ja

k-

TSP luokittelijoiden raportoitu vankka suorituskyky, ylittäen useimmat perustason luokittelijoiden. Silti kaksi luokittelijoiden jäävän varten tutkimuksemme. Tämä tutkimus on merkittävä, koska osoitettiin, että yksinkertainen doublet-pohjainen ominaisuus uuttomenetelmällä merkittävästi parantaa tarkkuutta tavanomaisten luokittelijoiden aina jopa tasolle erikoistuneita luokittelu algoritmeja kuten TSP ja

K

TSP.

15 parasta dubletti ja niihin liittyvät Kegg väyliä CNS aineisto on esitetty taulukossa 3. Yksi mahdollinen selitys siitä, miksi kaksinkertainen tarkkuus on korkeampi kuin perustason luokittelijoiden voisi olla, että reitit liittyvä jokaisen elementin dubletti jotenkin lukittu toisiinsa, ja siksi muodostavat vakaampi biomerkkiaine verrattuna kuhunkin polkuja erikseen. Kuitenkin vankemman tutkimus tarvitaan ennen kuin hypoteesi voidaan vahvistaa. Meidän tulevaa työtä, aiomme tehdä järjestelmällinen analyysi näistä top dupletti, niihin liittyvät väyliä ja niiden mahdolliset yhteydet syöpä.

Olemme osoittaneet, että yhdistämällä ekspressiotietojen geenien parien lisää tarkkuutta luokittelijoiden. Meillä on myös osoittanut, että määrän lisääminen geenien tehdä dupleteiksi ei välttämättä johtaa vastaavaan tarkkuuden parantuminen. Tämä on merkittävää, koska saamme erittäin suuren tarkkuuden vaikka käytämme hyvin pieni joukko kokonaismäärästä geenejä. Siten laskennallisen monimutkaisuuden Computing dupletti, joka voi mahdollisesti olla asteen jotta kokonaismäärä geenien aineisto, ei ole kriittinen, koska vain hyvin pieni joukko geenejä on käytetty.

geenejä, jotka käsittävät alkuun dupleteiksi myös helposti tulkittavaa tuloksia, verrattuna muihin menetelmiin, kuten SVM. Vaikka SVM voi tarjota parempaa tarkkuutta kuin toiset, se on lähinnä mustan laatikon ja mitään tietoa voidaan saada suhteen biomarkkereiden geenejä. Kaksoispiikki, toisaalta, ovat helposti tulkittavissa. Doublets mitkä geenit ja joka geeni parit voivat toimia biomarkkereita kasvainten luokittelun.

Tulevaisuudessa aiomme analysoida näitä dubletti poikki aineistot ja syöpätyyppeihin valita vankempi syöpä biomarkkereiden geeniä paria. Erityisesti tutkimme, miten yksittäiset dupleteiksi karttaa todellisiin geenien suhteet, kuten tukahduttaminen tai stimulaatio, ja miten suhteet toiminnon osalta syövän synnyn. Se on lisäksi tarkoitus tentti tehokkuutta kaksoispiikki luokittelussa usean luokan syöpää aineistoja.

Johtopäätös

panos tämä paperi on kaksijakoinen. Ensinnäkin se on otettu käyttöön dubletti, uusi menetelmä yhdistää ilmaisun tietoja geenin paria. Gene parit ovat vakaampi biomarkkerit verrattuna yksittäisiin geeneihin, mikä johtunee siitä, että geenit ovat vuorovaikutuksessa suorittamaan molekyylitason funktio ja vapauttamisen geenien vuorovaikutuksen sijaan itsenäinen geenejä, voi olla vastuussa vapauttamiseksi kriittisen polkuja. Toiseksi, olemme yhdistäneet dupleteiksi perinteisiin luokittelijoiden tuottaa luokittelijoiden joiden tarkkuus on suurempi kuin alkuperäisiin. Me validoitu puitteissa käyttämällä viittä tunnettua luokittelijoiden lukien PAM, DT, NB, SVM, ja KNN. Osoitimme, että kaksoispiikki voidaan helposti integroida nykyisiin luokittelijoiden muuttamatta taustalla algoritmeja, ja että käyttämällä dupleteiksi voi parantaa johdonmukaisesti luokitustarkkuudesta alkuperäisen algoritmien eri aineistojen.

Materiaalit ja menetelmät

Gene Doublets

Tulkoon

N

geenien kudosnäytteestä, ja olkoon

M

tällaisia ​​kudosnäytteitä. Syöpä aineisto voitaisiin edustettuina matriisin ulottuvuus. Sitten voisi merkitsevät ilmaisun arvo

i

nnen geeni,

j

: s näyte,. Geeni Vektori = olisi merkitsevät ilmaisun arvo

i

nnen geeni kaikkialla

M

kudosnäytteitä ja sarakevektorina = edustaisi

j

nnen kudosnäyte poikki

N

geenejä. Luokan etiketit kudosnäytteiden edustaa vektori =, jossa asetettu kaikkien luokkaan tarroja. Meidän binary luokituksen ongelma, jossa tarkoittaa syöpä- ja merkitsee normaalia kudosta näytettä.

kunkin parin geenien aineisto, määritellään positiivinen dubletti vektorin ja negatiivinen dubletti vektorin (2) (3)

Näin ollen meidän aineisto geenien kanssa, meillä on positiivinen dubletti ja negatiivisia dubletti, ja meidän alkuperäinen mikrosiru aineisto on ulottuvuus muuntuu matriisiin. Jokainen rivi tässä uudessa matriisissa edustaa dubletti (positiivinen tai negatiivinen). Merkitään tätä matriisin, jossa on mitta, jossa; Siten määritelty dupleteiksi kutsutaan

sumdiff

dupleteiksi. Toisessa vaihtelu tehdä dupletti, me määrittelemme

mul

dupleteiksi kuten: (4) ja

allekirjoittaa

dupleteiksi kuin: (5) B

sumdiff

dupleteiksi ottaa jopa ylös, alas-alas (eli positiivinen dubletti) ja ylös-alas (eli negatiivinen dubletti) suhteet ilmentymisen arvojen geenin paria. Lisäksi negatiivinen dubletti kaapata järjestyksessä ilmaisun arvojen geenien geenin pari. Ole hyvä huomata, että aineistot prosessattiin arvo on vähintään 10 ja enintään 16.000. Tämän jälkeen arvot muunnettiin kautta. Sitten kaikki näytteet standardoitu nolla keskiarvo ja yksikön varianssi.

mul

dupleteiksi paitsi kaapata ajan ylös, alas-alas ja ylös-alas suhteet geenien parien, mutta myös monistaa suhteita kertomalla. Kuitenkin

mul

dupleteiksi eivät kerro ilmaisua tilauksia geenien välillä. Toisaalta,

allekirjoittaa

dupleteiksi kaapata välinen geenien ilmentymisen tilauksia yksin.

Microarray Data ja luokittelu menetelmät

microarray tiedot ovat peräisin useista tutkimuksista, kuten on esitetty taulukossa 1. Nämä ovat samat aineistot, joita käytettiin [6] vertailussa TSP ja

K

TSP eri luokittelijoiden. Mikrosirujen koostuvat ilmaisun tietojen kudoksiin liittyy paksusuolen, veren, keuhko-, rinta-, eturauhas-, ja syöpä keskushermostoon. Näytteiden määrä ja määrä geenejä kussakin tutkimuksessa on myös esitetty taulukossa 1. perustason luokittelijoiden, käytimme toteutukset käytettävissä Bioconductor (PAM) [20] ja Weka (DT, NB, SVM ja KNN) [21].

Classification tarkkuus

Käytämme

LOOCV

(

Jätä Out Cross Validation

) menetelmän arvioida luokittelija tarkkuutta. Kunkin näytteen aineisto, käytämme loput näytteiden aineisto ennustaa luokan näytteen. Luokittelu tarkkuus kunkin aineisto on suhde numero luokiteltu oikein näytteet (True Positiivisia + True Negatives) on näytteiden kokonaismäärä kyseisessä aineisto.

Kiitokset

Tämä paperi on oleellisesti laajennettu versio meidän esityön esitetty 2009 IEEE International Conference on Bioinformatics ja biolääketieteestä [22]. Paperi esitetty konferenssissa esitteli alustavia havaintoja rajoitettu vain yhden tietyn luokituksen algoritmi, PAM. Tässä laajennettu paperi, me yleistää havainnot osoittamalla, että johdettu tiedot vankka geenistä paria voisi parantaa tarkkuutta syövän luokittelu riippumaton taustalla luokituksen algoritmeja. Keskustelimme myös tulkinta geenin parien erittäin alustava dubletti ja niiden yhteydessä syöpään.

Vastaa