PLoS ONE: Henkilökohtainen Pathway rikastus Kartta Otaksuttavat Cancer geenit Next Generation Sequencing Data

tiivistelmä

Background

Pathway analyysi joukko geenejä on tärkeä alue suuren mittakaavan

omic

tietojen analysointi. Kuitenkin soveltaminen perinteisen reitin rikastusmenetelmiä seuraavan sukupolven sekvensointi (NGS) data on altis useita mahdollisia harhat, kuten genominen /geneettiset tekijät (esim nimenomaisen sairauden ja geenin pituus) ja ympäristötekijät (esim henkilökohtainen elämäntyyli ja taajuus ja annostus altistumisen mutageenien). Siksi uusia menetelmiä tarvitaan pikaisesti näitä uusia tietotyyppejä, erityisesti yksittäisten erityisiä genomitietoa.

Menetelmät

Tässä tutkimuksessa ehdotimme uusi menetelmä polun analyysiä NGS mutaation data nimenomaisesti ottamalla huomioon geeni-viisasta mutaatioaste. Arvioimme geeni-viisasta mutaatioaste perustuu yksittäisiin-erityinen tausta mutaatioaste yhdessä geenin pituus. Kun mutaatio tahtiin kuin paino kullekin geenille, meidän painotettu resampling strategia perustuu nolla jakauma kunkin reitin yhdistämällä geenin pituus kuvioita. Empiirinen

P

saatu arvo antaa sitten mukautettu tilastollisen arvioinnin.

Keskeiset havainnot /Johtopäätökset

osoittaneet painotetun resampling tapa keuhkojen adenokarsinooman aineisto ja glioblastooma aineisto, ja verrataan sitä muihin laajasti sovellettu menetelmiä. Nimenomaisesti säätämällä geenin pituus, painotetun rs menetelmä toimii sekä standardimenetelmiä merkittäviä väyliä vahvaa näyttöä. Tärkeää on, meidän menetelmä voisi tehokkaasti hylätä monia marginaalisesti merkitsevä polkuja havaita tavanomaisilla menetelmillä, mukaan lukien useita pitkän geenipohjaisten, syöpään etuyhteydettömille reittejä. Olemme lisäksi osoittaneet, että vähentämällä tällaisten harhojen koulutusjakson ylikuuluminen kunkin yksittäisen ja polku yhteistyötä mutaatio kartta useiden yksilöiden voidaan objektiivisesti tutkia ja arvioida. Tämä menetelmä tekee polku analyysi näytteessä-keskitetty muoti, ja tarjoaa vaihtoehtoisen tavan tarkan analyysin syöpää yksilöllisiä genomien. Sitä voidaan laajentaa muihin genomisen tietojen (genotyypityksen ja metylaatio), jotka ovat samanlaisia ​​bias ongelmia.

Citation: Jia P, Zhao Z (2012) Henkilökohtainen Pathway Väkevöiminen Kartta Otaksuttavat Cancer geenit Next Generation Sequencing Data . PLoS ONE 7 (5): e37595. doi: 10,1371 /journal.pone.0037595

Editor: Steve Horvath, University of California Los Angeles, Yhdysvallat

vastaanotettu: 21 joulukuu 2011; Hyväksytty: 25 huhtikuu 2012; Julkaistu: 18 toukokuu 2012

Copyright: © 2012 Jia, Zhao. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ oli osittain tuettu avustuksia National Institutes of Health, 2009 NARSAD Maltz tutkija palkinto ZZ, ja vuoden 2010 NARSAD Young Investigator Award PJ. Ei ylimääräistä ulkoista rahoitusta saatiin tätä tutkimusta varten. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat lukenut lehden politiikan ja ovat seuraavat ristiriitoja: Dr. Zhongming Zhao tällä hetkellä toimii editori PLoS ONE. Tämä ei muuta tekijöiden noudattaminen kaikki PLoS ONE politiikan tietojen jakamista ja materiaaleja.

Johdanto

Suurissa sekvensointi tutkimuksia syövän genomien, yksi keskeisistä haasteista on erottaa sairautta aiheuttavia ”kuljettajan” mutaatiot ”matkustaja” mutaatioita, ja mahdollista kehittää täsmähoitoihin ja lääkitys. Vaikka tilastolliset menetelmät ovat olleet aktiivinen kehittäminen testata mutaatio tapahtumia geenin tasolla kombinatorinen esiintyminen monien geenien näyttää erotettavissa malleja. Jotkut hyvin tutkituissa esimerkkejä ovat toisensa poissulkevia mutaatioita kuten

EGFR

ja

KRAS

keuhkosyövässä [1], ja

TP53

ja

MDM2

vuonna glioblastooma. Useimmat näistä mutaatioista havaittiin usein tiettyjen keskittynyt väyliä, esimerkiksi, neljä geeniä EGFR-RAS-RAF-signalointireitin

EGFR

,

KRAS

,

HER2

, ja

BRAF

, käyttäytyvät molemminpuolinen yksinomainen muoti keuhkosyövän [1], [2]. Lisäksi viimeisimmät havainnot Cancer Genome Atlas (TCGA) hankkeet voimakkaasti ehdotti lähentyminen mutaatioiden koulutusjakson tasolla (esim kolme keskeistä reittejä glioblastooma, [3]). Nämä havainnot edistettävä syntymässä yksimielisyys siitä, että kuljettaja geenit voitaisiin analysoitava koulutusjakson tasolla ja aiheuttaa yksinkertaisempaa toiminnallisen tulkinnan.

nopea etukäteen seuraavan sukupolven sekvensointi (NGS) tekniikat on tehnyt mahdolliseksi sekvensoida yksilön genomit ajoissa ja kustannustehokkaasti. Esimerkiksi koko Genomikartoituksen voi tarjota täyden valikoiman geneettisen mutaatiot, mukaan lukien yhden nukleotidin variantit (SNVs), lyhyt insertiot /deleetiot (indeleitä), kopioluvun vaihtelut (CNVs), ja rakenne variantteja. Toistaiseksi monet yksittäiset syöpä genomeja on onnistuneesti sekvensoitu [4], [5], [6], ja vielä odotetaan lähitulevaisuudessa. Nämä sovellukset tarjoavat arvokasta sekvenointitulosten yksittäisten genomien ja mahdollistaa suorittaa analyysin näytteessä keskipisteenä tavalla suuresti nopeampaa askeleemme kohti henkilökohtaista diagnosoida ja lääkitys.

Tässä työssä pyrittiin suorittamaan pathway- rikastamiseen testi ryhmä otaksutun syövän geenien havaittiin yksittäisiä potilaita. Toisin kuin useimmat perinteiset tietotyyppejä, henkilökohtainen sekvenointitulosten tyypillisesti mutkistaa seuraavat ominaisuudet: (1) mutatoitunut geenit liittyvät yhden yksilön ja todennäköisesti eroavat useille henkilöille; (2) mutatoituja geenejä esiintyy yksilöllisen-erityinen tausta mutaatioaste, joka voi joutua henkilökohtaiseen elämäntapaa, taajuus ja annostelu altistumisen mutageenien, ja erityisesti taudin; ja (3) mutatoituja geenejä johtuvan geenin pituus olettaen, että mutaatiot tasaisesti esiintyy koko genomin. Johtuen näihin haasteisiin, menetelmiä, jotka ovat hyvin tutkittu ja laajasti sovellettu standardia geeniperimä analyysit eivät ole suoraan sovellettavissa. Esimerkiksi toiminnallinen rikastus testi on tärkeä tapa tutustua biologisten toimintojen luettelo on kiinnostuksen kohteena olevia geenejä. Perinteisesti kiinnostavat geenit ovat peräisin tutkimuksia ryhmä näytteitä, esim ilmentyvät eri (DE) geenit ovat peräisin tapauksessa /valvonta suunnittelu, ja standardi tilastolliset testit kuten hypergeometrisen testin tai Fisherin testiä voidaan suorittaa testata, jos geeni setti (esim polku tai funktionaalinen ryhmä) on merkittävästi rikastettu DE geenejä. Erityisesti yhteinen olettamusta nämä testit on, että kaikki geenit (vastaa pallot uurnan) on yhtäläinen mahdollisuus tulla valituksi. Kuitenkin, kun sitä sovelletaan NGS tietojen mutaatio yksikkö on genomista DNA: ta, esim., SNVs tai pieni insertioita /deleetioita (indeleitä), ja ne oletetaan tapahtuvan tasaisesti genomiin. Sen sijaan, analysointiyksikkö on polku rikastus testi on geeni. Bias havaitaan usein prosessissa liittyvät SNVs tai indeleitä geeneihin on se, että pitkän geenit ovat yleensä satama enemmän mutaatioita, sillä ne vievät suuremman osia genomista, ja siten, pitkä geenit on yleensä suurempi mahdollisuus on mutatoitunut. Siksi standardin Hypergeometrinen testin tai Fisherin testiä ei enää sovelleta kyseisiin tietotyyppejä.

pitkä geeni vaikutus on kirjattu NGS mutaatio tietoja. Viime työtä Wendl et al. [7], arvioida todennäköisyys koulutusjakson on rikastettu mutatoitujen geenien, brute force tapa Computing tarkka

P

arvot kuvattiin, ja konvoluutio-pohjainen approksimaatio strategia ehdotettiin jonka tavoitteena on vähentää laskennallinen taakka. Geeni pituus bias on tunnustettu myös RNA sekvenointitulosten, jossa pitkät selostukset on yleensä enemmän lukee kartoitettu niitä. Teoksessa Young et al. [8], kirjoittajat asentamista suunnitellaan todennäköisyys painotus funktio ja määrällisesti arvioida todennäköisyyttä litteraatin on valittu DE funktiona sen transkriptin pituus. Gene ontologia (GO) rikastaminen testi suoritetaan sitten perustuu arvioituun todennäköisyyden kullekin transkriptio /geeniä. Erityisesti geeni pituus bias näkyy monin tavoin reittiin liittyvän analyysin, kuten koulutusjakson ylikuulumisen kussakin näytteessä ja polku yhteistyötä mutaatio profiilin poikki useita näytteitä [9]. Asianmukaiset säätö voisi takaa tarkkuutta näihin analyyseihin.

Tässä tutkimuksessa ehdotimme bias vähentävä strategia reitin rikastamiseen testiä ottamalla taustaa geenispesifisestä mutaationopeudet. Tämä strategia, nimittäin painotetun rs menetelmää, jossa otetaan huomioon geenin pituus arvioida polku

P

arvoja ja on osoittautunut laskennallisesti tehokkaita. Painotetun rs puitteet, henkilökohtainen polku ylikuuluminen voidaan myöhemmin tutkia, paljastaen monimutkainen vuorovaikutus on reitin tasolla. Lisäksi olemme osoittaneet, että tehokas vähentäminen geenin pituus harhaa, aiempaa toiminnallisesti asiaa yhteistyössä muuntunut reitin kartta voisi olla peräisin. Työ ehdotimme täällä löytävät laajan sovelluksia lähitulevaisuudessa enemmän henkilökohtaista sekvenointitulosten odotetaan olevan saatavilla.

Materiaalit ja menetelmät

Tietoaineistot

Pathway kokoelma.

Keräsimme kaikki jaksot Kegg [10] käyttämällä R paketin ”org.Hs.eg.db” (versio 2.5.0), jossa Kegg reittejä ladattu maaliskuun 15, 2011. yhteensä 229 polkuja ja 5891 geenit olivat mukana tässä versiossa. Jotta vältettäisiin väyliä määritelty liian tarkka tai liian yleisiä biologisia prosesseja, valitsimme ne, joilla on vähintään 10 ja enintään 500 geenejä, jolloin 213 voimassa väyliä meidän myöhempää analyysia.

Lung adenokarsinoomia tiedot.

keuhkosyöpä aineisto alun perin raportoitu Ding et al. [11], jossa on yhteensä 188 keuhkojen adenokarsinooman näytteet sekvensoitiin 623 geenejä. Yhteenvetona, 163 näytteet havaittiin on mutaatioita vähintään yhden geenin, ja 356-geenien havaittiin olevan mutaatio (t) vähintään yksi näyte. Varmistaakseen tilastollinen voima, me sisältänyt vain ne näytteet, joissa on vähintään 10 mutatoitunut geenien (kuvio S1). Tämä suodatussääntö johti 33 näytteitä 277 geenien, ja niitä käytettiin myöhemmin työtämme aineisto. Taustalla mutaatioaste asetettiin 2,7 × 10

-6 näissä näytteissä kuten alkuperäisessä työssä [11].

Glioblastoma tiedot.

glioblastoma data havaittu 223 geenien kanssa ainakin yhden ei-hiljaisen somaattisen mutaation yhdessä tai useampia näytteitä kokeellinen validointi [3]. Yhteensä 91 näytettä tutkittiin myös 72 käsittelemättömän tapauksissa ja 19 käsiteltiin tapausta. Varmistaakseen tilastollinen voima, me tarvitaan, että näyte olisi sisällytetty meidän seurannan analyysi, jos se on ≥5 mutatoitunut geenejä. Valitsimme tämän väljemmät raja tässä suhteessa keuhkojen näytteitä vuoksi näyte-ominaisuudet. Kuten kuviossa S1, olisi vain muutamia näytteitä jäljellä, jos sovelletaan 10. glioblastooma tietoja. Siten käyttäen 5 koska kynnysarvon, 18 näytteet pysyivät soveltuvat seuraaviin reitin analyysiin.

Kuten tunnistettu alkuteoksen [3], on 7 hypermutated glioblastoma näytteitä suurella somaattisen mutaatioaste kaikki jotka kuuluvat käsiteltyjen näytteiden. Nämä näytteet johtivat eriarvoiseen taustalla mutaatio hinnan käsiteltyjen ja käsittelemättömien näytteiden. Niinpä asetamme mutaationopeus olevan 3,7 x 10

-6 käsittelemättömän näytteen ja 6,4 × 10

-6 käsiteltyjen näytteiden (https://tcga-data.nci.nih.gov/docs/publications/gbm_2008/TCGA_GBM_Level4_Significant_Genes_by_Mutations_DataFreeze2.xls).

Weighted resampling perustuva polku rikastamiseen testin yhdestä näytteestä

Oletuksena on standardin Hypergeometrinen testin geeni asetetaan rikastamiseen analyysi on, että kaikki geenit genomissa on yhtäläinen mahdollisuus valita. Tämä oletus ei ole enää voimassa, kun analysointiyksikkö siirretään mutaatioita geeneistä, koska enää geenit ovat yleensä enemmän mahdollisuuksia satama mutaatioita, olettaen mutaatiot tasaisesti seoksiin genomin. Siten standardi Hypergeometrinen testi ei sovellu tällaisissa tapauksissa. Tämän vuoksi ehdotimme painotettu resampling strategiaa rakentaa null jakelua, ja verrataan havaitun mutatoitunut geenejä kussakin reitin arvioituun nolla jakeluun.

Anna

μ

olla taustalla mutaatiovauhtia syöpänegatiivinen näyte. Aiemmat tutkimukset ovat osoittaneet, että

μ

on luokkaa 10

-6 /nt [12] ja vaihtelee suuresti eri sairauksien [11], [12]. Täällä nt merkitsee nukleotidi-. Olkoon

l

olla geenin pituus ja

l

i

varten

i

th geeni, ja

G

= {

g

i

;

i

= 1, …,

n

} olla asetettu kaikkien geenien yhteensä

n

geenejä genomissa. Olettaen genomista lokuksen (esim nukleotidipositiossa) genomissa on kaksi statukset, mutatoitunut tai ei, todennäköisyys

i

th geeni,

g

i

, ei mutatoitunut voitaisiin muotoilla

exp

(-

μ × l

i

) mukaan Bernoulli todennäköisyys, jossa

exp

on eksponentiaalinen funktio. Niinpä sen mutaatioaste on

m

i

= 1-

exp

(-

μ × l

i

). Totesimme, että estimointi geenin-viisasta mutaatio muutos voisi olla monimutkaisempi kuin yksinkertaisesti vastaamalla geenien pituudesta. Täällä me nimenomaan säädetty geenin pituus bias [7], kun taas tarkempi lause voisi löytyä kirjallisuudesta [12], [13], [14], [15].

Oletetaan yksilössä genomissa , yhteensä

N

geenejä havaittiin niin mutatoitunut keskuudessa

g

= {

g

i

;

i

= 1, …,

n

}, ja merkitään ne ”MutGene (s)”, jossa. Asetamme nimetä jokainen geeni osoittaa sen mutaatiostatus: (kuva 1). Koska väylä

S

kanssa

k

MutGenes, tavoitteenamme on tarjota tilastollinen testi tutkittava

S

on merkittävästi rikastettu MutGenes. Voit tehdä niin, voimme rakentaa nolla jakautumista MutGenes satunnaisotannalla geeni tarrat (kuvio 1). Normaalisti painottamaton satunnaistamista prosessi olettaa jokaisen geenin on sama mahdollisuus tulla valituksi MutGenes. Esimerkiksi

n

geenien

G

, satunnaisluku generoidaan kullekin eli, missä ja

i

= 1, …,

n

. Siten tilaamalla geenit mukaan niiden

r

i

arvot, geeni symbolia satunnaistetaan taas MutGene etiketti,

y

i

, on kiinteä (kuva 1b). Toistamalla tämä tapa permutoimalla geenin etiketit monta kertaa (esimerkiksi 10000), tausta jakelu MutGenes kunkin reitin voidaan rakentaa ja merkitys reitin voidaan myöhemmin arvioida. Tämä resamping perustuu arviointimenetelmää koulutusjakson rikastamiseen täydentää hypergeometrisen testi, jotka molemmat perustuvat oletukseen, että kaikki geenit on yhtäläinen mahdollisuus valita.

Tietyn näytteen Oletetaan on yhteensä on

n

geenejä genomissa,

g

= {

g

i

;

i

= 1, …,

n

}, ja

N

niistä ovat mutaatio geeneihin (MutGenes). MutGenes leimataan 1, kun taas toiset ovat merkitty 0. (a) Hypergeometrisen testi. (B) Säännölliset rs. (C) Painotettu rs. (D) Kolme analyysi skenaariota suoritimme.

Sen sijaan ehdotimme painotettu rs strategian, jonka tavoitteena on rakentaa nolla jakelu projisoimalla kunkin jakauma samalla kuviolla geenin pituuden bias (kuva 1c ). Erityisesti, kunkin painotetun rs, syntyy samalla tavalla kuin tavallisessa uudelleennäytteistämisen menetelmä. Kuitenkin mukautetaan kutakin geeniä mukaan geenin erityinen mutaatio arvioida, eli uusi satunnaisluku, kertyy, jossa on satunnaisia ​​numeroita ja

m

i

on geeni-viisasta mutaatioaste . Geenejä

G

sitten tilataan mukaan. Top

N

geenien tilatut geenissä listan sitten määrätty MutGenes varten resample. Huomaa, että pidempään geenien suuret arvot

m

i

, ja lyhyemmän geenien pienillä arvoilla

m

i

,. Näin ollen, kunkin resample, pitkä geenit ovat todennäköisemmin valittu MutGenes, ja nämä satunnainen sarjat on sama kuvio geenin pituus kuin todellinen näytteessä. Lisäksi jokaisen koulutusjakson empiirinen

P

arvo on laskettu käyttämällä, jossa

k

on määrä MutGenes havaittuun tapauksessa ja

K

on määrä ” MutGenes ”on resample.

Pathway ylikuulumisen

Ehdotimme solmu-pohjainen reitin ylikuulumisen käyttämällä

Jaccard kerroin (JC) B mittaus, joka on laajalti käytetty setti -pohjainen analyysi [16], [17]. Olkoon

U

osoittavat joukko geenien reitin A ja

V

osoittavat joukko geenien koulutusjakson B, natiivi

JC

lasketaan seuraavasti:.

Jotta voidaan ottaa huomioon läsnäolon pituus bias olemme myös lasketaan

JC

kussakin painotettu resample ja lasketaan empiirisen

P

arvo kunkin parin reittejä seuraavasti:, missä

JC (π) B on

JC

summa

π

th rs.

Co-mutatoitunut reitin kartalla

Väylät jotka ovat usein yhteistyössä muuntunut useiden näytteiden voisi sotkea koordinoituja toimintoja järjestelmien tasolla. Tutkimaan co-mutaatio tapahtumia, ensin rakennetaan polku mutaatio profiilin poikki liittyvä näytteitä. Kuten on esitetty kuviossa 1d, kunkin reitin, sen mutaatio tila on määritelty binäärinen ilmaisin, eli reitti on merkitty 1, jos se on merkittävästi rikastettu painotetun rs strategiaa; muuten 0. pari reittejä merkitään

ja

B

, neljään ryhmään ehdotettiin kuvaamaan yhdistelmän rakenteessa niiden mutaation statukset, eli (a) sekä reitin A b merkittävästi rikastettu, ja siten satama MutGenes, samasta näytteestä, (b) reitin A merkittävästi rikastettu, mutta polku b ei ollut, (c) reitin b merkittävästi rikastettu, mutta polku A oli ei, ja (d) ei polku A eikä polku B merkittävästi rikastettu. 2 × 2 kontingenssitaulukkomenetelmillä myöhemmin muotoiltu, ja Fisherin testiä suoritettiin osoittamaan, onko mutaatio profiilit kahden reitin korreloivat. Huomattavaa on, että toisin kuin aiemmissa tutkimuksissa, jotka yleensä lasketaan kaikki keinot, jotka olivat mukana [9], täällä me vain sisältyi merkittävästi rikastettu reitit tunnistetaan meidän painotetun resampling menetelmä, koska mutaatio tapahtumista muissa reitit voitaisiin nostaa sattumalta.

tulokset

Tapaus 1: keuhko adenokarsinooman

Pathway rikastamiseen testi.

33 keuhkon adenokarsinooman näytteitä sovelletaan reitin rikastamiseen testin määrä MutGenes vaihteli 10 ja 49, ja suurin osa (24/33 = 72,72%), ei ollut enemmän kuin 20 (kuvio S1). Painotetun rs strategia, 26 näytteet tunnistettiin olla ainakin yksi on täydennettävä koulutusjakson (

P

Bonferronin 0,05). Kuten kuviossa 2 on esitetty, useita merkittäviä väyliä vaihteli suuresti näytteestä. Eniten merkitsevä reittejä havaittiin näytteessä 16668, 34 polkuja merkittävästi rikastettu keskuudessa 38 MutGenes (taulukko 1), minkä jälkeen näyte 17210, jossa on 22 merkittävää reittien joukossa 49 MutGenes (tietoja ei ole esitetty kuviossa 2, koska tilanpuutteen ). Kolme näytettä (näytteet 17174, 16953 ja 16660), seuraavissa on 17, 14 ja 14 merkittävää polkuja, joissa kussakin on 13, 16 ja 36 MutGenes vastaavasti (kuvio 2). Sitä vastoin on viisi näytettä, jotka on vain yksi merkittävä poluista, jotka perustuvat painotetun rs menetelmää, kun taas niiden MutGenes vaihtelevat välillä 10 ja 30, mikä osoittaa, että määrä MutGenes on vähemmän vaikutusta määrä merkittävästi rikastettu reittejä kunkin näytteen.

Väylät ovat edustettuina suorakulmioita ja järjestämä näytteitä. Kunkin näytteen, näyte ID on esitetty vasemmalla ja kolme riviä oikealla vastaavat tulokset painotetun rs menetelmällä (ylärivi), säännöllinen rs menetelmällä (keskimmäinen rivi), ja hypergeometrisen testi (alarivissä), vastaavasti . Jokaisen menetelmän, polut sijoitettiin vasemmalta oikealle mukaan niiden

P

arvot pienemmillä

P

arvot vasemmalla, ja, kun useita reittejä on sama

P

arvot, ne on tilattu niiden Kegg tunnus. Visualisoida vertailun joukossa menetelmiä, jokainen polku on valittu vain yksi väri verrannollinen sen sijoitus tulosten painotettu rs, tummempi punainen syytetään alempi

P

arvoja. Polkuja, jotka tunnistetaan säännöllisesti resampling tai hypergeometrisen testiä, mutta ei painotetulla rs ovat notated valkoinen. Siten väri koulutusjakson syytöksiä sen sijoitus painotetun rs menetelmää, ja ristiriita kahden muun riviä näyte osoittaa eri sijoitusta käyttäen muuta kahta menetelmää. Huomaa, että kaksi näytettä, joissa on eniten merkittävästi rikastettu reittejä ei ole esitetty tässä kuvassa tilan puutteen vuoksi. Ne ovat näyte 16668 34 merkittäviä reittejä ja näyte 17210 22 merkittävää polkuja.

Useimmin muuntunut reittejä, joita esiintyi yli 10 näytettä hsa05220: krooninen myelooinen leukemia (13 /26 näytettä), hsa05212: haimasyöpä (12/26 näytettä), hsa05214: gliooma (12/26 näytettä), hsa05213: kohdun limakalvon syöpä (11/26 näytettä), hsa05218: melanooma (11/26 näytteet), ja hsa05223: ei-pienisoluinen keuhkosyöpä (11/26 näytettä). Muut keuhkosyöpä liittyvät reittiin, hsa05222: pienisoluinen keuhkosyöpä, esiintyi 3 näytettä. Taulukko S1 luetteli MutGenes jotka ovat contributable rikastumista näiden reittien kussakin vastaavien näytteiden.

vertailu reitin rikastusmenetelmiä.

Vertailun myös toteuttaa standardin Hypergeometrinen testi ja säännöllinen rs strategia, jotka molemmat perustuvat oletukseen, että kaikki geenit on yhtäläinen mahdollisuus mutaatioita. Sillä hypergeometrisen testissä,

P

arvot kullekin reitin niitä oikaistiin Bonferroni useita testaus korjauksen. Säännöllistä resampling menetelmä, empiirinen

P

arvo kullekin polku myös säätää Bonferroni korjausta. Kaikissa kolmessa menetelmissä merkittäviä reittejä valittiin ne, joilla on

P

Bonferronin 0,05.

Vertasimme tuloksia eri menetelmiä kahdella tavalla: päällekkäinen polkuja ja sijoitus päällekkäisen reittejä. Kuten kuviossa 2 ja kuviossa S3, noin kaksi kolmasosaa (17 out of 26) keuhkojen adenokarsinooman näytteiden ≥1 merkittävä polkuja on enemmän päällekkäisiä reittejä välinen säännöllinen rs menetelmä ja hypergeometrisen koe kuin välillä säännöllistä ja painotetun resampling menetelmiä tai niitä, välillä hypergeometrisen testi ja painotetun resampling menetelmällä. Useimmissa näytteissä, reitit tunnistetaan painotetulla rs strategiaa vähemmän kuin säännöllistä rs ja standardi hypergeometrisen testi (taulukko 1, kuva S3). Seuraavaksi tutkimme sijoitus tuloksia käyttämällä näitä menetelmiä ja havaitsi, että kaksi rs menetelmiä osoitti samanlaista sijoitusta varten polkuja, kun taas paremmuusjärjestyksessä polkuja päätellä hypergeometrisen testi poikkeaa kahden muun menetelmistä. Tämä näkyy epäjohdonmukaisuutta värejä kuviossa 2.

Koska ero päällekkäisyyden ja sijoitus, havaitsimme, että erilaisuus tyypillisesti tapahtui loppuun reitin luettelon, kun taas kolme menetelmät eroavat vain hieman merkittävimpiä reittejä. Tämä tulos osoittaa, että painotettu rs strategia vaikuttaa lähinnä marginaalisesti merkitsevä polkuja, kun taas reittejä kanssa vahvoja todisteita rikastamiseen signaalit olivat vankka geenin pituuden harhaa. Tämä on sopusoinnussa aiemman työn Wendl et al. [7], joka totesi myös, että useimmat reitit tunnistetaan standardin Hypergeometrinen testi ei olennaisesti poiketa niistä tunnistetaan puolueeton menetelmiä, erityisesti niille sijoittui yläosassa luetteloiden. Kuitenkin reittejä alareunassa rikastustoimenpiteen luetteloiden yleensä vääriä positiivisia, ja voisi olla vain erottaa erillisestä säätämällä potentiaalia harhat.

polkuja, jotka ovat useimmin tunnistetaan hypergeometrisen testissä eikä painotetulla resampling ovat hsa04360: aksoniohjauksen (6/26 näytettä) ja hsa05216: kilpirauhassyöpä (5/26 näytettä), jonka jälkeen hsa04010: MAPK -signalointireitistä ja hsa04012: ErbB-signalointireitin 4 näytettä, ja kaikki muut alle 4 näytettä. Ei ole yllättävää nähdä aksoniohjauksen reitti, koska se on suuri osa pitkä geenien, ja mediaani-geenin pituus tämän reitin putoaa yläosaan koko jakelun (kuva S2). Samoin polkuja, jotka ovat useimmin identifioida standardeilla resampling muttei painotetulla resampling kuuluvat hsa04360: aksoniohjauksen 5 näytettä, hsa04010: MAPK -signalointireitistä 4 näytettä, hsa04012: ErB signalointi väylän 4 näytettä, ja muut alle 4 näytteitä.

Pathway ylikuulumista.

yhteensä 18 näytettä havaittiin olevan vähintään 2 koulutusjakson ylikuulumisen tapahtumien (

P

emp 0,05). Suoritimme useita testaus korjaus mutta ei löytänyt tapahtuma oli

P

Bonferronin 0,05. Niinpä valitsimme ylikuuluminen tapahtumia perustuu niiden nimellinen

P

arvoja, eli ne, joilla on

P

emp 0,05. Kuten kuviossa 3, ylikuuluminen kartat näiden 18 näytteen putosi kahteen pääryhmään: yksi ryhmä intensiivinen ja voimakas reunat Yksi merkittävistä väyliä (kuva 3a-3f, 3h, ja 3l-3o) ja toinen harvaan kytketty verkkoihin. Valtaosa näytteistä entisen muodostaman ryhmän klikkien tai lähellä-to-klikki topologinen yksikköä. Tässä klikki tarkoittaa täysin kytketty graafi, jossa minkä tahansa kahden solmun on yhdistetty suuntaamaton reunasta. Lisäksi nimellinen

P

arvot näiden ylikuulumisen tapahtumien painotettua rs, osoitettuna pimeys reunat ovat tyypillisesti pienempi kuin myöhemmin ryhmä. Polut, jotka ovat usein mukana tässä ryhmässä liittyvät lähinnä syöpää, kuten ne, joilla niiden Kegg ID alkaen hsa052XX (X merkitsee mitä tahansa numeron), joka kuuluu ”ihmisen sairauksia → syöpiä” luokka Kegg kartta [10]. Tämä tulos ei ole yllättävä, koska alkuperäisessä määritelmässä pääsyväylistä Kegg tietokannassa, nämä syöpä reittejä jakaa suuren osan komponentin geenejä. Tarkempi tarkastelu mutatoidun geenien osoitti, että klikki perustuva ylikuulumisen oli tyypillisesti vaikuttavat useat ”kuuma” MutGenes osallistuvat useisiin syöpään liittyvien reittejä. Esimerkiksi geenit

TP53

ja

KRAS

yhteistyö tapahtuu 11 klikki-pohjainen ylikuulumisen kartat (kuva 3a-3c, 3e, 3f, 3h, 3l-3o), samoin kuin muut geenejä, kuten

RB1 ​​

,

PIK3CD

, ja

PDGFRA

.

kunkin näytteen, yläpaneelissa näyttää reitin ylikuulumisen kartan, ja pohja paneeli esittää geenit vaikuttavat ylikuuluminen. Yläpaneelissa, jokainen solmu edustaa polkuun solmun väriä verrannollinen koulutusjakson rikastamiseen

P

arvo. Reuna edustaa ylikuulumisen tapahtuma väliin liitettyjen solmujen (polkuja), jossa on reuna leveys suhteessa jaettuun MutGenes ja reuna väri verrannollinen

P

arvo ylikuulumisen tapahtuman. Pohjaan paneeli, matriisi esittää profiilia geenien merkittävästi polkuja, jossa rivit MutGenes ja sarakkeet polkuja. Kun MutGene havaitaan väylän vastaava laatikko on punainen.

viisi näytettä muodostivat harvaan yhdistetty ylikuuluminen kartta (kuvio 3g, 3i, 3j, 3k, ja 3p). Vaikka syöpään liittyvien reitit ovat edelleen merkittäviä toiminnallisia osanottajat tämäntyyppisessä kartan, on olemassa muita reittejä mukana, kuten hsa04210: apoptoosin ja hsa04620: Toll-kaltainen reseptori signalointireitin. Tutkiminen MutGenes tämäntyyppisessä eivät osoittaneet vahva trendi kohti tahansa geeni (t) olennaisesti edistää ylikuulumisen tapahtumia havaittiin klikki-ryhmä. Lopulta kaksi näytettä näkyy harvinaisin ylikuulumisen tapahtumia (kuvio 3q ja 3r), jotka molemmat hallitsevat geenit

APC

ja

TP53

.

Pathway co-mutaatio profiili.

tutkia yhteistyössä mutaatio tapahtumien joukossa reittejä, aloitimme listan merkittävästi rikastettu väyliä kullekin näytteelle (katso edellä). Niiden korkean laadun takaamiseksi, polkuja, jotka tunsivat MutGenes mutta ei ollut merkittävää näytteessä ei sisällytetty tähän näytteen yhteistyössä mutaation analyysi. Tämän seurauksena, yhteensä 49 polkuja ja 26 näytettä oli mukana.

valitaan polkuja, jotka olivat yhdessä mutatoidun 2 tai useampia näytteitä, ja oli yhteistyössä esiintyminen

P

arvo, oli nimellisesti merkittävästi. Kuten kuviossa 4 on esitetty, kaksi ryhmää olivat itse ryhmitellään, joista yksi sisältää useita syöpään liittyviä reittejä pitkin, ja toinen sisältää useita immuunijärjestelmän liittyviä reittejä. Vuonna syöpään liittyvien klusteri, havaitsimme hsa05214: gliooma, hsa05218: melanooma, hsa05219: virtsarakon syöpä, hsa05220: krooninen myelooinen leukemia, ja hsa05212: haimasyöpä. Mielenkiintoista, havaitsimme useita immuuni liittyviä reittejä muissa klusterin, kuten hsa04650: luonnollinen tappaja solujen välittämä sytotoksisuus, hsa04660: T-solureseptorin signalointireitin, hsa04662: B-solureseptorin signalointireitin, ja hsa04210: apoptoosin.

Node edustaa polkuja, jotka on katsottu merkittäviksi ainakin yhdessä näytteessä. Reunan välillä polkuja todetaan merkittävä co-mutaatio tapahtuma, jossa reuna leveys verrannollinen esiintyvien näytteiden co-mutaatio tapahtuma, ja reuna väri edustaa

P

arvoja tapahtuman. Tummempi reuna osoittaa alempi

P

arvoja.

Tapaus 2: glioblastoma

glioblastooma MutGenes oli yhteensä 18 näytettä oikeutettuja reitin rikastamiseen testi (kuvio S1), joista kukin oli vaaditaan vähintään 5 MutGenes. Toteuttamalla kaikki kolme menetelmää, eli painotettu rs, säännöllinen resampling, ja hypergeometrisen testi, löydettiin 15 näytteet on rikastettu vähintään yhdellä reitillä painotetulla rs menetelmiä, ja näitä näytteitä käytettiin myöhempää analyysiä.

kuten kuviossa 5, samanlainen suuntaus koulutusjakson päällekkäisyyksiä ja paremmuusjärjestykseen on havaittu GBM näytteiden keuhkojen adenokarsinooman näytteitä. Sijaluvusta kahden rs menetelmät ovat lähempänä toisiaan, ja kaikissa 15 GBM näytteet päällekkäisen reittejä löytyy useammin säännöllinen rs menetelmä ja hypergeometrisen testi kuin painotetun rs tulokset (kuva S4). Useimmin rikastettu reitit ovat hsa05200: reittejä syöpä (11/15 näytettä), jonka jälkeen hsa05214: gliooma (9/15 näytettä), hsa05218: melanooma (9/15 näytettä), ja niin edelleen (kuvio 5).

Väylät ovat edustettuina suorakulmioita ja järjestämä näytteitä.

Vastaa