PLoS ONE: verkkopohjainen Gene Expression Allekirjoitus Ilmoittaa Ennuste ja hoito peräsuolen syövän Patients

tiivistelmä

Background

Useat tutkimukset ovat raportoineet geeniekspressiota allekirjoituksia, jotka ennustavat toistumisen riski II vaiheessa ja III peräsuolen syöpä (CRC) potilailla, joilla on mahdollisimman vähän geenin jäsenyys päällekkäisyyttä ja määrittelemätön biologista merkitystä. Tavoitteena Tämän tutkimuksen tarkoituksena oli selvittää biologisten teemojen taustalla allekirjoituksista, päätellä geenien potentiaalisen mekanistinen merkitys CRC toistuminen fenotyyppi ja testata, onko tarkka ennustemalleja voidaan kehittää mekaanisesti tärkeitä geenejä.

menetelmät ja havainnot

Tutkimme kahdeksan julkaistu CRC geeniekspression allekirjoituksia eikä löytänyt toiminnallista lähentymistä Gene ontologia rikastamiseen analyysi. Käyttämällä satunnaiskulkua perustuva lähestymistapa, me integroitu allekirjoituksista ja julkisesti saatavilla somaattisen mutaation tietoja proteiini-proteiini-vuorovaikutuksen verkko ja päätteli 487 geenit, jotka olivat uskottava ehdokas molekyylitason perustan CRC toistumisen fenotyyppi. Olemme nimenneet luettelon 487 geenit NEM allekirjoituksen koska se integroitu tietoja Network, Expression, ja mutaatio. Allekirjoitus osoitti merkittävää rikastumista neljässä biologisiin prosesseihin liittyvät läheisesti syövän patofysiologian ja tarjotaan hyvä kattavuus tunnettujen onkogeenien, tuumorisuppressorien, ja CRC liittyviä signalointireitteihin. NEM allekirjoituspohjaiset Survival Support Vector Machine ennustetekijöiden malli oli koulutettu käyttäen mikrosirulla geeniekspression aineisto ja testattu riippumaton aineisto. Malli-pohjainen tulokset osoittivat 75,7% yhteensopivuutta todellisesta Eloonjääntitulokset ja erottaa potilaat kahteen ryhmään merkittävästi erilainen uusiutumisen-elinaika (

p

= 0,002). Samanlaisia ​​tuloksia saatiin käännetyssä koulutusta ja testaus aineistot (

p

= 0,007). Lisäksi adjuvanttihoitoa oli merkitsevästi yhteydessä pitkäaikainen selviytymistä korkean riskin potilailla (

p

= 0,006), mutta ei hyödyllistä matalan riskin potilailla (

p

= 0,491).

Johtopäätökset

NEM allekirjoitus ei vain heijastaa CRC biologiasta vaan myös tiedottaa potilaan ennustetta ja hoitovastetta. Siten verkko-pohjainen tiedon integroinnin menetelmä tarjoaa lähentymistä biologista merkitystä ja kliinistä hyödyllisyyttä geenissä allekirjoitus kehittämiseen.

Citation: Shi M, Beauchamp RD, Zhang B (2012) Verkko-Based Gene Expression Allekirjoitus tiedottaa Ennuste ja hoito peräsuolen syövän Potilaat. PLoS ONE 7 (7): e41292. doi: 10,1371 /journal.pone.0041292

Editor: Valerie W. Hu, The George Washington University, Yhdysvallat

vastaanotettu: 03 maaliskuu 2012; Hyväksytty: 19 Kesäkuu 2012; Julkaistu: 23 heinäkuu 2012

Copyright: © 2012 Shi et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat NIH (https://www.nih.gov/) myöntää GM088822, CA069457, DK052334 ja tukea Vanderbilt Ingram Cancer Center Support Grant CA068485 ja GI Cancer SPORE Grant CA095103. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

peräsuolen syöpä (CRC) on kolmanneksi suurin syy globaalin syöpään kuolleisuus [1]. Mukaan vaiheissa määritellyt American sekakomitean Cancer (AJCC), 5-vuoden eloonjäämisluvut ovat 93,2% portaalle I, 82,5% II vaiheen, 59,5% vaiheessa III, ja 8,1% vaiheessa IV CRC potilailla [2] . Adjuvanttihoitoa (CTX) Vaiheen III CRC potilailla on osoittanut eloonjäämishyötyä; kuitenkin, 42-44%: lla pelkkä leikkaus ei toistu 5 vuoden [3]. Toisaalta, vaikka yksittäiset kliiniset kokeet ovat usein epäonnistuneet osoittamaan edut adjuvanttia CTX II vaiheen potilaille, noin 20% II vaiheen potilaista toistuu 5 vuoden kuluessa. Siksi on tärkeää kehittää tarkka menetelmä osituksesta vaiheen II ja III CRC potilaiden uusiutumisen riskiä jotta adjuvantti CTX voidaan antaa korkean riskin potilailla, kun taas alhaisen riskin potilaat voivat luopua näiden myrkyllisten hoitojen vältetään mahdolliset haittaa sekä taloudellista taakkaa.

Perustuu suora vertailu microarray tietojen erittäin aggressiivinen ja vähemmän aggressiivisia CRC kasvaimia, useat tutkimukset ovat geeniekspressiota allekirjoituksia, jotka ennustavat toistumisen riski vaiheen II ja III CRC potilaat [4] , [5], [6], [7], [8], [9], minimaalisella päällekkäisyyttä niiden geenin luetteloiden [10]. Puute konkordanssin on yleinen havainto geenien ilmentyminen allekirjoitus tutkimuksissa [11], mikä herättää kysymyksiä niiden kliinistä merkitystä [12]. Kuitenkin ennustemalleja perustuu useisiin CRC geeniekspressiota allekirjoitukset on validoitu itsenäinen potilasaineistoihin [6], [7], [8]. Lisäksi varhainen tutkimus rintasyövän ovat osoittaneet, että ilmeisesti selvä allekirjoituksia voi osoittaa merkittävän sopimuksen tulos ennustus [13]. On ehdotettu, että eri allekirjoitukset voi olla yhteisiä biologisia teemoja, jotka eivät ilmene yksilön geenin tasolla [12]. Siksi polku ja verkko-menetelmiä on kehitetty yrityksenä paljastaa biologisten mekanismien perustana olevan yhtäpitäviä ennustetta keskuudessa selvä geeniekspression allekirjoitusta rintasyövän ja eturauhassyövän [14], [15], [16], [17].

löytäminen yhteinen biologinen teemojen taustalla geeniekspressiota allekirjoituksia vähentynyt aikaisemmin huolet biologisesta pätevyyteen allekirjoituksen geenien [18]. Kuitenkin tosiasia on, että geeni allekirjoitukset määritetty valvottu data-analyysi vaikuttaa voimakkaasti potilasryhmässä käytetään geenin valintaan, ja jäsenyys geenin tällaisessa allekirjoitus ei ole osoitus siitä, miten tärkeää on, että geenin syöpää patologia [19 ]. Koska eri yhdistelmiä geeneistä voidaan valita rakentaa samalla tarkka ennustemallit [20], kiehtova mutta avoimeksi kysymys kuuluu, onko rajoittava genomista tilaa mekanistisesti tärkeää geenit voivat tuottaa tarkkoja ennustemalleja. Positiivinen vastaus tähän kysymykseen johtaa parempaan lähentymistä biologista merkitystä ja kliininen ennuste, mikä puolestaan ​​antaa käsityksen uusia kohdennettuja hoitostrategioita.

Tässä työssä tutkittiin biologinen teemojen taustalla julkaistu CRC geeniekspression allekirjoitukset. Integroimalla geenien ilmentymisen allekirjoituksia ja somaattisen mutaation tietoja proteiini-proteiini vuorovaikutusverkosto, osoitamme, että CRC toistuminen fenotyyppi liittyy dysregulaatio useiden biologisten prosessien, ja jokainen allekirjoitus vain jää muutamia geenejä näissä prosesseissa. Näiden havaintojen perusteella, me arveltu, että geenin ilmentymisen allekirjoitusta mekaanisesti tärkeitä geenejä päätellä verkon analyysi voi edustaa paremmin taustalla biologian ja voi johtaa ennustemalleja parantunut suorituskyky. Tätä varten olemme kehittäneet Survival Support Vector Machine (SSVM) malleissa käytetään kahta itsenäistä aineistoja perustuu tällaiseen allekirjoitus ja rajat testattu niiden suorituskykyä. Tulokset osoittavat, että meidän malli voi tarkasti ennustaa CRC toistumisen. Lisäksi potilas kerrostuminen perustuva ennustettu uusiutumisen riskiä saadaan hyödyllistä tietoa adjuvanttia CTX hyötyä CRC potilaille.

Methods

Julkaistu CRC Gene Expression allekirjoitukset

Manuaalisen kirjallisuuskatsaus paperit julkaistu vuosina 2000 ja 2010, tunnistimme seitsemästä paperit [4], [5], [6], [7], [8], [9], [21] kahdeksan geeniekspressiota allekirjoitukset, jotka pystyvät erottamaan vaiheeseen II ja /tai vaiheen III CRC potilaita matalan riskin ja korkean riskin alaryhmissä. Allekirjoituksen Jorissen et al. [22] ei ollut mukana, koska geenien ilmentyminen aineistoja käytetään johtamiseksi että allekirjoitus käytettiin mallin kehittämistä ja arviointia nykyisessä tutkimuksessa. Kahdeksan allekirjoitukset oli mukana yhteensä 208 geenien.

Geenit mutatoitunut CRC

Käyttämällä CanProVar tietokannan [23] (https://bioinfo.vanderbilt.edu/canprovar), me haettu 549 geenejä havaittuihin somaattisten mutaatioiden CRC näytteissä.

Ihmisen proteiini-proteiini vuorovaikutus Network

proteiini -yhteisvaikutustutkimukset ladattiin ja integroitava BioGRID, minttu, HPRD, REACTOME, DIP ja minttu vuonna 2010, kun aikaisemmin kuvatulla tavalla [24]. Proteiini vuorovaikutuksen verkon mukana 94066 vuorovaikutuksia 11521-proteiineja.

Onkogeenit ja tuumorisuppressorigeeneille

Tunnetut onkogeenien ja tuumorisuppressorigeeneille ladattiin CancerGenes [25] ja GLAD4U (http: //bioinfo. vanderbilt.edu/glad4u). Jokaisen työkalun, me haetaan kaksi geeniä luetteloiden avulla hakutermien onkogeeni ja kasvaimia estävä, vastaavasti.

Gene Expression Tietojoukot

Kaksi geeniekspression aineistoja ensisijaisen Kolorektaalituumorien (GSE17536 [8] ja GSE14333 [22]) on ladattavissa Gene Expression Omnibus (GEO) tietokantaan. I vaihe ja vaiheen IV näytteet jätettiin pois tästä tutkimuksesta. GSE14333 sisältyy joitakin näytteitä GSE17536, jotka poistettiin GSE14333 tässä tutkimuksessa. Kliiniset ja patologiset tiedot molemmille aineistot on esitetty taulukossa 1. Sekä aineistot tuotettiin annetun Affymetrix U133 plus 2.0 array. cel-tiedostot aineistoja normalisoitiin käyttäen Robust monisirumoduulit Analysis (RMA) algoritmi [26] kuten toteutettu Bioconductor. Aineistot käsiteltiin erikseen varmistaa niiden riippumattomuus. Probe set tunnisteet (ID: t) on kartoitettu geeni symbolien perusteella kartoitus tarjoamia GEO tietokantaan. Koetinsarjojen että kartoitettu useiden geenien eliminoitu. Kun useita koetinsarjojen kartoitettiin samalle geeniä, koetin asetettu suurimman kvartiiliväli (IQR) valittiin, koska sen korkea vaihtelua näytteitä. Jotta ilmentymistaso vertailukelpoisia eri geenien ilmentyminen arvot kullekin geeni oli standardoitu käyttäen Z-score muutosta. Tässä tutkimuksessa kukin aineisto käytettiin koulutus-set puolestaan ​​ja kehitetään ennustemalleja testattiin toinen aineisto.

Verkko-pohjainen priorisointi

Käytimme muokattu versio meidän aiemmin julkaistu Netwalker algoritmi [24] integroida ilmaisun allekirjoituksia ja julkisesti saatavilla somaattisen mutaation tietoja proteiini-proteiini vuorovaikutukseen verkon tunnistamiseksi geenien potentiaalisen mekanistinen merkitys CRC toistumisen fenotyypin (kuvio 1). Netwalker perustuu random walk uudelleenkäynnistyksen tekniikka [27]. Koska verkko ja alkaa todennäköisyydet kullekin solmulle edustavat ennakkotietoja niiden suhteellinen merkitys, algoritmi laskee lopullisen prioriteetti pisteet kullekin solmulle, joka perustuu vakaan tilan todennäköisyydet. Satunnaiskulmapoikkeama uudelleenkäynnistyksen virallisesti määritellään yhtälöllä jossa

r

on uudelleenkäynnistyksen todennäköisyys,

W

on sarake-normalisoitu vierusmatriisi verkon kuvaajan, ja

p

t

on vektori, jonka koko on yhtä suuri kuin solmujen lukumäärä graafissa, jossa

i

nnen elementin omistaa todennäköisyys olla solmussa

i

ajankohtana vaiheessa

t

.

Julkaistu geeniekspression allekirjoituksia ja somaattisen mutaation tietoja kartoitettu proteiini- proteiini vuorovaikutuksen verkkoon. Integroimalla tietoa mutaatio, Expression, ja verkko, joka on NEM allekirjoitus on peräisin käyttäen Netwalker algoritmin perusteella random walk uudelleenkäynnistyksen tekniikalla. Biologista merkitystä allekirjoituksen arvioitiin perustuen toiminnallisia tietoja, kuten Gene ontologia, joka tunnetaan syöpää geenejä ja signalointireitteihin. Kliinistä merkitystä allekirjoituksen arvioitiin kehittämällä Survival SVM perustuva malli geeniekspressiovektoria aineisto ja testaus riippumattomalla aineisto sen tarkkuus ennustetta ja ennustamisessa hoitovaste.

Vaikka edellisessä täytäntöönpanoa siirronsaajia yhtä alku todennäköisyys kaikille siementen solmut, tämä muokattu versio mahdollistaa eri alku todennäköisyyksiä siemenen solmut. Tässä tutkimuksessa olemme perustaneet alun todennäköisyydet kaikkien geenien perustuu niiden osallistumisesta geeniekspression allekirjoitukset ja mutatoidun geenin luettelosta. Equal kokonaispaino annettiin geeniekspressiota allekirjoituksen tietoja ja mutaatio tiedot. Geenien ilmentyminen allekirjoitusta tiedot, suhteellisesti suurempi paino annettiin geenien useita allekirjoituksia. Sillä mutaatio data, suhteellisesti suurempi paino annettiin geenejä enemmän variantteja. Aloita todennäköisyys geenien

i

() on virallisesti määritellään yhtälöllä jossa

s

i

on määrä CRC geeniekspression allekirjoitukset, jossa geeni

i

on jäsen,

m

i

on määrä tunnettujen mutaation varianttien CRC näytteet CanProVar geenien

i

, ja

n

on kokonaislukumäärä geenien proteiinia vuorovaikutusverkosto.

Netwalker algoritmi, uudelleenkäynnistyksen todennäköisyys oli asetettu 0,5 ja lähentymistä määritettiin jossa on todennäköisyys geenien

i

on

t

th iterointia.

arvioimiseksi tilastollisen merkityksen pisteiden kunkin geenin, rakensimme 1000 erilaista satunnaisesti permutoitua alku todennäköisyydet ja tuotetaan 1000 sarjaa satunnainen tulokset. Kunkin geenin verkossa, paikallinen

p

arvon arvioitiin vertaamalla todellisia pisteet satunnainen tulokset samasta geenistä, ja globaali

p

arvon arvioitiin vertaamalla todellisia pisteet satunnainen pisteiden kaikkien geenien [24]. Geenit sekä paikallisen ja globaalin

p

arvot alle 0,05 pidettiin merkittävinä geenejä. Olemme nimenneet luettelo merkittävistä geenit NEM allekirjoituksen koska se integroitu tietoja Network, Expression, ja mutaatio.

Vertailun vuoksi myös suorittaa verkko-pohjainen priorisointi käyttäen alku todennäköisyydet siirrettiin perustuu pelkästään geenien ilmentymisen allekirjoituksen tietoja tai mutaatio data, vastaavasti, jossa niiden merkitsevät geenin luettelot nimetty NE allekirjoitusta tai NM allekirjoitus.

Gene ontologia rikastus Analysis

Gene ontologia (GO) rikastamiseen analyysi suoritettiin käyttäen WebGestalt [28]. Oletuksena useita testaus korjauksen menetelmä ”Benjamini Hochberg ”käytettiin FDR laskentaan. Selittämään riippuvainen sisäkkäisiä GO rakenne, WebGestalt esittelee rikastettua GO ryhmiin suunnatulla Asykliset Graph (DAG) helpottamaan nopeaa tunnistamista ulkopuolisten suurten tarpeeton rikastettu biologinen teemoja. Suoritimme manuaalinen tutkimus rikastetun DAG ja ilmoitti edustavin ehdot kunkin haaran.

kehittäminen ja arviointi SSVM Model

By R täytäntöönpanon survsvm saatavilla survpack paketti [29 ], [30] oli käytetty SSVM mallin kehittämiseen, ja Gaussin ydin toimintoa käytettiin. Toteuttaminen SSVM on kaksi parametreja c ja σ, missä c on hinta virhe ennustetussa tapahtumasarja ja σ on parametri Gaussin ytimen. Tässä tutkimuksessa annamme Kunkin arvon vaihtelevat ehdokasjoukon {10

-5, 10

-4, 10

-3, 10

-2, 10

-1 10

0, 10

1, 10

2, 10

3, 10

4, 10

5} muodostaa erilaisia ​​parametrien yhdistelmiä. Viisinkertaisen cross validointi käytettiin ja toistettiin viisi kertaa tunnistaa optimoitu parametrien mukaan C-indeksin arvo (katso alla kuvaus). Täysin kehittynyt SSVM mallia, joka perustuu optimaaliseen parametrit arvioitiin sitten riippumattoman aineisto jossa SSVM-pohjainen pisteet johdettiin kullekin potilaalle.

Survival Analysis

assosiaatio SSVM-pohjainen pisteet ja todellinen ennusteen potilaita arvioitiin C-indeksin arvot, Kaplan-Meier selviytymisen käyrät ja log-rank-testi. C-indeksi on todennäköisyys välistä yhdenmukaisuutta ennustetun ja havaittu selviytymisen, jossa C-indeksi = 0,5 satunnaisia ​​ennusteet ja C-index = 1 täysin erotteleva malli. Standard Kaplan-Meier selviytymisen dikäyrät potilasryhmille perusteella muodostettu SSVM tulokset, ja selviytyminen eroa ryhmien välillä arvioitiin tilastollisesti käyttämällä log-rank-testi.

Tulokset

Enrichment analysoitaessa paljastaa toiminnallinen lähentyminen Signatures

Tutkimme 8 CRC geeniekspression allekirjoituksia (taulukko 2). Seitsemällä 8 allekirjoitusten kehitettiin vertailun perusteella toistuvat ja ei-toistuvat kasvaimet, jossa joissakin tutkimuksissa mukana kasvaimia kaikissa vaiheissa, kun taas toiset sisältyvät vain kasvaimia valittujen vaiheiden. Tutkimuksessa Smith et al. [8] integroitu ihmisen kasvainten tietoja tietojen CRC hiirisolulinjaa malleja allekirjoitus kehittämiseen. Tutkimuksen mukaan Barrier et al. [21] käytetään ei-neoplastisia limakalvon vaiheen II potilaille sen sijaan, että kasvaimia.

t

-testin ja sen variantit käytettiin allekirjoituksen valinta useimmissa tutkimuksissa ja eri koneoppimismenetelmiä käytettiin rakentamiseen ennustemalleja. Huolimatta teknisistä ero kokeellisen ja laskennallisen menettelyt, kaikki ennustemalleja pystyivät erottamaan vaiheen II ja /tai vaiheen III potilaita matalan riskin ja korkean riskin ryhmiin. Useita malleja on validoitu potilaan kohortin riippumaton jota käytetään allekirjoituksen ja mallin kehittämiseen.

Yhdenmukainen aiempien raporttien [10], löysimme minimaalinen päällekkäisyys näiden geenien ilmentymisen allekirjoitukset yksittäisten geeni tasolla (kuvio 2 ). Sen testaamiseksi allekirjoituksista yhteneviä yhteinen biologisia prosesseja, suoritimme Gene ontologia (GO) rikastamiseen analyysi kunkin allekirjoituksen käyttäen WebGestalt. Vain kaksi allekirjoitusta osoitti rikastettua biologisia prosesseja merkitsevyystasolla False Discovery Rate (FDR) alle 0,01 (kuva 2). Signature_3 rikastui ”translaation venymä” (9 geenit, FDR = 3.21e-12) ja Signature_5 rikastui ”immuunijärjestelmää prosessi” (9 geenit, FDR = 0,001) ja ”solu-solu signalointi” (6 geenit, FDR = 0,0067). Väkevöiminen tulokset allekirjoituksia 3 ja 5 esitetty, että eri allekirjoitukset saattavat liittyä eri biologisten mekanismien. Lisäksi puute toiminnallinen konkordanssin muita allekirjoituksia osoitti, että eri geenit allekirjoitus voisi edustaa erillisiä biologisia teemoja ja mahdollisesti melua. Edelleen testata, onko yhteinen biologinen aiheita voitiin tunnistaa yhdistämällä kaikki allekirjoitukset, suoritimme rikastamiseen analyysi kaikille 208 geenien 8 allekirjoitusta. Rikastettu biologiset prosessit olivat muun muassa ”translaation venymä” (10 geenit, FDR = 4.0e-4) ja ”decidualization” (4 geenit, FDR = 0,0049). Entinen oli ilmiselvästi aiheuttanut ensisijaisesti signature_3. Siten rikastamiseen analyysi ei paljasta toiminnallista lähentymistä CRC geeniekspression allekirjoituksia. Mielenkiintoista, vaikka aiemmissa tutkimuksissa on raportoitu laaja välistä yhdenmukaisuutta biologisten prosessien vangiksi eri rintasyöpä ennustetekijöiden allekirjoituksia, Tuoreen tutkimuksen [31] verrataan kahta konetta oppiminen perustuu rintasyöpä ennustetekijöiden allekirjoitusten vain löytyy tilastollisesti merkitsevä yhteneväinen solujen lisääntymisen.

Jokaisella kehällä on yksi geenin ilmentymisen allekirjoitus, jonka numero on suluissa osoittaa allekirjoitusta kokoa. Kuvateksteihin merkitä rikastettua biologisiin prosesseihin, numerot geenien mukana prosesseihin, ja vastaava False Discovery hinnat merkityksen rikastamiseen.

Integratiiviset Network Analysis Tunnistetut yhteiset mekanismit Underpinning CRC uusiutuminen

Aikaisemmat tutkimukset viittaavat siihen, että geenit, joiden tiedetään olevan yhteydessä saman taudin fenotyypin yleensä sijaitsevat lähellä toisiaan proteiini-proteiini-vuorovaikutuksen verkon [27], [32]. Lisäksi Chen et al. [16] osoitti, että syöpä allekirjoitus geenit ovat todennäköisemmin lähellä tunnettuja onkogeenien ja tuumorisuppressoreita in proteiini-proteiini-vuorovaikutuksen kautta. Siksi käytimme verkko lähestymistapa yhdistää nämä allekirjoitukset proteiini-proteiini vuorovaikutukseen verkon pyritään tunnistamaan geenejä mahdollisten mekanistinen merkitys CRC toistumisen fenotyyppi. Lisäksi geenin ilmentymisen muuttaminen, somaattiset mutaatiot mekaanisesti tärkeää geenit saattavat myös johtaa samaan fenotyypin. Siksi olemme edelleen kerätään 549 geenien somaattisia mutaatioita CRC päässä CanProVar tietokannasta [23] tehostaa verkon analyysin avulla Netwalker algoritmia [24]. Molemmat allekirjoitus geeni luettelot ja mutatoitunut geeni sisältää listan mekaanisesti tärkeitä geenejä (esim. Kuljettajan mutaatioita ja effektorit) sekä muiden geenien (esim. Matkustajan mutaatiot ja epiphenomena). Lisäksi jotkut mekaanisesti tärkeitä geenejä, saattaa puuttua näihin luetteloihin. Netwalker algoritmi päättelee geenien potentiaalisen mekanistinen merkitys perustuu oletukseen, että nämä geenit ovat todennäköisesti muodostavat tiiviisti kytketty klustereita, kun taas toiset ovat yleensä satunnaisesti jakautuneet verkossa. Käyttämällä allekirjoitus geenit ja mutatoitunut geenit kuin ”siemeniä”, algoritmi lasketaan pisteet kullekin geenin verkon perustuu sen yleiseen lähellä kaikkia siemenet geenit, jossa läheisyys mitataan random walk samankaltaisuus [27]. Arvioida tilastollista merkitystä tulokset rakensimme 1000 erilaista satunnainen siemeniä ja syntyy 1000 erilaista satunnainen tulokset. Jokaista geeniä, arvioimme paikallinen

p

arvo perustuu kaikkiin sattumanvaraisesti tulokset saman geenin ja maailmanlaajuinen

p

arvo, joka perustuu satunnaisen tulokset kaikkien geenien. Merkittävä maailmanlaajuinen

p

arvo osoittaa yleistä merkitystä geenin suhteen tulo siemeniä, kun taas merkittävä paikallinen

p

arvo takaa, että merkitystä ei yksinkertaisesti johtuu verkkotopologian [24 ]. Kaikkiaan 487 geenien kanssa sekä paikallisen ja globaalin

p

arvot alle 0,05 pidettiin merkittävinä geenejä, mukaan lukien 464 alkuperäisestä luetteloista ja 23 lisäämä algoritmin (kuvio 3A). Olemme nimenneet luettelon 487 geenien NEM allekirjoituksen koska se integroitu tietoja Network, Expression, ja mutaatio. Tässä luettelossa tunnettu CRC-liittyviä geenejä, mukaan lukien APC, CTNNB1, KRAS, TP53, BRAF, mm. Se myös geenejä Tuntematon mutta potentiaalista merkitystä CRC toistumisen. Täydellinen luettelo NEM allekirjoituksen geenejä ja niiden

p

arvot ovat saatavissa taulukossa S1. Voit testata luotettavuutta menetelmän osalta erilaisten tulo geeniekspression allekirjoitus luetteloita, poistimme kukin ilmaisu allekirjoitus siemenistä, yksi kerrallaan, ja syntyy 8 NEM-7 allekirjoituksia (näin nimetty, koska ne käytetään vain 7 ulos 8 käytettävissä geenin ilmentymisen allekirjoitukset). Nämä kokeet muuttaa kokonaismäärä syöttölauseke allekirjoituksen geenien 4% (kun signature_1 poistettiin) ja 28% (kun signature_2 poistettiin). Dice: n kerroin välillä NEM-7 allekirjoituksia ja alkuperäinen NEM allekirjoitus vaihteli 0,88-0,96, ja keskiarvo oli 0,93, mikä viittaa korkea kestävyys menetelmän.

(A) Päällekkäisyys joukossa julkaistu geeniekspression allekirjoituksia ( 208 geenit), mutatoituja geenejä (549 geenit), ja NEM allekirjoitus (487 geenejä). (B) osuus onkogeenien ja tuumorisuppressorigeeneille julkaistussa geeniekspression allekirjoitusta (a), mutatoitujen geenien tuotteina (b), ja NEM: allekirjoitus (c), kuten selityksin mukaan CancerGenes. (C) osuus onkogeenien ja tuumorisuppressorigeeneille julkaistussa geeniekspression allekirjoitusta (a), mutatoitujen geenien tuotteina (b), ja NEM: allekirjoitus (c), kuten selityksin mukaan GLAD4U.

Siirry rikastaminen analyysi NEM allekirjoituksen tunnisti neljä suurta biologisten prosessien merkittäviä rikastamiseen (taulukko 3), mukaan lukien ”signaalitransduktion” (186 geenit, FDR = 7.07e-11), ”soluproliferaatioon” (71 geenit, FDR = 3.03e-8 ), ”ohjelmoitu solukuolema” (75 geenit, FDR = 1.83e-9), ja ”kehitysprosessiin” (158 geenit, FDR = 3.98e-9). Vaikka nämä prosessit ovat laajoja eikä välttämättä syöpää erityisiä, ne ovat yhdenmukaisia ​​tunnusmerkkejä syöpä [33]. Lukuun ottamatta Signature_1, kaikki muut ilmentymisen allekirjoitukset sisältyi pieni määrä geenejä joidenkin tai kaikkien näiden biologisten prosessien (taulukko 3). Lisäksi kaikki nämä biologiset prosessit olivat merkittävästi rikastettu kaikissa NEM-7 allekirjoituksia.

Seuraavaksi lasketaan suhteet tunnettujen onkogeenien ja tuumorisuppressorigeeneille unionissa julkaistujen geeniekspression allekirjoitusta, somaattinen mutaatio geenin luettelosta ja NEM allekirjoitus, joka perustuu merkinnät kahdesta eri resursseja, CancerGenes ja GLAD4U. Koska monet tunnetut onkogeenien ja tuumorisuppressorigeeneille on identifioitu perustuvat somaattisen mutaation, ei ollut yllättävää, että somaattisen mutaation geenin lista oli suurempi prosenttiosuus näistä geeneistä kuin geenin ilmentymisen allekirjoituksia. Oli kuitenkin mielenkiintoista nähdä, että NEM allekirjoitus oli prosentuaalisesti eniten tunnettujen onkogeenien ja tuumorisuppressorigeeneille (kuva 3, B-C). Jotta ymmärtää paremmin osallistumisen NEM allekirjoituksen geenien syöpää erityisiä koulutuslinjoja, kartoitimme ne syöpä reitin kartan kuratoinut Kegg. Kuten kuviossa S1, geenin lista kartoitettu lähes kaikki syöpään liittyvien reittien, jolla on selkeä rikastumista Wnt-signalointireitin aktivaatio, TGF-beeta-signalointireitin, ja ErbB signalointireitin, tärkeimmät polkuja, jotka ovat vapautettu CRC [34]. Yhteenvetona NEM allekirjoitus osoitti merkittävää rikastumista neljässä biologisiin prosesseihin liittyvät läheisesti syövän patofysiologian ja tarjotaan hyvä kattavuus tunnettujen onkogeenien, tuumorisuppressorien, ja CRC liittyviä signalointireittejä, mikä osoittaa korkea merkitys CRC biologiaan.

NEM Signature-pohjainen ennustemalleja tehokkaasti Ennustettu CRC uusiutuminen

voit testata, onko NEM allekirjoitusta geenien keskittyy toiminnallisesti tärkeä verkoissa voi ennustaa CRC toistuminen, kehitimme ennustemalleja näiden geenien ominaisuuksia ja arvioida suorituskykyä malleja itsenäinen potilasaineistoihin.

ensin koulutettu SSVM ennustetekijöiden malli geenien ilmentymisen aineisto GSE17536 ja testattu sen suorituskykyä itsenäinen tietojoukon GSE14333. Niistä 487 geenit NEM allekirjoitus, vain 467 geenit aineisto käytettiin kouluttaa mallia. Viisinkertaisen cross validointi käytettiin ja toistettiin 5 kertaa optimoida parametrit SSVM algoritmin, ja täydellinen malli, joka perustuu täydellinen aineisto kehitettiin käyttämällä optimaalista parametreja. Testattavaksi GSE14333, SSVM pisteet laskettiin yksittäisten näytteiden, joilla on suurempi pistemäärä tarkoittaa suurempaa riskiä ja lyhyempi elinaika. Lasketut SSVM tulokset ja todellinen selviytymisen tiedot osoittivat 75,7% konkordanssin (C-indeksi = 0,757). Perustuen SSVM tulokset, potilaat jaettiin kahteen ryhmään, joka on ”alhaisen riskin” ryhmä hitaamman mediaani tulokset ja ”korkean riskin” ryhmä edellä mediaani tulokset. Kuten kuviossa 4A, korkean riskin ryhmässä oli merkitsevästi huonompi uusiutumisen-elinaika (riskisuhde [HR], 7,47; 95% luottamusväli [CI], 1,64-34,0; p = 0,002) kuin matalan riskin ryhmään. Uusiutumisen elinaika 3 vuodessa oli 96,9% matalan riskin ryhmässä verrattuna 69,3% korkean riskin ryhmään.

Kaplan-Meierin eloonjäämiskäyriä potilasalaryhmissä tunnistettu GSE14333 mallien avulla kehitetty perustuu GSE17536 eri geenin sarjaa. (EN) NEM allekirjoitus perustuu verkostoanalyysi siemenellä solmujen lukien 208 geenien julkaistu allekirjoituksia ja 549 mutatoitunut geenit, N = 487; (B) NE allekirjoitus perustuu verkostoanalyysi siemenellä solmujen lukien 208 geenien julkaistu allekirjoituksia, N = 546; (C) NM allekirjoitus geenit perustuvat verkostoanalyysi siemenellä solmujen lukien 549 muuntunut geenit, N = 435; (D) liitto 208 geenien julkaistu allekirjoituksia ja 549 mutatoitunut geenit, N = 753; (E) 208 geenien julkaistu allekirjoituksia, N = 208; (F) 549 mutatoituja geenejä CanProVar, N = 549.

Kaplan-Meierin eloonjäämiskäyriä potilasalaryhmissä tunnistettu GSE17536 mallien avulla kehitetty perustuu GSE14333 eri geenin sarjaa. (EN) NEM allekirjoitus perustuu verkostoanalyysi siemenellä solmujen lukien 208 geenien julkaistu allekirjoituksia ja 549 mutatoitunut geenit, N = 487; (B) NE allekirjoitus perustuu verkostoanalyysi siemenellä solmujen lukien 208 geenien julkaistu allekirjoituksia, N = 546; (C) NM allekirjoitus geenit perustuvat verkostoanalyysi siemenellä solmujen lukien 549 muuntunut geenit, N = 435; (D) liitto 208 geenien julkaistu allekirjoituksia ja 549 mutatoitunut geenit, N = 753; (E) 208 geenien julkaistu allekirjoituksia, N = 208; (F) 549 mutatoituja geenejä CanProVar, N = 549.

Tuore tutkimus osoittaa, että useimmat satunnainen geenin ilmentymistä allekirjoituksia liittyvät merkittävästi rintasyövän tulokseen [35]. Siksi me toistuva analyysimme käyttäen 10 erilaista satunnaisesti valittua 487 geenejä. Kun mallit koulutettu GSE17536 testattiin GSE14333, he saivat mediaani C-indeksi 0,546 ja mediaani P-arvo on 0,568. Siten satunnainen geeni allekirjoitukset eivät näytä toimivan CRC ennusteeseen.

Yksi näkökohta on, että 487-geenit saattavat olla liian monta käytännön kliinisiin toteuttamiseen. Siksi olemme yrittäneet erilaisia ​​raja arvot verkko-pohjainen priorisointiprosessia muuttaa määrää valitun geenejä. Erilaisten

p

arvo cutoffs kuten 0,005, 0,01, ja 0,1 tunnistimme 45, 105 ja 810 geenejä, tässä järjestyksessä. Parametrien avulla valita perustuen ristivalidointi tuloksia, kolme SSVM mallia kehitettiin GSE17536 ja testattu GSE14333 vastaavasti. Kuten kuvassa S2, suorituskyky 810 geenin malli oli verrattavissa kuin 487 geenin mallin, kun taas 105 ja 45 geenin malleja nähtiin vähän ennustus valtaa. Siksi, mikä vähentää genominen tila näyttää ongelmallinen, johtuen mahdollisesti taustalla monimutkaisuus CRC.

(A) Kaplan-Meier eloonjäämiskäyriä suuren riskin potilailla GSE17536 ja GSE14333, joissa (CTX) ja ilman ( NO CTX) adjuvantti CTX; (B) Kaplan-Meier eloonjäämiskäyriä matalan riskin potilailla GSE17536 ja GSE14333, ja ilman adjuvanttia CTX.

Koska NEM allekirjoitus integroitu tiedot mutaatioista, geenien ilmentyminen allekirjoituksia, ja proteiini- proteiini vuorovaikutus verkko, yritimme leikellä yksittäisten panos havaittua suorituskykyä. Verkko allekirjoituksia johdetaan samaan verkkoon priorisoinnin menetelmää vaan perustuu joko geenin ilmentymisen allekirjoituksia yksin (NE allekirjoitus kanssa 546 geenejä, kuva 4B) tai mutatoituja geenejä yksin (NM allekirjoitus 435 geenejä, kuvio 4C) ei aiheuttanut vertailukelpoisia suorituskykyä että siitä NEM allekirjoitus (kuvio 4A). Tarkemmin sanoen C-indeksi NEM allekirjoituspohjaiset malli oli 27% korkeampi kuin NE allekirjoitus perustuva malli ja 13% korkeampi kuin NM allekirjoitus mallia. Toisaalta, kaikki kolme mallia johdettu verkko allekirjoituksia (kuva 4A-C) toimivat paremmin kuin heidän kollegansa ilman verkko-pohjainen priorisointi (Kuva 4D-F).

Vastaa