PLoS ONE: Kestävä valinta Cancer Survival allekirjoituksia suuren tuotantotehon Perimän Data käyttäminen kaksitahoinen subsampling

tiivistelmä

tunnistaminen asiaa allekirjoituksia kliinisen potilaiden hoitotuloksiin on olennainen tehtävä suuren suorituskyvyn tutkimukset. Allekirjoitukset, joka koostuu ominaisuuksia, kuten mRNA: t, miRNA, SNP tai muu molekyyli muuttujiin, eivät useinkaan ole päällekkäisiä, vaikka ne on todettu samantyyppisiä kokeita ottaen näytteitä samantyyppistä tautia. Puute yksimielisyys johtuu pääasiassa siitä, että otokset ovat huomattavasti pienempiä kuin määrä ehdokas ominaisuuksia voidaan pitää, ja siksi allekirjoitus valinta kärsii suurta vaihtelua. Ehdotamme vankan allekirjoitus valintatapa, joka parantaa valinta vakautta rangaistaan ​​regressio algoritmeja ennustamiseen selviytymisen riskin. Meidän menetelmä perustuu yhdistäminen useiden, mahdollisesti epävakaa, allekirjoitukset saadaan esikäsitellyt Lasso algoritmia sovelletaan random (sisäinen) osanäytteitä tietyn kohortin data, jossa lasketaan yhteen allekirjoitusta kutistunut yksinkertaisella kynnystys strategiaa. Tuloksena menetelmä, RS-PL, on käsitteellisesti yksinkertainen ja helppo levittää, luottaen parametrit automaattisesti viritetty rajat validointi. Tukeva allekirjoituksen valinta RS-PL toimii sisällä (ulkoinen) subsampling puitteet arvioida poimintatodennäköisyydet ominaisuuksia useita tutkimuksissa RS-PL. Nämä todennäköisyydet käytetään tunnistamaan luotettavasti ominaisuuksia voidaan sisällyttää allekirjoituksen. Meidän menetelmä arvioitiin microarray tietojen keräämisessä neuroblastooma, keuhkojen adenokarsinooma, ja rintasyöpäpotilailla, talteen vankka ja asiaan allekirjoitukset ennustamiseen selviytymisen riskin. Saamien allekirjoitusten menetelmämme saavutetaan korkea ennustaminen suorituskyvyn ja luotettavuuden, johdonmukaisesti kolmen aineistoja. Geenit suurella valinta todennäköisyydellä vankkatekoinen allekirjoitukset on raportoitu syöpää asiaan. Tilaaminen prediktorikertoimilla liittyvät allekirjoitukset oli hyvin säilynyt useiden kokeiden RS-PL, osoittaa kykyä meidän tapa tunnistaa siirrettävissä yksimielisyys allekirjoitus. Ohjelmisto on saatavana R paketti rsig at CRAN (https://cran.r-project.org).

Citation: Lee S, Rahnenführer J, Lang M, De Preter K, Mestdagh P, Koster J, et al. (2014) Kestävä valinta Cancer Survival allekirjoituksia suuren tuotantotehon Perimän Data käyttäminen kaksijakoinen subsampling. PLoS ONE 9 (10): e108818. doi: 10,1371 /journal.pone.0108818

Editor: Ioannis P. Androulakis, Rutgers University, Yhdysvallat

vastaanotettu: 13 joulukuu 2013; Hyväksytty: 05 syyskuu 2014; Julkaistu: 08 lokakuu 2014

Copyright: © 2014 Lee et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Kirjoittajat tunnustaa tukea Deutsche Forschungs-Gemeinschaft (DFG) puitteissa Collaborative Research Center SFB 876 (https://sfb876.tu-dortmund.de) ”tarjoaminen Information Resource rajallisiin Analysis”, projektit A3 ja C1. L. Varesio tukivat avustuksia Italian Association for Cancer Research, The ENCCA verkko, Italian terveysministeriön. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

tunnistaminen asiaa ominaisuuksia suuria tietomääriä on ollut painopiste monilla tutkimusaloilla pitkään. Puhkeamista suurikapasiteettisten genomista profilointi tekniikoita, kestävyys mielletään tärkeäksi tekijäksi ominaisuuksien hallintaan [1], [2]. Yleisesti ottaen, ominaisuus on vankka, jos se on valittu menetelmällä aina kohorttiin koostumuksen, olettaen, että kaikki näytteet tulevat samasta väestön jakautuminen. Jos algoritmi havaitsee monet näistä tehokkaita ominaisuuksia, niin algoritmi voidaan pitää vahvana samoin. Kestävyys on kriittinen tekijä erityisesti kliinisissä tutkimuksissa, kun tarkoituksena on joko tunnistaa keskeisiä toimijoita taustalla biologisissa järjestelmissä, tai kehittää kliinisesti hyödyllisiä testejä.

Valitettavasti kliiniset tutkimukset tehdään yleensä ilman nimenomaista huomioon kestävyys niiden koeasetelma. Tyypillinen esimerkki on suorittaa ominaisuuksien hallintaan yhdellä osio käytettävissä kohortin tietoa, niin määrittää onnistumisen valinta käyttämällä muuhun datan (kutsutaan usein kuin Koepakettia). Kun otokset ovat pieniä kuten useimmissa kliinisissä tutkimuksissa, tällaiset käytännöt voivat johtaa tunnistamiseen monipuolinen allekirjoitusta useista tutkimuksista, jotka näyttävät täysin kunnossa omasta arviointia, mutta eivät onnistu, kun niitä levitetään tietoja muista tutkimuksista.

tässä tutkimuksessa ehdotetaan algoritmi käsitellä edellä mainittuja kysymyksiä, jotka perustuvat hyvin tutkituissa ideoita subsampling [3] ja yhdistäminen [4]. Meidän kehikko koostuu kahdesta subsampling vaiheet: (i)

ulompi subsampling

askel, joka arvioi ennusteen suorituskyky mallien ja valinnan todennäköisyys ominaisuuksia, ja (ii)

sisempi subsampling

askel , joka hankkii vankka malli yhdistämällä monia, mahdollisesti epävakaa, malleja, joissa kukin malli saadaan alustava erä.

Ulkopakkauksessa subsampling, olemme pääasiassa suorittaa bootstrap [3] arvioida kaksi määriä: valinnan todennäköisyydet ominaisuuksia ja ennustuksen suorituskyky mallien koostuu vankka allekirjoituksia. Estimointia poimintatodennäköisyydet ominaisuuksia käyttäen osanäytteiden on myös käytetty Davis et al. [1], yhteydessä valita paras yhdistelmä ominaisuuksien hallintaan ja erillinen luokitus algoritmi maksimoida molempien valinta taajuus ominaisuudet ja luokittelun tarkkuus. Meidän menetelmässä ominaisuuksien hallintaan ja mallin sovitus suoritetaan samanaikaisesti, ja se on olennainen ominaisuus, että olennaiset piirteet tulee valita suurella todennäköisyydellä. Siksi käytämme arvioitu poimintatodennäköisyydet rakentamiseen vankka allekirjoituksia, ei löytää paras yhdistelmä.

käyttö yhdistäminen tuottamaan vankkoja allekirjoitusta kuin meidän sisäinen subsampling askel on käytetty eri yhteyksissä. Abeel et ai. [5] pidetään yksinkertainen ja painotetut keskiarvot päätöksen vektoreista tukivektorikoneet (SVMs) [6] ja rekursiivinen toiminto poistaminen käyttäen SVMs [7], jossa jokainen päätös vektori saadaan bootstrap näytteestä. Vuonna Broom, Do ja Subramanian [8], modifioitu kehys on ehdotettu kallistumassa rakenteiden Bayes-verkot. Nämä työt eivät kuitenkaan ongelmaa tunnistaa vankka allekirjoituksia censored selviytymisen lopputuloksesta, tyypillinen tyypin vasteita kliinisen tutkimuksen. Myös menetelmiä, kuten SVMs ei ole tällaisia ​​takeita siitä, että tärkeät ominaisuudet valitaan suurella todennäköisyydellä yli erilaiset osanäytteitä.

vankka valinta perustuu teoreettisiin argumenttien vastikään laajalti käytetty suopunki algoritmi [9] ja alaliittymä esikäsitellyt suopunki algoritmi [10], jotka on otettu käyttöön seuraavassa jaksossa.

Cox regressio kanssa Lasso Penalty

Tarkastellaan kohortin näyte, joka koostuu

n

potilaita, jossa kukin potilaista on profiloitu

p

ulotteinen piirrevektorin x

i

ja selviytymisen merkintä:

t

i

on pituus selviytymisen aikaa ja

e

i

on indikaattorina kliininen tapahtuma siten, että

e

i

= 1, jos tapahtuma on tapahtunut, ja

e

i

= 0 muulloin.

Coxin regressio [11], riski potilaan, jolla tapahtuman aika

t

mallinnetaan funktio, jossa

h

0 (

t

) on perushasardiin toiminnon, potenssiinkorotusta osa kuvaa vaikutusta kovariaatit, ja. Arvio kertoimen vektori

β

saadaan suurimman uskottavuuden estimointi, toisin sanoen (1), jossa on osittainen log-todennäköisyys määritelty

Täällä

E

on hakemisto asetettu luetellaan kaikki tapahtumat ja on indeksi joukko potilaita vaarassa suhteen aikaan tapahtuman

i

. Toinen termi yhtälössä. (1) on regularizer rankaisematta monimutkaisuus

β

kanssa ja. Olemme usein soittaa laillistamista kanssa

α

= 1 kuin lasso tai, ja yksi

α

= 0, kun harjun tai rangaistuksen. Lasso valitsee ominaisuuksia asettamalla kertoimien

β

tasan nolla merkitystä ominaisuuksia, kun taas harjanteen ei suorita ominaisuuksien hallintaan itsestään. Sillä yksityiskohtainen vertailu kaksi, viittaamme Gui ja Li [12]. 0

α

1 regularizer kutsutaan joustava verkko [13], jolla on taipumus valita kaikki korreloi kovariaatit yhdessä.

esikäsitellyt Lasso

esikäsitellyt suopungin algoritmi [10] on kaksivaiheinen menettely suunniteltu vastaamaan ongelmiin korkea puolueellisuudesta suopunki arvioiden kun useita ominaisuuksia

p

on hyvin suuri verrattuna potilaiden määrä

n

. Molemmat vaiheet ovat

Vakauttamisolosuhteet vaihe:.

Lasso vaihe: sovita jokin malli.

Ensimmäinen vaihe luo esikäsiteltyjen tuloksia annetuista ominaisuuksista ja Eloonjääntitulokset . Esivakauttamistoimenpiteen suoritetaan valvotun pääkomponentit menetelmä [14], joka ensimmäisenä riveissä toiminnoille omat korrelaatio selviytymiseen tuloksia, ja sitten löytää kynnyksen rajat validointi, joka antaa parhaan ennusteen suorituskykyä, jos ominaisuudet sijoittuivat paremmin kuin kynnys käytetään regressiotestauksessa jälkeen heijastetaan ensimmäisten pääkomponenttien. Esikäsitellyt tulokset tuotetaan seurauksena ennustaminen kullakin piirrevektoriin koulutustilaisuuteen asetettu. Tässä on reaaliarvoinen, kun alkuperäinen tulos sisältää arvon elinaika ja tapahtuma indikaattori.

Toinen vaihe käyttää lasso sopivaksi lineaarinen malli alkuperäiseen piirrevektorit ja esikäsitellyt lopputulos. Koska esikäsiteltyjen vastaukset ovat skalaareja, voimme käyttää pienimmän neliösumman regressio kanssa lasso rangaistus, (2) B

Tämä ongelma voidaan ratkaista tehokkaasti vähiten kulma regressio (LARS) algoritmi [15]. Sen jälkeen löydetään ratkaisu, lineaarinen riski ennustus voidaan laskea kullekin testissä esimerkiksi x ja verrattiin niiden säilymistä riskin muotoja Cox mallin.

Johdonmukaisuus ja Tukeva allekirjoitus Selection

Oletetaan, että saadaan ratkaisemalla Eq. (1), jossa

n

esimerkkejä, joissa esimerkit generoidaan populaation tuntemattoman parametrin alla Cox mallia. Tärkeä käsitettä tilastoja vankka ominaisuus valinta on

johdonmukaisuuden kannalta muuttujan valinta

, (3) B

Eli valitsee saman ominaisuuksia yhä todennäköisyydellä potilaiden lukumäärä kasvaa . Tämä tarkoittaa, että jos

n

on riittävän suuri tai lähentymisen Eq. (3) on tarpeeksi nopea kiinteä

n

, sitten ominaisuus osajoukot valitsema useita eri näytteitä kooltaan

n

on sama suurella todennäköisyydellä, koska ne kaikki ovat lähellä ominaisuuksia valitaan. Siksi vankka valinta kliinisissä tutkimuksissa, joissa potilaiden määrä

n

on suhteellisen pieni ja ei ole helppo lisätä, mieluummin menetelmällä, jossa nopea lähentyminen johdonmukaisuutta.

Äskettäin on ollut osoittaneet, että alle

irrepresentable olosuhteet

[16] tai vastaavasti

-osassa stabiliteettiolosuhteissa

[17], johdonmukainen arvioita voidaan saada lasso, vaikka nämä olosuhteet yleensä tauko todellisissa tilanteissa. Esikäsitellyt suopungin algoritmi [10] on vaihtoehto lasso, tuottavat yhdenmukaisia ​​arvioita esim kun . Sillä pienimmän neliösumman kanssa lasso rangaistus, on osoitettu, että kun regularisaatioparametri on valittu olemaan, niin jokainen aktiivinen elementti on valinnut kanssa tiukasti positiivinen todennäköisyydellä [18]. Siksi risteykseen toiminnoiltaan saatu bootstrap tutkimuksissa on epätyhjä, ja oltava sopusoinnussa jyrkästi kasvavan todennäköisyydellä

n

kasvaa. Kuitenkin väitteet perustuvat vahvoja oletuksia, jotka melko helposti rikotaan käytännössä ja siksi haluttu ominaisuus ei saa seurata. Toinen muutos suopunki on ehdotettu käyttämällä satunnaisia ​​Uudelleenpainotus on suopunki regularizer [19]. Tämä algoritmi tuottaa yhdenmukaisia ​​arvioita vähemmän rajoittavia ehtoja kuin edellinen lähestymistapa, mutta vaatii määrittää ylimääräisen ”heikkous” parametri, joka ei ole aivan yksinkertaista määrittää sen satunnaistetussa ympäristössä.

vankka valinta Menetelmä perustuu seuraaviin kolme kriittisiä huomautuksia. Ensin esikäsitellyt suopungin on parempi lähentymisen yhdenmukaisuutta kuin lasso kun [10]. Toiseksi vaihtelu malleja voidaan vähentää mallin keskiarvon yhdistettynä subsampling [4] (sisempi subsampling vaihe). Ja kolmanneksi, olennaiset piirteet on valittava positiivinen todennäköisyys kanssa suopunki tietyissä olosuhteissa [18], ja siksi ilmestyy useammin kuin merkityksetön ominaisuuksia useissa tutkimuksissa random osanäytteet (ulompi subsampling vaihe).

Tukeva allekirjoitus on määritelty seuraavasti: annetaan satunnainen aliotoksen asetettu nollaksi ja arvio on saatu esimerkkejä vastaten

I

, luotettavuutta ominaisuus indeksoidaan määritellään sen todennäköisyys tulla valituksi keskuudessa tutkimuksissa satunnainen osanäytteessä, jossa kaikki parametrit, jos niitä oletetaan olevan säädetty jokaiselle

I

.

vankka allekirjoitus

määritellään joukko tehokkaita ominaisuuksia, joiden poimintatodennäköisyydet ylittävät tietyn kynnyksen, joka on,

Edellä mainitut kaksi määritelmät on mukailtu Meinshausen ja BUHLMANN [19]. Arvioituaan valinta todennäköisyys ominaisuuksia ulko subsampling, käytämme sitä tunnistamaan arviolta vankka allekirjoitus, (4) B

Methods

työnkulun meidän äskettäin kehitetty menetelmä on hahmoteltu kuvassa 1. vasen paneeli (A) esittää RS-PL, meidän Tukeva Valintamenettely kanssa esikäsitellyt Lasso algoritmi, joka tuottaa kerroin vektorin kullekin satunnainen junan asetettu nollaksi

I

. Oikeanpuoleisessa paneelissa (B), arvioimme valinnan todennäköisyys kunkin toiminnon valitseman RS-PL algoritmia jokaiselle satunnainen junan

I

, testaus suorituskyky ennustavat samoin.

paneeli A: meidän ydin algoritmi (lyhennettynä RS-PL) suorittaa vankka valinta sisemmällä alinäytteenoton käyttäen esikäsitellyt suopunki (PL) menetelmä sisällä. Potentiaalisesti epävakaa malli kerroin vektorit yhteen ja sitten kutistunut tuottamaan vankka malli vektori. Paneeli B: ulompi subsampling käytetään arvioimaan ennusteen suorituskykyä RS-PL ja arvioida poimintatodennäköisyydet ominaisuuksia. Suhteet (63,2% :36.8%) valitaan muistuttamaan tehokas näytteenotto suhdelukuja bootstrap.

menetelmää RS-PL on suunniteltu parantamaan luotettavuutta lasso-pohjainen allekirjoitus valintamenetelmiä, erityisesti esikäsitellyt lasso (PL). PL ja RS-PL suorittaa sekä allekirjoitus valinta ja arviointi ennustuksen funktio samalla tiiviisti kytketty tavalla. Siksi parantaa kestävyydestä allekirjoituksen valinta on taipumus arvioida paremmin suorituskykyä. Tarkemmin, ennustavat RS-PL perustuvat kokonaisuus lineaarisia malleja valittujen ominaisuuksien, ja siksi kestävyydestä allekirjoitus valinnassa on liitetty suoraan vakautta ensemble malleja ja niiden ennustaminen tuloksista.

Tukeva Selection kanssa esikäsitellyt Lasso (RS-PL) B

ehdotti algoritmi RS-PL kuviossa 1 (A) vastaa sisemmän subsampling askel koko puitteissa, jossa juna asetettu nollaksi

I

on jaettu sub-junan

J

(63,2%) ja viritys asettaa (loput). Nämä suhteet valitaan muistuttamaan tehokas näytteiden määrä bootstrap [3]. Verrattuna muihin subsampling strategiat, kuten

k

kertainen rajat validointi, tällä tietyllä tavalla subsampling tiedetään tarjota paras arvio, kun melu data on kohtalainen [20].

esisuodatetaan.

RS-PL, ensin poistaa epäinformatiivisia ominaisuuksia kustakin junan (I), jonka keskihajonta arvot ovat alle ennalta määritellyn prosenttipistettä keskihajonnan arvot kaikki ominaisuudet. Tämä suodatus on valinnaista, mutta helpottaa ominaisuuksien hallintaan. Erityisesti toivottava määrä ehdokkaan ominaisuudet

p

voidaan määrittää käyttäen Lemma 6.7 [21], jossa todetaan, että useita toimintoja, jotka valitaan tilastollisin johdonmukaisuus lasso ja esikäsitellyt suopunki rajaavat varten näyte koko

n

. Toisin sanoen,

p

ei pitäisi olla suurempi kuin. Esimerkiksi

p

voisi olla jopa muutamia tuhansia, kun

n

= 176 ja. Meidän kokeissa odotimme, että olisi 5~10 ja vähensi ehdokkaan ominaisuuksia ehdottamalla tavalla lemman avulla esisuodatus.

vakautettava Lasso.

Ytimessä RS-PL, me käytä esikäsitellyt suopunkia algoritmin (lyhennetty PL) edellä, koska sen ylivoimainen ominaisuuksia varten tapauksissa. PL sisällä RS-PL voidaan korvata muilla algoritmeilla kunhan ne tuottavat kerroin levittäjinä lineaariset mallit, kuten Coxin regressio kanssa lasso rangaistus.

yhdistäminen ja kutistuminen allekirjoitukset.

kunkin osa-juna, saadaan arvio kerroinvektorin seurauksena ratkaista toisen vaiheen esikäsitellyt lasso yhtälössä. (2). T

in = 100 satunnaisesti sub-junien vaikkapa saadaan arvioitu kerroin vektoreita vastaavasti. Koska kerroin vektorit ovat lineaarisia malleja, voimme koota ne yksinkertaisella keskiarvon, joka on,

Tässä yhteenlaskettuun kerroin vektori on merkitty kirjaimella

I

, koska se tuotetaan kunkin junan

I

voimassa.

useita ominaisuuksia, jotka valitsee yhdistettyjen vektori on yleensä melko suuri, koska joukko nollasta poikkeava komponenttien on sama kuin liiton allekirjoitukset saatu, kuten edellä. Siksi ”kutistua” kertoimet käyttämällä yksinkertaista kynnystystä strategia sillä kynnysarvot missä ja ovat pienimmän ja suurimman suuruuden komponenttien, löydämme kynnys siten, että kutistunut allekirjoitusta ja sitä vastaavan kertoimet tuottaa parhaita tulosennusteita yli tuning sarjaa, jossa viritys sarjat tulevat sisempi subsampling kuvassa 1 (A). Merkitään yhteenlasketut ja näivettynyt vankka kerroin vektori, lopputulosta RS-PL, niin, rakennettiin seuraavasti: (5) B

Arviointi Valinta Todennäköisyys, ennustaminen suorituskyky ja kestävyyttä

algoritmi kuvassa 1 (B) vastaa ulomman subsampling vaihe, jossa koko kohortti tietoja

n

potilaat jaetaan junan

I

(63,2%) ja Koepakettia ( loput), satunnaisesti T

out = 100 kertaa.

esikäsittely.

on kaksi erillistä esikäsittely vaiheet jokaisen junan (

I

) ja kukin Koepakettia. Tämä erottelu on hyvin tärkeä tarkkaa arviota ennusteen suorituskykyä. Esimerkiksi kun käytämme yhteenvetoa ja normalisointi algoritmeja, kuten vankka multi-array-analyysi (RMA) [22] ja microarray data, meidän täytyy hakea RMA erikseen junassa asettaa ja Koepakettia, koska muuten RMA käyttää tietoja testi asetettu esikäsittelytarve juna asetettu, ja päinvastoin, ja siksi tällainen käytäntö voi tuottaa liian optimistisen ennusteen tarkkuus arvionsa testipakkauksesta.

Vaihtoehtoisesti jäädytetty RMA (fRMA) algoritmi [23] voidaan soveltaa itsenäisesti yksittäisille mikrosiruja käyttäen maailmanlaajuinen viittaus mikrosiruja normalisointia. Johtuen riippumattomuus, fRMA on sovellettava vain kerran kaikille paneelit riippumatta juna /testi halkeaa.

ennustaminen Risk.

ennustaminen, vankka ja kutistunut kerroin arvio yhtälössä. (5) saatu RS-PL käytetään vertaamaan riskin potilaille, joilla tapahtuman aika

t

, kannalta Coxin suhteellista riskin malliin [11]. Tässä mallissa log riskisuhde vertaamalla riskin kahdella potilaalla (profiilien ja) becomesfrom määritelmä vaara (riski) funktio. Riskisuhde tarjoaa tilastotieto testaus erojen säilymiseen kuvioita. On syytä huomata, että perushasardiin

h

0 (

t

) häviää eikä mitään merkitystä edellä ilmaisua, jolloin vertailu riskin niin yksinkertaista vertaamalla arvoja lineaarisen ennustavat ja. Tämä antaa meille mahdollisuuden käyttää listalla korrelaatio lineaarisia ennustavia ja selviytymistä kertaa arvioida ennustuksen suorituskyky, kun keskustelemme seuraavassa osassa.

Toisaalta, perushasardiin

h

0 (

t

) voidaan arvioida, jotta voidaan tuottaa selviytymisen todennäköisyyksiä yksittäisille potilaille. Arvio

h

0 (

t

) on ehdottanut Cox ja Oakes [24], missä ovat erillisiä tapahtuman ajat ja

d

i

on määrä tapahtumien

t

i

. Sitten selviytymisen toiminto (todennäköisyys hengissä ainakin aika

t

) potilaan x voidaan laskea,

Toimenpiteet Prediction Performance.

mittaamiseksi ennustus suorituskyky, käytämme

konkordanssin indeksi

[25], joka on osa kaikkia samanlaisia ​​potilaan parit, joiden tulokset ovat yhdenmukaisia ​​sen ennusteita. Pari potilailla katsotaan olevan käyttökelpoisia, lukuun ottamatta tapauksia, joissa sekä potilailla on tapahtumia samaan aikaan, tai yksi on lyhyempi sensuroitu elinaika kuin muut, jotka on tapahtuma. Selittää muodollisesti, olettaa, että ennuste on saatavilla kullekin potilaalle, joiden elinaika annetaan kanssa tapahtuman ilmaisin. Tarkastellaan seuraavassa järjestyksessä osoitintoiminnot [26] varten,

Tämän jälkeen tuote kahden tilauksen toiminnot toimenpiteisiin, jos järjestystä pari ennustuksia on yhtäpitävät (tuote = 1), disconcordant (-1) tai ei vertailukelpoinen (0) järjestyksen vastaavan elinaika pari. Konkordanssi indeksi määritellään osa yhdenmukaisia ​​parien kaikkien verrattavissa paria, joka on arvoltaan välillä 0 ja 1. Tässä on indikaattori funktio palaamassa 1, jos argumentti on tosi, ja 0 muutoin. Huomaa, että osoittaja edellä laskee, montako kaikki yhdenmukaisia ​​paria, jossa nimittäjä laskee, montako kaikkia samanlaisia ​​pareja (yhdenmukaisten tai disconcordant). Tämä toimenpide voidaan kuvata yleisellä AUC (area under the ROC käyrä) arvo, jossa arvot 0,5 merkitsevät positiivista korrelaatiota ja arvojen 0,5 tarkoita negatiivinen korrelaatio. Binary arvostettu ennusteita, viskositeettiluku indeksi tulee yhtenevä AUC.

Toimenpiteet kestävyyttä.

Jotta voidaan mitata luotettavuutta allekirjoituksen valinta, käytämme

Jaccard indeksi

ja

rank-rangaistaan ​​Kuncheva indeksin

.

Jaccard indeksi

mittaa luotettavuutta allekirjoitusten mahdollisesti erikokoisia, ja se on määritelty keskikoko on päällekkäistä ominaisuus osajoukot suhteutettuna niiden liitto [2]. Ilmaiseva joukon ominaisuuksia valittu mukaan, se määritellään seuraavasti: (6) B

Jaccard indeksi vaihtelee 0-1, ja suuremmat arvot ilmaisevat suurempaa suhteellista päällekkäisyyttä.

Kun koot allekirjoitukset voidaan ohjata, tarkempi toimenpiteitä kestävyys ovat käytettävissä, nimittäin Kuncheva indeksin [27] ja Canberra etäisyys [28] sijasta Jaccard indeksi, joka voi johtaa puolueellinen arviointiin kestävyys. Tarkemmin sanottuna Kuncheva indeksi tarjoaa puolueettoman arvion keskimääräinen päällekkäisiä allekirjoituksia, ja Canberra etäisyyden mittaa, kuinka hyvin järjestyksessä panos ominaisuuksia on säilynyt välillä allekirjoitusten keskimäärin. Verrattuna Jaccard indeksi, nämä kaksi toimenpiteet edellyttävät allekirjoituksia olla samankokoisia vertailua varten. Jae välinen Kuncheva indeksin ja Canberran etäisyyttä, merkitään

rank-rangaistaan ​​Kuncheva indeksi

, lasketaan kaavalla yhteenveto kahdesta toimenpiteiden kestävyys. Ilmaiseva ominaisuudet valitaan ylimääräinen hävikkiä, ja sijoitus suuruus nnen ominaisuuden mukaan, sijoitus-rangaistaan ​​Kuncheva indeksi ilmaistaan ​​seuraavasti (

p

on kokonaislukumäärä ehdokkaan ominaisuuksia), (7) B

arvot tämän indeksin alueella 0 (nolla päällekkäin, eli ominaisuus riveissä ei säilytetä) ja ∞ (täydellinen päällekkäisyys, eli täydellinen säilyttäminen ominaisuus riveissä).

Extra kutistuminen Models.

määrä ominaisuuksia allekirjoituksen kuvataan vaihtelee tietoihin ja menetelmiin, mutta se on tyypillisesti suurempi kuin 50. Kun pienempiä allekirjoitukset ovat edullisia perusteellisen tutkimuksen ominaisuuksia, allekirjoituksia kuvattu by voidaan kutistunut edelleen valitsemalla top

G

varustelu suuruuden mukaan niiden kertoimen.

Tätä myöhemmin käytetään arvioimaan menetelmämme verrata kestävyys ja ennustaminen suorituskyky allekirjoitusten joka koostuu pienistä määriä ominaisuuksia.

poimintatodennäköisyydet ominaisuutensa ja Tukeva allekirjoitukset.

valinta todennäköisyys ominaisuus, indeksoidaan

k

, arvioidaan sen ulkonäkö taajuus joukossa T

ulos ulko subsampling tutkimuksissa eli missä on indikaattori funktio, joka on yhtä kuin 1, jos selvitys

s

on totta, tai 0 muutoin. Koska nämä todennäköisyydet ja perustason valinnan todennäköisyys

π

, me rakentaa vankka allekirjoituksen yhtälön. (4).

Lista algoritmit Comparison

ehdotti algoritmi RS-PL, jossa etuliite ”RS” tarkoittaa ”vahva valinta”, verrataan seuraavia algoritmeja. RS-L on sama kuin RS-PL paitsi PL sisällä RS-PL korvataan Coxin kanssa lasso rangaistus. Seuraavassa koko RS-PL kuviossa 1 (A) korvataan kuvattujen algoritmien, jotka eivät käytä meidän RS puitteet: PL on esikäsitellyt lasso algoritmia. L on Coxin regressio kanssa lasso rangaistus. Dev on yksinkertainen menetelmä, joka valitsee top 100 ominaisuuksia suurin keskihajonta poikki mikrosiruja. Harja Coxin regressio Sitten suoritetaan käyttämällä vain näitä ominaisuuksia. Tämän tyyppinen menetelmien tiedetään olevan stabiili [29]. Cor on toinen univariate menetelmä, valitsevat top 100 ominaisuuksia korkein riveissä mitattuna niiden yksittäisten korrelaation selviytymiseen merkintä (mitattuna vastaavuutta indeksi). Harja Coxin regressio suoritetaan valittujen ominaisuuksien jälkeenpäin. Cli on Coxin regressio ilman rangaistusta käytetään ainoastaan ​​kliinisen kovariantteja. BatchExperiments paketti [30] T käytettiin rinnakkain laskenta algoritmien.

Tulokset

Data valmistelu

kolme aineistoja analysoitiin sisältävän mRNA: n ilmentymisen profiilit yhteensä 742 syöpäpotilasta, jotka hankittiin käyttäen Affymetrix sirutekniikalla. Tiedot saatiin kolmelle eri yksiköiden, neuroblastooma, keuhkojen adenokarsinooma, ja rintasyöpä, jotka esitetään taulukossa 1. CEL tiedostoja ladata Gene Expression Omnibus tai R2 platform (https://r2.amc.nl). Esikäsittely jäätynyt RMA-algoritmia [23] sovellettiin yksittäisiin CEL tiedostoja luoda probeset tasolle yhteenvetoja. Vain mikrosirut mediaanin GNUSE [31] arvot ≤1 (laadunvalvonnan) ja sopivilla kliinisten tietojen (kokonaiselinaika) on mukana tässä tutkimuksessa. Ominaisuudet kolme aineistoja ennen ja jälkeen esikäsittely esitetään yhteenveto taulukoissa 2, 3, ja 4 (katso kuva S1 vastaava Kaplan-Meier alat).

ominaisuudet saadut esikäsittelyä merkitään

probesets

, jotka vastaavat (osiin) eksonien tai geenejä riippuen microarray alustoille. Kokonaismäärät probesets (toiminnot) vaihtelevat microarray alustoille: HG-U133A Plus 2.0 alustan sisältää 54675 probesets (HG-U133A sisältää noin 10000 vähemmän probesets), ja Human eksoni ST v1.0 alusta sisältää 1432143 probesets mukaan NetAffx probeset merkintä v33.1 alkaen Affymetrix. Jokaisessa probeset on tiivistää ilmaus arvoja vastaavien

antureista

alkuperäisessä CEL datan, jossa 9~11 (HG-U133A) tai 1~4 (Human eksoni ST v1.0) antureista muodostavat probeset. Sillä neuroblastooma datajoukon (Human eksoni ST v1.0), keskityimme ydintasolla probesets kuin varustelu vastaa eksonit että täytti kolme kriteeriä: ainutlaatuinen hybridisaatio, ainutlaatuinen lokalisointi yksi ihmisen kromosomeja, ja läsnäolo voimassa geenin toimeksiantoja . Käyttämällä NetAffx probeset huomautus, tämä johti 228476 ominaisuuksia. Kun esisuodatetaan oli sovellettu, probesets jossa keskihajonta alle 99 prosentin ja keskihajonta kaikki ominaisuudet heitettiin pois kustakin satunnaisesti junan

I

, jolloin 2285 ominaisuuksia. For adenokarsinooma (HG-U133 Plus 2) ja rintasyöpä (HG-U133A) aineistoja, keskityimme luokka-A probesets kuin vastaavat ominaisuudet geenien ainutlaatuinen hybridisaatio- ja ainutlaatuinen lokalisointi. Käyttämällä NetAffx huomautus, tämä johti 28476 (adenokarsinooma) ja 20492 (rintasyöpä) ominaisuuksia, vastaavasti. Kun esisuodatetaan oli sovellettu, probesets jossa keskihajonta alle 90. prosenttipiste keskihajonta kaikki ominaisuudet heitettiin pois kustakin satunnaisesti junan

I

, johtaen 2848 (adenokarsinooma) ja 2050 (rintasyöpä) ominaisuudet .

Kliininen kovariaatit olivat vain menetelmän CLI, mukaan lukien seuraavat ominaisuudet: ikä diagnoosin, MYCN tila ja INSS vaiheessa neuroblastooma; ikä, tupakointi asema, sukupuoli, vaihe, ja MYC tila keuhkoadenokarsinooma; ikä, vaihe, koko kasvain, ja laatu rintasyövän.

Tukeva Allekirjoitukset

algoritmit RS-PL, RS-L, PL, L, Dev, Cor ja CLI testattiin sisällä arviomme kehys (kuva 1: B) käyttäen samaa satunnaista jakaa tietoa eri menetelmiä vertailtiin (katso taulukko S1 elinaika jakeluun junan ja testi sarjaa). Tämä johti sekvenssin kerroin vektorien lähtönä kunkin menetelmän. Näitä käytettiin arvioimaan valintaan todennäköisyys kunkin ominaisuuden,. Sillä neuroblastooma datajoukon, perustason todennäköisyys asetettiin arvioidun valinnan todennäköisyys MYCN vahvistus tila kovariaatti (). Kahden muun aineistoja, mielivaltainen arvo () määriteltiin ja vankka allekirjoitukset saatiin.

laadullinen validointi Tukeva allekirjoitukset.

taulukoissa 5, 6, ja 7 esittävät sisältyvät piirteet vankka allekirjoitukset tuottama RS-PL varten neuroblastooma, keuhkojen adenokarsinooma, ja rintasyöpä, vastaavasti (katso taulukot S2, S3 ja S4 vastaaviin luetteloihin valittujen ominaisuuksien ja niiden valinta todennäköisyys). Kussakin taulukossa, valinta taajuudet ominaisuuksia on esitetty toisessa sarakkeessa. Kuten neuroblastooma, tiedot olivat saatavilla eksonin tasolla resoluutio, joten valinta taajuus otettiin keskiarvo usean eksonit jos useampi kuin yksi eksoni oli vakaasti tunnistettu geeni.

Vastaa