PLoS ONE: määrittäminen vähimmäiskoulutusvaatimusten otoskoko Microarray-Based Cancer Outcome Prediction-empiirinen arviointi

tiivistelmä

Lupaus sirutekniikalla tarjoamaan ennuste luokittelijoiden syövän tulos arvio on vahvistettu useilla todistettavasti. Kuitenkin luotettavuuden ennusteen tulosten nojaa vahvasti tarkkuuteen tilastollisten parametrien luokittelijoiden. Sitä ei voida luotettavasti arvioida vain pieni määrä koulutukseen näytteitä. Siksi on erittäin tärkeää määritellä vähimmäismäärä koulutuksen näytteitä ja varmistaa kliinistä arvoa mikrosiruja syövän tulos ennustus. Arvioimme voidaan arvioida koulutuksen otoksen koko mallin suorituskyky perustuu pitkälti 3 laajamittainen syöpä mikrosirujen aineistoja, jonka toinen vaihe microarray Quality Control projekti (MAQC-II). SSNR-pohjainen (asteikolla signaali-kohina-suhde) protokollaa ehdotettiin tässä tutkimuksessa koulutuksen vähimmäisvaatimukset Näytteen koon määritys. Ulkoinen validointi perustuvat tulokset toinen 3 syöpää aineistoja vahvisti, että SSNR lähestymistapa voi vain määritellä vähimmäismäärä opetusnäytteitä tehokkaasti, mutta myös arvokas strategia arvioimiseksi olevan tuloksen luokittelijoiden etukäteen. Kun käännetty kliinisiin rutiini sovelluksissa SSNR-protokolla antaisi todella käteviä mikrosirulähestymistavassa perustuva syövän tuloksen ennustaminen parantamisessa luokittelija luotettavuutta.

Citation: Shao L, Fan X, Cheng N, Wu L, Cheng Y (2013) määritys vähimmäiskoulutusvaatimusten otoskoko Microarray-Based Cancer Outcome Prediction-empiirinen arviointi. PLoS ONE 8 (7): e68579. doi: 10,1371 /journal.pone.0068579

Editor: Cynthia Gibas, University of North Carolina at Charlotte, Yhdysvallat

vastaanotettu: 24 syyskuu 2012; Hyväksytty: 31 toukokuu 2013; Julkaistu: 05 heinäkuu 2013

Copyright: © 2013 Shao et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat National Science Foundation of China (30830121, 81173465) ja Zhejiangin maakunnan Natural Science Foundation of China (R2080693) kantavassa rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen .

kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Viimeaikaiset edistysaskeleet geenien ilmentyminen sirutekniikalla ovat avanneet uusia mahdollisuuksia parempaan hoitoon erilaisia sairaudet [1], [2], [3]. Vuosikymmen intensiivisen tutkimuksen kehittämiseen ennusteen luokittelijoiden on tuottanut useita todistettavasti, erityisesti kykyä ennustaa erilaisten mahdollisten vastausten hoito [4]. Esimerkiksi se auttoi hoidon valinnan pidentää elinaikaa aikaa ja parantaa elämänlaatua syöpäpotilaiden. Suostumus on MammaPrint ™ Yhdysvaltain Food and Drug Administration (FDA) kliiniseen rintasyövän ennuste [5] esitetty lupaus sirutekniikalla helpottaa sairaanhoidon tulevaisuudessa.

Äskettäin Microarray Quality Control Projekti II (MAQC II) tutkimus [6] vahvistettiin jälleen, että microarray-pohjainen ennustemallit voidaan käyttää ennustamaan kliinistä päätepisteiden jos rakennetaan ja käytetään oikein. Kuitenkin luotettavuuden ennusteen tulosten tukeutuivat voimakkaasti tarkkuuteen tilastollisten parametrien microarray luokittelijoiden, joita ei voida luotettavasti arvioida pieni määrä koulutusta näytteitä. Siksi se auttaisi keräämällä niin monta kliinisissä näytteissä kuin mahdollista. Kuitenkin ottaen huomioon, että suhteellisen vähän kliinistä kudosnäytteitä voidaan käyttää transkription profilointiin, se on haaste arvioida sopiva määrä opetusnäytteitä riitä saavuttamaan merkittävää tilastollista voimaa.

Useita menetelmiä on ehdotettu näytteen koko määritys, kuten pysäytyssäännön [7], teho analyysin algoritmi [8], parametrisen seos mallinnus yhdistää muuttujien bootstrapping [9], juokseva Luokitusumenettely perustuu martingale keskeinen raja-arvolause [10], parametrisen todennäköisyys malli – pohjainen metodologia [11], Monte Carlo yhdistettynä lähentämistä lähestymistapoja [12], ja algoritmi perustuu painotettuun asentamisesta oppimiskäyrät [13], jne. Suurin osa edellä tutkimuksista oli tunnustelevat luonteeltaan, ja keskittyi suhteita otoskoko, merkityksellistä eroa keskimääräisessä, ja teho. On varsin mahdollista, että nämä menetelmät tuottaa joko aliarvioitu tai yliarvioida otoskoko, jos tietty varianssi ja merkityksellistä eroa keskimääräisen käytettiin [14]. Lisäksi tilastollisia malleja ja /tai indeksit hyödyntää edellä mainitut menetelmät ovat melko vaikea toteuttaa todellisissa sovelluksissa, ja toteutettavissa vain kun riittävästi koulutusta kerätään. Dobbin et ai. ehdotti otoskoko laskentamenetelmä perustuu standardoitujen kertainen muutos, luokka esiintyvyyttä ja joukko geenejä tai ominaisuuksista paneelit [15]. Vaikka tällainen menetelmä on hyvin yksinkertainen verrattuna edelliseen lähestymistapoja, se on vain sovitettu puuttumaan jälkikäteen määritelläänpä otoskoko on riittävä kehittää luokittelija. Siten muutamia asioita on käsiteltävä ennen yksinkertaisen ja tehokkaan menetelmän otoskoko arvio voitaisiin kehittää.

Vuoden 2005 alussa, Van Niel et al. on todennut, että tarvittava määrä koulutusta näytteitä olisi määriteltävä huomioon monimutkaisuus syrjinnän ongelmaa [16]. Standardoitu kertaluokkamuutos ja luokan esiintyvyys ehdottamat Dobbin et al. ovat myös jossain määrin korreloi luokitus monimutkaisuutta [15]. Popovici et ai. osoittivat lisäksi, että suorituskyky genomista ennustajan määräytyy pitkälti jota vuorovaikutus otoskoko ja luokittelu monimutkaisuus [17]. Yhteenvetona, mietitään suhdetta otoskoko, mallin tehokkuuden ja luokittelu monimutkaisuus on suureksi avuksi kehitettäessä käyttäjäystävällisiä otoskoko suunnittelun protokollaa.

Kolme suuren mittakaavan mikrosirujen aineistoja, joissa on yhteensä 10 päätepisteiden säädetään MAQC-II [6] olivat laajasti arvioitiin suhdetta koulutuksen näytteen koon ja suorituskyvyn rakennettu ennustaminen luokittelijoiden tässä tutkimuksessa. Todettiin, että koulutuksen vähimmäisvaatimukset otoskoko voitiin arvioida luontainen ennustettavuutta päätepisteitä ja ehdotimme SSNR perustuva vaiheittainen arviointi protokollaa. Ulkoinen validointi tuloksia käyttämällä toista kolme suurta aineistoja vahvisti valmiutta tämän pöytäkirjan. Verrattuna aikaisempiin menetelmiin, ehdottaman pöytäkirjan Tässä tutkimuksessa on etunsa seuraavat kolme näkökohtaa: Ensinnäkin, se on helpompi toteuttaa ja huomattavasti tehokkaampi kliinisiä sovelluksia; Toiseksi vähemmän ennen tietoja tarvitaan, ja näin kokeellinen kustannukset voivat paremmin ohjata; Lopuksi, se ohjaa kokeen suunnittelusta, lisäksi jälkikäteen arvio koulutuksen otoskoko.

Materiaalit ja menetelmät

Tietoaineistot

Kuusi laajamittainen syöpä aineistot ovat koottu tässä tutkimuksessa koulutusta otoskoko arviointi ja ulkoinen validointitarkoituksiin. Taulukko 1 havainnollistaa tiiviin yhteenvedon kerätyn aineistoja, mukaan lukien tiedot otoskoko ja otoksen jakautuminen.

Kolme aineistoja 10 kliinistä päätepisteiden – rintasyöpä (BR), multippeli myelooma (MM), neuroblastooma (NB), säädetään MAQC-II [6] valittiin ja käytettiin tässä tutkimuksessa arvioida arvioida koulutuksen otoksen koko mallin suorituskykyä. Rintasyövän, vastemuuttujat BR-erpos ja BR-PCR edustavat estrogeenireseptoripositiivinen tila ja hoidon onnistumista joihin kemoterapia seurasi kirurginen kasvaimen kirurgisen poiston, vastaavasti. Multippelin myelooman, MM-EFS ja MM-OS edustavat tapahtuma-elinaika ja eloonjäämiseen jälkeen 730 päivää hoidon jälkeen diagnoosi, kun taas NB-EFS ja NB-OS edustavat samaa jälkeen 900 päivää käsittelyn jälkeen tai diagnoosia. Lisäksi vastemuuttujat NB-PC ja MM-PC, NB-NC ja MM-NC olivat mukana myös tässä tutkimuksessa positiiviset ja negatiiviset kontrollit, vastaavasti. NB-PC ja MM-PC olivat peräisin NB ja MM aineistojen kanssa päätepisteet merkitään sukupuolen, kun päätepisteet NB-NC ja MM-NC muodostettiin satunnaisesti.

Toinen kolme aineistoja, joista yksi ei -hodgkin lymfooman (NHL) [18] aineisto ja kaksi rintasyöpä aineistot (BR2 [19] ja BR3 [20]) käytetään aiemmin julkaistu prognostisissa mallinnustutkimuksiin, käytettiin tässä tutkimuksessa ulkoista validointi tarkoitukseen. NHL liittyy selviytymisen Non-Hodgkinin lymfooma [18] potilaiden, kun taas BR2 ja BR3 liittyvät estrogeenireseptori tila (BR2-erpos) [19] ja 5-vuoden etäpesäke-elinaika (BR3-EFS) [ ,,,0],20] syöpäpotilaista.

simuloida reaalimaailman kliinisissä sovelluksissa perimän tutkimukset, kaksi riippumatonta populaatiot potilaiden jokaiselle aineisto luoma MAQC konsortio tai alkuperäisen tutkijat säilytetään tässä tutkimuksessa, koska koulutus ja validointi sarjoiksi. Kun kyseessä on BR2-erpos ja BR3-EFS, ei ollut tietoa näytteen ositus. Näin kaikki näytteet jaettiin koulutukseen ja validointi asettaa satunnaisesti tässä tutkimuksessa. Tarkempia tietoja aineistot löytyvät pääasiassa paperin MAQC-II [6] ja sen vastaavan alkuperäisen papereita.

Tilastollinen analyysi

Tarkemmat tiedot tutkimuksesta malli on esitetty kuvassa 1, lisätietoja mallista rakentaminen menettely on käytettävissä Methods S1. Tietoaineisto tietyn otoskoko oli ensin noudetaan alkuperäisestä koulutus asettaa uuden koulutuksen näytteitä. Sen jälkeen malli rakennustoiminnan noudetun harjoitusnäytteille käyttäen 5-kertainen ristivalidointi, saatu

paras luokittelija

sovellettiin sitten ennustaa alkuperäisen validointi asetettu. Varmistaakseen tilastollinen voima, tällainen menettely toistettiin 100 kertaa, mikä johtaa 100 erilaista ennusteita. Keskimääräinen ennuste tulos käytettiin sitten osoituksena mallin tehokkuuden vastaa tätä erityistä otoskoko. Määrä opetusnäytteitä huomioon tässä tutkimuksessa vaihtelee 20 vaiheella, jossa 20. Kolme laajalti käytetty konealgoritmeja lukien

NCentroid

(Lähin-Centroid),

KNN

(

k

-nearest naapureita,

k

= 3) ja

SVM

(Support Vector Machine) valittiin tässä tutkimuksessa arvioida arvioida koulutuksen otoskoko.

työnkulku arvioidaan sen vaikutuksia eri määrä opetusnäytteitä.

Perustuu 100-run tulosten trendi mallin tehokkuuden (mitattuna Matthews korrelaatiokerroin (MCC) [21] versus asteittaisen lisäämisen koulutuksen näytekoko on havainnollistettu viiksi juoni (5-95% prosenttipiste). Matthews Korrelaatiokerroin (MCC) määritellään seuraavasti: (1) missä on määrä tosi positiivisia, on määrä todellinen negatiivit, on väärien hälytysten määrä ja on määrä vääriä negatiivisia. MCC vaihtelee -1 ja +1 0 vastaa satunnainen ennustamiseen.

Perustuu 100-run MCC arvot, me edelleen ehdotti yhtälö noin arvio mahdollinen arvo kasvaa otoskokoa, joka ottaa huomioon sekä suhteellinen parannus mallin tehokkuuden ja kustannukset kasvaa otoskoko. (2) B

Tässä ja edustavat MCC arvo saadaan

i

nnen ja

(i-1) B: nnen otoskoko, kun on määrä koulutuksen näytteitä

(i-1) B: nnen vaiheessa (

i = 2, …, n

). arvo paljon pienempi kuin 1 hyödynnettiin tässä tutkimuksessa auttaa määritettäessä lähellä optimaalista luokittelija. Toisin sanoen, arvo yhdistettynä keskiarvo ja varianssi MCC arvoista lopulta käytettiin määrittämään lähellä optimaalista koulutusta otoskoko.

Scale of signaali-kohinasuhde (SSNR) B

Oletetaan mikrosirujen aineistot

X

1

(

n

1

näytteitä ja

p

geenejä) ja

X

2

(

n

2

näytteitä ja

p

geenit) on profiloitu näytteistä luokassa 1 ja luokka 2, vastaavasti. Signaali-kohina-suhde

i

nnen geeni (,

i = 1,2, …, p

) kuvastaa eroa luokkien suhteessa keskihajonnat (SD) sisällä luokkiin, ja voidaan esittää seuraavasti [22] 🙁 3) B

Tässä ja tarkoittavat keinot ja SDS tukin ilmaisun tasot

i

nnen (

i = 1,2, …, p

) geeni luokassa 1 ja luokka 2, vastaavasti. ei rajoitu [-1, 1], suuret arvot osoittavat vahvan korrelaation geenin ilmentymisen ja luokan ero. Merkki on positiivisia ja negatiivisia, vastaa

i

nnen geeni korkeammin ilmaistaan ​​luokkaan 1 vai 2. SSNR on numeerinen asteikolla kaikkien geenien (

i = 1,2, … , p

) edustaa numeerinen ero suurimman positiiviseen ja pienimmät negatiivis- SNR arvoja. Olettaen, joka edustaa vektorit SNR arvot kaikille geenien aineisto, SSNR voidaan määritellä seuraavasti: (4) B

Tulokset

Minimi Training Näytteen koko Vaihtelee Endpoint Ennustettavuus

Kuva 2 osoitti suuntaus mallin tehokkuuden verrattuna asteittaisen lisäämisen koulutuksen otoskoko 10 päätepisteiden

NCentroid

, jossa vastaavat arvot esitetään taulukossa S1. Kaksi johtopäätökset voidaan tehdä tutkimuksesta. Ensinnäkin koulutus otoskoko kohdistuu ilmeinen vaikutuksia mallin tehokkuuden kaikkien päätepisteiden paitsi negatiivisia kontrolleja. Toiseksi vähimmäismäärästä opetusnäytteitä vaihtelee monimutkaisuus eri parametrit. Erittäin ennustettavissa päätepisteiden (NB-PC, MM-PC ja BR-erpos) ennustevälineillä MCC noin tai suurempi kuin 0,8, 60 koulutus näytettä riittää saavuttaa lähes optimaalisen ennustus luokittelijoiden. Kun taas päätepisteiden (NB-EFS, NB-OS, BR-PCR), joilla on kohtalainen ennusteen suorituskyky (MCC välillä 0,2-0,5), ainakin 120 opetusnäytteitä tarvitaan. Sillä tuskin ennakoitavissa tutkittavien ominaisuuksien (MM-EFS ja MM-OS), microarray-pohjainen ennustemallin (MCC noin 0,1) ei yleensä ole hyvä valinta tässä tapauksessa. Siinä tapauksessa, kun 120 näytettä tarvitaan, ei ole järkevää kerätä enempää näytteitä vuoksi mitätön parannus. Negatiivisia kontrolleja (NB-NC ja MM-NC), ennustemallit epäonnistuvat kaikille koulutukseen otoskokoja. Tällaiset tulokset jätetty mahdollisuus saada vääriä positiivisia tuloksia. Kuviot S1 ja S2 saatujen

KNN

ja

SVM

vahvistivat edellä esitetyt tulokset.

Prediction MCC perustuu eri määrä opetusnäytteitä 10 päätepisteiden

NCentroid

.

SSNR korreloi hyvin Endpoint ennustettavuus

edellä olevat tulokset osoittivat, että koulutuksen vähimmäisvaatimukset otoskoko tarvitaan mallin rakentamiseen vaihteli päätepiste ennustettavuus. Siten on erittäin tärkeää arvioida päätepisteen monimutkaisuuden ennen määritettäessä vähimmäismäärästä koulutuksen näytteitä. Ehdotimme indeksin SSNR tässä tutkimuksessa, ja arvioitiin sen kyky merkkinä päätepisteen ennustettavuutta. Kuvio 3 (a) osoittivat suhdetta SSNR ja mallin tehokkuuden perustuu kaikkiin koulutusta näytteitä

NCentroid

. Tässä näemme, että SSNR korreloi hyvin mallin tehokkuuden (MCC arvot), joiden Pearsonin korrelaatiokerroin 0,897. Vahvistuksena, me edelleen vaihtoivat alkuperäinen koulutus ja validointi sarjaa, ja arvioida uudelleen korrelaatio SSNR ja päätepisteen ennustettavuutta. Kuva 3 (b) on esitetty vastaavat tulokset. Korrelaatio on 0,859 vahvistivat lisäksi, että SSNR korreloi hyvin päätepiste ennustettavuus. Tällaista päätelmää tukee lisäksi korrelaatio 0,875 ja 0,864 ja

KNN

ja 0,887 ja 0,901 ja

SVM

luokittelijoiden kuvan S3.

jälkikäteen suhde välillä SSNR arvojen ja päätepisteen ennustettavuus (ennuste MCC), joka perustuu (a) normaali ja (b) swap mallinnuksen

NCentroid

kaikista opetusnäytteitä. Tässä vihreä (a) ja oranssi pylväät (b) edustaa SSNR arvoja alkuperäisestä koulutus ja validointi sarjaa, kun taas suorakaiteen kohtaavat keltainen ovat vastaavat ennustaminen MCC arvoja malleja alkuperäisestä validointi ja koulutus näytteitä, vastaavasti.

SSNR Ohjaa määrittäminen koulutuspäällikkö Näytteen koko

edellä esitetyt tulokset vahvistivat, että SSNR oli pätevä arvio päätepisteen ennustettavuutta ja toimii koulutuksen perusteella otoskoko arvio. Tällaiset tulokset perustuvat jälkikäteen tehty analyysi käyttäen kaikkia harjoitusnäytteille (paljon enemmän kuin 60 tai 120 niistä), jolloin siitä osoitteettoman kysymys siitä SSNR voisivat ohjata koulutusta otoskoko arvio todellisissa sovelluksissa. Niinpä me arvioidaan edelleen mahdollisuutta käyttää SSNR ohjeellisia koulutuksen otoskoko arvio seuraavista kahdesta näkökulmasta: ensinnäkin SSNR arvo tarkastettiin perustuu 60 tai 120 harjoitusnäytteille nähdä, jos se voi menestyksekkäästi erottamaan päätepisteet eri ennusteen monimutkaisuutta; Toiseksi tehokkuus SSNR varmistettiin arviointiin tarvitaan vähintään koulutuksen otoskoko todellisissa sovelluksissa käytetään kolmea ulkoista validointi aineistoja.

satunnaisesti haettu 60 tai 120 näytettä alkuperäisestä training set rakennettu ennustus luokittelijoiden, ennusti alkuperäinen validointi sarjojen luokittelija, ja sitten tallennetaan vastaava SSNR ja ennustaminen MCC arvoja. Varmistaakseen tilastollinen voima, tällainen menettely toistettiin 100 kertaa, mikä johtaa 100 paria SSNR ja MCC arvoja. Kyky SSNR erottamaan päätepisteiden eri monimutkaisuus sitten arvioitiin vastaavasta keskiarvot ja keskihajonnat (SDS). Kuvio 4 (a) osoittivat suhdetta SSNR ja MCC arvoja 60 koulutusta näytteiden perusteella

NCentroid

. Voimme nähdä, että SSNR voisi menestyksekkäästi erottamaan ensimmäisen kolmen yksinkertaisempi päätepisteet (SSNR≥2) muilta, kun taas mitään ilmeistä eroa ei havaittu joukossa loput. Ilman kolme ensimmäistä päätepisteiden (NB-PC, MM-PC ja BR-erpos), me arvioidaan edelleen suhdetta SSNR ja MCC loput 7 päätepisteiden 120 opetusnäytteitä. Kuten kuviossa 4 (b), viisi päätepisteet kanssa SSNR≥1 (NB-EFS, NB-OS, BR-PCR, MM-EFS ja MM-OS) onnistuneesti erotettiin kahdesta muusta negatiiviset kontrollit (SSNR 1 ) tässä tapauksessa. Tämän vuoksi vahvistettiin, että SSNR voisi ohjata koulutusta otoskoko määritys tehokkaasti. Vastaavat tulokset on saatu

KNN

ja

SVM

kuvassa S4 vahvistivat edellä esitetyt tulokset.

Suhde SSNR arvojen ja päätepisteen ennustettavuus (ennuste MCC), joka perustuu (a ) 60 ja (b) 120 koulutus näytteitä

NCentroid

, vastaavasti. Tässä sininen pylväät ja mustat palkit edustavat keinot ja SDS of SSNR arvojen 100 toistoja, kun taas keltainen suorakaide ja punaiset palkit ovat keinoja ja SDS ja MCC arvoista.

lisäksi ehdottaneet SSNR-pohjainen protokolla koulutus otoskoko määrittäminen tässä tutkimuksessa. Ensinnäkin, 60 koulutusta kerättiin ja SSNR-arvo on arvioitu. Jos SSNR on suurempi kuin 2, 60 koulutus näytteiden koko on riittävän suuri, jotta saavutetaan lähes optimaalinen ennuste mallin. Muussa tapauksessa vähintään 120 koulutus kerättiin ja SSNR arvo arvioitiin uudelleen; Jos SSNR arvo perustuu 120 harjoitusnäytteille oli suurempi kuin 1, 120 koulutus näytteet ovat riittävän mallin rakentamiseen tällä kertaa. Muussa tapauksessa suorituskyky ennustus luokittelija katsotaan erittäin huono.

Kolme ulkoista validointi aineistot (BR2-erpos, BR3-EFS ja NHL) käytettiin edelleen vahvistamaan suorituskykyä edellä mainitun protokollan todellisissa sovelluksissa. Sillä BR2-erpos, The SSNR arvo perustuu 60 harjoitusnäytteille (100 toistoa) saavutettiin 2,16 ± 0,38 (suurempi kuin 2), ja siten 60 näytettä riittivät protokollan mukaan. Sillä BR3-EFS, The SSNR arvot perustuvat 60 ja 120 koulutus näytteet 1,55 ± 0,23 ( 2) ja 1,18 ± 0,11 ( 1), tässä järjestyksessä. Siksi 120 koulutus näytteet saavuttamiseksi tarvitaan lähes optimaalista mallia tällä kertaa. NHL, The SSNR arvot perustuvat 60 ja 120 koulutus näytteet 1,42 ± 0,22 ( 2) ja 1,25 ± 0,13 ( 1), tässä järjestyksessä. Kuten BR3-EFS, ainakin 120 opetusnäytteitä edellytettiin. Kuva 5 (a-c), kuvitettu suorituskyky ennustus luokittelijoiden käyttämällä eri määrä koulutusta näytteitä edellä validointi aineistoja. Se vahvisti Edellä mainittujen tulosten ja kyky näytteen koko määrityksen protokolla joita tässä tutkimuksessa.

Prediction MCC perustuu eri määrän koulutusta näytteiden kolme ulkoista validointi aineistoja.

keskustelu

Microarray data on osoittanut erinomaisia ​​paremmuuden auttamiseksi syövän tulos arvion tarjoamalla ennusteen luokittelijoiden. Malli luotettavuus tukeutuu voimakkaasti tarkkuuteen tilastollisten parametrien arviointiin opetusnäytteitä. Pieni määrä koulutus näytteitä ei voi antaa erittäin luotettavan ennusteen luokittelija. Siksi määritettäessä vähimmäismäärästä koulutuksen näytteiden tulee elintärkeä asia kliiniseen soveltamiseen mikrosiruja. Useimmat nykyiset menetelmät ovat liian monimutkaisia ​​hyödyntää rutiinikäyttöön. Siksi ehdotimme yksinkertainen SSNR perustuva lähestymistapa koulutukseen otoskoko toteamukset tässä tutkimuksessa ja havainnollistettu sen hyödyllisyys perustuu kolmeen laajamittainen microarray aineistot toimitetaan MAQC-II. Tulokset on kolme ulkoista validointi sarjaa vahvisti, että SSNR-protokolla oli paljon helpompi toteuttaa ja tehokkaampi otoskoko arvio verrattuna nykyisiin tilastollisia menetelmiä.

Kolme tärkeitä havaintoja syytä huomata tässä tutkimuksessa. Ensinnäkin, se voidaan nähdä kuviosta 2, että määrä opetusnäytteitä kohdistuu ilmeinen vaikutus mallin tehokkuuden ja vähimmäismäärän koulutusta varten tarvittavat näytteet mallin rakentamiseen vaihteli päätepiste ennustettavuus. Toiseksi SSNR arvo korreloi hyvin päätepiste ennustettavuus jonka korrelaatiokerroin noin 0,9 (kuvio 3), mikä merkitsi mahdollisuus käyttää SSNR osoituksena päätepisteen ennustettavuutta. Kolmanneksi, joka on SSNR perustuvaa vaiheittaista toiminto ehdotettiin tässä tutkimuksessa määrittämiseksi vähimmäismäärä koulutuksen näytteiden perusteella suhdetta koulutuksen otoskoko, päätepisteen ennustettavuutta, ja SSNR arvo. Diskreetti suhde koulutuksen otoksen koosta ja monimutkaisuudesta päätepisteiden myös epäsuorasti Mukherjee et al. vuoden 2003 alussa [23], jotka edelleen tukevat SSNR perustuvan määrityksen ehdotettu lähestymistapa tässä tutkimuksessa. Lisäksi olemme havainneet, että ehdotettu lähestymistapa voidaan onnistuneesti laajennetaan toksikogenomiikan (katso kuva S5).

Tärkeä näkökohta tässä tutkimuksessa on, että luottamus mainitut päätelmät varmistettiin myös sekä sisäisiä että ulkoisia validointi strategiat . Sisäisten validointi, kaksi positiivista (NB-PC, MM-PC) ja kaksi negatiivinen kontrolli (NB-NC, MM-NC) aineistoja oli välttämätöntä arvioida suorituskykyä kliinisesti merkittäviä päätepisteiden vastaan ​​teoreettinen suurin ja pienin suorituskykyä tarjoamia säätimet . Tarkemmin sanoen paljon suurempi SSNR arvot kahdelle positiivisen kontrollin aineistot kuvassa 4 (a) vahvisti valmiutta käyttää SSNR osoituksena päätepisteen ennustettavuutta, kun taas vähäinen vaikutus koulutuksen otoksen koko mallin suorituskyky kahdessa negatiivinen kontrolli aineistot edelleen vastaista mahdollisuus saada vääriä positiivisia tuloksia. Siten myös positiiviset ja negatiiviset kontrolli aineistot tällaisissa analyyseissä olisi suureksi avuksi luotettavuuden varmistamiseen lopulliset tulokset. Lisäksi luotettavuus oppimisprosessilla voidaan todeta ulkoisella validointi näytteitä. Siksi ulkoinen validointi aineistot yhdessä sisäisestä valvonnasta on ollut tärkeä rooli vahvistaa valmiutta SSNR-pohjainen koulutus otoskoko määritys lähestymistapa tässä tutkimuksessa.

Samanlaisia ​​tuloksia on saatu kolmen tunnetun luokitus menetelmiin tässä tutkimuksessa (eli

NCentroid

,

KNN ja SVM

, jossa vastaaviin tuloksiin annetaan kuvioissa 2 ja S1 ja S2, vastaavasti) vahvisti lisäksi luotettavuutta SSNR-pohjainen koulutus otoskoko arvio lähestyä. Syynä on poissa kuulu tämän tutkimuksen. Kuitenkin tämä ilmiö vastaa puute merkittäviä eroja useiden luokittelun menetelmät raportoitu microarray sovellusten kannalta ennustuksen suorituskyky [24]. Samanlainen päätelmä ehdotti myös MAQC-II [6]. Tällaiset tulokset olisivat esteenä rajoitus erilaisen luokituksen algoritmeja, ja edelleen laajentaa sovellettavuutta SSNR-pohjainen koulutus otoskoko määrittämisen lähestymistavan.

ylivoimaisuus ja sovellettavuutta SSNR lähestymistapaa voidaan tiivistää seuraavasti. Ensinnäkin, mutta tilastollisesta näkökulmasta, se ei ollut puolueellinen päättelemällä menettelyjä välttämällä hienostunut tilastollisia laskelmia. Toiseksi siltä osin kliinisten rutiini sovelluksissa on paljon yksinkertaisempi ja tehokkaampi, koska ainoat vaatimukset keräävät 60 ja /tai 120 näytettä ja laskemalla vastaava SSNR arvoja. Vuonna välin SSNR-protokolla voi myös tarjota arvokasta strategian arvioimiseksi suorituskykyä luokittelijoiden etukäteen. Kun ulkoinen validointi aineistot kuvassa 5 esimerkkinä, SSNR arvot ovat 2,16 ± 0,38, ja 1,18 ± 0,11 BR2-erpos, ja BR3-EFS myös hiljaista, että suorituskyky lopullinen ennuste luokittelijoiden tässä tapauksessa olisi erinomainen ja kohtalainen vastaavasti.

Johtopäätökset

Microarray teknologia yhdistettynä hahmontunnistuksen on osoitettu lupaava strategia tarjoamalla ennusteen luokittelijoiden syövän diagnosointiin, ennusteen ja hoitovasteen arviointi ja niin edelleen. Verrattuna perinteisiin kokemukseen perustuvan diagnoosin vedoten monimutkaiset biokemialliset testaus ja sekalaiset kuva järjestelmät, microarray-pohjainen ennuste luokittelijoiden, jos luotettavasti rakennettu riittävästi koulutusta näytteistä, antaisi paljon tavoite, tarkka ja pätevä kuvaus syövän tuloksia. Näin ollen SSNR-pohjainen koulutus otoskoko määritys lähestymistapa antaisi todella käteviä kliiniseen käyttöön mikrosirujen syövän tuloksen arviointiin antamalla yksinkertaisella ja käytännöllinen tapa arvioida koulutuksen otoskoko. Lisäksi se, että koulutus otoskoko vaikuttaa suorituskykyyn lopullisen ennusteen luokittelijoiden edelleen hiljaista, että on tärkeää arvioida järjestelmällisesti kunkin menettelyn mallissa rakentamisen sekä käytännön ohjeita microarray-pohjainen luokan vertailun analyysi.

tukeminen tiedot

Kuva S1.

Ylimääräinen luku voidaan arvioida koulutuksen näytteen kokoa

KNN

. Prediction MCC perustuu eri määrä opetusnäytteitä 10 päätepisteiden

KNN

.

Doi: 10,1371 /journal.pone.0068579.s001

(TIF) B Kuva S2.

Ylimääräinen luku voidaan arvioida koulutuksen näytteen kokoa

SVM

. Prediction MCC perustuu eri määrä opetusnäytteitä 10 päätepisteiden

SVM

.

Doi: 10,1371 /journal.pone.0068579.s002

(TIF) B Kuva S3.

Ylimääräinen luku suhde SSNR ja päätepisteen ennustettavuutta perustuu kaikkiin opetusnäytteitä. Ex post facto suhdetta SSNR arvojen ja päätepisteen ennustettavuus (ennuste MCC), joka perustuu normaalin ja swap mallinnuksen

KNN

ja

SVM

kaikista opetusnäytteitä.

Doi: 10,1371 /journal .pone.0068579.s003

(TIF) B Kuva S4.

Ylimääräinen luku suhde SSNR ja päätepisteen ennustettavuutta perustuvat 60 ja 120 opetusnäytteitä. Suhde SSNR arvojen ja päätepisteen ennustettavuutta (ennuste MCC), joka perustuu (a) 60 ja (b) 120 koulutus näytteitä

KNN

ja

SVM

, vastaavasti.

Doi: 10,1371 /journal.pone.0068579.s004

(TIF) B Kuva S5.

Ylimääräinen luku voidaan arvioida koulutuksen otoskoko toksikogenomisten aineisto NIEHS.

doi: 10,1371 /journal.pone.0068579.s005

(TIF) B Taulukko S1.

Vastaavat ν arvot eri koulutusta näytekoolla 10 päätepisteiden

NCentroid.

doi: 10,1371 /journal.pone.0068579.s006

(DOCX) Tool Menetelmät S1 ..

doi: 10,1371 /journal.pone.0068579.s007

(DOC) B

Kiitokset

Tekijät haluavat kiittää data tarjoajat jakamaan tietoa sekä tietoa MAQC Consortium.

Vastaa