PLoS ONE: määrittäminen Usein Patterns of Kopioi numero Muutokset Cancer

tiivistelmä

Syöpä eteneminen johtuu usein kertyminen geneettisiä muutoksia, mutta myös mukana lisäämällä perimän epävakaisuuden. Nämä prosessit johtavat monimutkainen maiseman kopioluvun muutokset (CNAs) yksittäisissä kasvaimia ja suuri monimuotoisuus poikki kasvainnäytteestä. Korkean resoluution array-pohjainen vertaileva genominen hybridisaatio (aCGH) on käytetään profiloida CNAs yhä suurempien kasvain kokoelmat ja parempia laskennallisia menetelmiä käsitellä olemassa aineistoja sekä tunnistaa mahdolliset kuljettaja CNAs tarvitaan. Tyypillisiä tutkimukset aCGH aineistoja ottaa liukuhihnalähestymistapaa alkaen segmentointi profiileja, puhelut ja -tappioista, ja lopuksi määritys usein CNAs poikki näytteitä. Haittana putkistojen on, että valinnat jokaisessa vaiheessa voi tuottaa erilaisia ​​tuloksia, ja harhojen kasvatetaan eteenpäin. Esitämme matemaattisesti vankka uusi menetelmä, joka hyödyntää koetin tason korrelaatioita aCGH tiedot löytää osajoukkoja näytteistä, jotka näytetään yhteinen CNAs. Meidän algoritmi liittyy viime vuosina työtä mahdollisimman-marginaali klusterointi. Se ei vaadi ennalta segmentointi tiedot ja myös ryhmittely toistuvien CNAs klustereiksi. Testasimme lähestymistapamme on suuri kohortti glioblastoma aCGH näytteiden Cancer Genome Atlas ja talteen lähes kaikki CNAs raportoitu alkuperäisessä tutkimuksessa. Olemme myös löytäneet muita merkittäviä CNAs jäi alkuperäisen analyysin vaan tukevat aiempia tutkimuksia, ja tunnistimme merkittäviä korrelaatioita CNAs.

Citation: Rapaport F, Leslie K (2010) määrittäminen Usein geenien kopioluvun Muutokset Cancer . PLoS ONE 5 (8): e12028. doi: 10,1371 /journal.pone.0012028

Editor: Jean Peccoud, Virginia Tech, Yhdysvallat

vastaanotettu: 27 huhtikuu 2010; Hyväksytty: 02 heinäkuu 2010; Julkaistu: 12 elokuu 2010

Copyright: © 2010 Rapaport, Leslie. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat National Science Foundation apurahan IIS-0705580 ja National Institutes of Health myöntää 1-U24-CA143840. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Syövät ovat monimutkaisia ​​proliferatiivisia sairauksia, joiden etenemistä, useimmissa tapauksissa käytetään osittain kertyminen geneettisiä muutoksia, kuten kopiomäärä poikkeamia (CNAs) on suuri tai pieni genomialuetta [1], [ ,,,0],2], [3], jotka voivat esimerkiksi johtaa vahvistus onkogeenien tai menetys tuumorisuppressorigeeneille. Kuitenkin syövän etenemisessä on myös usein ominaista lisäämällä perimän epävakaisuuden, mahdollisesti tuottaa monta ”matkustaja” CNAs jotka eivät anna kloonikasvuun etu. Nämä prosessit aiheuttavat monimutkainen maiseman perimän muutoksia sisällä yksittäisen kasvain ja suuret eroavaisuudet näiden CNAs poikki kasvain näytteet, joten se vaikea tunnistaa kuljettajan liittyviä mutaatioita syövän etenemisessä.

Viime vuosina array-pohjainen vertaileva genominen hybridisaatio (aCGH) [4], [5] ja yhden nukleotidin polymorfismi (SNP) paneelit [6] on käytetty analysoida CNAs kasvaimen näytteitä genomisen mittakaavassa ja asteittain suurilla tarkkuuksilla. Lisäksi useita mittavia kasvain profilointi tutkimuksissa on tuotettu kopioluku aineistoja suuret ikäluokat kasvainten [7], [8]. Nämä suuret ja monimutkaiset ”syöpä genomin” tietomääriä läsnä vaikeita tilastollisia haasteita [9]. Yksittäiset CNAs voi olla niinkin pieni kuin muutama vieressä koettimina tai yhtä suuri kuin koko kromosomia ja voi olla vaikea havaita edellä koetin-kohinan; Lisäksi on epäselvää, miten saada selvää erilaisia ​​CNAs sadoista kasvaimia.

Tyypillisesti kahdenlaisia ​​analyysit on suoritettu kopiomäärä aineistoja:

ryhmittely näytteiden niiden CNAs, määrittää mahdollisia kasvain alatyyppiä ominaista yhteinen kuvio monistukset ja poistot;

määrittämiseksi merkittäviä geneettisiä poikkeavuuksia, joko voittoja tai tappioita, joita esiintyy usein datajoukon, koska nämä voivat edustaa kuljettajan mutaatioita tärkeää kasvaimen etenemistä.

Lähes aina, nämä ongelmat ratkaistaan ​​kanssa liukuhihnalähestymistapaa, jossa aCGH profiilit kromosomien yksittäisille näytteille ensin prosessoidaan segmentointialgoritmi; yksittäiset segmentit (genomialuetta) on ”kutsuttu”, kuten voitot ja tappiot, jotka perustuvat niiden amplitudi käyttäen valikoima tilastointimenettely ja merkitys kynnys; ja lopuksi kutsutaan segmentit käytetään tulona klusterointialgoritmi [1], [10], [11] tai pisteet perustuvaa menetelmää määrittämiseksi merkittäviä yhteisiä poikkeamia [12], [13], [14]. Haittapuolena putki lähestymistapoja on kuitenkin se, että algoritmeihin valintoja ja viritysparametrejä kussakin vaiheessa voi tuottaa hyvin erilaisia ​​tuloksia, ja virheitä tai harhojen levitetään eteenpäin.

ensimmäinen askel on lukuisia segmentointia algoritmeja [15 ], [16], [17], [18], jotka tuottavat merkittävästi erilaiset segmentin rajoja [19], mikä johtaa eri puhelut voittoja ja tappioita. Viimeinen vaihe analysoidaan CNAs poikki näytteiden riippuu kriittisesti valinnoista tehdä aikaisemmin. Esimerkiksi laajalti käytetty synergisillä tapa määrittää usein poikkeamia [12] käyttöä sen testin tilastollinen kussakin lokuksessa, näytteiden määrä, joissa voitto (tai tappio) on läsnä kerrottuna keskimääräinen amplitudi voitto ( menetys). Sekä määrä ja keskimääräinen amplitudi riippuu aikaisemmin valinnoista valmisteilla.

Tässä tutkimuksessa ehdotamme uutta ja matemaattisesti vankka tapa löytää merkittäviä malleja CNAs suuressa kopiomäärä datajoukon suoraan koetin-tason tietoja. Välttämällä liukuhihnalähestymistapaa johon segmentointi vaiheessa, meidän algoritmi hyödyntää koetin tason korrelaatioita aCGH tiedot löytää osajoukkoja näytteistä, jotka näytetään yhteinen CNAs. Soveltamalla lähestymistapaa hierarkkisessa tavalla iteratiivisesti osioida tietokokonaisuus, huomaamme sekä iso- ja pienimuotoisia tapahtumia ja voi havaita tilastollisesti merkitsevä CNAs esiintyy 5% näytteistä. Tällä tavalla, algoritmi käsittelee sekä klustereiden ongelma, ja usein aberraatio ongelma samanaikaisesti. Algoritmien, lähestymistapamme liittyy viime vuosina työtä mahdollisimman-marginaali klusterointi [20], [21], [22], [23], joka ulottuu tukivektorikone kaltainen optimointi lähestymistapoja ongelmaan valvomattoman klusterointi. Eli jokainen osio Tietueen saavutetaan oppiminen lineaarinen luokitin anturin tason aCGH profiilit joka määrittää näytteet yhteen ryhmään tai toisella. Olemme myös rakentaa ideoita kehitettiin ohjattua luokitusta aCGH näytteiden [24], [25], [26], [27], erityisesti käytön paloittain vakio ja suopunki [17], [26], [28 ] laillistamiseen termit optimoinnin ongelma, joka kannustaa luokittelija tehdä päätöksiä käyttämällä vain pientä määrää koettimien informatiivinen vierekkäisellä alueella.

Testasimme lähestymistapamme on suuri kohortti glioblastoma aCGH näytteiden hiljattain tuottamat syövän Genome Atlas Project (TCGA) [7]. Huomasimme, että suuret CNAs havaita algoritmimme ovat pitkälti yhdenmukaisia ​​alkuperäisen TCGA tutkimuksessa, että lähes kaikki CNAs aiemmin raportoitu olivat myös tuloksemme. Kuitenkin löysimme merkitsevällä CNAs huomaamatta TCGA analyysiä vaan tukevat aiempia tutkimuksia ja /tai ilmaisun analyysejä. Lisäksi hierarkkinen osiointi lähestymistavan yhteenveto joukko suhteita ja riippuvuuksia eri CNAs, jotka voivat olla hyödyllisiä tuottaa hypoteeseja sekvenssin CNAs kasvaimen etenemiseen.

Tulokset

algoritmi yleiskuva

algoritmia toistuvasti väliseinät datasarjan kasvaimen aCGH profiileja tietyn kromosomin löytää osajoukot kasvainten samanlaisia ​​CNAs. Sen sijaan käyttää standardin Esikäsittelytekniikoihin kuten segmentointia algoritmeja, me suoraan käyttää koetin-tason tietojen ja sisällyttää etukäteen tietoa luonne tietoja, nimittäin: (1) peräkkäisissä koettimet korreloivat eli todennäköisesti edustavat samaa kopio numerot; ja (2) kromosomin tyypillisesti (vaikka ei aina) satamat muutaman CNAs. Kussakin osiointivaiheessa opimme lineaarinen erotin, joka määrittää aCGH profiilit johonkin kahteen luokkaan, jota edustaa geometrisesti kahden puolen tilat (ts ja) kummallakin puolella hypertaso määritelty normaali vektori ja bias termi (kuva 1) . Täällä, kromosomi profiilit ja paino vektori on reaaliarvoinen vektorien mitta määrä koettimien kromosomin, ja määritetään ratkaisemalla optimoinnin ongelma (katso menetelmät), jossa se pakotetaan olemaan paloittain vakio (peräkkäiset antureista taipumus on samat painot) ja harva (muutama antureista on nollasta painot). Meidän lähestymistapamme perustuu hiljattain ehdotettu Suurinta sallittua klusterointialgoritmi [21], [22], joka tuo ajatukset suurista katteen valvoo oppimisen tekniikoita kuten tukivektorikone luokittelu ja tukivektoriregressio että valvomatta klustereiden ongelma; valinta rajoitteet motiivina oli äskettäisen työn sulatettu suopunki regressio [28] (ks Methods).

Algoritmi löytää lineaarinen funktio, joka pystyy jakamaan aCGH näytteet kahteen ryhmään. Ratkaisemalla optimointiongelma, algoritmi määrittää vektori, joka geometrisesti vastaa normaalia vektori on hypertason (esitetty punaisella), joka erottaa näytteet yhdessä bias aikavälillä, ja tehtävän näytteiden ryhmille. Lelun Esitetyssä esimerkissä hypertaso erottaa näytteiden esittää poistamisesta sillä q varsi (yli hypertaso) niistä, jotka eivät (alle hypertaso).

Koska jokainen lineaarinen erotin tulosta binäärisessä osio näytteitä, käytämme meidän menettelyä iteratiivisesti erottaa kunkin ryhmän näytteet kaksi uutta ryhmää siten, että uusi lineaarinen erotin on ortogonaalinen aikaisemmin määritettyä niistä. Siksi jokainen askel löytää uuden suunnan vaihtelun aCGH data (samanlainen Pääkomponenttianalyysin [29]), ja yleinen menettely johtaa hierarkkisen eristämistä datajoukon (katso menetelmät).

suuri-marginaali eristämiseen paljastaa hierarkia kopioluvun muuttuu

Keräsimme tietomme asetellaan Cancer Genome Atlas (TCGA) data portaalin [7]. Se sisältää 345 glioblastoma kasvainnäytteestä kopio useita muutoksia profiloitu Agilent 244K paneelit (228K antureista). Tämä datajoukko on aiemmin analysoitu määrittämiseksi suurten vahvistusta ja poisto tapahtumia käyttäen RAE [13] ja synergisillä [12] algoritmit [7].

Käytimme tason 2 tiedot jo esittänyt edellisessä analyysissä [7 ]. Tämä data on jo normalisoitunut kautta soveltamalla lowess algoritmin tukin suhde tietojen ja anturit merkitä huonolaatuisia (kyllästetty, epäyhtenäinen tai heikko) ei lueta. Laatu paneelit mitattiin myös läpi osuus ulkopuolelle antureista ja johdonmukaisuutta liittyvät arvot peräkkäisten antureista, ja heikkolaatuista paneelit poistettiin keräämiseen.

Ajoimme algoritmimme erikseen jokaisen kromosomin kanssa niukkuus kertoimella ja paloittain-constantness kerroin (katso menetelmät). Kokeellisesti, löysimme seuraavat riippuvuus valinta näiden kertoimien: jos kertoimet valittiin liian pieni, se johtaisi triviaali klusterointi, jossa kaikki näytteet kohdistettu samaan ryhmään; Jos parametrit olivat liian salliva, klusterointi saatu olisi sama kuin standardi yhdistetty elin (). Kuitenkin näiden kahden ääripään välillä, klusterointi tulokset eivät olleet liian herkkiä parametrien valinta. Odotamme sopiva valikoima parametrit riippuvat array alustan sekä tilastollisia ominaisuuksia array profiileja tietyn tietojoukon. Siksi suosittelemme tekemään ruudukon haun osajoukko näytteiden ja valitsemalla pienin mahdollinen parametrit, jotka antavat ei-triviaali ryhmittely joka kromosomissa.

Jotta merkityksen arvioimiseksi meidän tuloksia, käytimme satunnainen malli jossa sekoitetaan koettimet meidän aineisto ja verrattiin välinen etäisyys mediaani näytteiden meidän kahteen ryhmään jakeluun 1000 etäisyyksien mediaani näytteitä kaksi satunnaisotos ryhmää erotetaan saman luokittimen. Olemme varmistaneet, että satunnaistetun matkan ajossa noudattaa normaalijakaumaa, ja me laskenut -arvon välisen etäisyyden mediaani näytteiden vastaava häntää tämän normaalijakaumaa.

Kunkin kromosomi, rakensimme ”klusterointi puu ”iteratiivisesti jakamalla kunkin ryhmän kahdeksi jos se kunnioittaa kolme kriteeriä. Ensimmäinen kriteeri oli, että se saa olla enemmän kuin viisi näytettä (1,5% tiedoista set), koska se olisi vaikea saavuttaa tilastollisesti merkitsevä osio hyvin pieniä osajoukkoja. Toinen kriteeri oli, että jakamalla tämä ryhmä ei tekisi syvyyttä meidän puu suurempi kuin 3. maksimaalinen syvyys valittiin heuristisesti: kolmen toistojen, me empiirisesti todettu, että ryhmät olivat liian pieniä tai erottaminen ei ollut merkittävä enää. Viimeinen kriteeri oli, että osio tuottaa tämän ryhmän on täytettävä merkitys kynnys. Vaikka tämä -arvo voi tuntua liian salliva, on tärkeää ymmärtää, että meidän estimaattori (painopisteen etäisyys) ei ole suoraan optimoidaan algoritmin; Näin ollen, empiirinen-arvot syntyy melko yksinkertainen.

Kuviossa 2 esitetään esimerkki ”klusterointi puu” on valmistettu meidän algoritmin kromosomin 19 ensimmäinen iterointi erottaa näytteet kahtena ryhmänä, joista 17 näytettä joka esittelee deleetio alue q käsivarteen ja yksi 326 näytteiden kanssa. Painopisteen kunkin klusterin näkyy vihreänä (kuvio 2, vasemmanpuoleisin sarake); Lisäksi segmentointi kunkin klusterin Guldinin tavallisella työkalulla (pyöreä binary segmentointi [30]) esitetään tukea visualisointi kopioluvun eroista näiden kahden ryhmän välillä. Kuten tämä erottelu ja kukin klusteri on suurempi kuin 5 näytettä, jaamme jokainen näistä subsets kahteen uuteen ryhmään. Halkaisu Ryhmän 17 näytettä ei liity merkittävää tarpeeksi mediaani erottaminen () ja siksi ei ole jaettu uudelleen. Toisaalta, osio ryhmän 326 näytteiden tuottaa yksi ryhmä 250 näytettä ilman mitään ilmeisiä merkittäviä CNA ja ryhmä 76 näytettä, joiden painopisteen esittää vahvistus koko kromosomin. Tämä jako on vahva merkitys (), ja siksi molemmat näistä ryhmistä jaetaan uudelleen. Osio Ryhmän 250 näytteistä ei saavuteta merkitystä (), eikä kumpikaan tuloksena klustereiden havaittu merkitsevää CNAs. Ryhmä 76 näytteet on jaettu kahteen uuteen ryhmään 37 ja 39 näytteiden (). Jokainen näistä ryhmistä on esitetty vahvistus koko kromosomin, mutta ryhmä 39 näytteitä näyttää olevan pienempi vahvistus q käsivarteen kuin p varren kun taas toinen ei. Kuten me keskitymme puita syvyyttä 3, emme osio kumpaakaan näistä ryhmistä muita.

jokaisen iteraation algoritmin, kunkin aiemmin tunnistettu joukko näytteitä jaettiin kahteen uusia klustereita käytetään maksimi- marginaali klusterointi tekniikka, joka hyödyntää korrelaatiot aCGH profiileja (katso menetelmät). Jakaantumisprosessi pysähtyy (i) ryhmä on vähemmän kuin 5 näytettä; (Ii) osio tuottaa ryhmä ei saavuta tilastollista merkitystä kynnysarvo; tai (iii) puu on jo suurin syvyys 3. Yllä olevassa kuvassa, kukin ryhmä edustaa sen painopisteen eli sen mediaani profiili, vihreä. Visualisointitarkoituksissa segmentointi painopisteen tuottama pyöreä binary segmentointi [30], näkyy punaisella.

Analyysi glioblastoma aCGH tietojen toipuu tunnetaan CNAs ilman segmentointia näytteitä

Olemme soveltaneet iteratiivinen menettely kromosomi itsenäisesti, kuten on kuvattu edellisessä osassa. Jos haluat soittaa ominainen CNAs jokaisen klusterin, haimme pyöreä binary segmentointi [30] oletusparametrejä käyttäen sen painopisteen eli mediaani profiilin klusterin ja niihin liittyvät ominaisuus CNA (t) tämän painopisteen ryppääseen. Pitäisi ymmärtää, että aberraatioita painopisteen profiili ei voi jakaa jokaisen klusterin näytteet, mutta että se antaa hyvän arvion näistä tapahtumista. Olemme myös varoittaa, että osiokokoa antaa hyvän käsityksen penetraation, mutta ei ole täysin vastaavaa.

ensimmäinen iterointi algoritmimme löytänyt vahvistusta koko kromosomin 1, koko kromosomin 7 ja koko kromosomin 20. määriteltiin myös poistamista koko 9P varsi sekä iso osa 19q, koko kromosomin 10, koko kromosomin 13, koko kromosomin 14 ja koko kromosomin 22. toinen iterointia algoritmi löytyy menetys 6Q käsivarsi, poistetaan koko kromosomin 15, koko kromosomin 16 ja vahvistus koko kromosomin 19 Vertailu osoitti myös, että joitakin näytteitä, jotka esittävät vahvistinjärjestelmään kromosomissa 7 sisältää myös polttovälin ja erittäin vahva vahvistus tapahtuman 7p käsivarteen. Kolmas iteraatio algoritmin tunnistetut polttoväli monistumistapahtumia kromosomissa 3 ja kromosomissa 4. osoitti myös täydellistä menetystä kromosomien 9 ja 21. Nämä tulokset on esitetty yhteenvetona taulukossa 1, yhdessä koko osion, jossa jokainen CNA tunnistettiin mitattuna näytteiden määrä ja prosenttiosuus koko datajoukon.

analyysi saman datajoukon käyttäen molempia RAE [13] ja synergisillä [12] algoritmeja on jo julkaistu [7 ]. Molemmat menetelmät sopivat merkittävistä laajamittainen vahvistus tapahtumia koko kromosomien 7, 19 ja 20 sekä polttovälin monistumistapahtumia kromosomissa 1 ja 12; merkittäviä laajamittaisia ​​poisto tapahtumia kromosomi käsivarret 6Q, 9P, 15q, Koko kromosomien 10, 13, 14 ja 22; ja polttoväli poisto tapahtumia kromosomissa 1. Lisäksi RAE havaittu merkittäviä polttovälin monistumistapahtumia kromosomissa 14, sekä merkittäviä polttovälin poisto tapahtumia kromosomissa 11. Sitä vastoin synergisillä löytyy erilaisia ​​muita polttovälin monistumistapahtumia kromosomeissa 3 ja 4. Kuva 3 sisältää yhteenvedon meidän tuloksista sekä vertailu vahvistus ja poisto tapahtumista saapuvat molempien analyysin.

vaakasuoran raidat osoittavat CNAs tunnistetaan kolmen ensimmäisen toistojen menetelmämme, verrattuna sellaiseen, joita by synergisillä ja RAE. Keskimmäinen kappale kuvaa kromosomit, jossa jopa kromosomi numerot selityksin. Voitot merkitty punaisella ja tappioita sinisellä.

Kuten kuviossa 3 on esitetty, suurin osa tapahtumista löytyy sekä RAE ja synergisillä analyysit on löydetty kaksi ensimmäistä iteraatiota meidän menetelmällä, mukaan lukien jokaisen suuri mittakaavaisia ​​määritellyn tapahtuman näillä menetelmillä. Poikkeuksia ovat pieni vahvistus tapahtuma kromosomissa 12, tapahtumien kromosomissa 1 (missä menetelmä on eri mieltä toteamisen RAE ja synergisillä) ja vahvistus tapahtuma kromosomissa 4, joka löytyy meidän kolmannen iteraation.

iteratiivinen osiointi paljastaa romaanin CNAs näyttöä riippumattomista glioblastoma tutkimuksissa

Beyond talteen lähes kaikki CNAs tunnistaa menetelmiä, kuten RAE ja synergisillä, meidän iteratiivinen osiointi algoritmin havaittiin useita merkittäviä tapahtumia, jotka eivät löytäneet aiemmat analyysit tietoaineiston . Nämä tapahtumat sisältävät vahvistus koko kromosomin 1, häviämä tapahtuma koko kromosomien 9, 15, 16 ja 21, sekä poistetaan 19q käsivarteen.

Osa näistä tapahtumista on dokumentoitu tutkimukset riippumattomien kopioluvun aineistoja, kuten poistamisesta sillä 19q varren [31], [32] ja kromosomin 16 [33]. Poistaminen kromosomi 21 on aiemmin liittynyt glioblastooma [34], ja on ehdotettu, että esiintyvyys on alhainen glioblastoma Downin syndrooma potilaiden liittyy kromosomi 21-trisomia, joka luonnehtii tätä geneettinen sairaus [35]. Tässä löydämme kromosomi poistetaan liittyy hyvin pieni klusterin (6 näytettä), ja matalien taajuuksien oletettavasti selittää, miksi tämä poikkeavuus jäätiin aikaisempien määritysten perusteella. Poistamista kromosomi 15 todellisuudessa sisältää poistamisesta sillä 15q varren löytyy aikaisempien määritysten perusteella. Muoto painopisteen tälle osiolle osoittaa, että amplitudi poisto on pienempiä loput q varren ja p käsivarteen, ja on mahdollista, että koko kromosomin deleetio ei saapuvat RAE tai synergisillä vuoksi amplitudiltaan pienempänä .

geenien tunnistamiseksi, jotka ovat hyvin korreloi CNAs, teimme merkitys analyysi microarray (SAM) avulla SAMR paketti. Kunkin klusterin, me merkitty kunkin näytteen mukaan sen etiketin (tai sen ulkopuolella klusterin korko) ja tarkasteltiin useita geenien alueen CNA jotka olivat merkittävästi eri tavoin ali-ilmentynyt, kun kyseessä on häviämä, tai merkittävästi yli-ilmennetään Kun kyseessä on vahvistus. Laskelmat tehtiin käyttäen t-tilaston, 100 permutaatiota ja Tusher menetelmän [36].

tulokset, yhteenveto taulukossa 1, osoittavat, että useimmissa tapauksissa suuri määrä geenejä, oli ekspressiotasot, jotka ovat merkittävästi korreloi kanssa tehtävän näytteiden klusterin kätkeminen CNA. On huomattava, että suhde ilmaisun ja kopioluku on monimutkainen, ja että mitään merkittäviä korrelaatioita ei sulje pois CNA, erityisesti tapauksissa, joissa pieni määrä geenejä tai näytteitä tekee tästä korrelaatio tilastollisesti vaikea todistaa.

romaani CNAs löysi analyysimme korreloivat useita tärkeitä geenejä. Esimerkiksi deleetio kromosomissa 16 19q13.2-19q13.43 alueet, ja kromosomi 21 korreloi merkitsevästi ali ehdokkaan syövän synnyssä, vastaavasti CBFB [37], [38], tai CDH11 [39] , TFPT [40] ja DSCR1 [35], jossa lisätodisteita tueksi näistä tapahtumista.

useita sarjaa usein kromosomipoikkeavuuksien osoittavat vahvasti

Yksi etu menetelmämme verrattuna tuloskortin lähestymistavat kuten Rae synergisillä on, että se antaa tehtävän näytteiden ryhmien – tai tarkemmin sanottuna havaitsee CNAs samanaikaisesti löytää ryhmiä näytteiden satama ne – mikä on helpompi tunnistaa, mitkä näytteet vaikuttaa jotka usein CNAs . Me liittyvät kukin näyte joukko usein CNAs perustuu sen klusterin toimeksiantoja kromosomi-pohjainen iteratiivista eristämiseen menettelyä. Huomasimme, että co-esiintymät usein CNAs näytteessä olivat yleisiä; todellakin, suurin osa näytteistä (249 345) sisälsi 2 tai enemmän usein CNAs lueteltu taulukossa 1.

tutkitaan edelleen co-esiintymiä paria usein CNAs, ja olemme havainneet, että 31 paria voidaan harkita korreloivat (eli risteykseen näytteen tehtävän ennakoitua parempi tausta taajuudet) ja Fisherin eksakti testi (katso Täydennyskuvio S1).

yksinkertainen analyysi näistä merkittävistä parien osoitti, että nämä korreloivat CNAs voi tosiasiallisesti nähdään kolme ryhmää co-esiintymien:

monistaminen kromosomi 7 ja siihen liittyvät polttoväli vahvistus tapauksessa poisto on 9P, poistamista kromosomien 10, 13 ja 14 sekä siihen liitetyt kromosomeissa 19 ja 20 ovat kaikki korreloi.

poisto 6Q on hyvin korreloi polttoväli vahvistus tapahtuma kromosomissa 7 sekä poistamisen kanssa on 9P.

poisto kromosomissa 22 on hyvin korreloi monistamisen kromosomissa 7 (mutta ei siihen liittyvä polttoväli tapahtuma), poistamisen kromosomin 10 ja poistamista kromosomi 14.

keskustelu

takaisinperintä CNAs hukata yleiskatsaustilastot

Osa romaani glioblastooma CNAs että löysimme hyviä esimerkkejä siitä, miten menetelmä parantaa summittaisia ​​tilastotieto lähestymistapoja, kuten RAE ja synergisillä. Esimerkiksi poistamista kromosomi 15 on vasta nähty Q varteen RAE ja synergisillä. Kun tutkimme profiilia painopisteen klusterin tunnistaa menetelmämme, näimme alempi amplitudi poistamisesta sillä p käsivarteen samoin. Tämän vuoksi alhainen amplitudi, kukin koetin yksinään ei olisi merkittävä keskimääräinen poisto poikki tiedoista, ja siten jättää väliin yhteenveto tilastotieto. Kuitenkin, koska kaikki koettimien kromosomi vaikuttaa, poisto olisi pidettävä merkittävä CNA ja helposti tunnistaa lähestymistapaa.

Toisessa esimerkissä, että poistetaan alueella 19q2-19q13.3 on ei todettu muilla menetelmillä soveltaa TCGA tietokokonaisuus, vaikka se on vahvistettu deleetiotapahtuman aiempien tutkimusten. Täällä, ongelma näyttää olevan se, että samalla alueella on myös läsnä vahvistinjärjestelmään tapahtuma useampia näytteitä, jotka confounds havaitsemisen tämän poisto yhteenveto Testimuuttuja. Lopuksi poistetaan koko kromosomin 21 on oletettavasti jäänyt muita menetelmiä, koska se on esittelee vain pieni määrä näytteitä (6 näytettä tai 2%). Kuitenkin, koska tämä tapahtuma on deleetio koko kromosomin ja näin ollen tuettu monia koettimia, intuitiivisesti sen pitäisi olla paljon tilastollisesti merkittäviä, että pienempi, mutta samalla harvoin tapahtuma. Todellakin, kuinka tärkeä tämä CNA vahvistetaan aikaisempien tutkimusten linkittämällä trisomia 21 Downin syndrooman alentaa esiintyvyyttä glioblastoma sekä korrelaatio kanssa ali-ilmentyminen ehdokas kasvaimeen Supressor geeni läsnä tällä alueella.

Recovery polttovälin tapahtumien

Kuva 3 osoittaa, että vaikka ensimmäistä iterointia algoritmimme näyttää keskittyvän suuria poikkeamia, seuraavat toistojen löytävät polttovälin tapahtumia kuten niitä kromosomeissa 3 ja 4, ja että algoritmi on siis löytää polttovälin tapahtumia sekä suuret. Ainoa polttoväli tapahtuma joiden läsnäolo on sovittu sekä RAE ja synergisillä ja että menetelmä ei ole löytänyt on yksi kromosomissa 12. Tarkasteltaessa raakadataa osoittaa, että tämä tapahtuma on jaettu karkeasti 40 näytettä mutta se vaikuttaa vain 2 koettimia, mikä tekee siitä vaikeaa signaalin löytää, kun tarkastellaan useita koettimia. Kuitenkin rajoittamalla analyysimme pieneen väli keskitetty tapahtumasta (300kbp tai 40 koettimet), pystyimme tunnistamaan yhteisen tapahtuman käyttämällä maksimi-marginaali klusterointialgoritmi (ks Täydennyskuvio S2), mikä viittaa siihen, että menetelmää voitaisiin ehkä käytetään yhdessä liukuvan ikkunan parantaa havaitsemista hyvin pieniä tapahtumia.

näytteiden analysointi korkea melu ja perimän epävakaisuuden

glioblastoma kopioluku profiileja, jotka olemme analysoineet täällä on suhteellisen vähän CNA tapahtumia ja siksi antaa myönteisen koetinkivi laskennallisen analyysin. Kopioi numero aineistoja muiden syöpien ovat osoittautuneet huomattavasti ongelmallisempaa. Esimerkiksi äskettäin kopiomäärä tutkimuksessa keuhkoadenokarsinooma [8] koonnut hyvin suuri (400 näytettä) mutta haastava datajoukon, jossa signaali-kohina vaihdelleet huomattavasti näytteet – mahdollisesti johtuen strooman saastuminen – ja melkoinen osa näytteistä näkyvissä lukuisia tapahtumia. Kirjoittajat kuratoi näytteet kolmeen luokkaan perustuen signaalin laadun ja ehdollisten analyysi parhaan tason. Huolimatta suuresta keskimäärin tapahtumien määrän näytteitä, tutkimus tunnistaa vain muutamia alueita muuttaa merkittävä määrä näytteitä, yleisimmillä CNA (monistaminen kromosomin 14q13.3) läsnä vain 12% parhaista kolmas (huipputason ) niiden näytteiden. Käytimme myös menetelmää tämän keuhkoadenokarsinooma tietokokonaisuus nähdä, miten se voisi tehdä korkean melutason asetusta. Koska alkuperäinen tehtävä näytteiden tasojen ei ollut helposti saatavilla, teimme ensikierron analyysi koko aineistosta – yrittämättä vähentää puhtain näytteitä – käyttää samoja parametreja kuin käytimme sen TCGA keräämiseen. Kiinnostavaa kyllä, ensimmäinen iterointi algoritmin osioitu kukin kromosomi kahdeksi sisältävät ryhmät täsmälleen samat näytteet (ja), jossa on yksi ryhmä, joka koostuu näytteistä, joilla on vahva, mutta hyvin meluisa signaali ja toisessa näytteitä heikko signaali. Tämä tulos viittaa siihen, että menetelmä voi pystyä automaattisesti erottamaan signaalin laadun.

Ensimmäinen parametrien valinta ei löytänyt mitään merkittävää poikkeamia klo -arvo sulku 0,05, mahdollisesti johtuen eri array alustan sekä erilaiset tilastolliset ominaisuudet kopioluvun profiileja (katso Täydennyskuvio S3 ja täydentävä taulukko S1). Kuitenkin käyttämällä algoritmia eri joukko parametreja (ja) kromosomissa 14 pystyimme löytää monistuminen 14q13.3, vaikkakin vain 6 näytettä (2% koko lasken näytettä) ja heikolla -arvo () . Tässä, kun läsnä on suuri joukko hyvin meluisa näytteiden data joukko voi olla vastuussa halventava -arvo. Vaikka emme pystyneet suoraan verrata alkuperäiseen analyysin huipputason näytteet, tämä nopea analyysi kaikkia tietoja ei melko rohkaiseva, että pystyimme hakea tärkein tulos ilman

ad hoc

curation näytteitä.

Mahdolliset algoritmeihin laajennuksia

edellä esitetty analyysi korostaa myös vaikutusta valintaan kahden rajoitus parametrit, ja (katso menetelmät), joka asteen määrittämiseksi niukkuus ja piecewise- constantness, vastaavasti, meidän lineaaristen luokittelijoiden. Valitsimme parametrit glioblastoma tutkimuksen kautta heuristiikka ja takaisin suurimman tiedossa tapahtumia sekä useita uusia ja uskottava CNAs. Kuitenkin koko tutkia tämän parametrin tilaa voitaisiin tuottaa lisää tuloksia; esimerkiksi altistavan algoritmi löytää polttoväli tapahtumiin, voisi yrittää tehdä niukkuus rajoitus tiukempia. Erilaisia ​​strategioita voidaan käyttää optimoimaan parametrien valinta, käyttö mukaan lukien rajat validointi silmukka. Tämän tavoitteen toteuttamiseksi, olisi valita sopiva menetelmä laadun arvioimiseksi klustereiden: vakio estimaattorit ovat tiiviisti sidoksissa kohdefunktioiden optimoitu perinteisten klusterointialgoritmeja (esimerkiksi yhdistetty elin), jotka eivät ota huomioon ominaisuudet kopioluvun profiilien (eli spatiaalinen korrelaatiot, niukkuus on poisto /amplication tapahtumat). Tällainen rajat validointi silmukka merkitsisi myös pidemmän laskennallisia kertaa. Nämä kustannukset voitiin vähentää huomattavasti, jos pystyimme laskemaan koko laillistamista polku fuusioidun suopunki yhdellä pyyhkäisyllä, kun toiset pystyivät tekemistä alkuperäisen suopunki [41] ja SVM [42] optimointiongelmia.

<

Vastaa