PLoS ONE: Non-Gaussin jakaumat vaikuttaa tunnistaminen Ekspressiokuvioiden, Functional Annotation, ja tulevaisuuden Luokittelu Human Cancer Genomes

tiivistelmä

Johdanto

Geenien ilmentyminen tietoa usein oletetaan olevan normally- hajautettu, mutta tämä oletus ei ole testattu perusteellisesti. Tutkimme jakelu ekspressiotietojen ihmisen syövässä Perimän ja tutkia vaikutuksia poikkeamat normaalijakaumassa translationaalinen molekyylitason onkologian tutkimukseen.

Methods

Teimme keskeinen hetkiä analyysi viisi syövän genomien ja suoritetaan empiirinen jakelu sopiva tutkimaan todellisen jakeluun ilmaisun tietoja sekä koko-kokeilu ja yksilöön-geenin tasoja. Käytimme erilaisia ​​parametristen ja nonparametric menetelmiä testata vaikutukset poikkeamat normaaliuden geenien kutsuvan, toiminnallinen merkintä, ja mahdollisille molekyylien luokittelu sellaisia ​​kuudennen syövän genomin.

Tulokset

Keski hetkiä analyysit paljastaa tilastollisesti merkittäviä poikkeamia normaalius kaikissa analysoitiin syövän genomeja. Huomaamme peräti 37% vaihtelua geeni kutsuvan, 39% vaihtelua toiminnallisen annotation, ja 30% vaihtelua mahdollisille, molekyyli- kasvaimeen alaluokitus liittyvät tähän vaikutusta.

Johtopäätökset

Syöpä geeniekspression profiilit eivät normaalisti-jakautunut, joko täydellinen-kokeen tai yksilön-geenin tasolla. Sen sijaan niillä monimutkainen, raskas pyrstö jakaumat ominaista tilastollisesti merkitsevä vinous ja huipukkuus. Ei-Gaussin jakauma tämän datan vaikuttaa tunnistamiseen differentiaalisesti ilmentyvien geenien, toiminnallinen merkintä, ja mahdollisille molekyylien luokittelu. Nämä vaikutukset voidaan vähentää joissakin tilanteissa, vaikkakaan ei täysin eliminoida käyttämällä nonparametric analytiikan. Tämä analyysi tuo esiin kaksi epäluotettava oletukset translaation syövän geenien ilmentymisen analyysi: että ”pienet” poikkeamat normaaliuden ilmaisussa tiedot jakaumat ovat analyyttisesti-merkityksettömiä ja että ”vahva” geeni-kutsuvan algoritmeja voidaan täysin kompensoida näitä vaikutuksia.

Citation: Marko NF, Weil RJ (2012) Ei-Gaussin jakaumat vaikuttaa tunnistaminen Ekspressiokuvioiden, Functional Annotation, ja tulevaisuuden Luokittelu Human Cancer Genomes. PLoS ONE 7 (10): e46935. doi: 10,1371 /journal.pone.0046935

Editor: William B. Coleman, University of North Carolina School of Medicine, Yhdysvallat

vastaanotettu 17. maaliskuuta 2012 Hyväksytty: 06 syyskuu 2012; Julkaistu: 31 lokakuu 2012

Copyright: © 2012 Marko, Weil. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: NFM on tukee avustusta American Association of Neurologiset kirurgien ”William P. VanWagenen Fellowship ohjelma. RJW tukevat osittain Grant No.W81XWH-062-0033 Yhdysvalloista puolustusministeriön Breast Cancer Research Program, jonka Melvin Burkhardt tuoli neurokirurgisissa onkologian, ja jonka Karen Colina Wilson tutkimus lahjoitusvarat sisällä aivosyövän ja neuro- onkologian Center Cleveland Clinic Foundation. Ei ylimääräistä ulkoista rahoitusta saatiin tätä tutkimusta varten. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Background

Microarray perustuvissa määrityksissä geeniekspression on tullut tukipilari perus- ja translationaalisen syöpätutkimukseen. Huomattava osa nykyajan tutkimusten ovat riippuvaisia ​​näistä keinoista kertoa hypoteesin sukupolven [1], sillä polku analyysi [2], [3], sillä farmakogenomiikkaa ja lääkekehityksen [4], sekä kehittää molekyylipohjaisia ​​tautiluokituksen strategioihin [5] , [6]. Lisäksi geenien ilmentyminen tietoja ovat tulossa vähitellen korostuneet tiedottamista kliininen diagnoosi ja potilastietojen hallinta [7], [8], ja mikrosirujen-pohjainen genominen profiilit ovat nyt käytetään ohjaamaan potilaan ilmoittautuminen ja kerrostumista suuren mittakaavan kliinisissä kokeissa [9] , [10].

tätä taustaa vasten, että on tärkeää tarkkojen tulkinta microarray tulokset ja merkittävät seuraukset järjestelmällinen analyyttinen virheitä ilmenee. Vuonna alkuaikoina mikrosiruanalyysi, korkeat kokeellinen kustannuksia ja merkittäviä teknisiä vaihtelua rajoittanut käytettävissä olevia tietoja, jotka kattavat analyysit käytännön vaikutuksista hienovaraisia ​​harhat microarray tietoja tai sen tulkinta voisi tutkia [11]. Tämä puolestaan ​​edellytti, että tietyt matemaattisia ja biologisen oletukset tehdään [12], [13], ja riittävät tiedot puuttuvat poissuljettu perusteellisen tutkimuksen, ovatko nämä oletukset.

oletus Normality in Two Related Tyypit Expression Tietoaineistot

Yksi yleinen oletus on, että tietoja microarray-pohjainen genomin ilmaisun analysoi standardin mukaisia ​​Gaussin (normaali) jakeluun. Tämä olettamus on harvoin nimenomainen vaan yleisimmin välillinen kun tutkijat soveltavat analyyttistä algoritmit perustua työntekijän Gaussin oletuksen. Jakelu liittyvät oletukset ovat merkityksellisiä vähintään kaksi, erillistä sarjaa ilmaisun tuotetut tiedot microarray analyyseja ja normaalius olettamus on ollut vaihtelevasti (usein epäsuorasti) sovelletaan sekä [12] – [15].

ensimmäinen aineisto, jossa jakelu on merkitystä käsittää täydellinen yksilöllisen ilmaisun arvojen kaikissa geenit ja kaikki näytteet tietyssä kokeessa. Esimerkiksi Tutkittaessa ilmaisun 25000 geenien 100 kasvaimissa, tämä on asetettu kaikkien 2,5 miljoonan geeniekspression arvoja. Jakauma Tämän komposiitti aineisto voi olla erityisen merkityksellisiä loppupään klustereiden ja luokkasyrjintä analyysit, koska monet näistä algoritmeja sovelletaan tyypillisesti koko aineisto kokonaisuudessaan. Kun algoritmit lähdettävä Olipa standardin Gaussin käytetään, normaali oletus epäsuorasti käyttöön.

Toinen aineisto, jossa jakelu on merkitystä on aineisto käsittää yksilöllisen ilmaisun arvoja yhden geenin koko alueella kokeellisen näytteet. Jatketaan edellisessä esimerkissä, tämä koe aiheuttaisi 25,000 tällaisia ​​aineistoja, joissa jokaisessa on 100 datapistettä. Jakauma Näiden 100 datapisteiden saattavat olla erityisen merkityksellisiä tutkimuksia, joissa tarkastellaan johdonmukaisuutta käyttäytymistä tietyn geenin tietyn kasvaimen tyypin tai analysoida rakenteessa sen muutoksen monilla ”luokkaa” tai ”laadut” tietyn kasvaimen . Tässä jakelu saattaa tarjota hyödyllisen kuvauksen käyttäytymistä tämän yhden geenin useiden riippumattomien näytteitä, mutta normaali oletus voidaan implisiittisesti käyttöön, jos algoritmit analysoida käyttäytymistä tämän geenin perusteena oleva Olipa vakio Gaussin jakauma.

oletus normaaliuden on nimenomaisesti tutkittu geeniekspressioanalyysissä, tosin vain rajoitetussa määrin. Vaikka se aluksi näytti olevan sekä teoreettisten [16] ja empiirinen tukea [11], [17], uudempi analyysit ovat ehdottaneet mahdollisuutta kuin Gaussin jakaumat geenien ilmentyminen tietojen [18] – [21]. Nykyisin kuitenkin useimmat näistä havainnoista ovat peräisin simuloidaan [19], [21], heterogeeninen [20], [21], tai ei-kliinistä aineistoja [18] – [21].

Merkitys

mahdollisuus, että geenien ilmentyminen tietojen rikkovat normaaliuden oletus voi olla huomattava merkitys kliinisen ja translaation tutkijat. Useimmat nykyiset ja ehdotetut lääketieteellisiä sovelluksia microarray ilmaisun tietojen keräyksen analyyseistä lähdettävä tälle olettamukseen, joista monet ovat luottaneet muuttujien tilastot geenin kutsuvan ja luokan löytö [6] – [8]. Translationaalinen onkologit ovat kaikkein innokas kuluttajien microarray tietojen ja todennäköisimmin ehdottaa sen kliinisissä sovelluksissa, niin looginen paikka aloittaa tutkimuksen suuruuden, laajuus, ja kliininen merkitys kuin Gaussin jakaumat geeniekspressiossa data on suuret , julkisesti saatavilla syövän genomin tietokantoihin [22], [23]. Tästä huolimatta tämä kysymys on olennainen nykyisen analyyttisen paradigman geenien ilmentyminen tietojen yleisesti, ja odotamme, että tämän tutkimuksen tulokset on merkitystä piirin ulkopuolelle translaation molekyyli onkologia.

Tässä tutkimuksessa on kaksi tavoitetta ja on jaettu kahteen osaan: ensimmäinen on teoreettinen – tutkia jakaumia syövän geenien ilmentyminen tietoja – sekä yksilön geenin ja täydellinen aineisto taso – ja arvioida, missä määrin nämä poiketa normaalius. Tämä luo pohjan toisen, translationaalinen tavoite: tutkia vaikutuksia ei-Gaussin geenin ilmentymisen jakaumat kliinisesti genomiikan analyysit. Kokeellinen malli on tarkoituksellisesti suunniteltu kerrata uskollisesti työnkulun tyypillisen, translationaalinen putki geenien ilmentymisen analyysi (kuva 1).

vuokaavio kuvaa tyypillistä mikrosiruanalyysi työnkulku (yläosa), tilastollisista menetelmistä jokaisessa vaiheessa (keskiosa), ja vastaavat taulukot ja luvut käsikirjoituksen että läsnä analysoi kunkin tason (pohjaosa).

tulokset

Distribution Analysis – Complete Tietoaineistot

ensin tarkasteltiin jakaumat täydellinen yksilöllisen ilmaisun arvojen kaikissa geenit ja kaikki näytteet kussakin viisi koetta (ensimmäinen tyyppi datajoukon johdannossa kuvatun). Taulukossa 1 esitetään yhteenveto tuloksista keskeinen hetkiä analyysi viisi, suuren mittakaavan (n = 180, kukin) ihmisen syövän genomit, joka tehtiin normalisoinnin jälkeen joko vankka multichip keskiarvo (RMA) [24] tai DChip [25] menetelmiä. Nämä tiedot osoittavat, että vaikka keskiarvot ja keskihajonnat ehdottaa arvioitu normaalius (μ alue: -0,18-,10; σ alue: 0,84-1,58), kolmas ja neljäs keskeinen hetket poiketa normaalius tilastollisesti merkitsevää tavalla. Fisherin indeksit vinous ja huipukkuus, joita pidetään merkitsevä α 0,05, kun ne ylittävät ± 1,96, ovat 100 kaikille näytteille. Lisäksi

F

-testin varianssin osoittaa tilastollisesti merkittävistä eroista normaaliuden kaikille näytteille (taulukot 1, S1). Kaikki viisi syöpää geeniekspressiota jakaumat siis poikkeavat huomattavasti normaalijakaumasta. Tätä tukee lisäksi tulokset yksisuuntainen ja kaksisuuntainen KS testejä, jotka osoittavat merkittävistä eroista normaaliuden kaikille aineistot. Lisäksi havainnot Keski hetkiä analyysi viittaa siihen, että nämä jakaumat ovat vähäisiä, mutta merkittäviä vinous, ovat selvästi kurtotic, ja kuormien-pyrstö (kuva 2). Samanlaisia ​​tuloksia data normalisoitiin käyttäen sekä RMA [24] ja DChip menetelmä [25] viittaavat siihen, että tämä poikkeaminen normaaliuden tuskin on funktio normalisoinnin algoritmin, ja analysointi sekä Log

2-muunnetaan ja Log

2-vähennetty data viittaa siihen, että se ei liity Log vähennyslasku (taulukot 1, S1 kuviot S1, S2).

lähdeaineistoina nämä kuvaajat ovat Log

2-vähennetty aineistoja. Kaikki bin leveydet on asetettu 200 parantaa visualisoinnin. Punainen käyrät edustavat parhaiten sopiva normaalijakaumaa. Pääkuva antaa histogrammin kanssa päällekkäin teoreettinen normaali käyrä. Insertti esittelee kvantiili-kvantiili (QQ) juoni, jossa poikkeama linja (y = x, musta) esittää poikkeama Empiirisen teoreettisesta normaalijakaumaa. Vasen paneeli näyttää tiedot normalisoitunut RMA menetelmällä. Oikea paneeli näyttää tiedot normalisoitunut kanssa DChip menetelmällä. V: Brain; B: Rintojen; C: Colon; D: Mahalaukun; E: Munasarjojen.

Nämä havainnot eivät välttämättä yllättävää, sillä kumpikaan normalisoinnin menetelmistä eikä prosessi log-transformaation tarkoituksena on nimenomaan tuottaa normaalitilaan; kuitenkin, tämä analyysi osoittaa käyttämällä useita ilmaisua aineistoja, että yksikään näistä muunnokset ovat riittävät tuottamaan Gaussin tietoja. Näin ollen sitä ei voida olettaa, ettei olleet tiedot ”normalisoitu” jollakin näistä menetelmistä todella ovat samanlaisia ​​kuin ”normaali” (vakio Gaussin) jakelu.

Distribution Analysis – Henkilökohtainen Geenit

Tutkimme myös tietojen jakaumat yksittäisten geenien poikki 180 näytettä kustakin 5 syövän aineistoja. Monet tutkijat tutkii tietoja kokeesta, joka sisältää mikrosiruja useita, vastaavia kasvaimia voi olettaa, että ”yli-ilmentynyt” geeni osoittaisi Gaussin keskittynyt positiivinen keskiarvo, joka on ”ali-ilmentynyt” geeni on samanlainen jakauma noin negatiivinen arvo, ja geeni, jonka ilmentyminen on muuttumaton on Gaussin keskitetty noin nolla. Analyysimme osoittaa kuitenkin, että vaihteleva astetta skewness ja huipukkuus sekä merkitty poikkeamat yhtenäisyyttä keskihajonnat ovat ominaisia ​​ilmaisun jakaumien yksittäisten geenien. Taulukossa 2 esitetään yhteenveto tämän analyysin tuloksia, ja kuvio 3 on kuvaava esimerkki tästä vaikutuksesta piirtämällä jakaumat valittu geenit aivokasvain (glioblastoma) keräämiseen.

Nämä kaaviot kuvaavat erilaisia ​​mahdollisia skewness (A) ja kurtosis (B), joita esiintyy ilmaisu jakaumat yksittäisten geenien, joka käsittää syövän ilmaisun aineistot. Tämä kumoaa oletuksen, että ekspressiotietojen yksittäisten geenien seurata suunnilleen Gaussin jakauma ympäri geenin keskimääräinen ekspressiotaso. Tiedot nämä kuvaajat otettiin lokista

2-vähennetty, RMA-normalisoitu glioblastoma ekspressiotietojen. Sillä vinous Vertailun viisi geenejä vastaavat keinot, keskihajonnat, ja huipukkuus valittiin alijoukoista geeneistä, jotka edustavat noin 10

th, 25

th, 50

th, 75

th ja 90

th persentiilit per-geenin vinous sisältämän aineisto. Vastaavasti varten huipukkuus vertailussa viisi geenejä vastaavat keinot, keskihajonnat, ja vinous valittiin alijoukoista geeneistä, jotka edustavat noin 10

th, 25

th, 50

th, 75

th ja 90

th persentiilit per-geenin huipukkuus sisältämän aineisto. Identiteetit geenien, eivät liity vertailutarkoituksiin.

Käyrän sovitus

Empiiristä käyränsovitusmenetelmiä käytettiin tutkia tarkemmin todellisia morfologiaa syövän geeniekspression jakaumat ( Taulukko 3, kuviot 4, S3, S4, S5, S6). Tämä analyysi viittaa siihen, että monimutkainen, multi-parametri jakaumat vaaditaan tarkemmin mallintaa ekspressiotietojen jakaumat. Yleensä parhaiten sopivan jakaumat olivat niitä, jotka parametrisoi mallintamaan vinous, huipukkuus, ja raskas hännät. Näitä ovat multi-parametri jakaumat liittyvät β-prime (Pearson VI, joka pystyy mallinnus vinous) (esim Log-logistinen, Dagum, Burr), kurtotic jakaumat (esim hyperbolinen-secant), ja monipuolinen, 4-parametri Johnson SU [26].

Distribution varustamista varten aivosyövän aineisto RMA (ylhäällä) ja DChip (alhaalla) normalisoitu data. Kolme parhaiten sopiva käyrät päällekkäin histogrammi, ja normaalijakaumaa käyrä on mukana vertailun vuoksi. Erityiset parametrit paras-sovitus jakaumat annetaan. Insertti näyttää kvantiili-kvantiili (QQ) tontin parhaiten sopivan ja normaalijakaumat. Nämä kartat osoittavat, että Multiparametrimäärityksessä jakaumat pystyy mallinnuksen skewness ja huipukkuus paremmin luonnehtivat tietoja kuin tavalliset Gaussin (normaali) jakeluun. Samanlaisia ​​kuvaajat ylimääräisiä tuumorityypeille esitetään kuvioissa S2, S3, S4, S5.

Vaikka nämä jakaumat sopii aineistoon tarkemmin kuin normaalijakaumaa, KS testaus osoittaa, että ne ovat epätäydellisiä kohtaukset (taulukko 3). Lisäksi ei ole olemassa yhtä jakelu joka on selvästi parempi mallintaa kaikkien sarjaa ekspressiotietojen. Kaiken kaikkiaan tämä analyysi vahvistaa merkittävistä eroista normaaliuden syöpään liittyvien genomin ekspressiotietojen ja osoittaa monimutkaisen luonteen taustalla ilmaisun jakaumat.

Gene Soitto Toiminnallinen Lisäykset

Tähän asti analyysi on keskittynyt tutkii todellinen jakaumia geeniekspression aineistoja ja vertaamalla näitä teoreettiseen, normaalijakaumaa. Tämä analyysi osoitti, että ihmisen syövän geenien ilmentyminen tietoja ei normaalisti-jakautunut, joko kokeen tai yhden geenin tasolla. Sopiva seuraava kysymys olisi ovatko nämä poikkeamat normaaliuden vaikuttaa yleisesti suoritetaan geenin ilmentymisen analytiikka, kuten molekyylien luokittelu, geeni kutsuvan, ja toiminnallinen merkintä.

Tämän tutkimiseksi kysymys, suoritimme analyysin geenin ilmentymisen aineisto 23 huonolaatuisen gliooma (LGG), mukaan lukien ainutlaatuinen osajoukko yksitoista kasvainten ehjä kromosomien 1p ja 19q (mielivaltaisesti

luokka 1

) ja toinen alijoukko kahdeksan oligodendroglioomat kanssa kromosomi 1p /19q codeletions [5] , [27] (mielivaltaisesti

luokka 2

), käytettiin tutkittaessa vaikutuksia tietojen jakelun tunnistamiseen geenejä, jotka differentiaalisesti ilmaisi toisiinsa tunnettuja kasvain osajoukot. Tämä toteutettiin käyttämällä yhtenäisiä muunnos (Box-Cox [28]) ja ilmaus aineisto parantaa normaalius tietojen jakelun ja sitten verrataan tuloksia geenin kutsuvan algoritmeja sovelletaan emo- ja muuttuu aineistot (kuva 5). Tällä tavoin vain jakauman muodon on muuttunut, ja nollahypoteesi on, että tämä muutos ei tulisi olla vaikutusta geenien soittamalla, jos menetelmät ovat riittävän ”vahva” jakeluun morfologian tai ovat todella ”jakelu riippumaton.”

Box-Cox muunnos levitetään huonolaatuisen gliooma aineisto (vasemmalla) johtaa jakelun lähemmin approksimoi normaalijakaumaa (oikealla). Huomaa, että vanhemman jaettiin recentered nolla tarkoittaa kompensoimaan oletuksena keskiarvo Robust Multichip normalisointi lähtö 7. Tämä transformoitujen jakelu käytettiin sitten analysoida jakeluun riippuvia vaikutuksia tunnistamista differentiaalisesti ilmentyvien geenien, toiminnallinen kommentointi, ja mahdollisille molekyyli luokitus.

kaksipuolinen opiskelijan

t

-testi tavallisella Bonferroni korjaus (

p

0,01), jonka tunnuksena 50 differentiaalisesti ilmaisi geenien välillä

luokka 1

ja

luokka 2

käyttäen emo jakelun ja 55 avulla transformoidun jakelu (9,1%: n ero). Neljäkymmentäyhdeksän (49) 56 koko differentiaalisesti ilmentyvien geenien olivat yhteisiä sekä luettelot (87,5%), kun taas 7 oli yksilöidä vain yhdessä kaksi luetteloa (12,5%) (taulukot 4A, S3).

Vaikka tiukat Bonferronin korjauksen,

t

-testi on parametrinen testi, joka tekee oletuksia muodon taustalla jakelun. Tämän ilmiön poistamiseksi, haimme kaksi, nonparametric menetelmiä geenin calling. Kahden luokan, parittomia merkitys analyysi mikrosiruja (SAM) [29] tunnistettiin 759 differentiaalisesti ilmentyvien geenien emo- ja 478 transformoiduissa jakeluun (37,2%: n ero). 760 yhteensä geenejä, 477 (62,8%) oli yhteinen sekä luettelot taas 283 (37,2%) olivat ainutlaatuisia vain yhteen kaksi luetteloa (taulukot 4A, S4). Kahden luokan, parittomia Kruskal-Wallis (KW) testi tunnistaa 1801 differentiaalisesti ilmentyvien geenien emo jakelun ja 1800 transformoidussa jakeluun. Siellä oli 99,9% limityksellä näissä geeni luetteloissa (taulukot 4A, S5).

Vaihtoehtoinen strategia geenin calling käyttää lineaarinen mallinnus mikrosiruja (Limma) [30] Bayes lähestymistapa lineaarisen mallinnuksen laskea valvottu

t

-testi. Vaikka menetelmä oletetaan normaalisuus olevia tietoja, se katsotaan monet on ylivertaisia ​​tavallisiin ja korjataan

t

-testaukset ja katsotaan vankka erilaisia ​​sekoittavia matemaattisia ja tilastollisia vaikutuksia [31]. Limma tunnistettu 2866 differentiaalisesti ilmentyvien geenien emo- ja 2981 transformoidussa jakeluun. Of 3047 yhteensä geenejä, 2710 (88,9%) oli yhteinen sekä luettelot taas 337 (11,1%) olivat ainutlaatuisia vain yhteen kaksi luetteloa (taulukot 4A, S6).

vaikutukset jakelu toiminnallinen merkintä tutkittiin ensin käyttäen DAVID [32], [33] käsinkirjoittaa geenien ontologian (GO) [34], [35] ja Kyoto Encyclopedia of Genes and Genomit (Kegg) [36] ehdot geenissä luetteloissa aikaisemmin tuottamat SAM ja KW analysoi ja sitten suorittamalla tilastollinen rikastamiseen analyysi merkittyjä ehtoja. Tämä tunnistettiin 46 ainutlaatuinen termit SAM luetteloihin, jossa 60,9% päällekkäisiä rikastetun termit emo- ja muutti luetteloita. Toisaalta analyysi luetteloiden tuottaman KW analyysi tunnistettu 49 rikastettua ehdot, jotka kaikki ovat samanlaisia ​​luetteloihin vanhemman ja muuttuu aineistot (100,0% limityksellä) (taulukot 4B, S7, S8).

luokittelu

Geenien ilmentyminen tietoja käytetään usein perustana yrityksiä molekyyli-pohjainen alaluokkiin kasvaimia, joilla on samankaltaisia ​​histologia, mutta eri kliinisten fenotyyppien. Olemme hyödyntäneet

a priori

tietoa [5] kahden tällaisen ryhmän sisällä huonolaatuisen gliooma aineisto (

Luokka 1

ja

luokka 2

) simuloida luokituksessa ja tutkia suhdetta tulosten muotoon taustalla tietojen jakaminen. Erotteluanalyysi (DA) ja k: n lähimmän naapurin (KNN) luokittelijoiden koulutettiin osajoukko kasvaimia edustajien kanssa kunkin luokan ja käytettiin sitten luokitella kymmenen, novel kasvaimet johonkin kahteen luokkaan. Identtiset analyysit suoritettiin tietoja vanhemman ja muutti jakaumat. Tulokset näistä analyyseistä osoittavat 20%: n ero luokassa tehtävän (2/10 näytettä) DA ja 30% (3/10 näytettä) varten KNN luokitin kun käytetään vanhemman tietoja, mutta sama luokituksia molemmissa malleissa käyttöjärjestelmillä transformoitujen aineisto (kuvio 6). Tämä vaikutus on riippumaton alkuperäisen menetelmän datan vähentämisen (SAM tai

t

-testi) (Kuva S7).

Kaksi menetelmiä mahdollisten molekyylien luokittelu, parametrisen Diskriminanttianalyysi (DA, top ) ja nonparametric K-lähimmän naapurin luokittelija (KNN, alhaalla), käytettiin yhdessä vanhemman ja muuttuu matala-asteisen gliooman ilmaisun aineistoja tutkia jakeluun riippuvia vaikutuksia molekyyli kasvain alaluokkiin. Luokka 1 edustaa huonolaatuista, 1p /19q-ehjä gliooma, ja luokan 2 edustaa kromosomissa 1p /19q codeleted, matala-asteista oligodendroglioomat. Ylin Väripalkit edustavat tunnetut luokan kunkin näytteen (mustat laatikot; punainen = Luokka 1, sininen = luokka 2). Alueella värien alapuolella on osa geeniekspressioprofiili (punainen = ali-ilmentynyt, vihreä = yliekspressoitu). DA käytetään yhdessä vanhemman (ei-normaali) jakelu tuottaa kaksi luokitteluvirheitä ja KNN tuottaa 3, kun taas molempia menetelmiä käytetään transformoitujen aineisto tuloksen tarkka molekyyli alaluokkiin.

Keskustelu

Gene Expression tietoja ei yleensä-Distributed

jakelu geeniekspression data tyypillisesti olettaa täyttävän standardin Gaussin (normaali) jakauma [11], [17]. Tämä olettamus voi johtua yhdistelmä kolmesta tekijästä. Ensinnäkin, tämä ongelma voi olla (luultavasti) ennusti keskeinen raja-arvolause [16]. Toiseksi perusanalyysejä geenien ilmentymisen aineistoja, jotka yleensä sisältävät laskelmat keskiarvo ja keskihajonta sekä silmämääräinen tarkastus tietojen jakelun, paljastavat yleensä kellomaisesti käyrät välineet (μ) keskitetty lähelle nollaa ja keskihajonnat (σ) noin yhtä suuri kuin yksi. Kolmanneksi alkuaikoina geeniekspressioanalyysissä kun nämä oletukset kodifioitiin, aineistot olivat pieniä ja havaitut erot teoreettisten arvot eivät saavuttaneet tilastollista merkittävyyttä.

nykyajan ilmaisun analyysin ominaista alentunut kustannus ja lisääntynyt näyte saatavuus, nyt tarjoaa ylellisyyttä työskennellä aineistoja, jotka sisältävät useita kertoja enemmän näytteitä ja eksponentiaalisesti-enemmän ominaisuuksia kuin aikaisemmin. Nämä aineistot, kuten niitä tutkitaan tässä, mahdollistavat tarkempien analyysi jakaumien ekspressiotietojen. Tässä analyysissä olemme ylittäneet laskettaessa μ ja σ (joka itse asiassa vaikuttaa ensi silmäyksellä olevan yhdenmukainen normaaliuden näihin tietoihin) ja teetettävä kattava analyysi korkeamman asteen keskeinen hetkiä nämä jakaumat. Tämä analyysi hyödyntää saatavuudesta lähes 10

8 ominaisuuksia per aineisto mahdollistaa tilastollista merkittävyyttä arviointeja näennäisesti-lieviä poikkeamia normaalius. Näin se paljastaa, että nämä poikkeamat saavutetaan korkea tilastollisesti merkitsevä kaikkien neljän ensimmäisen keskeinen hetkiä. Tämä antaa vakuuttavia todisteita siitä, että nämä syöpää geenien ilmentyminen tietoja eivät vastaa standardin Gaussin jakauma (kuvio 2, taulukko 1) ja että kategorinen oletukset normaaliuden Tämäntyyppisten aineistoja voi olla virheellinen.

Gene Expression Data Exhibits Complex Jakelu Ominaisuudet

Empiiristä käyrän sovitus yksilöidään vuonna puolueeton tavalla, jakaumat että tarkimmin mallintaa havaitun jakaumat ekspressiotietojen. Analyysi empiirisesti-fit jakaumat antaa lisätietoja tietojen jakelun ja voidaan vetää yleisiä johtopäätöksiä tyyppisiä loppupään analyysejä, joita voidaan soveltaa näihin aineistoihin. Tämä analyysi osoittaa, että ilmaisu jakaumat eivät ole hyvin mallinnetaan yksinkertaistettu, kaksi- parametri jakaumia (kuten normaalijakauma), mutta sen sijaan vaativat jakaumat useita (3-4) muotoparametrien mallintaa tiedot tarkasti. Useat johdannaisia ​​β-prime jakelu (esim. Log-logistinen, Dagum, Burr [37], [38]) on empiirisesti todettu hyödyllisinä malleina näitä tietoja. Tämä on loogista, kun otetaan huomioon, että β-prime liittyy Pearson tyypin VI jakauma, joka on yksi perheen jakaumat alun perin käytetty mallintamaan vinossa tietoja [38]. Hyperbolisen secant jakauma oli myös yleisesti tunnistettu Näistä empiiristä mallia. Tämä on yksinkertaisempi, 2-parametri jakauman liioitellun huipukkuus [39], ja sen tunnistaminen hyödyllisenä mallina näiden tietojen korostaa kurtotic luonnetta aineistot. Lopuksi 4-parametri Johnson SU [26] on monipuolinen jakelu mallin vinossa ja kurtotic tietoja. Yhdessä Johnson perheen jakaumat kattaa koko vinous-huipukkuus spektri, ja SU jakelu on erityisen käyttökelpoinen logaritminen data [38]. Kokonaisuudessaan tunnistaminen näistä erityisesti perheiden (β-prime /Pearson, hyperbolinen-secant, Johnson) korostetaan vinouden ja huipukkuus näiden aineistojen ja korostaa riittämättömyydestä normaalijakauman mallintamaan tarkasti syövän geenien ilmentyminen tietoja.

tavoitteena oli käyttää prosessin jakelun istuva oppia mahdollisimman paljon tietoa taustalla tietorakenne syöpä transcriptome, ei yksilöidä yhtä, ”best-fit” jakelu syövän geenien ilmentyminen tietoja. Itse asiassa KS analyysi (taulukko 3) osoittaa, että yksikään 57 jakaumat (taulukko S2), jota vastaan ​​nämä tiedot testattiin edellyttäen Ideaalimallin perustana olevia tietoja. On yhä epäselvää, jos yksittäinen jakelu voi kuvata syöpää transcriptome uskollisesti, ja on todennäköistä, ettei kaksi syöpää geeniekspressiota aineistot on sama, ”best-fit” jakelussa. Oletamme, että monimutkainen muoto aggregaatin jakaumat voi heijastaa niiden koostumus eri, ainutlaatuinen jakaumat komponentin geenejä. Tutkia tarkemmin tämän seoksen-mallia hypoteesi ja sen vaikutuksista geenin calling ei kuulu tämän raportin, mutta ansaitsee lisätutkimuksia.

estämättä, tunnistetaan sellainen teoreettinen malli yhteenlaskettu jakelu ei välttämättä tarvitse suorittaa korkea- laadun analysointi ilmaisun tietoja. Sen sijaan tutkijat, jotka työskentelevät geeniekspressiota data voi haluta tehdä samanlaisia ​​analyysejä, jotka on kuvattu, jotta ymmärtää luonteen jakelun niiden ainutlaatuinen aineistoja. Tämän jälkeen he voivat tarkistaa, että niiden loppupään analyysit eivät sekoitti epätarkkoja oletuksia muodon tietojen jakaumat.

Non-Gaussin jakaumat vaikuttaa geenin Calling ja Functional Lisäykset

on osoittanut, että syöpä geenien ilmentyminen tietoja ei yleensä-jakautunut, kriittinen kysymys on, missä määrin nämä poikkeamat normaaliuden vaikuttaa loppupään, translaation analyysit. Huomattavia ponnisteluja translaatiotutkimuksessa onkologian on sovellettu tunnistamaan ainutlaatuinen, genotyypin osajoukot kasvainten kliinisesti merkitsevä fenotyyppikorrelaatioita, joten fokusoimme analyysi analyyttinen vaikutuksia kuin Gaussin jakaumat tällä alalla.

Yksi yleinen tavoite translationaalisen tutkimuksen on tunnistaa joukko geenejä differentiaalikaavojen kahden, tiedetään tai epäillään kasvain osajoukot. Olemme tutkineet tätä kysymystä soveltamalla normaali-muunnoksen LGG aineisto, käyttäen kolmea eri algoritmeja tunnistamaan differentiaalisesti ilmentyvien geenien välillä

Class1

ja

Luokka 2

sekä emo- ja transformoiduissa data, ja sitten suorittamalla semikvantitatiivinen analyysi tuloksena geenin luetteloihin.

Bonferroni korjattu

t-

testi tunnistaa 50 differentiaalisesti ilmentyvien geenien emo- ja 55 muunnetussa jakelu ja johti jakelu riippuva vaihtelu 12,5% (ks

Text S1

, ylimääräisiä keskustelua tämän laskelman) (taulukko 4A). Se, missä määrin tämä vaihtelu heijastaa muuttujien oletuksia luokitin on vaikea määrittää, koska tiukkuus Bonferronin korjauksen tulokset pieni lista differentiaalisesti ilmentyvien geenien. Limma [30], jota pidetään vakaampi kuin perus- ja korjataan

t

-testaukset huolimatta perusoletus normaaliuden, oli myös herkkä muutoksille taustalla tietojen jakelua, ja 11,1%: n ero geenissä puheluita huomattava jakautuminen emo- ja muuttuu jakaumat (taulukko 4A, S6). Sitä vastoin nonparametric KW testi tunnistaa 1801 differentiaalisesti ilmentyvien geenien, joista 1800 (99,9%) oli yhteinen sekä luettelot (taulukko 4A, S5).

Vastaa