PLoS ONE: uusi kombinatorista toimintamalli Integrated Feature Selection käyttäminen eri tietoaineistoja A Eturauhassyöpä Transcriptomic Study

tiivistelmä

Background

yhteinen tutkimus Useiden aineistot on tullut yleinen tekniikka lisäämiseksi tilastotehoa havaitsemisessa biomarkkereiden saatujen pienempien tutkimuksista. Lähestymistapa seuraa yleensä perustuu siihen, että kun näytteiden kokonaismäärä kasvaa, odotamme saada enemmän valtaa havaita yhdistysten kiinnostusta. Tätä menetelmää on sovellettu genomin laajuinen yhdistys ja transcriptomic tutkimuksia, koska käytettävissä tietokokonaisuuksien julkisia. Vaikka tämä lähestymistapa on vakiintunut biostatistiikan, uusien kombinatorisista optimointimallit käsittelemään tätä asiaa ei ole tutkittu perusteellisesti. Tässä tutkimuksessa esittelemme uuden mallin integroimiseksi useiden aineistojen ja osoitamme sen soveltaminen transkriptomiikka.

Methods

Ehdotamme uutta kombinatorista ongelma, joka käsittelee ydinkysymys biomarkkereiden havaitseminen integroiduissa aineistoja. Optimaalisia ratkaisuja tämän mallin toimittaa ominaisuuksien hallintaan paneelista mahdollisille biomarkkereita. Malli ehdotamme on yleistetty versio

,

β) -k

-Feature Set ongelma. Me kuvaavat suorituskykyä tämän uuden metodologian kautta haastava meta-analyysi tehtävä, jossa kuusi eturauhassyöpää microarray aineistoja. Tuloksia verrataan suosittu RankProd meta-analyysin avulla ja mitä voidaan saada analysoimalla yksittäiset aineistot tilastollisin ja kombinatorinen menetelmiä yksin.

Tulokset

soveltaminen integroidun menetelmän johtanut entistä informatiivinen allekirjoitusta kuin listalla perustuva meta-analyysi tai yksittäisiä aineisto tuloksia, ja ratkaisee ongelmat, jotka johtuvat reaalimaailman aineistoja. Joukko geenit tunnistettu on erittäin merkittävä yhteydessä eturauhassyöpää. Käytetty menetelmä ei perustu homogenoinnin tai muutosta arvojen yhteiseen mittakaavassa, ja samalla pystyy kaapata merkkiaineita, jotka liittyvät alaryhmiä taudin.

Citation: Puthiyedth N, Riveros C, Berretta R , Moscato P (2015) Uusi kombinatorista toimintamalli Integrated Feature Selection käyttäminen eri tietoaineistoja A Eturauhassyöpä Transcriptomic Study. PLoS ONE 10 (6): e0127702. doi: 10,1371 /journal.pone.0127702

Academic Editor: Holger Fröhlich, University of Bonn, Bonn-Aachen International Center for IT, SAKSA

vastaanotettu: 03 marraskuu 2014; Hyväksytty: 17 huhtikuu 2015; Julkaistu: 24 kesäkuu 2015

Copyright: © 2015 Puthiyedth et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään

Data Saatavuus: Singh aineisto on saatavilla Broad-instituutin Cancer Program Legacy Julkaisu Resources verkkosivuilla: https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N01-N31.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N32-N62.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T01-T30.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T31-T62.CEL.tar.gz. Welsh aineisto on saatavilla Genomics Institute of Novartis Research https://www.stat.cmu.edu/~jiashun/Research/software/HCClassification/Prostate/GNF_prostate_data_CR61_5974.xls. Uma aineisto on saatavilla osoitteessa ArrayExpress: (https://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-6919/) hakunumerolla E-geod-6919. L-2695, L-3044 ja L-3289 aineistot ovat saatavilla Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) hakunumerolla GSE3933.

Rahoitus: PM tukee Australian Research Council (ARC, https://www.arc.gov.au/) Future Fellowship FT120100060. Tämä projekti on osarahoitteinen ARC Discovery Project DP120102576, Australia.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

louhintaan liittyvää tietoa integraatiosta useiden aineistojen ja muuntamisen tietotaitoa on merkittävä ongelma useilla aloilla. Nykyään yhä enemmän biologian ja terveyteen liittyvät tutkimukset ympäri maailmaa harjoittamisessa hyödyllinen politiikka jättää niiden raaka tulokset saatavilla yhteisen hyvän kautta julkisuuteen tietokannoista. Tämä avoin jakaminen on hyötynyt toistettavuus muiden tutkijoiden havaintoja. Olemassa verkossa aineistot on tulossa erittäin hyödyllinen uusien matemaattisten ja tietotekniikassa varten hahmontunnistuksen, koneoppimisen ja tekoälyn menetelmät. Tämä terve käytäntö tietojen jakamisen nyt yleistyessä hallitusten ja tieteellisissä julkaisuissa. Yksityisen ja julkisen sektorin harjoittaa myös ”tiedonrikastus kilpailuja”, jossa aineistot ovat yleisesti saatavilla ja yleisö sta peräisin tietojen analysointia. Tässä uudessa, digitaalinen ja toisiinsa globaali tutkimus avoimen datan yritys, tämä on ehdottomasti hyvä suunta tieteen, tutkimuksen ja kehityksen ja olemme varmoja vahvistamaan, että tämä suuntaus on tullut jäädäkseen.

Termi ”meta analyysi ”viittaa yleensä integroitu tutkimus, jonka tavoitteena on kehittää yhteisymmärrykseen havainnoista yksittäisistä tutkimuksista. Joskus kirjoittajat käyttävät tätä termiä melko löyhästi tarkoittaa vain ”tutkimus” joukko nykyisiä tutkimuksia, jotka ovat itsenäisesti saadaan mutta jotka liittyvät joukon yhteisiä kiinnostavia kysymyksiä [1]. Kun jotkut ehdot täyttyvät, integroitu tutkimus voi auttaa parantamaan voimaa analyysin lisäämällä näytteiden kokonaismäärä tarkastelujakson [2]. Meta-analyysit ovat tärkeä väline, kun joitakin nykyisistä tutkimuksista on ristiriitaisia ​​päätelmiä [3], ja yleisenä tavoitteena on ratkaista ne, mikäli mahdollista. Lisääminen ilmaisemistehoa pienempiä tutkimusten integroimalla ne suuremmassa tutkimuksessa on tullut myös keino voittaa tutkimusrahoitusta rajoituksia. Tämä koskee erityisesti transkriptomiikka, ja on kiistaton tarve uusille matemaattisia malleja ja algoritmeja, joiden tarkoituksena on tiedon keruuseen yhteisesti tutkimalla eri tietoaineistoja jotka usein sisältävät tietoja uutetaan erilaisia ​​ja alati muuttuvassa teknisten alustojen.

olemassaolo suuri määrä julkisesti saatavilla transcriptomic tutkimukset antaa vahvan motiivin uusien matemaattisia menetelmiä, jotka auttavat poimia

paneelit biomarkkereiden

käyttämällä useita microarray aineistoja. Huolimatta kasvava määrä tutkimuksia, yleiseen yhteisymmärrykseen ei ole vielä päästy siitä, miten tämä [4, 5]. Tutkijat joskus vain korostaa esteitä eteenpäin, esimerkiksi osoittamalla olennaisia ​​eroja microarray alustoille, kokeellinen malleja, keruu näytteitä, erilaisuuteen laboratorion protokollien ja analyysimenetelmät, joita käytetään tutkimuksessa [6]. Useimmat tutkimukset eivät pysty antamaan lopullista vastausta kysymykseen edun mukaista, koska liian vähän näytteitä tuli tutkimukseen [7]. Kuitenkin kaikki nämä sekoittavia kysymyksiä on harkittava ja korostamalla niitä ei vähennä tarvetta kehittää integroiva tekniikoita yhteinen paneeli biomarkkereiden elicitation.

Useat tutkimukset ovat osoittaneet, että on vaikea saada luotettavaa tulosta alkaen yksittäinen aineisto [8-11]. Vaikka jotkut tutkijat voivat lopulta hankkimaan varoja tutkimuksia, joissa suuri määrä näytteitä, mikä lisää voima havaita yksittäisiä merkintöjä, integroitu tutkimus voi antaa aiempaa selkeämmän kuvan kuin lopputulos olisi etsittävä yksimielisyyteen useista yksittäisistä tutkimuksista . Tämä osoittaa tarvetta kehittää kombinatorista lähestymistapoja määritellä merkittävän listan geenien eri alustoilla, kun etsimme paneeli, joka toimii yhdessä jo syrjintää tehtävä useiden tutkimusten.

Multi-platform tiedon integroinnin edelleen haastava, sillä aineistoja eri kokeiden eivät ole suoraan vertailukelpoisia, koska liittyvät tekijät sukupolven aineisto [12]. Jotkut haasteet ovat yksinkertaisesti luonteeltaan teknisiä, esimerkiksi genomisen tiedot voivat tulla monenlaisia ​​tiedostomuotoja, mikä tekee suoran integraation vaikeaksi. Aineistot voidaan muuntaa yleiseen tietomuotoon ennen niiden yhdistämistä, mutta tämä ei ole aina mahdollista [13]. Useita menetelmiä on ehdotettu viime vuosina meta-analyysi geenien ilmentyminen tietojen löytää joukko merkittäviä geenien valittujen joukossa aineistot. Olemassa meta-analyysimenetelmiä joko suorittaa tilastotiedot kullekin aineisto tai integroida kaikki valitut aineistot yhdeksi suuri aineisto arvioida ero geenien ilmentyminen. Listalla perustuva menetelmä ehdottamaa Breitling

et al

. [14] ja myöhemmin kehittänyt Hong

et al

. osaksi RankProd Bioconductor paketin [15], käyttää kertaiseksi muutoksia kaikkien interclass otosparin laskea aineisto riveissä kutakin geeniä, sitten yhdistää riveissä kanssa geometrinen keskiarvo riveissä poikki näytteen paria. MetaArray on toinen meta-analyysin ehdottama menetelmä Choi

et al

. [16], jossa data muunnetaan todennäköisyyden ilmaisun [17], jota seuraa suodatus geenien perustuu integroiva korrelaatioanalyysin. Mergemaid [18] on toinen paketti meta-analyysi, joka auttaa yhdistämään heterogeeninen alustan aineistoja pohjalta käyttäjäystävällinen edellyttäen tunnukset geenien. Standardoitu regressiokertoimia ja z-arvoja käytetään mittana geenin valintaprosessiin muodostavat integroidun aineisto. Vaikka nämä menetelmät pystyvät valitsemaan allekirjoituksia yhdennetyn aineisto erilaisten toiminta-alustojen, ne eivät kykene käsittelemään geenien ole edustettuna kaikissa aineistot. Hiljattain ehdotettu menetelmä nimeltään NetSel [19] on heuristinen sijoitus yhdistämismenetelmä ominaisuuden valinta, joka voidaan soveltaa heterogeeninen joukko luetteloita. Kuitenkin RankProd on ylivoimaisesti suosituin näistä menetelmistä, ja olemme valinneet sen vertailun vertailukohtana.

Tavoitteena Tämän artikkelin tarkoituksena on esitellä uusi menetelmä integroimiseksi mikrosirun geenin ilmentymisen aineistot, jotka voivat on saatu käyttämällä eri alustoilla. Teemme tämän tarvitsematta muuttaa arvoja yhteiseen yhtenäisestä kaavasta ja arvoalueella. Ehdotamme myös uutta kombinatorista lähestymistapa valita parhaat yhteisiä ominaisuuksia, jotka voivat syrjiä tietyn luokissa. Menetelmä on yleistetty versio todistettu ja hyvin onnistunut

,

β) -k

-Feature Set menetelmiä aiemmin uranuurtajana ryhmämme [20, 21] ja osoitamme täällä miten sitä voidaan soveltaa yhdistettyyn aineisto. Me arvioimme uutta menetelmää analysoimalla integrointi kuusi eturauhassyövän aineistot on valmistettu käyttäen erilaisia ​​alustoja ja korostaa sen keskeiset havainnot. Olemme tietoisesti kääntää huomiota suhteellisen pieniä ja myös suhteellisen vanhoja aineistoja, jokseenkin huomiotta mahdollisesti ”mielenkiinnotonta”, koska ennakoiden nykyisen bioteknologian. Vertaamme integroitu tuloksia vastaan ​​keräämisen tulokset erikseen liittyvät perinteisten tilastollinen analyysi ja

,

β) -k

-Feature Set menetelmät kullekin aineisto. Pyrimme havainnollistamaan mahdollisia toissijaisten analyysien näiden aineistojen käyttäen ehdotetun tekniikan.

rakenne artikkeli on seuraava; materiaalit ja menetelmät tässä asiakirjassa selitetään yksityiskohtaisesti jaksossa 2; 3 jaksossa esittelemme tuloksia soveltamalla ehdotettua integraatio ja niissä valintamenetelmä eturauhassyöpään aineistot. 4. jaksossa esittelemme joitakin keskustelun tuloksen perusteella. 5 § antaa Johtopäätöksenä ja tulevaisuuden suuntiin.

Materiaalit ja menetelmät

2.1 Tietoaineistot

Kuusi julkisesti saatavilla eturauhassyövän geenin ilmentymisen aineistot Tässä tutkimuksessa käytetyt kerätty alkaen Gene Expression Omnibus (GEO) tai alkuperäisestä lähteestä. Yksityiskohdat kaikista aineistot tässä työssä on esitetty yhteenvetona taulukossa 1.

Valitut aineistot on tuotettu kahdella eri alustoilla. Geeni-ilmentymisen tasoja kolme niistä mitattiin käyttämällä cDNA kahden kanavan taulukot ja kolme muuta käyttäen Affymetrix matriisia. Aineistot on nimetty mukaan nimen ensimmäinen kirjoittaja julkaistun artikkelin. Kuten on esitetty, kolme viimeistä aineistot kerätään muodossa samassa artikkelissa, joten aineistot on nimetty ensimmäisen tekijän alkuperäistä ja GEO alustan numero (esim. L-2695). Tiedot aineistot ovat seuraavat.

[22], Singh et al. esitteli tulos ennustemalli erottaa kasvain ja normaali näytteitä. Aineisto tässä tutkimuksessa käytetyt sisältää 102 kudosnäytteitä kerätään jälkeen eturauhasen. Otos koostuu 50 normaalia näytettä ja 52 ensisijainen eturauhassyöpänäytteissä. Tämä aineisto luotiin käyttäen Affymetrix HG-U95A v2 (GPL8300) rakenteet.

Toinen aineisto on myötävaikuttanut Welsh et al. [23] vuonna 2001. Tutkimuksessa selvitetään terapeuttinen lähestymistapa erottaa kasvain ja normaali näytteitä. Aineisto sisältää 55 näytettä, jotka hybridisoituvat HG-U95A v2 (GPL8300) paneelit. Näytteet 25 primaarisen kasvaimen ja 9 normaaleista kudoksista, ja loput otettiin näytteitä eri luovuttajilta, joilla on erilaisia ​​syöpiä.

kolmas aineisto on julkaistu Uma et al. vuonna 2007 [24]. Tämä tutkimus esittelee koejärjestely käsitellä eroja solun sisällön välillä ensisijainen ja etäpesäkkeitä. Aineisto sisältää 63 kasvain kudosnäytteitä ja 17 normaalia kudosnäytteistä ja se on tuotettu käyttäen Affymetrix HGU95Av2 matriisia.

Lapointe et al. [25] otettiin käyttöön hierarkkinen klusterointi tekniikka erottaa kasvaimen normaaleista näytteistä ja tunnistaa alaluokkien eturauhassyövän vuonna 2004. Tämä tutkimus tehtiin käyttämällä kolmea eri tietoaineistoja tuotetaan käyttäen cDNA kaksikanavainen matriisia; ensimmäinen Lapointe aineisto (L-2695) sisältää 26 näytettä (13 ensisijainen kasvainkudoksen, 9 normaalia kudosta ja 4 etäpesäkkeiden kudosnäytteiden). Toinen Lapointe aineisto (L-3044), joissa on yhteensä näytteen lasken 41, on 23 primäärikasvain näytteitä, 16 normaalia näytettä ja 2 etäpesäke näytteitä. Kolmas aineisto (L-3289) sisältää yhteensä 45 näytettä, joista 26 ovat primaarikasvaimen, 16 normaali ja 3 etäpesäkkeitä näytteitä.

Olemme rajoitettu Tutkimuksemme vain näitä näytteitä, jotka ovat peräisin joko primaarikasvaimia tai normaalia kudosta. Yhteenlaskettu määrä näytteitä ovat silloin 319, joista 202 ovat ensisijainen kasvaimia ja loput ovat normaalista kudoksesta.

2.2 Integrointi menetelmä

suora integrointi microarray geenien ilmentyminen tietoja eri alustoilla on periaatteessa huomattavasti helpottuu, kun on olemassa yhteisiä välillä alustojen käytetty. Kuitenkin eri geenien ilmentyminen alustat kohdistaa geenejä tai transkriptien eri käyttämällä erilaista antureista. Tähän voi olla monia antureista kartoitetaan samasta geenistä johtuen päällekkäisiä täplikäs koettimet microarray pelimerkkejä. Toisaalta, voi olla yksi anturi, joka kuvaa useita geenejä (tai loci) jos spesifisyys koetinsekvenssillä ei ole tarpeeksi hyvä. Nämä anturit on hävitettävä pois alustavan analyysin, sillä on vaikea analysoida näitä useita geenejä. Lisäksi tulosten tulkinta kautta Gene ontologia tai reittiin ilmoitti tietokantojen saattaa vaarantua useiden kartoitus ongelmia. Näiden lisäksi vaikeuksia, saatamme myös ongelmana, että yksi anturi kohdistaminen eri alueilla saman geenin voisi olla epäsuorasti -valvonta mahdollista eri runsaus proteiini-isoformit. Tämä monet-moneen luonteen kartoitus ongelma vaikeuttaa ottaa yksinkertaistaen lähestymistapaa olennaisesti erilaisia ​​karttoja, jotka alustat tuottavat niiden koetinsarjojen.

Tässä panos, me kartta geeni- tasolla. Jotta kartoittaa koettimilla poikki alustojen taulukossa 1 geeneihin, olemme käyttäneet yksinkertaista yhdenmukaistaminen politiikkaa selitetään; niissä ei tehdä isoformien ja myös huomiotta mainittuja ongelmia. Koettimet kartoitettiin käyttäen hg19-GRCh37 versio Genome Selaimen taulukosta Genome Viittaus konsortio välttää misnaming ja siirtymä geenejä. Jotta saadaan suhteellisen suuri määrä koettimia, joita voidaan käyttää lopullisessa integroitu aineisto, keräsimme ne, jotka täyttävät mikä tahansa annettu kolme ehtoa:

Jos koettimet kohdistuvat saman sekvenssin

Missä kohdistuksen sekvenssit ovat limittäin

Jos kohdennussekvenssiä ovat etäisyydellä korkeintaan 1000 emäsparia

Anturit kustakin aineisto on kartoitettu geenejä ja siihen liittyvän transkription alku ja loppu asento kohdistaminen geenien verrattuna olosuhteiden mukaisesti edellä. Aina on yhteinen kohdistaminen geenin eri antureista useista aineistoja, pidämme erilaisia ​​yhdistelmiä näistä antureista yhdistetyssä aineisto. Samalla tavoin, jos toiminnot (transkription alun ja lopun sekvenssit) on päällekkäisyyttä, tai ne ovat etäisyydellä, joka on enintään 1000bp: n yhdistelmä, jotka koettimet on myös valittu olemaan osana yhdistettyä aineisto. Valittu luettelo yhdistelmästä koettimien annetaan lisämateriaalia (S1 taulukko). Jokainen ainutlaatuinen yhdistelmä koettimien eri aineistojen tulee ominaisuus yhdistetyssä aineisto.

2.3 Feature valintatapa

Aluksi käytimme Fayyad ja Irani entropian perustuva heuristisen kunkin yksittäisen aineisto poistaa epäinformatiivisia ominaisuudet. Tämä univariate valintamekanismi on esikäsittelyvaiheissa liittyvät Minimum Description Length periaate (MDL) [26]. Tarkoitus käyttää tätä askel tässä menetelmässä on kaksi tarkoitusta: se poistaa ominaisuuksia, jotka eivät eroa merkittävästi terveillä ja taudin näytteet (siis se auttaa vähentämällä dimensionaalisuus ongelman), ja toiseksi se auttaa discretise arvot (joka puolestaan ​​helpottaa yhdistelmämuta- lähestymistapa).

tässä panos ehdotamme ja analysoida uutta kombinatorisista lähestymistapa valita joukko

k

merkittäviä ominaisuuksia, jotka voivat selittää monikanavaympäristö integroitu aineistoja. Me kutsumme tätä ongelman Värilliset

,

β) -k

-Feature Set ongelma. Lähestymistapa on yleistetty versio

,

β) -k

-Feature Set ongelma metodologia [27, 28], joka on valvottu ominaisuus valintatapa valita merkittävä joukko ominaisuuksia, jotka voivat yhdessä erottaa näytteen ryhmissä. Menetelmää on käytetty onnistuneesti useissa tutkimuksissa, joita Moscato et al. löytää biomarkkereita eri sairauksien [20, 21, 28-34].

,

β) -k

-Feature Set ongelma tarjoaa merkittävän joukon geenien, jotka yhdessä maksimoivat välisen luokkasyrjintä ja sisäisen luokan johdonmukaisuus [33]. Menetelmä pyrkii erottamaan kaikki näytteen paria, jotka kuuluvat eri luokkiin valitsemalla vähintään geenit, jotka eivät välttämättä ole yhtenäistä ilme tasolla koko näytettä kussakin luokassa, mutta kollektiivisesti antamaan mahdollisimman paljon todisteita. Sen sijaan sijoitus menetelmiä, pisteet ja järjestys geenit niiden differentiaalikaavojen poikki luokat tuo geeni asetetaan, jotka eivät toimi yhdessä allekirjoituksen, erityisesti monimutkaisten sairauksien, joiden molekulaarinen voivat esittää alaryhmiä.

mainittu ominaisuus valinta menetelmä toimii hyvin yksi yhtenäinen aineisto, mutta ei integroitua aineisto. Värilliset

,

β) -k-

ominaisuuksia ongelma käsittelee integroitu aineisto johdonmukaisesti ja valitsee ominaisuuksia, jotka erottavat näyte paria poikki aineistot. Soveltamiseen liittyvät

,

β) -k-

Feature Set ongelma perustuva menetelmä meta-analyysissä auttaa tarjoamaan parhaan joukon ominaisuuksia yhdistetyn aineisto, jonka avulla tutkijat voivat paljastaa geneettisen polkuja, jotka osallistuvat sairauden kehittymiseen.

Tässä muodollisemmin esittää päätöksen versiot yleistys

k

-Feature Aseta ongelma nimeltä

,

β) -k

-Feature Set ongelma, värilliset

,

β) -k

-Feature Set ongelma ja yleinen

,

β) -k

-Feature Set ongelma. Jäljempänä anna edustavat joukko binary arvojen eli anna

n

olla useita ominaisuuksia ja

m

näytteiden määrä,

p

olla määrä näyte ryhmät (eli eri alustoilla /ikäluokat /aineistot) ja monikko

y

olla luokkanimiin näytteistä.

2.3.1 (α, β) -k-ominaisuudet.

oikeusasteen :.

joukko, monikko

y

B

m

, kokonaislukuja

α

0,

β

≥ 0,

k

0

Parametrit :.

α

,

β

ja

k

Kysymys:.

Onko joukko

I

⊆ {1, …,

n

} kanssa

Vastaa