PLoS ONE: Calling Sample sekaantumisten in Cancer Population Studies

tiivistelmä

Sample seuranta virheet ovat olleet ja tulevat aina olemaan osa käytännön toteutusta suuria kokeita. Äskettäin on ehdotettu, että ilmaisu polygeeninen ominaisuus (eQTLs) ja niihin liittyvät vaikutukset voitaisiin käyttää tunnistamaan näytteen sekaantumisen ja tätä lähestymistapaa on sovellettu useita suuria populaatiogenomiikkaan tutkimuksia kuvaamaan esiintyvyys ongelman. Olimme vastaavan lähestymistavan, kutsutaan ”BADGER”, että METABRIC projektissa. METABRIC on suuri rintasyövän tutkimusta, joka on saattanut olla ensimmäinen, jonka eQTL perustuva tunnistus epäsopivuuksien käytettiin tutkimuksen aikana, sen sijaan tapahtuman jälkeen, tukea laadunvarmistus. Raportoimme täällä liittyvät erityiskysymykset suuri syöpään tutkimukset suoritettiin käyttäen historiallisia näytteitä, jotka vaikeuttavat tulkintaa tällaisia ​​lähestymistapoja. Erityisesti tunnistamme komplikaatioita avulla kasvain näytteiden käsittelemistä cellularity ja RNA laatua, erillisten alaryhmien nykyisten tutkimuksessa väestöstä (mukaan lukien perherakenteisiin), ja valita eQTLs käyttää. Olemme myös esittää joitakin tuloksia, jotka koskevat sellaisten kokeiden harkinnut näitä asioita. EQTL lähestymistapa tunnistamiseen näyte seuranta virheiden nähdään olevan hyötyä näistä tutkimuksista, mutta vaativat hoitoa sen toteuttamiseen.

Citation: Lynch AG, Chin SF, Dunning MJ, Caldas C, Tavare S, Curtis C (2012) Calling Näyte sekaantumisten in Cancer Population Studies. PLoS ONE 7 (8): e41815. doi: 10,1371 /journal.pone.0041815

Editor: Amanda Ewart Toland, Ohio State University Medical Center, Yhdysvallat

vastaanotettu: 23 maaliskuu 2012; Hyväksytty: 29 Kesäkuu 2012; Julkaistu: 09 elokuu 2012

Copyright: © Lynch et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus tukivat Cambridgen yliopisto, Cancer Research UK avustus C14303 /A10825, www.cancerresearchuk.org, ja Hutchison Whampoa Limited. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

on itsestään selvää, että mitä tahansa huolellisuus, jos on käytettävissä tutkimus tulee suuria tai monimutkaisia ​​tarpeeksi niin virheitä tapahtuu näytteessä seuranta. Tämä kysymys on ollut korkean profiilin myöhään jälkeen virhe henkilökohtainen geneettinen testaus palvelun (https://spittoon.23andme.com/2010/06/08/update-from-23andme/), ongelmat paljastui viimeaikaisen oikeustieteellisten ’ tutkimuksia perimän mittakaavan tutkimuksia [1], ja viimeaikainen korostaminen virheiden useiden korkean profiilin tutkimuksissa [2]. Näiden lisäksi suuria ongelmia koko vuoden suurikapasiteettisten tutkimuksia, virheet on nimitetty todennäköinen syy poikkeavien tulosten [3], [4]. Luonnollisesti jonkin aikaa, on vaadittu huolehtia rajoittaa tällaisia ​​virheitä [5], ja useita strategioita, joilla vähennetään tai havaita virheet käytetään säännöllisesti.

On tavallista käyttää toistensa kopioita ohjaus näytteet tunnettuja pisteitä lautaselle [6], jonka pitäisi poimia mitään suuria virheitä (mutta jos nämä ovat samoissa paikoissa kullekin levylle, niin ne eivät korosta väärän levyn käytössä). Lisäksi tämä rajoitus, kustannuksella tällaisen lähestymistavan voi tehdä sen vähemmän houkuttelevaksi. Monet ilmaisu alustat tarjoavat mahdollisuuden sekoittaa ulkoisen valvonnan kanssa näytteen hybridisoitiin, ja aloitteita, kuten ulkoinen RNA Controls Consortium (ERCC) [7] voi vain olla edullista tässä suhteessa. Itse käyttö tällaisen valvonnan on äskettäin osoitettu Affymetrix GeneChips [8]. Kun genotyyppi paneelit käytetään (mahdollisesti varten päättelemällä DNA copy-numero) niin meillä on perustavanlaatuinen metrinen tunnistamiseksi näytteet, joista on hyötyä, jos useiden näytteiden hybridisoidaan samasta yksilöstä [9], tai jos meillä on etukäteen tuntemus genotyyppien [10].

Tunnettuja fenotyyppejä joiden pohjan (tai voimakas) geneettinen komponentti voidaan käyttää myös tarkistaa näytteen pätevyys (tai pikemminkin pyrkiä tunnistamaan pinnoitus virheitä – koska ne ovat todennäköisesti ole tarpeeksi virtaa vahvistaa, että näyte on se, mikä se väittää olevansa). Sex on ilmeinen fenotyyppi tässä suhteessa. Huolellisella näyte layout, kuten käsitellään myöhemmin, virheet lautaselle mittakaavassa olisi havaita sukupuoleen tarkistaa, mutta yksittäiset kytkimet tahansa pari eivät. Selvästi joidenkin tutkimusten esim eturauhassyövän, tämä ei ole vaihtoehto. Muita ominaisuuksia, kuten veriryhmä voisi verrata asianmukaista genotyyppien, mutta piirre on kapea ajo lokus on liian suuri mahdollisuus, että siellä on miscalling perimän luokan yksinkertaisesti jättää näytteitä perustuu tähän metristä. Monet tällaiset piirteet siis tarvitaan.

Expression polygeeninen ominaisuus (eQTLs), jotka säätelevät transkriptio runsaasti erityisesti mRNA: iden voidaan tunnistaa systemaattisesti käyttämällä suurikapasiteettisia tekniikoita [11] ja voi tarjota tämän useita piirteitä, joissa noin 5% geenien osoittaa cis-eQTL ajettu käyttäytymistä [12]. Monet tutkimukset pyrkivät päätellä eQTLs annetaan joukko genotyyppejä, joukko ekspressiomittaukset ja kartoitus välillä. Tästä seuraa sitten, että koska genotyypit, ilmaisun mittaukset ja joukko eQTLs pitäisi pystyä sanoa jotain kartoitus. Lyhyesti, annetaan joukko ilmaisun paneelit ja eQTLs, voidaan tehdä ennusteita siitä genotyypit että voisi olettaa ajaa ilmaisun ja pyrkivät sitten tunnistaa genotyypin array, joka on mitannut samat arvot.

Kyky ennustaa SNP alkaen ekspressiotietojen on hiljattain pohdittu tietoturvasertifikaatti yhteydessä [13], mutta se on lähestymistapa olemme käyttäneet prospektiivisesti varmistaa tietojen eheys Molecular taksonomia Breast Cancer International Consortium (METABRIC) tutkimus [14], ja sovellettaisiin muihin syövän tutkimuksiin. Lähestymistapa nimesimme BADGER ( ”Bead Array Diagnostic varten genotyypin ja Expression Ihmissuhteet”), ja se on kuvattu Menetelmät jaksossa. Esimerkkejä kaksi tilannetta (yksi yksinkertainen, yksi monimutkaisempi), jossa sekaannus näyte identiteetti on syntynyt laajoja tutkimuksia, ja on ratkaistu BADGER, esitetään kuvioissa 1 ja 2.

Yksi ilmaus BeadChip (12 paneelit), ja kaksi levyä näytteiden genotyypin määritystä varten ovat kuvitettu. Erityisesti vasemmassa paneelissa, aiotut sijoituspaikat kahden näytteen korostettu (sininen ja punainen) kaksi teknologiaa. Mäyrä riveissä yhdistyksen näiden kahden ilmaisun paneelit ja genotyypin paneelit ovat korkeat ja osoittavat, että on väärin kartoitus. Oikealla puolella tarkkuudeksi tämä esimerkki on esitetty. Ei ainoastaan ​​yksinkertainen kytkin voi sovitamme ilmaisun paneelit on genotyyppi paneelit (nyt BADGER riveissä 1), mutta koska nämä kaksi genotyypityksen paneelit ovat eri levyjä, kun taas kaksi ilmaisua paneelit ovat naapurina, voimme päätellä, että virhe pidettiin ilmaisun sirulle.

sarja potilaiden (viitataan kirjeitse), joilta näytteet otetaan (keskimmäinen rivi, näytteitä kuvattu neliöt) nähdään jossain vaiheessa. Vähän myöhemmin kuusi näistä potilaista (E, F, G, I, J, L) täyttävät sisällytettäväksi retrospektiivinen tutkimus ja sen on tarkoitus ajaa näytteitä näistä potilaista ilmaisun paneelit (ympyrät, sivun vasemmassa ) ja genotyyppi pakat (ympyrät, oikeassa yläkulmassa). Koska potilaat (ja siten näytettä) muodostivat järjestyksessä, me myös tila-pidikkeet esitys paneelit niitä näytteitä, jotka eivät sovellu kyseisen tutkimuksen (merkitty katkoviivalla piireissä vektoreihin ja harmaa varjostus näytteille) . Mäyrä riveissä ilmaisun ja genotyypin taulukoita, jotka oli tarkoitus liittyä näihin kuusi näytettä vaihtelevat 949-2473 viittaa siihen, että ei yksi kuudesta näkyy kartalla oikein. Päätöslauselmassa on vaikea löytää, ellei yksi tietää alkuperäisen näytejonon, mukaan lukien näytteet, jotka eivät ole osa retrospektiivinen tutkimus. Kun ratkaistu (alarivissä) nähdään, että näytteet menee päälle genotyyppi jonoissa ei ”livahtaa” yhden paikan sillä seurauksella, että näytteet G ja J on ajettu ilmaisua, mutta ei genotyypin paneelit, kun taas näytteet H ja K (jotka olivat ei ole tarkoitus on ajettu ollenkaan) on ajettu genotyypin, mutta ei ilme taulukot. Neljän matriisit on ajettu molempia teknologioita, voimme nähdä, että BADGER riveissä ovat nyt täydellinen. On syytä huomata, että ilmaisu taulukot, joista näytteet G ja J ajettiin olla korkea ”vähintään BADGER pisteet”, joka on merkki siitä, että näyte ei ominaisuus millään genotyypitys array tutkimuksessa.

meidän lähestymistapamme on käsitteellisesti samanlainen kuin äskettäin julkaistun MixupMapper lähestymistapa tähän ongelmaan [2], mutta eroaa täytäntöönpanon takia tietojen luonteeseen, johon sovellamme sitä. Se poikkeaa myös valittaessa toteuttamisympäristössä, jossa BADGER kehitetään R [15] ja MixupMapper Java. Erityisesti Westra ja kollegoiden lähestymistapa näyttää löydettäisiin paras ilmaus ottelu genotyypin array, kun taas meidän on katsoa, ​​ensisijaisesti, paras genotyyppi ottelun ilmaisua array. Se on yleensä helpompi tunnistaa päällekkäisiä genotyypin paneelit kuin kaksoiskappalelauseke taulukot ja näin voimme varmistaa, jos haluamme, että olemme kartoittaa kohti joukon ainutlaatuisia taulukot.

Molemmat lähestymistavat luottavat määrittelemällä etäisyys ilmaus array ja genotyypin array. Meidän toimenpide (jäljempänä ’BADGER pistemäärä) on summa (poikki eQTLs) neliösumma erotus määrää B-alleelit kutsutaan genotyyppi array ja numero ennustettu ilmaisun array. MixupMapper, toisaalta, käyttää normalisoitu summa z-pisteiden välinen ero ennustetun ja havaitun ilmentämiskuvion arvoja. Alaikäisenä lisää yksityiskohtia, MixupMapper katsoo suuruus niiden pisteet, kun taas BADGER tarkastellaan listalla. Luonnollisesti alhaiset pisteet indikoi ottelussa. Valtaosa pakat (mieluiten kaikki, mutta yksi) ei tule ottelun, joten pisteet taulukko, joka tekee ottelun pitäisi olla syrjäisillä ja ottaa listalla yhden.

Koska käsite tunnistaa pinnoitus virheet eQTLs on osoitettu, emme keskittyä perustellaan tai kokeillaan vielä kerran (vaikka muutamat tällaiset tulokset esitetään). Pikemminkin me esiin haasteita soveltaa tällaista lähestymistapaa asukkaan syövän genomiikka tutkimuksessa, ja huomata missä erot on meidän ottaa lähestymistapaa eivät sovellu niihin.

Tulokset

Vaikka ensisijainen tarkoitus ei ole osoittaa jälleen kerran, että eQTL perustuva lähestymistapa kutsuvan ja tunnistamiseen ristiriitaiset näytteet voivat työskennellä, toteamme, että tuloksemme tässä tukisi sanomaa Westra ja työtovereiden [2]. Me sen sijaan pyritään korostamaan joitakin tekijöitä, jotka voivat johtaa virheelliseen tulkintaan tulosten perusteella eQTL perustuva lähestymistapa tunnistaa epäsuhta sovellettuna suurissa -tuumoritutkimuksia. Tarkemmin, harkitsemme vaikutukset menettämisestä Heterotsygoottisuuden (LOH) ja lähtö diploidinen asemasta että odotamme Tuumorinäytteissä, vaikutus soluihin, ja seurauksia, joilla on sekoitus etnisten ryhmien tutkimuksessa. Lisäksi olemme raportoi miten tutkimuksen suunnittelu vaikuttaa meidän kyky käyttää tällaista lähestymistapaa.

Calling Mis-kuvaukset, joissa Kasvainten näytteitä

Westra ja työtovereiden [2] todetaan, että on mahdollista ” identifioida genotyypit, jotka selvästi ei vastaa yhtään geeniekspressiota arrays ”. Jossa takautuvasti saatu kokoelmiin normaalia kudosta tämä näyttää olevan näin, mutta retrospektiivinen tutkimukset kasvainkudoksen, useita muita ongelmia on tullut esiin. Ilmeisin on se, että nämä menetelmät odottaa diploidinen genotyypin puhelut, ja kasvain näytteet voivat olla muuta kuin diploidi (vaikka monet algoritmit tuovat silti diploidisia genotyyppi puheluita näistä näytteistä). Sitten on kysymys strooman saastumisen kasvain näytteitä. Tämä voi, näytteessä, josta DNA uutettiin, vahvistaa eri tasolle kuin näytteessä, josta RNA eristettiin. Lopuksi, saattaa olla mutaatio kasvain, joka häiritsee biologia ajo eQTLs, joiden varaan testit perustuvat.

127 näytettä, joista kaikki neljä matriisia (SNP /ilmentyminen kasvainten ja normaalin kudoksen) ovat käytettävissä, ominaisuuksia otteluita normaaleista ja kasvaimen kudokset on esitetty kuviossa 3. Yleisesti sekä normaali ja kasvaimen ilmaisun taulukot, ”tavanomaisen” genotyyppi array osoittautui paremmin yhteen kuin ”kasvain” genotyyppi array.

127 kvartetoista Hyväksytty kasvaimeen ja normaali genotyyppi-ja-ilmaisun paneelit me kuvaavat suhteellista laatua ottelut välisen neljän eri ilmaisu-genotyypin yhdistelmiä. 127 genotyyppi array paria ovat selvästi hyvin toisiaan (ei esitetty). Meidän lähestymistapamme on tunnistaa laatu genotyypin array ottelussa lausekkeeksi array, ja kaikki tulokset annetaan heijastavat tämän vertailun suunnan. Sillä sarjaa kasvain ja normaali ilme taulukot, ilmoitetaan sen nuolet ovat numero ilmaisun paneelit, jolle kaksi genotyypityksen paneelit ovat yhtä hyviä tulitikut (sama genotyyppi puhelut), numero, josta kasvain genotyypityksen matriisia että näyte on parempi pisteet kuin normaali genotyypityksen array, ja päinvastoin. Lisäksi nurkassa paneelit, mäyrä riveissä ottelut keskuudessa koko datajoukon, johon meillä on pääsy esittelyyn.

huoli siis on, että tilanteissa, joissa emme ole käsitelty normaalia genotyyppi, kasvain genotyyppi joskus olla tarpeeksi hyvä ottelu, jotta voimme antaa ottelun oikein. Anecdotally, tämä ei tunnu tapahtuvan. Yksi mahdollinen selitys on, että ei-diploidi (tai diploidisia mutta kärsivät LOH) luonne kasvain genotyypin häiritsee kutsuminen diploid SNP. Jos suurin osa SNP /ekspression suhteet havaittu eivät suoraan olekaan yhteydessä, niin tämä selittää suhteellisen huono ottelun ominaisuuksia kasvaimen SNP paneelit verrattuna normaaliin kudokseen SNP: itä.

sellulaarisuus ja RNA laatu

Koska normaali genotyyppi array on osoitettu olevan parempi ottelu kuin kasvain genotyypin array, vaikka meidän eQTLs määriteltiin pääosin tuumorinäytteistä, on järkevää olettaa, että soluihin (saastumisesta kasvainkudoksen kanssa strooman kudosta) on vain vähän vaikutusta suorituskykyyn lähestymistavat kuten BADGER. Normaali saastuminen lisää mahdollisuuksia kutsuvan heterotsygoottinen SNP, vaikka kasvain on tehty LOH tai alleeli-spesifinen DNA kopioluvun muutoksia.

Vaikka häiritsi genotyypityksen puhelut johtuen kopioluvun poikkeavuuksia kasvaimet voivat haitata lähestymistavat kuten BADGER, nämä pysyvät tarkan kuvauksen kasvain ja meidän on pyrittävä tunnistamaan näytteen ja yhdistää sitä lausekkeen array. Kuten aiemmin on todettu, huonolaatuisia ilmaisun array voi myös häiritä prosessia [2], mutta laatu jono on arvioitavissa ja voidaan kompensoida tai array voidaan yksinkertaisesti hävittää (ainakin määriteltäessä eQTL suhde) .

Kuva 4 esittää yhdistyksen kahden toimenpiteiden array laatu (katso menetelmät) ja pienin BADGER pisteet liittyy joukko (indikaattori onko vastaavia SNP array löytynyt). Molemmat tilastot ovat hyviä ennustavat suorituskyvyn array, jossa tilastollinen paremmin kuin P95. Selvästi ainakin yksi paneelit tarkoitus olla tyhjä todella oli näyte hybridisoidaan sen, ja numero, joka oli näytteiden niille ei hybridisoitunut. Huomaa, että kun ei ole signaalia array, sijoitus ero ei ole nolla niin voisi olettaa, vaan se on selvästi negatiivinen.

havainnollistamiseksi erilaisia ​​array ominaisuuksia, tämä luku sisältää joitakin huonolaatuinen matriisit (juuri tästä syystä) jätettiin pois METABRIC. Vasen paneeli: kuvaava yhdistyksen välillä 95. prosenttipiste havaittujen log-intensiteettiä (P95) ja minimi BADGER pisteet liittyvä jono. Oikea paneeli: yhdistyksen välillä ja pienin BADGER pisteet. Totesi myös, molemmissa tapauksissa ovat taulukot, joissa ei näyte oli määrä hybridisoitua.

Ethnicities

Käyttämällä pääkomponenttina kuormitukset julkaistu simpukoiden työkalun (www.stats.ox .ac.uk /~ Davison /ohjelmisto /äyriäisten /shellfish.php), voidaan projisoida Affymetrix SNP dataa kolmio, jossa kolme kulmaa edustavat HapMap populaatioita, josta kuormitukset olivat peräisin. Yksinkertaisuuden me termi ryhmät näytteiden jotka muodostavat näissä kulmissa Europe ryhmän, The ’Afrikan ryhmän, ja ”Aasian ryhmä”. Olemme myös havainneet henkilöt välissä Afrikan ja Euroopan ryhmät (joita on yhdistettävä, että ”Afrikka /Eurooppa ryhmä ’) välillä ja Euroopan ja Aasian ryhmien (joita on yhdistää Europe /Asia ryhmä”).

Piirretään keskimääräinen BADGER pisteet (NB pisteet ei listalla), jotka liittyvät kuhunkin genotyyppi sotarintaan ryhmä vasemmanpuoleisessa paneelissa Kuva 5. Näemme, että keskimääräinen pistemäärä on pienempi Euroopassa ryhmässä. Tämä on odotettavissa, koska Eurooppa ryhmä osallistuu valtaosa ilmaisun paneelit meidän ja yhdellä olisi yllättynyt, että nämä voivat ennustaa genotyypit, jotka ovat samanlaisia ​​kuin on saatu muista näytteistä Euroopassa ryhmässä. Myös ollessa suurin, Eurooppa ryhmä potilaita ajaa eQTL kaltaiset yhdistykset käyttävät BADGER ja näiden järjestöjen voivat vaihdella ryhmien.

Jokainen genotyypityksen array verrataan jokaisen ilmaisun array, ja pisteet osoitettu ottelun (alempi pisteet paremmin ottelun). Vasemmanpuoleisessa paneelissa, keskimääräinen pisteet genotyypin array verrataan etnisyyden potilaan kuin päätellä genotyypin array. Oikeanpuoleiseen paneeliin Pisterajat liittyy genotyypitysreaktioseosta array (parempi indikaattori onko ottelun olemassa) on piirretty etnisyys.

Tärkeämpää kuin keskiarvo on pienin pisteet, että mahdollisten genotyyppitestien array osuvan lausekkeen array tietojoukon, voisi odottaa olevan vertailukelpoisia riippumatta etnisyys. Oikeanpuoleisessa paneelissa Kuvion 5 huomaamme, että tämä ei pidä paikkaansa, ja että vaikka useimmat ryhmät ovat todellakin vertailukelpoisia, Afrikka ryhmä esiintyy vähintään tulokset, jotka ovat korkeammat. Meillä ei ole

a priori

syytä uskoa, että tämä ryhmä on yliedustettuina määrän genotyypityksen paneelit, joille ei osuvan lausekkeen array olemassa. Suhteellisen suuri osuus tästä luokasta emme voi olla varmoja välisessä ottelussa genotyypin ja ilmaisun, mutta tämä on todennäköisesti olla seurausta suurempi tulos nähdään Afrikassa ryhmässä kuin sen aiheuttajasta.

emme voi väittää, mistään eQTL pari käytämme, että genotyyppi vietämme todella ajo lauseke (katso seuraava kohta). Parhaimmillaan se on todennäköisesti koodaus SNP varten syy variantti (jos sellainen on), ja suorituskyky koodaus SNP vaihtelee etnisten ryhmien välillä. On havaittu, että vain 50% eQTLs nähdään useassa väestö, ja hyvin pieni vähemmistö useissa [16], [17]. Siten sen ei pitäisi yllättää meidät näkemään käyttäytyminen, kuten on esitetty kuviossa 6, jossa yhdistyksen välillä genotyypin ja lauseke, joka on niin selvä, että Euroopassa ja Aasiassa ryhmiä ei ole ilmeistä Afrikassa ryhmässä. Koska ryhmä on vähemmistönä, ennustettu genotyyppien syntyy näiden henkilöiden yhdistyksen määritelty Euroopassa ja Aasiassa ryhmät on huono parhaimmillaan.

Esitetään log intensiteetin arvot Illumina ILMN_1710752 anturi NAPRT1 geeni pidon genotyyppi vaatii rs10112966 SNP päässä Affymetrix SNP_A-4292499 anturi (kaikki edellä mainitut 8q24.3 alueella ihmisen genomin). Luonnollisesti vain dataa niiltä genotyypityksen ja ilmaisun paneelit, jotka ovat liitettävissä näkyvät. Yhdistyksen on esitetty kolme ryhmää. Yhdistyksen välinen SNP ja geeni on aiemmin todettu [26], kuten myös erilaiset alleeli taajuuksilla ryhmien välillä.

Lähisukulaisia ​​ja validointi

havainnollistamiseksi edelleen näkökohtia me harkita lisätiedot asettaa: genotyypin ja ilmaisun liittyvät tiedot HapMap (vaihe I) näytteet [18], kuten alun perin tutkittu Stranger

et al

. [16], ja käytetään yhtenä havainnollistavan aineistot on MixupMapper paperin [2]. Vaikka ei syöpä tutkimuksen, tämä antaa meille ensin vahvistaa, että BADGER voi tunnistaa ongelmia, MixupMapper tunnistettu, toinen se antaa meille mahdollisuuden tutkia aineisto, joilla tiedetään perherakenteisiin, ja kolmas se tarjoaa havainnollisen tutkimuksessa suurempi tasapaino etnisyyden, tasapaino sukupuoli, ja oletetaan parempia tuloksia, koska tämä oli tulevaisuutta koskeva tutkimus. Lopuksi se tarjoaa enemmän hyödyllistä tietoa asetettu sijoittamisen power näistä tekniikoista. Katso Sweave S1 täydelliset tiedot.

MixupMapper tunnistettu vain yksi sekaannus tässä tietoaineiston löytää että paras ilmaisu ottelu genotyyppitietoja muka näytteestä NA18515 oli, että muka näytteestä NA18517.

CEU väestöstä, on ongelma yksi ilmaisu paneelit liittyy ”NA10856” (merkitty GSM232786_NA10856_2_2). On kuitenkin selvää, että kolme muuta ilmaisua paneelit sopivat hyvin, ja joitakin tutkimus, on ilmeistä, että arvot tämän array ovat identtisiä yksi Yoruban paneelit (merkitty GSM232802_NA18503_1_1), mutta että arvot eroavat GEO, mikä epäselväksi, missä ongelma ilmeni. Voimme spekuloida, että koska MixupMapper olisivat löytäneet hyvän ottelu NA10856 genotyypin array, että se ei olisi merkinnyt tämän olevan ongelmallista.

BADGER me myös huomata, että neljä ilmaisua näytteet liittyvät NA18515 kaikki Tarjoamme genotyyppi array kartoitettu NA18853 parhaana ottelussa. On totta, että ilmaisu paneelit liittyvät NA18517 toisiaan parhaiten SNP array kartoitettu NA18515, mutta tämä johtuu siitä, NA18517 on vanhempi NA18515. Ilmaisu paneelit liittyvä NA18516 (toisen vanhemman) ovat seuraavaksi paras ottelu. Koska lausekkeen array lapselle, odotamme paras ottelu on yksi vanhemmista. Itse asiassa, voimme helposti nähdä genotyypin äiti /isä /lapsi trio että virhe (jos on virhe) on oltava ilmaisua array.

genotyyppi array, joka tarjoaa parhaan ottelu kaikki NA18515 liittyvän ilmaisun paneelit on, että liittyy NA18853. Ottelu on hieman huonompi kuin vastaava ilmaisu array liittyy NA18853, mutta huomattavasti parempi kuin se, joka liittyy NA18854 (lapsi NA18853). Vertailu koko lauseke viittaa siihen, että NA18515 ilmaisua paneelit eivät ole pelkästään vahingossa rinnakkaisnäytettä NA18853. Siten sekoittuminen on vaikea ratkaista tällaisesta etäisyyden, ja suosittelemme poistamalla ilmaus paneelit liittyvät NA18515 analyyseistä mutta jättäisi genotyyppi paneelit kuin ne ovat. Huomaa, että käytämme ilmaisua matriisi antama Westra

et al

. niin voi tehdä mitään väitteitä alkuperäisen tutkimuksen [16].

Vaikka ottelu lähisukulainen ei yleensä ole yhtä hyvä kuin oikea näyte, emme näe tarpeeksi päällekkäisyyksiä arvot jos yksi näytteet puuttuivat silloin olisimme vaarassa virheellisesti liittämällä kaksi olevan samasta yksilöstä. Tämä oletettavasti enemmän vaara, jos genotyyppi array puuttuivat, kuin joidenkin sukulaisten on vaikeampi päätellä ekspressiotietojen.

Kun Han-kiinalaiset ja japanilaiset yksilöitä, koska ne eivät sisällä monimutkaistaa perhe ryhmiä, voimme simuloida näyte kytkimiä ja vahvistavat hyödyllisyys BADGER. Huomaamme, että puolet näytteistä on kytkeä vaatia useamman kuin yhden tuottavampia iteroinnin (viimeinen toisto on aina vahvistaa, että ei enää ole kytkimiä tehdä), ja kaksi kolmasosaa täytyy kytkeä sillä alkaa olla ratkaisematta kytkimiä. Tämä voi olla yli-arvio suorituskyky, koska meidän ”ulkoinen” eQTL setti oli itse asiassa määritelty Westra et al. Näiden tietojen, mutta kilpailevat tästä ovat puute eriytyneisyyden korjaukset käytännössä suodaan ihmisen arvioitava mahdollinen kytkimet ja lab-validointi välillä toistojen. Arvioinnissa täällä oli yksinkertainen ja automatisoitiin simulointitutkimus. Vaikka huomio näihin kohtiin, että 80 90 näytteistä on häiriintynyt ennen lähestymistapaa kuten BADGER ei pysty lisäarvoa on huomattava.

valinta eQTLs

Määrittely eQTLs jasta ovat siten mahdollisesti vaikutusta mahdollisiin geneettisesti erilaista vähemmistöryhmä tutkimuksessa. Westra ja työtovereiden [2] mainita joitakin mahdollisia etuja käyttämällä ulkoisesti määritelty eQTLs. Siellä olisi varmasti hyötyä näin, jos voisimme varmistaa, että kaikki alaryhmiä olivat edustettuina. Tiedetään, että suorituskyky ilmaisun koettimia voidaan vaikuttaa SNP [19], jotka sattuvat katetaan tietty koetin ja että tämä ilmiö voi jäljitellä eQTL käyttäytyminen ( ”cis-eQTL esineitä” [20], [21]). Olemme osoittaneet erityisesti, että tämä on ongelma pidemmän koettimet Illumina BeadArrays [22].

Monet eQTL tutkimukset erottaa tällaista ilmaisua koettimet välttämiseksi vääriä järjestöjen [23]. Suosittelemme, että nämä ”cis-eQTL esineitä” paitsi avustaa prosessissa kuten todetaan Westra

et al

., Mutta voi tarjota vankka perusta virheiden korjaamiseksi. Hyödyntämällä tekninen artefakti tällä tavalla, toivomme olevan vähemmän herkkiä aito biologisia eroja ryhmien välillä potilaiden kuin olisimme jos vedoten yhtenäisyys aidon eQTL käyttäytymistä väestöstä kauttaaltaan.

Alussa valitsi joukon 383 eQTLs pohjalta vahvuus yhdistyksen nähdään tietomme. Merkitys yhdistys on niin paljon mittana jakelun genotyyppien koska se on syrjivä voima ilmaisun-SNP yhdistys, mutta tämä on ensimmäinen pass ja asetettu tarkennetaan osana BADGER lähestymistavan yksityiskohtaisesti Menetelmät . Luonnollisesti jotkut näistä eQTLs ovat ”cis-eQTL esineitä”. Todellakin, tämä ensimmäinen sarja ilmaisun antureista on jo rikastunut antureista, jotka kattavat SNP 184 ulos 383 (48%) kuuluvat tähän luokkaan vastakohtana 11027 ulos 34361 (32%) luotettavat -koetinten jono. Täydelliset tiedot SNP kattavuus Illumina ilmaisun taulukot on esitetty taulukossa 1. Vastaavia tietoja on saatavilla Affymetrix paneelit [24].

Kun joukko ilmaisun-SNP yhdistysten pienenee 125 koetin-paria , se on edelleen rikastettu SNP-kattavat koettimet. Vain 26%: a 199 antureista, jotka eivät kata SNP menestyvän hienostunut joukko, kun tämä nousee 33% varten 119 antureista joka kattaa yhden SNP, 47% että 38 antureista, jotka kattavat kaksi SNP ja 59% varten 27 antureista että kansi yli kaksi SNP.

vahvistaa tässä vaiheessa keskuudessa sarja, on olemassa suuntaus, että enemmän SNP ilmaisua koetin kattaa, sitä pienempi on eroja ennustetun ja Mitatut SNP-anturi että eQTL -alueella. Tämä on esitetty Eurooppa ja Afrikka ryhmien kuvassa 7. Meidän eQTLs ovat painottuu Eurooppaan ryhmä, joka sisältää suurin osa näytteistä ja siten havaitun yhdistysten ovat vahvempia tälle ryhmälle. Huolimatta yhdistykset Afrikan ryhmä on yleensä heikompi, anturit, jotka kattavat useita SNP vielä selittämään käyttökelpoinen osuus vaihtelu log-ilmaisun ja jos valittava satunnaisesti tavalla (esim perustuu pelkästään huomautus) ne voivat tarjota sarja koettimia, jotka on oltava luotettavia sekä eri väestöryhmien.

piirtäminen varten joukon 383 eQTLs keskimääräinen potenssiin jäännökset (ennustettu – havaittu B-alleeli määrä) vastaan ​​määrä SNP jotka sijaitsevat ”alla” ilmaisun anturi mukaan merkinnän. Keskimäärin ennusteet ovat lähempänä havaintoja antureista, jotka sijaitsevat usean SNP.

kokeensuunnittelu

Plate Layout Sex diagnostiikkaohjelmien

Valitessaan erillisiä mutta eri kuvioita, sukupuolen, näytteen layout lautaselle, ja varmistaa, että kuviot eivät pyörähdyssymmetrinen, piirtämisen päätellyn sukupuolten näytteiden levyn antaa selvän ja lopullisen diagnostisia siitä oikea levy on käytetty ja onko oikein päin. Yksittäiset, yksinkertainen, kytkimet vierekkäisten näytteiden (sarakkeessa tai rivissä) ei saa noutaa, mutta voimme maksimoida mahdollisuudet näin valitsemalla malleja mukaan meidän rajoitukset, jotka minimoivat numerot vierekkäisten parien (sarakkeessa tai rivien) ja samaa sukupuolta.

Jos numerot sukupuolten ovat yhtä tutkimuksessa, nappula-taulu kuvio minimoi numerot lähialueiden paria samaa sukupuolta, mutta on pyörähdyssymmetrinen. Pienet häiriöt päässä tarkistin-taulu kuvio on altis sekaannusta (joko itselleen kautta kierto ja pieni määrä kytkimiä), tai toisiinsa (via hieman kytkimet). Näyttää todennäköiseltä, että säännöllinen malli on parempi, sillä perustaminen helpottuu levyn, ja jos vain pieni määrä levyjä tarvitaan niin tämä voi olla mahdollista. Huomaa kuitenkin, että välttääkseen rotaatio symmetrioista, ja erottamattomat levyt, monet yksinkertaiset kytkimiä lautaselle joka lakkaavat olemasta havaittavissa (eli parien viereisten näytteiden samaa sukupuolta) kasvaa nopeasti (kuvassa 8) .

Illustrated kolmella eri malleja sukupuoleen (merkitty väri), jolla näytteitä voitaisiin vahvistaa. On olemassa 172 erilaista naapurimaiden parit (unohdetaan lävistäjät), joka voidaan tunnistaa on 8 x 12 levy, ja niin 172 mahdollisuudet yksinkertaisen kytkimen naapurimaiden näytteitä. Sillä yksinkertaisinta kuvitettu, 36 näistä (kolme kussakin sarakkeessa) ovat samaa sukupuolta, joten me emme voi käyttää sukupuolta tunnisteena paikalla kytkentä näiden näytteiden. Käänteinen tämä malli on identtinen alla kierto kuvattuun suunnitteluun ja niin se voi olla toivottavaa käyttää molempia. Niinpä me nopeasti nähdä, että tarvitaan monimutkaisempia malleja, kuten toisen esimerkin mukaisesti. Useat permutaatiot neljään saraketta tuottaa hyväksyttävää (ja erotettavissa) malleja, joitakin pieniä vaikutus määrä näytteen kytkee tunnistaa suunnitteluun. Kolmannessa muotoilu osoittaa, kuinka mahdollisesti houkutteleva ulkoasu, mistä näkökulmasta mukavuussyistä, on huono kyky havaita yksinkertaisia ​​kytkimiä näytteiden – tuskin menee paremmin kuin satunnainen ulkoasu.

Vastaa