PLoS ONE: virtaviivainen Menetelmä tutkittavan rakenne- vaihtoehdot in Cancer Genomit Short Read Parilliset-End Sequencing

tiivistelmä

määrittäminen arkkitehtuuria tietyn syövän genomin, mukaan lukien sen rakenteellisia variantteja, on olennaista ymmärtää tuumoribiologiassa mekanismeja syövän synnyn, ja tehokkaiden henkilökohtaista hoitoja. Lyhyt luku pariksi lopussa sekvensointi on tällä hetkellä kaikkein herkkä menetelmä havaitsemiseksi somaattisista mutaatioista, jotka syntyvät kasvaimen käsittelyn aikana kehittämistä. Kuitenkin kartoittaminen rakenteellisia variantteja tällä menetelmällä johtaa suuri määrä vääriä positiivisia puhelujen, lähinnä toistuvuus genomin ja vaikeus osoitetaan oikea kartoituksen kannat lyhyt lukee. Tässä tutkimuksessa kuvataan menetelmä tehokkaasti tunnistamaan suuri kasvain-erityisiä poistot, inversioiden, päällekkäisyyksiä ja alueelta toiselle siirtäminen matalan kattavuus dataa SVDetect tai breikkaaja ohjelmistojen ja joukko uusia suodatusproseduurit suunniteltu vähentämään vääriä positiivisia puhelut. Soveltamalla menetelmää spontaanin T-solu lymfooma, joka kertyy ydin rag2 /p53-puutosta hiiri tunnistimme 40 validoitu kasvainspesifisiä, järjestelyihin tuettu niin vähän kuin 2 itsenäistä lukea paria.

Citation: Mijušković M, Brown SM, Tang Z, Lindsay CR, Efstathiadis E, Deriano L, et ai. (2012) virtaviivainen Menetelmä tutkittavan rakenne- vaihtoehdot in Cancer Genomit Short Read Parilliset-End Sequencing. PLoS ONE 7 (10): e48314. doi: 10,1371 /journal.pone.0048314

Editor: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

vastaanotettu: 16 heinäkuu 2012; Hyväksytty: 24 syyskuu 2012; Julkaistu: 29 lokakuu 2012

Copyright: © 2012 Mijušković et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat avustuksen PN1EY018244 National Institutes of Health tiekartta aloitteen nanolääketieteessä (nanolääketieteen Development Center palkinto) ja National Institutes of Health myöntää R01CA104588 on DBR. SMB ja ZT osittain tukee National Institutes of Health /National Center for Research Resources avustusta U54 RR024386-01A1 (Clinical Translation tiedepalkinto) New York University Medical Center. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

somaattinen rakenteellisia variantteja (SV), kuten suuret deleetiot, insertiot, inversiot, päällekkäisyyksiä ja alueelta toiselle siirtäminen ovat tärkeitä tunnusmerkkejä syövän genomien vastaava luomisesta -fuusiogeenit, kopioiden määrä ja sääntelyn muutokset johtavat aktivointia tai yliekspressio onkogeenejä ja inaktivointi tuumorisuppressorigeeneille [1], [2], [3], [4], [5], [6]. Määrittely arkkitehtuuri tietyn syövän genomin vuoksi on tärkeää ei ainoastaan ​​ensimmäinen askel kohti ymmärrystä biologian kasvain ja mekanismeja syövän synnyn, mutta myös kliinisesti kohti tehokkaiden yksilöllisiä hoitoja [7], [8].

Viimeaikaiset edistysaskeleet suurikapasiteettisten sekvensointitekniikan [9], [10] ovat mahdollistaneet opiskella koko genomien ennennäkemättömän korkea resoluutio ja suhteellisen alhaiset kustannukset. Kuitenkin nykyinen lyhyen read pariksi-end sekvensointiteknologioihin kuljettaa monia haasteita, varsinkin ilmeinen, kun yritetään selvittää SV syövän. Ensinnäkin monimutkaisuuden kasvainkudoksen [11], [12], [13] on haaste sinänsä, koska kasvaimet ovat harvoin monoklonaalisia ja sekoitetaan usein normaalia kudosta, joten sekvensointi kattavuus on syvempi kuin SV havaitsemiseen ituradan. Toiseksi, lyhyt lukee syntyy pariksi loppuun sekvensointi (tyypillisesti 50-100 emäsparia kummastakin päästä 300-400 emäsparin DNA-fragmentti) osoittautua vaikeaksi kartoittaa oikein takaisin viittaus genomin johtuen suuri osa toistuvia genomisekvenssien [14], [15], [16], [17]. Kaikki tämä johtaa suuri määrä vääriä positiivisia puheluita, tuottaa liian suuria määriä melua. Retrotransposonin toimintaa, yhteisiä ihmisen ja hiiren genomeja [18], [19], lisäksi hankaloittaa tietojen analysointi johtaa tietyntyyppisten vääriä positiivisia puhelut. Lopuksi, DNA-kirjaston valmistelu esineistöä johtuvat PCR-monistuksen yhdistettynä sekvensointivirheitä lisätä toisen tason monimutkaisuus.

Tässä työssä kuvataan kokonaisuudessaan Genomikartoituksen lähestymistapa tunnistaa 4 eri SV: suuria deleetioita, inversioiden, päällekkäisyyksiä ja alueelta toiselle siirtäminen . Käytimme SVDetect [20] ja breikkaaja [21] kutsua SV on hiiren lymfooma genomin joukon pariksi lopussa lukee saatuna Illumina n HiSeq alustalla. Vähentääkseen suuri määrä vääriä positiivisia puheluiden kehitimme suodatus menettely, joka mahdollistaa havaitsemisen kasvain-tapahtumia suhteellisen heikko kattavuus (17x). Ensin löysimme välttämättömänä verrata kasvaimen aineisto ituradan näyte saadaan samasta eläimestä, poistaa suuri määrä ituradan SV (enimmäkseen johtuvat retrotransposonisekvenssin aktiivisuus) havaittu koe-eläimen verrattuna viite genomiin. Toiseksi, olemme kehittäneet menetelmiä poistamaan read paria merkitty ristiriitainen tasauksen vuoksi virheitä sekä epätäydellinen PCR kaksoiskappaleita, jotka johtuvat DNA-kirjaston valmistelu ja sekvensointivirheitä. Kolmanneksi sovelletaan useita suodattimia tuottamat tulokset SV kutsuvan ohjelmia, kuten päällekkäinen selityksin yksinkertaisia ​​toistoja ja alhainen mappability alueita, jotta voidaan tunnistaa suuri luottamus SV ehdokkaita. Me osoitamme PCR ja Sangerin sekvensoinnilla validointi 40 kasvain-spesifisen SV yhdessä kasvaimen genomin tuettu niin vähän kuin 2 itsenäistä lukea paria.

Yhteenvetona, menetelmä esitetään tässä yksinkertaistaa analyysissä korkeampi näytteen suoritusteho. Se tarjoaa myös suuri herkkyys, joka mahdollistaa havaitsemisen harvinaisia ​​variantin klooneista monimutkaisissa seokset, jotka saattavat olla tärkeitä prognostista tai terapeuttista seurauksia.

Tulokset ja keskustelu

perustaminen Initial analyysiparametrit

käytetyt pariksi-end (PE) sekvensointi simulaatioita välineenä vahvistaa alkuperäisen analyysiparametrit, määrällisesti vaikutus sekvensointi syvyyttä havaitsemiseen tunnettujen SV, ja tutkia linjaus liittyviä vääriä positiivisia. Me simuloitu uudelleen järjestetyn genomin perustuu C57BL /6J hiiri viite (mm9), käyttöön 10 kromosomien välisen toiselle siirtäminen ja 10 suuria deleetioita alueille vaihtelevia mappability (taulukko 1). Lue pituus, keskimääräinen insertin koko ja keskihajonta insertin koon valittiin edustavan meidän kokeellisen datan (50, 315, 44, tässä järjestyksessä). Käyttämällä kolmea riippumatonta simuloitu aineistoja 10, 20, 40, 80 ja 160000000 lukea paria, arvioimme havaittujen todellinen ja vääriä positiivisia, sekä havaitsemisen todennäköisyyden funktiona paikallisen mappability.

PE sekvensointi osoittautunut tehokas menetelmä SV detektiolla kattavuus tasolla, joka vastaa 80 tai useamman miljoonan lukea paria. 90% tapahtumista meidän simuloitu jäsensi genomin tunnistettiin 160 miljoonaa luku- paria, noin pienin nykyisin saatavissa yhdestä kaistaa käyttäen Illumina HiSeq alustan (Fig. 1A). Kuten odotettua, havaittavuutta tietyn uudelleenjärjestely voimakkaasti riippuvainen murtuessa microenvironment, enemmän kattavuutta tarvitaan paljastamaan tapahtumien alueilla alemman mappability (Fig. 1 B). Arvioitaessa vääriä positiivisia, huomasimme, että 97% kaikista SV puheluiden syyksi lukee enemmän kuin yksi yhtä pätevä kartoitus asentoon. Nämä lukee peräisin eri toistuvat genomialuetta (kuten sentromeerisen satelliitti-sekvenssit, retroelements, RNA-geenit, jne.), Ja ne oli poistettu analyysistä. Tutkittuaan BWA kartoitus laadun tulokset lukee edistää todellisia ja vääriä positiivisia, päätimme sulku 23 analyysimme (jatkokeskusteluille, katso ”Väärät johtuvat BWA kohdistus virheiden

). On huomattava, että sulku on valittu perustuu halutun suhteen todellisen ja vääriä positiivisia, joissa alempi sulku kasvaa herkkyyden kustannuksella spesifisyys. Levittämisen jälkeen BWA kartoitus laadun raja meidän simuloitu aineistoja, havaitsimme enää vääriä positiivisia liittyvät lukea kartoitus virheitä. Huomasimme kuitenkin, kokoon liittyviä vääriä positiivisia että esiintyi yhä kattavuutta. Nämä väärät positiiviset ovat pieniä deleetioita, jotka ovat peräisin yläpäähän ja päällekkäisyydet peräisin alapään normaalin DNA-kirjastosta fragmentti kokojakauma. Korjaamiseksi teräkoko liittyviä vääriä positiivisia, käytimme koko sulku 8 keskihajonnat ja soveltanut sitä analyysimme. Tämä parametri olisi määriteltävä kunkin kirjaston erikseen, riippuen halutusta herkkyys: lisäämällä keskihajonta cutoff johtaa yhä vähäinen havaittavissa poisto ja päällekkäisyyksien kokoa. Riippuen analysoinnin tarpeisiin, se voi olla hyödyllistä käyttää alempaa keskihajonnan cutoffs sekä arvion määrästä tukea lukea paria, kuten SV joiden lukumäärä on suurempi tukeva lukea paria voi osoittaa todellinen tapahtuma. Tämä lähestymistapa tulee käyttää varoen, kun analysoidaan kasvainnäytteestä joissa lasku tai nousu kopioluvun voi johtaa vääriin johtopäätöksiin.

) Detection of SV funktiona kattavuus, B) lukumäärä tukeminen kuuluu funktio mappability.

Simulaatiot PE sekvensoinnin osoittautunut hyödylliseksi välineeksi kehitettäessä data suodatus strategiaa. Optimoinnin jälkeen alkuparametreja kuvatulla tavalla ja poistamalla kaikki vääriä positiivisia puhelut simuloitu aineistoja, SV puhelut kokeellisessa aineisto voisi johtua näytteen ja koemenettely itselleen eikä analyysi artefakteja. Simulaatiot ovat myös hyödyllisiä keinona ennustaa riittävän kattavan havaitsemiseksi tietyntyyppisten tapahtumia. Tärkeää on, kun liittyviä simulaatioita Kokeellisten tietojen analysointi, se on otettava huomioon, että odotettu taajuus uudelleenjärjestelyjä, ja siten kattamisalueen, on yleensä 50% johtuen diploidinen genomin luonnetta. Mikäli heteroclonal tai epäpuhtaan näytteen (tavanomainen tapaus käsiteltäessä kasvain näytteet), tämä taajuus odotetaan olevan vieläkin alhaisempi.

Tietojen suodatus

Kuten kokeellinen aineisto, me valitsi karakterisoimattomasta kateenkorvan lymfooma saatu rag2

c /CP53

– /- hiiri. Kateenkorvan lymfoomat spontaanisti syntyvien tässä hiirimallissa satama useita rakenteellisia uudelleenjärjestelyjä kuten translokaatiot, suuret poistot ja monistumiset [22]. Illumina n pariksi-end sekvensointi valittiin yli mate pari strategiaa, jota me luovuttiin alussa kurssin tämän työn ongelmien vuoksi DNA-kirjaston valmisteluun. Olemme sekvensoitiin kaksi genomisia kirjastoja, joka saadaan kiinteästä kasvainkudoksen ja muut maksan saman eläimen (ituradan kontrolli). Olemme löytäneet ohjaus kirjasto on tärkeää, koska suuri määrä ituradan SV peräisin jäännökset 129 kannan tausta (hiiri oli alun perin luotu 129SvEv /C57BL6 hybridi). Kasvain ja ohjaus kirjasto sekvensoitiin 17x ja 9x fyysisen kattavuus, vastaavasti (taulukko 2, kuva. 2).

A) Kasvain aineisto, B) Ohjaus aineisto. Kasvain aineisto osoittaa erilaisen suhteellisen jakautuminen peitto perimän epävakaisuuden. Kromosomiluku muutokset ovat ilmeisiä varten chr1, CHR 2, CHR 15 (~ 3 kappaletta), CHR4 ja chr14 (~ 4 kappaletta), CHR8 (~2.5 kappaletta).

Käytimme SVDetect (kuvio . 3A) ja breakdancer (Fig. 3B) kutsua alkuperäisen SV, koska nämä ovat kaksi yleisimmin käytetty suuria rakenteellisia variantti tunnistusohjelmat sovellettavan 50 emäsparin lukea PE tietoja. Yleensä analyysin avulla breikkaaja perin tuotettu enemmän kromosominvälinen ja vähemmän kromosomien välisen SV puhelut verrattuna SVDetect, ehkä johtuu eroista klusteroitumisstrategiaa. Sama analyysiparametrit ja suodatus menettelyä sovellettiin molempien ohjelmien, jolloin saatiin samanlaisia ​​tuloksia lopussa.

Kaavio näyttää kokonaismäärä SV kutsuu mukaan SVDetect (A) tai Breakdancer (B), kuten peräkkäistä suodatusta vaiheita sovelletaan . NO FILT- Ei suodatusta (paitsi poistaminen täydellinen PCR kaksoiskappaleet ja lukee nolla BWA kartoitus laatu), M laa- poistaminen lukee 23 BWA kartoitus laatu, minä DUPL- poistaminen lukee kategoriassa ”epätäydellinen kaksoiskappaleet”, ohjaus- vertaamalla kasvain aineisto kontrolliin, lOW MAP- Post-SV havaitseminen suodatus puheluiden päällekkäisten alhainen mappability alueilla, SIMP edus- Post-SV havaitseminen suodatus puheluiden päällekkäisiä yksinkertainen toistoja, asiakkail- Custom suodatus jäljellä puhelut perustuvat uudelleenjärjestelyt tyyppi (katso tekstistä yksityiskohdat).

toisin kuin simulaatioita, analysointi kokeellista tietoa johti suuri määrä vääriä positiivisia puhelujen levittämisen jälkeen perin perustettu analyysiparametrit kuvattu edellä. Määrittelemme nämä vääriä positiivisia tapahtumiksi tukee lukee kartoitus toistuvien genomialuetta, sekä ne, jotka ulottuvat alueille retroelement aktiivisuutta. Määrä vääriä positiivisia oli erityisen suuri keskuudessa kromosomien välisen SV, selittyy suurempi todennäköisyys toistuvia luku on vinossa kromosomiin poikkeaa perämies. Jotta voitaisiin löytää ja validoida todellinen kasvainspesifisiä variantteja, oli tarpeen analysoida lähde näitä puheluita ja alentaa niitä hallittavissa. Havaitsimme 3 päätyyppiä vääriä positiivisia vaatii, riippuen niiden lähteestä: 1) väärien positiivisten liittyvä vaihtelu hiirikantojen, 2) väärien positiivisten johtuvat yhdenmukaistaminen virheitä, ja 3) väärien positiivisten liittyvät PCR kaksoiskappaleet peräisin näytteen valmistus yhdistettynä sekvensointivirheitä. Olemme kehittäneet erilaisia ​​esi- ja jälki-ilmaisua suodatusproseduurit voidakseen kiertää nämä haasteet.

vääriä positiivisia liittyvät rakenne- vaihtelu välillä Laboratory hiirilajilla

Rakenteelliset vaihtelua yleisesti käytetty laboratorio hiirikantojen, samanlainen rakenteellinen vaihtelu yksittäisten ihmisten välillä, on jo dokumentoitu hyvin yksityiskohtaisesti [23], [24], [25]. Useimmat knock-hiirillä, mukaan lukien yksi tässä tutkimuksessa käytetyt, voidaan luokitella hybridikannoista, vaikka eläimet takaisinristeytettiin useita kertoja viitteen genomin kanta (C57BL /6J). Havaitut SV voi useimmiten johtuu ituradan retroelement aktiivisuutta, ja ne ilmenevät kuten insertioita SINE, LINE ja LTR elementtejä sekä käänteiskopioitiin intronitonta geenejä (retrogenes). Kun kokeellinen aineisto verrataan C57BL /6J viittaus genomin, useita rakenteellisia variantteja kutsutaan. Yleisimmin retroelement insertioita läsnä viittaus, mutta puuttuu näytteessä kanta, kutsutaan deleetioina, kun taas näytteessä rasitusta, mutta puuttuu viittaus tullaan kutsutaan tasapainoinen translokaatioita. Insertioita retrogenes voidaan tunnustaa monia deleetioita kattaa introneja, mukana on translokaatio puhelun kromosomista peräisin vastaanottajalle kromosomiin (Fig. 4).

A) retrotransposonisekvenssin lisäys eri kromosomi johtaa väärä translokaatio puhelun B) retro- transposonin insertion samaan kromosomiin kuin alkuperäinen johtaa virheellisesti poisto puhelun, C) käänteiskopioitua intronitonta geeni (retrogene) lisäys eri kromosomi johtaa väärien translokaatio ja poisto puhelut.

jotta suodattaa ituradan SV edellä kuvattujen löysimme tarpeelliseksi saada valvonnan aineisto sekvensoimalla normaalia kudosta peräisin samasta eläimestä. Tässä tutkimuksessa, ohjaus aineisto valmistettiin käyttäen maksakudosta ja verrattiin kasvaimen aineisto. Käyttämällä tätä strategiaa, pystyimme poistamaan suurimman ituradan SV. Kuitenkin tietyt SV ei voida havaita ituradan puutteen päällekkäisyyttä tukevien lukea paria. Siksi meillä oli tutkittava kukin SV manuaalisesti mahdollisesti jäänyt päällekkäisyyttä ohjaus. Senkin jälkeen soveltamalla vertailun menettely, useita tapahtumia me tunnistettu laadukkaita ehdokkaita todennettu ituradan (30% kromosominvälinen ja 50% kromosomien välisen SV). Tämä tulos voidaan selittää alentamaan kattavuuden meidän ohjaus aineisto, mikä vähentää herkkyyttä ituradan SV havaitsemiseen. Aneuploidy kasvainkudoksen (lisäkopioita joidenkin kromosomeja tai menetyksestä muut) luo paikalliset erot kattavuuden välillä kasvain ja ohjaus aineisto, mikä lisää monimutkaisuutta analyysi (Fig. 2).

vääriä positiivisia Arising alkaen BWA Tasaus virheet

Voit poistaa vääriä positiivisia että yhdenmukaistamista koskevat virheitä, testasimme vaikutus BWA kartoitus laadun pisteet perustuva suodatus lukumäärästä tuloksena SV puhelut. Vaikka BWA kirjoittajat nimetä lukee kanssa 0-10 kartoitus laatu ”epäluotettavasti kartoitettu” [26], löysimme paras sulku alue kartoittamiseen laatupisteet meidän kokeessa olla 0-22 (Fig. 5). Osittain oikea-toivotun poistamisen todellinen SV ehdokkaiden vähemmän ainutlaatuisia genomialuetta, puhelut paljon tukevien luku- paria tutkittiin käsin. Kuitenkaan yksikään tutkituista poistettu SV voitaisiin nimetä laadukkaita ehdokkaita, koska niissä kaikissa mukana genomista harvaan mappability. Sen jälkeen soveltaa tätä lukea kartoituksen laatua suodatin ennen muuta suodatusta käytetään, määrä kutsutaan SV pienennettiin 85% varten kromosominvälinen ja 36-39% varten kromosomien välisen tapahtumia (Fig. 3).

ristiriitainen lukee kartoitusta ominaisuuksia yli 22 käytetään tässä analyysissä (laatikko).

edelleen vähentää SV puhelut johtuvat epäsuhdasta lukee peräisin toistuvia alueita, testasimme strategia poistamiseksi SV kanssa päällekkäisiä RepeatMasker [27] ja yksinkertainen toistojen kirjaa UCSC Genome Browser. Huomasimme, että RepeatMasker strategia vähentää määrä vääriä positiivisia puhelut merkittävästi, mutta suodattaa 12% aiemmin validoitu uudelleenjärjestelyjä, joista osassa mahdollinen biologinen merkitys (esim. PTEN poistetaan). Tärkeää on, lukee tulevat RepeatMasker selityksin alueet eivät välttämättä vaikea kartta yksilöllisesti, sillä tämä kappale sisältää monia vanhoja toistuvia elementtejä, jotka ovat merkittävästi eriytyneet evoluution. RepeatMasker suodatus strategia lopulta käytetään vain tunnistamiseen suuri luottamus ehdokkaiden joukossa kromosomien välisen tapahtumia, joilla on alhainen määrä tukea lukea paria. Toisin kuin RepeatMasker, päällekkäisyys yksinkertaisia ​​toistoja radan todettiin olevan onnistunut suodattamalla pois yhdenmukaistaminen virhe liittyviä vääriä positiivisia vain.

Koska toinen strategia käsitellä toistuvia elementti liittyviä vääriä positiivisia, testasimme tehokkuus suodatus SV vastaan ​​matalan mappability alueita, lasketaan mappability datan UCSC Genome Browser (katso materiaalit ja menetelmät). Tämä strategia osoittautui erittäin onnistuneeksi, poistamalla huomattava määrä vääriä positiivisia puhelujen erityisen tehokkaita tapauksessa kromosomien välisen SV (Fig. 3).

vääriä positiivisia liittyvät virheet Monista Calling

aikana meidän analyysi, huomasimme vääriä positiivisia kutsutaan pienistä klustereita 2 tai 3 lukea paria, molemmilla lukee kartoitus asemissa 0-2 emäsparin päässä toisistaan ​​(Kuva. 6). Kuten jo keskusteltu muiden alalla [28], suurin osa näistä ”epätäydellinen kaksoiskappaleet” todennäköisesti peräisin yhdeltä DNA-fragmentti ja eriytyneet joko PCR-monistuksen aikana, ehkä johtuu templaattinauhaan liukastuminen tai sekvensointivirheitä alussa tai lopussa lukea aikana sekvensointi menettelyssä. Nämä bona fide kaksoiskappaleita ei voi poistaa käyttämällä olemassa olevia välineitä, kuten Picard MarkDuplicates koska niillä ei ole samanlaisia ​​kartoitus kantoja. Prosenttiosuus epätäydellinen kaksoiskappaleet näyttää korreloivan prosenttiosuuden täydellisen PCR kaksoiskappaleita: erityisiä aineistoja korkea täydellinen kahtena prosenttiosuus osoittaa suurempi osuus epätäydellinen kaksoiskappaleita (M. Mijušković, tulokset eivät kuulu tämän tutkimuksen).

Three lukea paria, todennäköisesti peräisin yhdeltä DNA-fragmentti, joka esittää 1-2 emäsparin tasoittaa genomista koordinaatit.

määritellään epätäydellinen kaksoiskappaleet pareittain samalla kartoitus asema sekä lukee mahdolliseen offset jopa 2 kp. Detection näistä kaksoiskappaleet tehtiin aikana klusterointi ristiriitainen luetun parit SVDetect tai breikkaaja käyttäen erilaisia ​​strategioita (katso materiaalit ja menetelmät). Levittämisen jälkeen tämä suodatin, määrä kromosominvälinen ja kromosomien välisen SV väheni 0,3-1,7% ja 3,9-19,5%, vastaavasti (kuvio 3). Mikä tärkeintä, nämä luvut saattavat aliarvioida koko epätäydellinen kahtena prosentuaalinen koska tässä tapauksessa ne havaittiin poistamisen jälkeen pieni kartoitus laatu lukee.

validointi rakenne- vaihtoehdot

Loimme lopullisen luettelon 61 suuri luottamus SV (katso materiaalit ja menetelmät) jälkeen manuaalisen tutkimisen 381 kromosominvälinen ja 130 kromosomien välisen SV havaita SVDetect ja 328 kromosominvälinen ja 64 kromosomien välisen SV havaita breikkaaja soveltamisen jälkeen saatua meidän suodattamista. Suurin osa näistä puheluista, nimeltään molempien ohjelmien, havaittiin joko olla seurausta linjaus liittyvien virheiden toistoja (59%), tai aikaisemmin tunnistamaton ituradan SV kuten retroelement tai retrogene insertiot (23%). Breakdancer havaitaan vain osa korkea luottamus SV saapuvat SVDetect (47 joukosta 61), jo ennen kuin mitään suodatusta haettiin, ehkä johtuu eroista klusterointialgoritmi.

käyttää PCR testata 57 kromosominvälinen ja 4 kromosomien välisen korkea luottamus SV havaitsemien breikkaaja ja /tai SVDetect (taulukko S1). Sarjasta, me validoitu 23 suuri (1-539 kb) poistot, 10 kertaa käännellen, 5 päällekkäisyydet ja 2 translokaatioita kasvainspesifisiä ja spesifisyys PCR-tuotteet varmistettiin Sangerin sekvensoinnilla (taulukko 3). Siten 40 61 suuri luottamus SV tunnistaa menetelmämme todensi kasvainten erityisiä SV. Toinen 19 kromosominvälinen ja 2 kromosomien välisen tapahtumia PCR todennettu ituradan SV. 16 pois 21 Näistä SV oli ainakin yksi tukemaan lukea pari alkuperäisessä ohjaus aineisto ja epäonnistui voidaan havaita, koska meidän 2 tukemiseen lukea sulku. Näitä vääriä positiivisia voidaan välttää joko sekvensoimalla kontrolli aineisto korkeampiin kattavuus, jos mahdollista, tai tutkimalla ohjaus aineisto käyttäen 1 lukea pari sulku.

joukossa validoitu kasvainspesifisiä SV, löysimme useita kasvain-estävä geeni poistot sekä joitakin odotettuja kanoninen antigeenin reseptorin geeni uudelleenjärjestäytymistä (taulukko 3). Varsinkin kaksi kasvainspesifistä translokaatiot, kaksi inversioiden ja yksi validoitu kasvainspesifisiä päällekkäisyyden merkkejä monimutkaisen uudelleenjärjestelyn [29].

Johtopäätökset

Ensinnäkin meidän työ osoittaa, että simuloidaan pariksi-end sekvensointi voi olla tehokas tapa kehittää analyysiä strategian, ennustaa kattavuus tarpeen havaita DNA breakpoints erilaisissa genomista ympäristöissä ja erottaa lähteistä vääriä positiivisia puhelua näyte liittyviä ja ne, jotka johtuvat analyysiin artefakteja.

toinen olemme havainneet, että ohjaus aineisto on saatu samasta eläimestä on tärkeää vähentää useita ituradan SV: ille, että välillä käytetään yleisesti laboratoriossa hiirikantojen, myös niissä tapauksissa, kun eläimiä takaisinristeytettiin useita kertoja viittaus genomin rasitusta.

Kolmanneksi, olemme määritelleet kahdenlaisia ​​monistaa lukee johtaa väärien SV ennustus, molemmat johtuvat PCR yli-monistaminen näytteen valmistuksen aikana: täydellinen kaksoiskappaleet, yhteensopivat genomista koordinaatit, ja ne, joilla on 1-2 emäsparin koordinaatti offset joita ei voida havaita nykyisten työkalujen. Esitämme tapa poistaa SV syntyvän lukee joko SVDetect tai breikkaaja.

Neljänneksi, huomaamme, että poistaminen lukee alhainen BWA kartoitus laadun sekä SV puhelut kanssa päällekkäiset genomista harvaan mappability, on erittäin tehokas keino suodattaa meidän suuren määrän vääriä positiivisia, jotka johtuvat linjaus virheitä.

Lopuksi tällä menetelmällä, me validoitu melko suuri joukko tosi kasvainspesifisten SV peräisin melko pieni aineisto. Alkaen useita ehdokkaan tapahtumia, pystyimme nopeasti hävittää enemmistön väärien positiivisten ja keskittyä taipuisa useita ehdokkaita manuaalinen analyysi (-5% alkuperäisestä määrän puheluja tästä aineisto). Me validoitu suodatintyökalumme menetelmä, jossa on kaksi laajalti käytetty SV tunnistusohjelmat, SVDetect ja breikkaaja, joka osoittaa, että se on yleispätevää, eikä rajoituta vain yhteen ohjelmaan ja sen mahdollisia puutteita. Lopullinen määrä ehdokkaan tapahtumia, samoin kuin määrä vääriä negatiivisia, on tehtävä kattavuus ja tiukkuus suodatuksen parametrit. Riippuen kokeen tarpeiden, nämä parametrit voidaan asettaa halutulle tasolle, jotta saavutetaan hyväksyttävä väärien positiivisten lukumäärän vs. vääriä negatiivisia.

menetelmää olisi sovellettava tulevaa työskentelyä varten mallissa organismien sekä ihmisen kasvaimissa. Kliinisessä yhteydessä, korkeammasta tasosta tarvittaisiin vähentää havaitsematta ituradan SV, sekä parantaa havaitsemista matalataajuista somaattisen SVS.

Materiaalit ja menetelmät

simulointi PE Sequencing data

simuloitu PE sekvensoinnin aineistot luotiin perustuu mutatoitunut hiiren viite genomi (mm9), joka sisältää 10 translokaatiot ja 10 suuria deleetioita käyttöön käyttämällä EMBOSS työkalujen (https://emboss.sourceforge.net). Illumina muoto fastq tiedostot kirjoitettu käyttämällä PE.pl ohjelmaa (https://sourceforge.net/projects/svdetection), joka valitsee satunnaisen tehtävissä käyttäjän tarjoama genomin, normalisoitu eri kromosomi pituudet. Käyttäjän määrittämät parametreja ovat useissa lukea paria, lukea pituus, keskimääräinen insertin koko ja keskihajonta.

saaminen tutkimustiedoista

thymoma ja maksan (valvonta) kudosta kerättiin peräisin rag2

c /CP53

– /- hiiri [22], joka on 129SvEv /C57BL6 hybridi-kannan, ja genominen DNA puhdistettiin käyttäen Veren Cell Culture DNA Maxi Kit (Qiagen, # 13362). Parilliset-end kirjastot muodostettiin 1 ug alkaen genomisen materiaalin molemmista kudoksista käyttäen TruSeq DNA v2 Näyte Prep Kit (Illumina, # FC-121-2001) valmistajan suositusten mukaisesti. Optimaalinen PCR-monistus adapteri ligoitiin DNA määritettiin käyttäen FlashGel DNA System (Lonza, # 57026). Kirjastot analysoitiin kokojakauma käyttäen Agilent 2100 Bioanalyzer (Agilent Technologies, # 5067-4626) ja DNA: n konsentraatio määritettiin käyttämällä Qubit dsDNA HS Assay Kit (Life Technologies, # Q32851). Näytteet sekvensoitiin Illumina HiSeq 2000 käyttäen TruSeq PE Cluster Kit v3 (Illumina, # PE-401-3001) ja TruSeq SBS Kit v3 (Illumina, # FC-401-3002), mukaisesti valmistajan suositusten mukaisesti. Kaksi kaistaa käytettiin sekvensoimaan kasvain ja yksi kaista ohjausta varten DNA-kirjasto (SRA hakunumero: SRA055958).

PE Read Linjaus ja laatu suodatus

Fastq tiedostot luotiin käyttäen Casava 1,8 ( Illumina) ja lukee rinnastettiin käyttämällä BWA [26]. Output tiedostot manipuloida Samtools tarpeen [30]. Täydellinen PCR kaksoiskappaleet poistettiin käyttäen Picard MarkDuplicates työkalu (https://sourceforge.net/apps/mediawiki/picard). BWA-nimetty yhtäpitävät lukea paria ja lukea paria alhainen BWA kartoitus laatupisteet poistettiin omilla ohjelmisto (https://sourceforge.net/projects/svdetection), tarpeen mukaan.

Soitto rakenne- vaihtoehdot ja poistaminen Imperfect Kopiot

SVDetect [20] tai breikkaaja [21] käytettiin soittaa kromosominvälinen ja kromosomien välisen uudelleenjärjestelyt alkaen ristiriitainen, laatu esisuodatettava lukea paria. Mean insertin koko ja keskihajonta käytetään tässä analyysissä saatiin Picard InsertSizeMetrics työkalu (https://sourceforge.net/apps/mediawiki/picard). SVDetect ja Breakdancer oli konfiguroitu ilmaisemaan-järjestelyn 2 tai useamman tukevat lukea paria käyttäen 8 kertaa keskihajonta kynnystä sekä poistot ja päällekkäisyyksiä. SVDetect sisäänrakennettu ”vertailla” -toimintoa käytettiin vertailun kasvain ja valvonta aineistot. Verrattaessa puhelut, mahdollisuus vertailla vain saman SV tyyppi oli pois päältä. SV tunnistus breikkaaja, kasvaimen normaaliin Vertailu tehtiin käyttäen BEDTools [31].

Poista PCR päällekkäisyydet 1-2 emäsparin offset koordinaatit ( ”epätäydellinen kaksoiskappaleet”), me manipuloitu tulostetiedostoon luoma SVDetect ”yhdistää” -toiminnon avulla oman ohjelmiston (https://sourceforge.net/projects/svdetection). Tämä tiedosto luettelee klustereita luetun paria tukemaan samaa uudelleenjärjestely ja sisältää koordinaatit yksittäisten tukea lukee. Parit jossa molemmat lukee sijoitetaan 0, 1 tai 2 emäsparin päässä toisistaan, -suuntaista, poistettiin kuten epätäydellinen kaksoiskappaleet. In Breakdancer-pohjainen SV analyysi, muutimme pienin SV ankkurointi alueasetuksen 3, jotta vältettäisiin SV kutsutaan klusterimalleja epätäydellisen PCR kaksoiskappaleet. Tutkimme myös lukee tukemalla SV puhelut breikkaaja tuotettu vuode tiedostoja ja käyttää omaa ohjelmistoa poistaa kaikki SV: t johtuvat epätäydellisestä kaksoiskappaleita (https://sourceforge.net/projects/svdetection).

Määrittely suuri luottamus SV ehdokkaat

Rakenteelliset variantteja kutsutaan SVDetect annettiin lisäksi suodatetaan perustuu päällekkäisiä alhainen mappability alueita, yksinkertainen toistoja ja RepeatMasker data erotetaan UCSC Taulukko Browser [32]. Päällekkäisyys näiden alueiden ja SVDetect linkkejä arvioitiin käyttäen Galaxy työkaluja [33], [34], [35]. Alhainen mappability alueet koottiin viereisen välein 50 bp Duke ENCODE ainutlaatuisuus tulokset alle 0,5 (50 ep: n sekvenssi esiintyy useammin kuin 2 kertaa genomissa). SV linkeillä päällekkäisiä näiden alueiden poistettiin, jossa sulku 85% ja 50% päällekkäisyys kromosominvälinen ja kromosomien välisen tapahtumia, vastaavasti. Sillä päällekkäisyys yksinkertaisia ​​toista alueilla sulku oli 50% tai enemmän. RepeatMasker päällekkäisyyttä käytettiin suodatin vain kromosomien välisen tapahtumia tuettu 2 tai 3 lukea paria, jossa cutoff asetettu 80%. Sillä kromosominvälinen tapahtumien vuoksi muita räätälöityjä suodatuksen sovellettiin poistaa SV kutsua lukea paria, jotka johtuvat DNA-fragmentit poiketen odotettu kirjastoinsertti kokoluokassa, joita ei poista keskihajonta sulku. Tämän huomioon ottamiseksi, poistamista koko sulku oli asetettu 600 emäsparin ja päällekkäisyyksien 300 emäsparin.

Kasvainspesifiset SV kutsuma SVDetect ja breikkaaja lopulta tutkitaan käsin tuottaa luetteloon suuri luottamus ehdokkaita. SV peräisin yhdenmukaistaminen virheitä (jotka liittyvät toistuvat genomialuetta), epäonnistunut kasvaimeen ohjaus vertailun suodatus, samoin kuin ituradan SV (retroelement ja retrogene lisäyksiä) poistettiin luettelosta tai katsotaan alhaisen luottamuksen ehdokkaita.

Validation

Vastaa