PLoS ONE: Ituradan Vaihtelu Cancer-alttiusgeenit on Terve, syntyperäisesti Diverse Cohort: Implications for Individual Genome Sequencing

tiivistelmä

Teknologian kehitys yhdistettynä kustannusten aleneminen tuovat koko genomin ja koko exome sekvensointi lähempänä rutiini kliinisessä käytössä. Yksi esteitä kliininen toteuttaminen on suuri määrä variantteja tuntematon merkitys. Syöpään altistavia geenejä, vaikeus tulkittaessa kliinistä merkitystä Genomisen varianttien pahentaa se, että suurin osa siitä, mitä tiedetään näiden variantteja on peräisin tutkimuksesta erittäin valittujen populaatioiden, kuten syöpäpotilaille tai henkilöt, joiden suvussa syövän. Geneettinen vaihtelu tunnetuissa syöpää alttiusgeenit väestössä ei ole hyvin ominaista tasalla. Käsitellä tätä kuilua, me profiloitu nonsynonymous genomista vaihtelu 158 geenien kausaalisesti osallisena karsinogeneesissä korkealaatuisista koko genomin sekvenssejä peräisin syntyperäisesti monipuolinen kohortin 681 terveitä yksilöitä. Huomasimme, että kaikki yksilöt kuljettaa useita variantteja, jotka voivat vaikuttaa syöpäalttiutta, jossa keskimäärin 68 yhdistelmälle yksilön. Niistä 2688 alleelivarianttien yksilöity kohortin, useimmat ovat hyvin harvinaisia, 75% löytyy vain 1 tai 2 yksilöitä väestöstä. Alleelifrekvenssien vaihtelevat esi ryhmien, ja on olemassa 21 variantteja, jotka vähäinen alleeli yhdessä väestöstä on pääalleelille toiseen. Yksityiskohtainen analyysi valitun osajoukon 5 kliinisesti tärkeitä syövän geenien,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, ja

PTEN

, korostaa eroja ituradan varianttien ja raportoitu somaattisista mutaatioista. Aineisto voi palvella resurssina geneettistä vaihtelua syöpää alttiusgeenit 6 syntyperä ryhmissä, tärkeän perustan tulkinnassa syöpäriskin henkilökohtaisesta geeniperimän.

Citation: Bodian DL, McCutcheon JN, Kothiyal P, Huddleston KC, Iyer RK, Vockley JG, et al. (2014) Ituradan Vaihtelu Cancer-alttiusgeenit on Terve, syntyperäisesti Diverse Cohort: Implications for Individual Genomikartoituksen. PLoS ONE 9 (4): e94554. doi: 10,1371 /journal.pone.0094554

Editor: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Italia

vastaanotettu: 25 syyskuu 2013; Hyväksytty: 17 helmikuu 2014; Julkaistu: 11 huhtikuu 2014

Copyright: © 2014 Bodian et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus rahoitettiin kokonaan Inova Health System. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: JN McCutcheon toimii tällä hetkellä Life Technologies ja ei omista mitään patenttia tai varastosta yritys. Tämä ei muuta tekijöiden noudattaminen PLoS One politiikkaa jakaa tietoja ja materiaaleja.

Johdanto

Advances in sekvensointiteknologioihin ja vähentää kustannuksia tekevät koko Genomikartoituksen (WGS) ja koko exome sekvensointi (WES) yhä saatavilla ja voi mahdollistaa siirtymisen tutkimussovelluksiin ja kuluttajien genomiikan rutiinia kliinisen hoidon. Kuitenkin laajaa hyväksyntää klinikalla on hidastanut lähinnä rajoituksia nykytietomme kliinistä merkitystä havaitun sekvenssin muunnelmia.

Onkologiassa WGS /WES käytetään nykyisin pääasiassa tunnistamiseen somaattisten mutaatioiden kasvaimia. Ituradan vaihtelut vaikuttavat syövän alttiuden tai taudin etenemisen tyypillisesti tunnistaa kohdennettua resequencing mielenkiinnon kohteena olevien geenien kuten

BRCA1

ja

BRCA2

. Koska WGS /WES tulee käsittelemään yleisemmin analyysi ituradan vaihtelu siirtyy yhden geenin lähestymistapoja analyysit perustuvat useisiin syöpään liittyvien geenien ja testattu väestön laajenee riskiryhmään yksilöitä väestössä.

tulkinta näiden tietojen katsomiseen tarvitaan ymmärrystä vaihtelusta syöpäriskin liittyvien geenien terveillä henkilöillä, joka on suurelta osin tuntemattomia. Suurin tieto ituradan vaihtelua syöpään altistavia geenejä on tullut henkilöitä, joilla on lääketieteellinen syy Sekvensoitavat [1], ja niin ei edusta koko väestössä. Muut tiedot on tullut solulinjoista ja eläinmalleissa sijaan ensisijainen potilaan soluista [2]. Yksilöt tutkittu ovat etupäässä Euroopan syntyperää [1], [3], mutta sekä geeniperimän ja syöpäriskin vaihtelevat syntyperä ryhmien [4]. Lisäksi tutkimuksissa on keskitytty korkean penetrance alttiusalleelien, mutta syöpä on yleensä seurausta yhdessä vaikutukset matalan kohtalainen-penetraation riski alleelien ja ympäristötekijät [5].

Tämän tutkimuksen tavoitteena on kuvata vaihtelua syöpää alttiusgeenit väestössä. Tavoitteen saavuttamiseksi olemme profiloitu nonsynonymous vaihtelusta 158 syövän geenien tietojen avulla korkealaatuista koko genomin sekvenssejä peräisin syntyperäisesti monipuolinen kohortin 681 yksilöä. Olemme myös tunnettu yksityiskohtaisesti variantit viisi geeniä erityistä kliinistä etua,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, ja

PTEN

. Tuloksia voidaan käyttää ohjenuorana vaihtelua 158 syöpää alttiusgeenit koko väestössä ja vaikuttavat merkittävästi tulkinnassa kliinisen WGS /WES.

Methods

Ethics lausunto

Yksilöt rekrytoitiin Inova Fairfax Hospital aikana 2011-2012 ja kirjoittautui Inova Translational Medicine instituutin kliininen tutkimus ”Molecular tutkimus ennenaikaisen synnytyksen.” All TET jos kirjallinen lupa käyttää niiden genomin sekvenssejä tutkimustarkoituksiin. ”Molecular Study of Pre aikavälin Birth” hyväksyi Institutional Review Board of Inova Health System ja Länsi Institutional Review Board (# 1124761). Analyysit raportoitu tässä oli osa tutkimusta roolin syöpää altistavia geenejä etiologiassa ennenaikaisen synnytyksen, alueen tutkimuksen motivoi yhtäläisyyksiä raskaus ja maligniteetin [6], [7].

Osallistujat

kohortti tähän analyysiin koostuu 681 aikuisten 352 perheet, joka käsittää 337 vuotiaat miehet 18-50 (mediaani 34) ja 344 vuotiailla naisilla 18-44 (mediaani 32). Mikään yksilöt ovat ensimmäisen asteen sukulaisia, mikä vahvistetaan genomista analyysiä. Maan syntymäkarja aiheiden ja heidän vanhempansa olivat itse ilmoitettu. Kohortti on tyypillinen väestöstä Pohjois-Virginian ja väestön synnytyksen at Inova Fairfax Hospital rodun, etnisen alkuperän, ja sosioekonominen asema [8]. Noin kolmasosa aiheista (34% miehistä ja 35% naisista) oli mukana tutkimuksessa kuin vanhemmat ennenaikaisten vastasyntyneelle, ja kaksi kolmannesta täysinä aikavälin valvontaa. Ei Merkitsevä yhteys syövän geenivarianttien ja termi asema todettiin.

Self-raportti kyselyt ja sairaalan tiedot on tarkistettu syövän tilan. Kolme henkilöä oli syöpä diagnoosi ennen tutkimusta: yksi mies munuaisten syöpä, yksi mies syöpä tuntematonta tyyppiä, ja yksi nainen rintasyöpään. Yksikään osallistujista kertoi henkilökohtaisen ja suvussa osoitus erittäin läpitunkevaa nestettä syöpään altistavia ituradan mutaatio eli varhainen alkamisiällä ja /tai useita vaikutti perheenjäseniä.

Näytteet ja sekvensointi

Koko verinäytteet kerättiin kaikkien aineiden BD Vacutainer K2-EDTA-putkiin. Genomi-DNA: n uutto suoritettiin QiaSymphony automaattisella DNA-uuttolaitteessa käyttämällä DNA Midi Kit (QIAGEN Inc., Valencia, CA). Näytteet lähetettiin Complete Genomics (Mountain View, CA) koko genomin sekvensointi, kokoonpano, ja variantti kutsuvan [9], [10]. Sekvensointi suoritettiin DNA: n kanssa nanoball array-tekniikkaa. Genome sekvenssit koottiin Complete Genomics ”Assembly Pipeline versiot 2.0.0-2.0.3 käyttäen NCBI rakentaa 37 (hg19) ihmisen genomi viite kokoonpano [11]. Kattavuus tilastot laskettiin käyttäen painonlasku summaa järjestyksessä kattavuus syvyys. Keskimäärin 70% kutakin perimän ja 80% kutakin exome oli 40x kattavuus. Muunnokset masterVar tiedostoja kaikista genomit yhdistettiin yhdeksi VCF v4.1 tiedosto mkvcf (beta) alkaen CGA työkalujen suite, versio 1.6.0.

Gene merkinnät laskettiin kanssa muokattu versio GLU ohjelmistopaketin, version 1.0b3-prerelease4 [12], käyttämällä genomin koordinaatit eksonien, selostukset, ja koodaavat alueet päässä UCSC Genome Browser knownGene taulukko [13]. Ennustettu proteiinisekvenssi muutokset laskettiin kääntämällä koodausalueen kunkin transkriptin ja viite. Muita merkintöjä alkaen dbSNP 137 [14], COSMIC versio 65 [15], HGMD Professional 2012,3 (BIOBASE), ja PolyPhen-2 [16], [17] lisättiin käyttäen ANNOVAR työkalulla [18]. PolyPhen-2 tulokset 0,85, välillä 0,85 ja 0,15, ja 0,15 koodattiin ”luultavasti vahingollista”, ”mahdollisesti vahingollista”, ja ”hyvänlaatuinen” vastaavasti [17].

Quality suodatus

genotyyppi vaatii suodatettiin luotettavuudelle käyttäen ennustavaa mallia koulutettu 341 satunnaisesti valitun syövän geenivarianttien joka todensi Ion Torrent sekvensoinnilla. Malli rakennus suoritettiin weka-3-6 [19] oletusparametrejä käyttäen, ellei toisin mainita. Määritteitä valitsema BestFirst algoritmin genotyyppi laadusta toimittamat tiedot Complete Genomics. Suodatus parametrit määritettiin käyttäen J48 päätös puu algoritmi 10-kertainen ristivalidointi. Tuloksena malli sisältää kahdenlaisia ​​suodattimia: aseman suodatin ja genotyypin suodatin. Asema suodatin sulkee pois kaikki vaihtoehdot on genomista paikoissa, joiden kokonaispituus puhelutaajuuden poikki kohortin 80% tai joiden keskimääräinen murto alleeli syvyys ≤0.295. Genotyyppi suodatin naamarit kutsuu vähintään alleeli syvyys ≤11. Perustuen 10-kertainen ristivalidointi, virhe hinnat genotyyppien kulkee näiden suodattimien arvioitiin olevan 1,3% vääriä negatiivisia ja 2,3% vääriä positiivisia.

Geenit ja variantit

Cancer Gene väestönlaskenta, valikoidun kokoelman 487 geenien mutaatioita kausaalisesti osallisena kasvaimen synnyssä alkutuotannosta potilasnäytteistä [20], on ladattu Sanger Centerin verkkosivuilla (9/2012). Keskittyä variantteja, jotka voisivat vaikuttaa syöpäalttiutta johtuen ennustetun proteiinisekvenssin muutoksia, me ulkopuolelle geenejä, joiden osalta syy-yhteys syöpään oli poikkeava ilme sijasta mutaatio, pitää vain luetelluista geeneistä Census johtuu missense, kehyksenvaihdon, liittämiseen tai nonsensemutaatiota. Olemme mukana molemmat geenit, joiden tiedetään olevan syöpää altistavia ituradan mutaatioita, sekä geenejä, joiden osalta ainoastaan ​​somaattisten onkogeeniset mutaatiot tällä hetkellä tiedossa, koska ituradan vaihtelu geenien somaattisia mutaatioita voi myös vaikuttaa syöpäalttiutta [20]. Loci jätetty pois tai epäselvästi kartoitettu viitteen kokoonpanoon suljettiin, jättäen 158 kiinnostavat geenit.

Vaihtoehtoja määritellään sekvenssi erot viittaus, laskettuna WGS putki. Variantti luokiteltiin kehyksenvaihdon, hölynpölyä, tai liitos-site häiritseviä, jos se olisi, että ennustettu vaikutus tahansa selityksin selostukset liittyy syöpään geeni. Alleelifrekvenssit laskettiin kutsutulta genotyypit. Harvinaiset variantit määritellään variantteja pieniä alleelin frekvenssi (MAF) 1%, ja yhteinen variantit, joilla on MAF 5%.

koodauspituuden geenin määritellään emästen kokonais- lukumäärä ennustetun käännettävä tahansa liittyvän selostukset. Valuuttojen per-geenin vaihtelevuus, edustettuina määrä yhdistelmälle kiloemästä (kb), jotka lasketaan kulmakerroin regressioviivana varianttien määrä kussakin geenissä koodausta pituudesta.

Tulokset per -geenin analyysit on esitetty joukko viisi keskeistä geenien esimerkkeinä havaintojen kaikki 158 geeneistä. Nämä geenit on valittu, koska ne ovat hyvin tunnettuja syövän geenejä, jotka voivat suorittaa kliinisesti merkittävää mutaatioita. 5-geeni setti sisältää sekä pieniä proteiineja muutamia vaihtoehtoja ja suuri proteiinien kanssa useita muunnelmia, ja molemmat kasvain ja onkogeeneihin.

Tehtävä patogeenisuuden ja paluu tulosten

Vaihtoehdot luokiteltiin patogeeninen jos oli: (1) useita ensisijainen raportit patogeenisuuden, (2) ei ole raportoitu todisteita vastaan ​​patogeenisuus ja (3) molekyyli- tiedot osoittavat haitallinen vaikutus. Patogeenisten varianttien TET jotka suostuivat palauttamaan tulosten todensi Sangerin sekvensoinnilla ja sitten raportoidaan monitieteellisen satunnaiset havainnot komitean arviointia sekä yksilön lääkäri ennätys.

Esipolviluettelo merkintöjä ja alleelifrekvensseiltään analyysit

Admixture kertoimet arvioitiin kullekin rekisteröidylle sekoittumisen [21] käyttäen kuvanneet Libiger ja Schork [22]. Alleelifrekvenssit 6 esi väestön – Afrikkalainen, Euroopan, intiaani, Itä-Aasian, Keski-Aasian ja Oceanic – laskettiin viittauksella paneeli koostuu 16443 yhden nukleotidin polymorfismien (SNP: t) [22]. Jos haluat määrittää yksilöiden meidän kohortti alapopulaatioiden tutkittaville ryhmittyneet perustuu niiden laskettu sekoittumisen kertoimia. Syntyperän edustaa kukin klusteri määriteltiin maantieteellisen alueen itse ilmoitettu syntymämaa osalla henkilöistä, lukuun ottamatta Yhdysvaltoja. Afrikkalainen ja Afrikkalainen-Euroopan klusterit erottuvat sekoittumisen tasoon, jossa Afrikkalainen klusterin lähemmäksi Afrikkalainen esi väestöstä. Syntyperä ryhmät määritelty ainoastaan ​​klustereiden, joilla on vähintään 20 henkilöä, jotta voidaan laskea alleelifrekvenssit kerralla 5% tai vähemmän kaikista genomista kannat mukaan lukien sukupuolikromosomeiksi. Pienempiä klustereita oli yhdistetä ”muu” ryhmä, joka jätettiin alleelifrekvensseiltään laskelmista, koska se ei edusta syntyperä-pohjainen väestöstä. Muiden 6 alapopulaatioiden, tilastollisesti merkitseviä eroja MAF laskettiin joko chi-neliö testi tai Fisherin testiä. Chi-neliön testiä käytettiin variantteja, jotka kaikki odotusarvot olivat 1 ja Fisherin testiä, jossa simuloitu p-arvoja käytettiin kaikkiin muihin variantteja [23]. Vaihtoehdot joille pääalleelille yhdessä väestön on vähäinen alleeli toisessa perusjoukko ovat ne, joille minimitaajuus missään ryhmässä on 0,5, suurin taajuus on 0,5, ja molemmat arvot eroavat merkittävästi toisistaan ​​ja 0,5 yksipuolinen Fisherin tarkalla testeissä. Kaikkien tilastolliset testit, p-arvot 0,05 katsottiin merkittävästi.

Muut ohjelmistot ja tietokannat

Tilastolliset analyysit tehtiin R versio 2.15.0 [24]. VCFtools 0.1.10 [25] ja Plink versio 1,07 [26], käytettiin esikäsittelyn variantti tiedot seoksen laskennassa. Proteiini rakenteet näkyvät J mol [27]. ClinVar tietokantaversio 2013-8 [28], arkisto suhteita vaihtelut löytyy potilaan näytteitä ja fenotyyppejä, on kuultu raporteille kliinistä merkitystä. Lisäksi Breast Cancer Information Core (BIC) (versio: 13-02-20) tutkittiin kliinisessä raportit

BRCA1

ja

BRCA2

variantteja.

tietojen saatavuus

Kaikki variantit raportoitu tässä julkaisussa luetellaan taulukossa S1 File S1 ja on talletettu ClinVar liittymisen numerot SCV000083899 – SCV000086586. Tutkijat kiinnostunut jakamaan genomisessa tiedot pyydetään ottamaan yhteyttä vastaavaan tekijä.

Tulokset

Syöpä-geenin variantit ovat yleisiä väestössä

Tutkia geneettistä vaihtelua syöpää alttiusgeenit kohortin edustajana yleensä syntyperäisesti monipuolinen väestö, analysoimme koko genomin sekvenssit osallistujien ennenaikaisen synnytyksen tutkimukseen. Kohortti koostuu 681 terveille aikuisille hedelmällisessä iässä, 49% miehistä ja 51% naisista, joista kukaan ei raportoitu henkilökohtaisen ja suvussa osoitus erittäin läpitunkevaa nestettä syöpää altistavia ituradan mutaatioita.

Käytimme tätä kohortissa profiloida ituradan vaihtelu joukko 158 geenien joista proteiinisekvenssin muutokset kausaalisesti osallisena kasvaimen synnyssä. Koodausalueissa näistä 158 geenit ovat hyvin peitossa genomisessa data, keskimäärin per-geenin kattavuus 58x (alue: 21x-84x), ja 99,99% kantoja sekvensoitiin 10 henkilöä (kuva S1) . Tämän tason kattavuus on riittävä korkealaatuisten variantti puheluita mutta ei kliinistä diagnoosia [29]. Keskityimme pieni, nonsynonymous vaihtelut – vaihdot, insertiot ja deleetiot – koska ituradan vaihtelut syöpään altistavia geenejä ovat enimmäkseen tämäntyyppisen [20].

Niistä 681 aiheista havaitsimme 2688 ennustettu proteiini-vaikuttavia variantit 158 ​​syöpään altistavia geenejä (taulukko S1 File S1). Useimmat vaihtoehdot ovat hyvin harvinaisia ​​- 65% löytyy vain yhdestä yksilöstä ja 75% ovat 2 tai vähemmän, jossa MAF 0,22%. Viimeaikaiset tutkimukset vaihtelua koskevat koko exomes [30] ja geeni- perheiden [31] todettiin myös suurin harvinaisten variantteja. Harvinaiset variantteja uskotaan edistävän merkittävästi etiologiaa yleinen sairaus [32], ja strategioita priorisoimiseksi taudin variantit WGS usein taajuudella suodatin jättää yhteisen variantteja. Neljäkymmentä kolme prosenttia (43%), tai 1166, ja variantit ovat uusia (ei dbSNP), joissa kaikissa on MAFs välillä 0,07% ja 1,4%. Nämä tulokset tukevat väitettä, että lähes kaikki yhteisen varianttien populaatioissa liittyvät kuin 1000 Genomes Project on löydetty mutta että monet harvinaiset variantit vielä tunnistettu [33].

Terveet kuljettaa useita syöpä -geenin variantit

Jokaisella yksilöllä kohortin siirretään useita nonsynonymous variantteja syövän susceptiblity geenejä, joissa on keskimäärin 68 varianttien per henkilö (alue: 49-97) (kuvio 1A), ja 99% yksilöiden kuljettaa harvinainen variantit (mediaani: 6 harvinaisia ​​muunnoksia, alue: 0-32). Yksikään osallistujista ovat variantit kaikissa 158 geenit; sen sijaan, variantit jakautuvat osajoukko 30-59 geenien (mediaani = 40) (kuvio 1 B), joka vaihtelee yksittäisten (katso alla). Jotta tieto siitä Näiden varianttien voi olla kliinisesti merkittävää, kaikki vaihtoehdot jaettiin kolmeen yksinomaisen luokkaa perustuvat merkinnät liittyvät mahdolliset vaikutukset syöpäalttiutta: (1) variantit luetellut HGMD mahdollisesti sairauteen liittyvää, (2) vaihtoehdot todennäköisesti on haitallinen vaikutus proteiinien funktio, nimittäin kehyksenvaihdon, hölynpölyä, ja liitos-variantin, ja (3) kaikki muut nonsynonymous variantteja. Käytämme jälkimmäinen luokka edustaa variantteja tuntematon merkitys (VUS), jossa varoitukset, että kliininen vaikutus on noin variantteja voidaan tunnettuja, mutta ei jää HGMD, ja että varianttien osoitetaan HGMD ja haitallisia luokilla voi olla myös tuntemattomia vaikutuksia syöpäalttiutta. Kaiken kaikkiaan 80 variantit havaittiin kohortin luokiteltiin vahingollisia (22 hölynpölyä, 42 kehyksenvaihdon, 16 liitos-site häiritseviä), 326 oli selityksineen mahdollisesti sairauteen liittyvän in HGMD, ja 2297 ovat VUS (taulukko S1 File S1). Tutkimuksen kohteena on keskimäärin 14 HGMD variantit (vaihteluväli: 4-25), 2 variantit vahingollisia luokka (alue: 0-4), ja 52 VUS (alue: 34-78) (kuvio 1A). Numerot varianttien kolme henkilöä raportointi ohi syöpädiagnoosin olleet harha-arvoja tahansa variantin luokkiin. Vaikka on mahdollista, että haitallisia muunnokset johtuvat sekvensointi tai merkinnästä virhe, löytää ilmeisesti haitallisia variantit terveillä henkilöillä ei ole odottamatonta, [34].

(A) Boxplot kokonaismäärästä varianttien määrä variantteja luetellut HGMD määrä todennäköisesti haitallisia vaihtoehtoja, ja varianttien määrä on tuntematon merkitystä per yksilön syöpään liittyvien geenien. (B) jakauma määrä syövän geenejä, joilla on vähintään yksi nonsynonymous variantti per yksilö.

alleelifrekvenssien syövän geenin variantit ovat syntyperää riippuvainen

Allele taajuudet voivat vaihdella populaatiot ja nämä erot voivat olla merkittäviä terveydellisiä seuraamuksia [35]. Sen määrittämiseksi, onko jokin proteiini-vaikuttavat syöpää geenivarianttien meidän kohortin eroavat taajuuden välillä syntyperä ryhmät, me osoitetaan jokaisen yksilön alapopulaatioon avulla genomisen tiedot. Paneeli 16443 markkereita eli 6 esi ryhmiä, joilla Euroopan, Afrikkalainen, Aasian, Keski-Aasian, intiaani, ja Oceanic väestö [22] avulla laskettiin sekoitettuna suhteessa kunkin yksittäisen. Noin puolet (49%) yksilöistä oli osoitettu nollasta poikkeava kertoimia monia populaatioita, mikä eriasteisia sekoittumisen tai geeniperimästä epätäydellisesti vangiksi mallin. Osapopulaatioiden määriteltiin ryhmittelemällä aiheet lasketun sekoittumisen mittasuhteet. Clusters alle 20 koehenkilöille yhteen osaksi ”Muut” ryhmä ja sisältää Lähi Easterners, sekoitetaan Eurasians, ja muut tuntemattomasta tausta.

Seitsemän Tuloksena ryhmät on lueteltu taulukossa 1 ja sekoittumisesta kertoimet jäsenen yksilöt on piirretty kuviossa 2. Yksinkertaisuuden käytämme nimet ryhmien (Euroopan, Afrikkalainen, jne.) ilmaisemaan vanhaan geneettinen tausta sijaan maantieteellisen alueen syntymästä tai etnisen. Alapopulaatioiden vastaavat 78-100% Afrikkalainen syntyperä varten Afrikkalainen alaryhmästä, 79-100% Itä-Aasian syntyperä varten Itä-Aasian alaryhmästä, 79-100% Keski-Aasian syntyperä Keski-Aasian väestöstä ja 83-100% Euroopan syntyperä varten Euroopan alaryhmästä. Klusterin yksilöiden on 13-75% Afrikkalainen syntyperä ja 21-87% Euroopan syntyperä nimettiin Afrikkalainen-Euroopan. Sekoittumisesta mittasuhteet erottaa Afrikkalainen alaryhmästä (≥78% Afrikkalainen) pois Afrikkalainen-Euroopan ryhmä tulos keskeytyskohta datan ja ovat verrattavissa osuudet hallitseva syntyperä Itä-Aasian, Keski-Aasian ja Euroopan ryhmät (≥79 %, ≥79%, ≥83%, vastaavasti). Hispanic alapopulaatio sisältää erilaisia ​​seoksia intiaani ja Euroopan syntyperä 0-50% Afrikkalainen syntyperä. Nämä kaksi- ja kolmitie admixtures heijastavat demografiset Latinalaisen Amerikan historiaa [36].

lisäaine mittasuhteet 6 esi populaatiot (värit) näkyvät kaikille yksilöille kussakin 7 ryhmien määritellyt kohortti (paneelit). (A) Euroopan (B) Keski-Aasian (C) Itä-Aasian (D) Afrikkalainen (E) Afrikkalainen-Euroopan (F) Hispanic (G) muut. Punainen: Eurooppalainen, Blue: Keski-Aasian, Cyan: Itä-Aasian, Keltainen: Afrikkalainen, Green: intiaani, Magenta: Oseaniassa.

syntyperä perustuva osapopulaatioiden eroavat määrän syöpä -geenin variantit per henkilö (kuva 3) (p 2.2e-16 ANOVA). Eurooppalaiset ovat yleensä vähemmän variantteja (keskiarvo = 64,5) ja afrikkalaiset eniten (keskiarvo = 84, 30% korkeampi kuin eurooppalaiset), sopusoinnussa genominlaajuisten arvioiden [37]. Määrä muunnelmia Afrikkalainen-Euroopan yksilöitä on välimuoto afrikkalaisten ja eurooppalaisten. Afrikkalainen, Afrikkalainen-Euroopan ja Itä-Aasian -alapopulaatioiksi on noin kaksi kertaa niin paljon uusia muunnelmia per henkilö eurooppalaiset ja keskiaasialaiset on kolminkertainen enemmän (taulukko 2). Havainto, että keskiaasialaiset enemmän uusia variantteja per henkilö kuin afrikkalaiset, joilla on korkeampi kokonaismäärät syövän geenivarianttien (kuva 3), saattaa heijastaa harhaa populaatioiden, jotka on sekvensoitu ja tukee pyrkimyksiä monipuolistamalla populaatiot näytteet järjestyksessä tietokannoista.

jakautuminen lukumäärän nonsynonymous geenejä kohti aihe kutakin 6 syntyperä-pohjainen osapopulaatioiden.

määrä haitallisia variantteja per yksilö on myös huomattavasti toisistaan ​​esi ryhmien (p 4e-4 ANOVA, taulukko 2). Keskiarvot vaihtelevat 1,8 eurooppalaiset ja Itäaasialaiset 2,2 Keski aasialaiset. Sillä HGMD variantteja, on myös tilastollisesti merkitsevä ero ryhmien välillä (p 9e-4 ANOVA), jossa Itäaasialaiset joilla vähiten muunnelmia keskimäärin tallennettu tietokantaan (taulukko 2). Kuitenkin erot määrän haitallisia ja HGMD variantit ovat pieniä ja yhdessä syntyperä on tarkasteltava laajemmassa kohortin.

Erot syntyperä ryhmät heijastuvat myös alleelifrekvenssien syöpää geenivarianttien . Taulukko S1 File S1 luetteloihin alleelifrekvenssit kussakin väestöryhmien varten täydellinen 2688 variantteja. Neljätoista alleelit ovat taajuuksia 50% kaikissa alapopulaatioiden (taulukko S2 File S1), mikä viittaa siihen, että viittaus sekvenssi kuljettaa pieniä alleelin näitä kantoja. Analysoimme väestö erot alleelifrekvenssit yhteistä variantteja, koska harvinainen variantit löytyvät yhdestä yksilöstä. Niistä 223 variantteja taajuuden 5% missään 6 syntyperä toimiviin ryhmiin, 216 on alleelifrekvenssit että eroa alapopulaatiot (taulukko S3 File S1). Näistä 43% löytyy kaikki kuusi alapopulaatioiden ja 58 ovat spesifisiä yhdelle neljästä syntyperää ryhmien alemman asteen sekoittumislähteet 49 afrikkalaiset, 2 Keski aasialaiset, 6 Itäaasialaiset, ja 1 eurooppalaisia. Myös 21 variantteja, joissa vähäinen alleeli yhdessä väestöstä pääalleelille toiseen (taulukko 3), joista syntyperä riippuvaisten taajuudet on kirjattu aiemmin vähintään 3,

ErbB2

c.3508C G (p.Pro1170Ala) [38],

TP53

c.215C G (p.Pro72Arg) [39], ja

BRCA1

c.2612C T (p.Pro871Leu) [ ,,,0],40]. Tiedetään vain vähän kliinistä merkitystä näiden 21 variantteja. Neljä,

TP53

c.215C G (p.Pro72Arg) [41],

BRCA1

c.2612C T (p.Pro871Leu) [42],

erbB2

c.3508C G (p.Pro1170Ala) [43], ja

FLT3

c.680C T (p.Thr227Met) [44], [45] on liitetty syövän kehittymiseen tai hoitovastetta. Nämä järjestöt ovat yleensä pieniä vaikutusta tai on saatu pieniä näytteitä; siten, enemmän työtä tarvitaan luomaan varmaa suhdetta. Jos nämä yhdistykset ovat validoitu, ne kuvaavat tärkeää tarkastella syntyperää valitessaan hoitovaihtoehtoja potilaille.

Per-geeni vaihtelu

Seuraavaksi analysoimme variantit per-geenin perusteella mitkä geenit ovat enemmän tai vähemmän todennäköisesti variantteja raportoitu WGS terveiden yksilöiden. Variantti kuormitus kullekin 158 geenien taulukossa S4 File S1. Neljä geenit –

SRSF2

,

U2AF1

,

MAP2K4

, ja

GNAQ

– ei ole nonsynonymous variantteja meidän kohortin 36 geenit ovat muunnelmia vähemmän kuin 10 henkilöä, ja 35 ovat muunnelmia yli puolet yksilöiden (kuva 4A). Analyysi rajoittuu ainoastaan ​​harvinaisia ​​muunnoksia, 154 (97,5%) geenien osoittavat vaihtelua ainakin yksi yksittäinen (kuvio 4B). Keskimäärin syövän geeni on harvinainen variantit 4% väestöstämme, joiden valikoima 0%: sta 18% (0-125 henkilöä). Niistä geenit harvinaisia ​​variantit kaikkein yksilöt ovat

BRCA1

,

BRCA2

,

APC

,

MLL2

, ja

MLL3

, geenit, jotka ovat yleisesti mutatoitunut syövissä.

BRCA1

,

BRCA2

, ja

APC

ovat hyvin tutkittu, koska läsnäolo usein, patogeenisten mutaatioita.

MLL2

ja

MLL3

on äskettäin löydetty olla mutatoitunut monenlaisia ​​kasvaintyypeille [46], ja esiintyvyys havaitun vaihtelun ehdottaa ne voivat oikeuttaa enemmän perusteellisen tutkimuksen.

Jakelu määrän yksilöiden muunnos per geeni (A) kaikki variantit (B) harvinainen variantteja.

levinneisyys vaihtelua kunkin geenin korreloi numero muunnelmia. Kuusikymmentä prosenttia (60%) vaihtelu selittyy koodaamalla pituus (kuva 5), ​​suuntaus aiemmin todettiin kaikkien yhden nukleotidin vaihtoehdot exome laajuiset [30]. Kokonaisosuus ~6 variantin kantoja per ke koodaava sekvenssi on verrattavissa ennustettu variantti löytö korko populaation koko meidän kohortin [31]. Kaikkein muuttuja geeni on

TNFRSF14

, 39 variantti kantoja per kb (taulukko S4 File S1).

määrä nonsynonymous variantteja vs. kokonaismäärä koodaus emäksiä kullekin 158 syöpää alttiusgeenit.

per-geeni vaihtelua voi myös riippua syövän tyypistä geenistä. Kolme tyyppiä on kuvattu: onkogeenien, tuumorisuppressorigeeneille, ja alttius geeni [46]. Jälkimmäiset ovat geenit, jotka ituradan mutaatioita voi altistaa syövälle, mutta joilla on muutamia somaattisia mutaatioita. Kasvain ja onkogeeneihin on -5 yhdistelmälle ke koodaavan sekvenssin, kun taas taipumus geenit ovat ~8 variantteja /kb, samanlainen korko kaikkien geenien. Ero on tilastollisesti merkitsevä, p 0,012 by ANCOVA. Alhaisempaa vaihtelevuutta onkogeenien ja tuumorisuppressorigeeneille voi osoittaa suurempaa evoluution rajoite.

karakterisointi vaihtelua sisällä keskeisten geenien

Lisäksi väestön alleelifrekvenssit ja kirjallisuusraportteja taudin yhdistys, analysointi vaikutus kunkin variantin saattaa olla rakenteeseen ja toimintaan koodatun proteiinin voi tarjota olennaisia ​​tietoja syöpäriskiä ennustamiseen. Me kuvaavat geenispesifisestä havainnot joukko 5 tunnettujen syövän geenien kliinistä merkitystä,

BRCA1

,

BRCA2

,

TP53

,

KRAS

ja

PTEN

. Muunnokset ja alleelifrekvenssit ovat taulukossa S1 File S1.

BRCA1 ja BRCA2

BRCA1

ja

BRCA2

ovat kaksi suurta rintasyöpä altistavia geenejä. Ituradan mutaatioita kummassakin näistä tuumorisuppressorigeeneille liittyy perinnöllinen rinta- ja munasarjasyövän oireyhtymä, jonka osuus on arviolta 2-8% rintasyövistä maailmanlaajuisesti [47]. Meidän kohortti, 92%: lla koehenkilöistä kuljettaa nonreference alleelien toinen tai molemmat näistä geeneistä (lukuun ottamatta homotsygoottinen variantti genotyyppien kromosomin 13 kanta 32929387 on

BRCA2

jossa viitataan sekvenssi on harvinainen pieni alleeli): 498 yksilöiden variantit

BRCA1

ja 482 kanssa

BRCA2

variantteja. Harvinaiset variantit ovat myös yleisiä, jossa 27% väestöstä kantaa harvinaisia ​​muunnoksia ainakin yksi näistä kahden geenin.

Useimmat varianttien nämä kaksi geeniä ovat harvinaisia, ja 83% 46 muunnelmia

BRCA1

ja 91%: n 86 varianttien

BRCA2

ottaa MAF 1%. 4 yhteiset muunnelmia

BRCA1

-c.2612C T (p.Pro871Leu), c.3113A G (p.Glu1038Gly), c.3548A G (p.Lys1183Arg), ja c.4837A G (p.Ser1613Gly) -Kaikki näyttää syntyperä riippuvaa alleeli taajuuksilla.

Vastaa