PLoS ONE: priorisointi Mahdollisesti Druggable Mutaatiot kanssa dGene: merkinnän työkalu Cancer Genome Sequencing Data

tiivistelmä

Merkittävä tavoite syöpä Genomikartoituksen on tunnistaa mutaatioita tai muita somaattisia muutoksia, jotka voidaan kohdistaa selektiivisesti ja tiettyjä huumeita. dGene on käsinkirjoitustyökalun suunniteltu nopeasti tunnistaa geenejä, jotka kuuluvat johonkin kymmenestä druggable luokkia, jotka ovat usein kohdistettu syövän lääkekehityksessä. Nämä luokat ovat kattavasti asutuilla yhdistämällä ja manuaalisesti curating tietoja useista erikoistunut ja yleinen tietokantoja. dGene käytti Cancer Genome Atlas okasolusyöpä keuhkosyöpä projekti, ja tässä olemme edelleen osoittaa sen käyttökelpoisuus äskettäin julkaissut rintasyöpä Genomikartoituksen tiedot. dGene on suunniteltu käyttökelpoinen syöpä tutkija ilman tukea bioinformatiikan asiantuntija. Täydellinen kuvaus dGene ja vaihtoehtoja sen toteuttamiseen tässä annetaan.

Citation: Kumar RD, Chang LW, Ellis MJ, Bose R (2013) priorisointi Potentiaalisesti Druggable Mutaatiot kanssa dGene: merkinnän työkalu Cancer Genome Sequencing data. PLoS ONE 8 (6): e67980. doi: 10,1371 /journal.pone.0067980

Editor: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

vastaanotettu: 27 helmikuu 2013; Hyväksytty: 24. toukokuuta 2013 Julkaistu: 27 kesäkuu 2013

Copyright: © 2013 Kumar et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Taloudellinen tuki tämän työn tarjosi NIH apurahoja R01CA095614 ja U01HG00651701 (sen MJE) ja Edward Mallinckrodt, Jr. Foundation ja ”Ohana Breast Cancer Research Fund (RB). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Syöpä Genomikartoituksen tutkimukset ovat nyt analysoidaan 50-500 potilasta tutkimuksen ja dokumentoivat tuhansia somaattisista mutaatioista [1], [2]. Uusia työkaluja huomautusta ja analyysia tarvitaan ennustaa toiminnallista merkitystä näiden geneettisiä muutoksia ja ohjata myöhemmän tutkinnan. Tässä esittelemme työkalu perustuu druggable geenien, yhdessä muiden huomautusta ja suodatuksen vaiheet, voi nopeasti priorisoida suuren joukon mutaatioita enemmän keskittynyt joukko, joka voidaan testata toiminnallinen tutkimuksissa.

Tämä työkalu , jota kutsumme dGene (kokoelma Druggable Genes), perustuu käsitteeseen druggable genomin käyttöön Hopkins ja Groom vuonna 2002 [3]. He tunnistivat proteiinin luokkia, jotka voivat sitoa pienmolekyyleillä ja ehdotti, että sairauden kulkuun geenit kuuluvat samaan druggable luokan tulee priorisoida lääkekehitykseen [3], [4]. Tämä joukko druggable geenien perustui havaintoon, että FDA hyväksyi huumeiden ja yhdisteiden kehitykseen eivät kohdistu ihmisen perimän tasaisesti, joidenkin geeniluokkaa, kuten G-proteiiniin kytkettyjen reseptorien (GPCR) ja proteiinikinaasien, sitä useammin kohdistettu pieniä molekyylejä.

dGene lisää niiden työtä laajentamalla ja päivittämällä joukko druggable luokat perustuvat tämänhetkisiin lääkekehityksen ponnisteluja, asuttavat luokat kattavasti ja ylläpitää laatua manuaalisella kuratointiin. Tässä artikkelissa kerrotaan perusteet ja rakentamisen dGene, osoittaa hyödyllisyys on äskettäin julkaissut joukon rintasyövän koko genomin ja koko-exome sekvenssi data [2] ja antaa käyttöohjeet dGene.

Tulokset

dGene on suunniteltu merkinnän ja Suodatusvälineestä priorisoimiseksi mutaatioiden toiminnallinen arviointi (Fig. 1a). Ensimmäinen askel sen grafiikan valitsemalla joukko geenin luokkia, jotka ovat molemmat erittäin druggable ja syöpään liittyvää biologia. Luokat valittiin perustuu aikaisempien ääriviivat druggable genomin [3], [4] ja muita luotaa on ensisijaisesti kirjallisuuteen, jossa korostetaan erityisesti syövän biologian. Esimerkiksi vaikka kuljettajat ja ionikanavia ovat laajalti druggable, ne on jätetty dGene puutteen takia vakiintuneiden merkitystä kasvainten synnyssä. Nykyinen versio dGene rakentuu kymmenen geeniluokkaa (taulukko 1). Osoitamme pätevyyden tätä lähestymistapaa tutkimalla ryhmä 299 lääkkeiden kliinisissä tutkimuksissa keuhkosyövän [5]. Havaitsimme, että yli 60% näistä lääkkeistä kohdennetut proteiinit, jotka kuuluvat 10 luokkia dGene (Fig. 1b).

, Druggability toimii järkevän näytön hypoteettinen putki vähentämiseksi raaka geeni lista kokeellisesti toimiva numero. B, Keuhkosyöpä huumeet valmisteilla luokiteltu tyypiksi, joidenkin tavoite tyyppejä pidetään yleisesti druggable ja sisältyvät dGene. C, NHRs tarvitaan yksinkertainen työnkulku. Russ

et al,

2005 NucleaRDB [6] saatiin aineistoa. Yksi geeni kartoitettu kumpikaan NCBI geeni eikä synonyymejä lista. Kuusi geeniä havaittiin vain yhdestä lähteestä ja manuaalisesti tarkistettava UniProt ja Gene ontologia (GO) [9], [10]. Ei kukaan voisi vahvistetaan NHRs jättäen lopullinen luokassa 48 jäsentä. D, valmisteltavien työnkulku proteaasien on analoginen kuin NHRs ja muihin luokkiin. Koska UniProt hyödynnettiin, curation mukana etsimässä ensisijainen kirjallisuutta lisäksi istä GO.

Jokainen 10 dGene luokissa oli kattavasti asutuilla räätälöidyillä lähteistä, kuten erikoistuneiden tietokantojen ja katsaus artikkeleita. Tietyn luokan tuloksia useista lähteistä sovitetuiksi kautta NCBI Gene List ja merkinnät ainutlaatuinen yhteen lähteeseen vahvistettiin vastaan ​​tietokannat, kuten UniProt tai ensisijainen kirjallisuutta. Nukleaarihormonireseptorit (NHR) esittävät yksinkertaisin hyvin kuratoinut lähteiden [6] vaativat vähän Lisäseuranta (Fig. 1 c). Vertailun, proteaasit tarvitaan huolellisesti laaditun työnkulun aiheutuu ylimääräisiä erikoistunut lähteitä [7] ja suurempaan ohjeen curation lukien ensisijainen kirjallisuushakuja (Fig. 1 d). Lopullinen dGene luettelo sisältää 2257 geenejä kymmenen luokkaa (taulukko 1 ja taulukko S1), ja kiinnittää useista erikoistunut ja yleinen lähteiden [6] – [14]. dGene on täysin modulaarinen ja laajennettavissa: tulevia tietoja tai geeniluokkaa kohteisiin voidaan helposti lisätä.

dGene suodatin on hiljattain käytetty The Cancer Genome Atlas (TCGA) Okasolusyöpä keuhkosyövän hanke, jossa analysoidaan somaattisten mutaatioiden löydetty 178 okasolusyöpä keuhkosyöpää; tiedot löytyvät kyseisessä julkaisussa [1]. Havainnollistamiseksi edelleen hyödyllisyyttä dGene, päätimme äskettäin genomista tutkimuksessa 77 estrogeenireseptoripositiivisten rintasyöpiä kuten testitapauksena [2]. Aineisto koostuu 46 rintasyöpäkasvaimet koki koko genomin sekvensointi, plus 31 syöpiä, jotka kävivät exome sekvensointi, merkitään ”BRC” ja ”CSB” potilas koodeja, vastaavasti. dGene tunnistettu 368 yhden nukleotidin variantteja (SNV) ulos 2622 yhteensä tapahtuvien 255 druggable geenien (Fig. 2a-b). Vaatimus uusiutumisen useaa potilasta vähentää geeni asetettu entisestään (Fig. 2c). 37 geenejä, jotka ovat sekä druggable ja läsnä vähintään 2 potilasta listattu kuviossa 2d. Syötetiedosto ja dGene tulostetiedosto tästä analyysistä esitetään (taulukot S2 ja S3).

, 368 SNVs esiintyi geenejä pidetään druggable pois 2622 tapahtumien yhteensä. B, 2199 geenit oli vähintään yksi SNV, joista 255 pidetään druggable. C, seulonta yleisesti muuttanut geenien vähentää edelleen kohde luettelosta. D, 37 dGene merkinnät esittää vähintään 2 pois 77 näytteiden järjestämä luokka ja kärsiviä potilaita.

dGene Tutkimus antaa uutta tietoa tästä syövän genomin aineisto.

PIK3CA

on mutatoitunut 37/77 näytteissä, mutta lisäksi potilas (BRC44) oli KPDL567 in-frame deleetio PIK3R1, sääntely alayksikkö, joka sitoo PIK3CA. Tämä poisto tapahtuu PIK3R1-PIK3CA sitova rajapinta, ja se voi muuttaa PI3-kinaasi signalointi [15]. dGene ehdottaa, että on tärkeää tämän mutaation kautta sekä sen suhde PIK3CA ja mahdollisten druggability. Muita mutaatioita samalla esiin; esimerkiksi

TEX14

(nimet: kiveksissä-ilmentynyt proteiini 14 tai Sugen kinaasi 307) ja

INSRR

(insuliinin reseptoriin liittyvä reseptori) tyrosiinikinaasit ovat kaksi suhteellisen uusia lääkkeen tavoitteita. TEX14 on ollut mukana useita myelooma ja rintasyövän [16], [17], ja INSRR on liitetty munasarjojen epiteelin syöpää ja neuroblastoomat [18], [19]. Molemmat ovat todennäköisesti druggable, mutta kumpikaan ilmeni korkealla taajuudella ja ei korostettu maailmanlaajuisesti analyysin aineisto. Osoittaakseen arvon dGene tulosten vertailu tehtiin hakutuloksiin olemassa olevasta huumeiden tietokannasta, PharmGKB (farmakogenomiikka tietämyskannasta). dGene tunnistettu enemmän geenejä kuin PharmGKB tältä rintasyöpä aineisto (kuva S1, taulukko S4), mukaan lukien tunnistaminen 4 tyrosiinikinaaseja ja 13 S /T-kinaasien, jotka toistuvasti mutatoitunut näissä rintasyövän genomit (Fig. 2D).

Kuva 2d on esitetty myös kaksi varoitukset käytössä dGene. Mutaatiot

MAP3K1

löytyy 9/77 potilasta, ja useimmat näistä tapahtumista ovat toiminnan menetys mutaatioiden [2].

MAP3K1

n läsnäoloa dGene lähdön analyysi osoittaa, että dGene ei esitetä tietoja siitä, onko mutaatio voitto-of-function, keskeytys- toiminto tai toiminnallisesti äänetön. Annetaan luettelo geenin symboleja, dGene vain toimii suodattimena. Läsnäolo

Titin

ja kaksi kollageenin geenit (

COL28A1

ja

COL6A3

) kuvaavat, kuinka hyvin suuria geenejä, jotka usein sisältävät druggable komponentteja ja yleensä usein mutatoitunut, tulee edelleen suodatetaan dGene. Läsnä ollessa geenin dGene lähtö ei takaa tietyn mutaation biologista merkitystä.

dGene voidaan soveltaa mihin tahansa aineisto, joka sisältää luettelon geenin symboleja. Tämän havainnollistamiseksi analysoimme geenikopiomäärä (CN) tietoja 46 estrogeenireseptoripositiiviset rintasyöpäkasvaimet koki koko Genomikartoituksen (koodi ”BRC”) [2]. Raaka CN data sekaantunut 19528 geenit läpi lähes 150000 tapahtumia, mukaan lukien sekä polttoväli ja laaja CN muutoksia. Alkuseulana, vain tapahtumien alle 20

th tai yläpuolella 80

persentiilin katsottiin (0,7 × ja 1,5 × muutoksia vastaavasti), jättäen 54301 tapahtumista 16924 geenejä (taulukko S5). Suodatus vastaan ​​dGene vähentää entisestään asetettu 5421 CN muutoksia vuonna 1752 druggable geeneistä (kuvio 3a-c ja taulukko S6). CN tappiot PTEN perheen paljasti uusi havainto (kuva 3d).

TPTE2

(nimet: transmembraaninen fosfoinositidi 3-fosfataasia ja tensin homologia 2 tai TPIP) on yleisimmin menetetty PTEN perheenjäsen, CN tappiot havaittiin 14/46 potilailla, mikä on taajuus 3,5 kertaa suurempi kuin

PTEN

CN tappiot (4/46). Kirjallisuutta TPTE2 on rajallinen, ja se osoittaa, että TPTE2 voi estää solujen kasvua ja käynnistää apoptoosin, samanlainen PTEN tuumorisuppressori [20], [21], [22]. Tämä uusi havainto TPTE2 CN tappion tunnistettiin koska dGene korostaa yhdistyksen kesken PTEN perheenjäsenten suuresta ehdokas CN muutos asettaa.

, 5421 CNVs havaittiin vuonna 1752 druggable geenien näytteen poikki. 20

th (0,7 x) ja 80

th (1,5 x) persentiilit toimi cutoffs. B, voitot vain ( 1,5 x). C, tappiot vain ( 0,7 x). D, näyttäminen PTEN perhe CNV arvoja.

TPTE2

on useimmin muuttunut. Cutoffs ovat rento 0,85 × ja 1,15 × näyttämistä varten.

Keskustelu

Olemme kehittäneet päivitetyn version druggable genomin tunnistamalla erittäin druggable geeniluokkaa, asuttavat luokat käyttämällä ajan tasalla ja erityisiä resursseja, ja manuaalisesti tulosten vahvistamiseksi. Meidän kokoelma druggable geenien, dGene, on suunniteltu erityisesti käytettäväksi vastaan ​​mutaation, jotka on luotu syöpä Genomikartoituksen, vaikka sitä voidaan käyttää analysoimaan minkä tahansa ihmisen geenin lista. Olemme myös osoittaneet, että yhdessä Lisäsuodatusta kriteerit, dGene voi nopeasti korostaa mutaatioita biologisesti ja kliinisesti uskottava terapeuttisina kohteina.

rajoitukset dGene ovat, että se on painottuu ”onkogeeni riippuvuus” malli syövän ja kohti tavoitteita hyvin kuvattu, pienmolekyyleillä. Vaikka dGene ei tällä hetkellä sisällä geenien DNA: n korjaukseen, solunpintaproteiinit tai muiden mahdollisten lääkekohteita, uusia luokkia tehdä helposti johtuen dGene modulaarisuus. dGene myös ei yritä tunnistaa mutaatioita olevan joko menetys tai voitto toiminto; kuitenkin, dGene voidaan yhdistää toiminnalliset vaikutukset tulokset (esimerkiksi seuloa tai Mutaatio arvioija) mutaatioiden tunnistamiseksi, jotka ovat sekä todennäköisesti druggable ja todennäköisesti toiminnallinen [23], [24]. dGene on tarkoitettu tietojenkeruuvaiheessa väline ohjata kokeiluja kohti geenejä, joita vastaan ​​pienmolekyylisalpaajien saattaa nopeasti kehittää.

Kuten kaikki data-varat, päivittäminen dGene on äärimmäisen tärkeää. dGene luokat yleensä hyvin tutkittu, mistä on osoituksena se, että 2108 pois 2257 merkinnät löytyvät SwissP-, manuaalisesti tarkistetaan kokoelma proteiinin merkinnät [9]. Siksi odotamme dGene on melko vakaa, ja ovat sitoutuneet tarjoamaan vuosittaiset päivitykset. Lisäksi koska dGene on helposti laajennettavissa, voimme helposti integroida uusia geeni luokkiin tietoa syövän biologian kehitys ja ylimääräisiä geeniluokkaa kohdistetaan.

dGene on suunniteltu käytettäväksi syövän tutkijat ja vaadi tukea bioinformatiikan asiantuntija. dGene parhaillaan isännöi web-pohjainen työkalu kautta Genome Institute Washington University (dgidb.genome.wustl.edu). Siellä käyttäjät voivat suodattaa geeni luetteloita vastaan ​​dGene (kautta ”Search Luokat” sivulla tai ladata koko dGene sarkainerotellussa tekstitiedosto (kautta ”Downloads” sivulla), joka voidaan tuoda erilaisia ​​tilastollisia paketteja ja käyttää tai räätälöityjä kuin tarvitaan. Muita toimintoja verkkosivuilla sisältää kommentointiin dGene merkinnät tiettyä lääkettä tiedot, jos saatavilla (M. Griffith ja OL Griffith, käsikirjoitus valmisteilla). Yhteenvetona dGene tarjoaa nopean suodatin tunnistaa druggable geenien kymmenessä luokkaa syöpään genomisesta tutkimuksista, ja on tällä hetkellä käytettävissä kautta ammattimaisesti rakennettu verkkosivuilla.

Methods

Asuttavat Gene Sarjat

Sarjat olivat asuttuja ihmisen geenien kautta osallistamisprosessi erikoistuneilta tietokannoista ja arvostelut , standardoinnin NCBI geenin luettelosta, ja manuaalinen curation geenien esiintyvien yhdestä lähteestä. Kuva 1 c ja 1 d esittävät prosessia täysin varten nukleaarihormonireseptorit (yksinkertainen tapaus) ja proteaasit (monimutkainen tapaus) ja taulukossa 1 esitetään sarja erikoistuneita käytetyt lähteet kullekin luokalle. Arviot ja tietokannat tunnistettiin kirjallisuushausta ja ei ole täydellinen. Manuaalinen curation geenien ehdottanut vain yksi lähde varmistettu geenejä oikein luokiteltu. Luokissa jossa UniProt /Gene ontologia ei tarvinnut syötteenä lähteistä, yksinkertainen tarkistaa vastaan ​​UniProt /GO luokitus suoritettiin. Tapauksissa, joissa UniProt /GO toimitettiin tulona luokka (kuten oli laita proteaasit), tarkastus viitattu kirjallisuudessa ja sekvenssikohdistuksen suoritettiin.

aikana manuaalinen curation, bias oli kohti osallisuutta. Geenit jäivät omilla luokassa, jos ne joko osoittivat sekvenssihomologia tunnetun jäsen tai jos kokeellista näyttöä ehdotti heillä oli asianmukaiset toiminnot. Pseudogeenien ja geenit koodaavat funktionaalinen tuotteet otettiin tutkimukseen, jos he osoittivat homologiaa ohjelmiston sisältämän luokan jäsentä.

Tavallinen haaste lujittamisessa erilaisia ​​lähteitä oli sekoittumista yhteensopimattomia geenin ja proteiinin tunnisteet. Kartoitus NCBI ihmisen Gene List (url: ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz, pääsee 3. heinäkuuta 2012) helpottanut vertailua lähteistä. NCBI ihmisen geeni Luettelon koko kokoelma ihmisen geenien kirjataan NCBI tietokantaan sekä nykyiset merkinnät, ja päivitetään päivittäin. NCBI geeni lista tarjoaa standardin muodossa kaikkiin dGene merkinnät -15 sarakkeita, kuten NCBI geneID, virallinen symboli, ja mikä tärkeintä, luettelon synonyymejä käytetään kirjallisuudessa. Kutakin kirjausta 16

nnen sarakkeen, luokka, on liitteenä. Kartoitus toteutettiin muuntamalla proteiinin nimet geeni nimet David Gene ID Conversion Tool [25], ja etsimällä synonyymiluetteloasi annetaan NCBI tiedoston termejä, jotka eivät näy viralliseksi symboli.

soveltaminen dGene 77 Breast Cancer näytteitä

raaka mutaatio merkinnät analysoitu tässä työssä hyödynnetään ajan tasalla geenin tunnukset. Mutaatiot geeneissä, jotka myös esiintyvät dGene suodatettiin erilliseen taulukkoon, ja luokan termin dGene liitettiin uutena sarakkeeseen. Aggregaatiota potilaaseen ja luokan tuotannossa sallitaan kuvion 2a. Aggregaatiota potilaaseen ja geeni tarvitaan tuotettaessa kuvion 2b-d. Raaka CN analysoitiin samalla tavalla, ja tulokset kuvataan kuviossa 3.

Ohjelmisto

Analyysi tehtiin R 2.15.1 for Windows. Heatmaps tuotettiin R käyttäen peruspaketti, vaikka ylimääräisiä lukuja ja taulukoita tuotettiin Microsoft Excel ja PowerPoint.

tukeminen Information

Kuva S1.

doi: 10,1371 /journal.pone.0067980.s001

(PDF) B Taulukko S1.

doi: 10,1371 /journal.pone.0067980.s002

(CSV) B Taulukko S2.

doi: 10,1371 /journal.pone.0067980.s003

(XLS) B Taulukko S3.

doi: 10,1371 /journal.pone.0067980.s004

(XLS) B Taulukko S4.

doi: 10,1371 /journal.pone.0067980.s005

(XLS) B Taulukko S5.

doi: 10,1371 /journal.pone.0067980.s006

(XLS) B Taulukko S6.

doi: 10,1371 /journal.pone.0067980.s007

(XLS) B

Kiitokset

Kirjoittajat kiittää Obi Griffith, Malakia Griffith, Robert Pufahl, Li Ding, ja Rob Mitra varten hyödyllisiä keskusteluja ja kriittinen lukema käsikirjoituksen. Kirjoittajat lisäksi kiittää Mal Griffith ja Obi Griffith pääsyn aikaansaamiseksi dGene kautta dgidb.genome.wustl.edu.

Vastaa