PLoS ONE: Human Cancer Long koodaamattomalla RNA Transcriptomes

tiivistelmä

Kun ajatellaan olevan osa ”pimeä aine” genomin, pitkän ei-koodaavat RNA: t (lncRNAs) ovat nousemassa olennaisena toiminnallinen nisäkkään transcriptome. LncRNAs ovat uusi luokka mRNA-like-transkriptien, jotka siitä huolimatta, ei ole tunnettua proteiinia koodaavan potentiaalia, osoittaa monenlaisia ​​rakenteellisia ja toiminnallisia rooleja solubiologian. Kuitenkin suuruus osuus lncRNA ilmaisun normaaliin ihmisen kudoksiin ja syöpien ei ole tutkittu kattavasti. Tässä tutkimuksessa olemme koonneet 272 ihmisen sarja- analyysiä geeniekspression (SAGE) kirjastot hahmotella lncRNA transkription kuviot poikki laajan kirjon ihmisen normaalien kudosten ja syöpiin. Käyttämällä uutta lncRNA löytö putki me jäsentää yli 24 miljoonaa SAGE tunnisteita ja raportoimaan lncRNA ekspressioprofiileja poikki paneeli 26 eri normaalista ihmisen kudoksissa ja 19 ihmisen syövissä. Meidän Tulokset osoittavat laajan kudosspesifisiä lncRNA ilmentyminen normaaleissa kudoksissa ja erittäin poikkeava lncRNA ilmentyminen ihmisen syövissä. Tässä esitämme ensimmäisen sukupolven atlas varten lncRNA profiloinnin syövässä.

Citation: Gibb EA, Vučić EA, Enfield KSS, Stewart GL, Lonergan KM, Kennett JY, et al. (2011) Human Cancer Long koodaamattoman RNA Transcriptomes. PLoS ONE 6 (10): e25915. doi: 10,1371 /journal.pone.0025915

Toimittaja: Eric J. Bernhard, National Cancer Institute, Yhdysvallat

vastaanotettu: 01 elokuu 2011; Hyväksytty 13 syyskuuta 2011; Julkaistu: 03 lokakuu 2011

Copyright: © 2011 Gibb et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat avustuksia Kanadan Institutes for Health Research (CIHR) [MOP 86731, MOP 77903 ja WLL, MOP 13690 kohteeseen CJB]; National Institutes of Health [NIH 2R01 CA103830 – 6A1]; Department of Defense [CDMRP W81XWH-10-1-0634]; CIHR ja Michael Smith Foundation for Health Research (MSFHR) Postdoctoral Yhteisöt [sen E.A.G.]; ja CIHR Frederick Banting ja Charles Best Kanada Graduate Scholarship [sen E.A.V.]. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

genomin epävakautta ja mutaatio ovat tunnusmerkki syöpä [1]. Geneettinen ja epigeneettiset muutokset johtavat poikkeava ilmentyminen proteiinia koodaavan geenien ja monta luokkaa kuin koodaavat RNA: t (ncRNAs), mukaan lukien MikroRNA (miRNA). MiRNA ovat osoittautuneet merkittäviä toimijoita ihmisen Karsinogeneesin huolimatta käsittää vain pieni murto-osa ncRNAs [2].

Kun ajatellaan olevan ”pimeä aine” genomin, ncRNAs ovat nousseet olennainen osa nisäkkään transcriptome [3], [4], [5]. Nämä arvoituksellinen molekyylit määritellään puute proteiinia koodaavan sekvenssin, mutta voi pelata sekä rakenteellisia ja toiminnallisia rooleja solussa [6], [7]. NcRNAs voi on jaettu kahteen pääluokkaan, pieni ncRNAs, jotka sisältävät miRNA ja muut ei-koodaavat transkriptien alle 200 nukleotidia (nt), ja viime aikoina on kuvattu lncRNAs, jotka vaihtelevat 200 nt osoitteeseen 100 kiloemästä (kb ) [8].

LncRNAs voi olla geenien välisen, introni, antisense- tai päällekkäisyyttä proteiinia koodaavan geenien tai muiden ncRNAs [9], [10], [11], [12]. Tunnetut ohjelmistoon lncRNA toimintojen laajenevat nopeasti – kanssa osoittivat välittäjän rooleja mRNA rappeutuminen [13], rakenteelliset tukirunkoja ydinvoiman alarakenteiden [14], [15], isäntänä geenit miRNA [16], [17], ja sillä sääntelyviranomaisten kromatiinin remontin [18], [19], [20], [21] – vaikka toiminnallinen identiteettiä monet lncRNAs ole vielä paljastanut [6], [7], [22]. Viime aikoina ihmisen syövissä on kuvattu olevan muuttunut ilmentyminen satelliitti toistojen [23], puhtaaksi ultra konservoitunutta aluetta (T-UCRs) [24], ja antisense-transkriptit [25]. Beyond ilmentyminen muuttuu, varaamiseen todisteet osoittavat poikkeava ilmentyminen lncRNAs voi olla tärkeä toiminnallinen rooli syövän biologian [26], [27], [28]. Hyvin tutkittu HOX antisense intergeeniset RNA (

hotair

), esimerkiksi, on erittäin ilmaistaan ​​rintasyöpiä ja rintasyöpä etäpesäkkeitä ja sillä on merkitystä uudelleenkohdistaminen chromatin remodeling kompleksit [29]. Vastaavasti korkea ilmentyminen ydin- pilkku liittyvät lncRNA etäpesäke liittyvä keuhkoadenokarsinooma transkriptio 1 (

MALAT1

) moduloi vaihtoehtoisen silmukoinnin ja on liittynyt etäpesäkkeitä ja huono tulos potilailla keuhkosyöpä [30], [31] . Vaikka nämä esimerkit ovat kiehtovia, laajuus panos ero lncRNA ilmentymisen ihmisen syöpä ei tällä hetkellä tunneta.

konservatiivinen arvio 23,000 lncRNAs ihmisen perimässä, nämä selostukset kilpailija ~20,000 proteiinia koodaavan geenien [5], [11], [32], [33]. Viimeisten kahden vuosikymmenen aikana, mikrosirujen profilointi on herättänyt runsaasti tietoa proteiinia koodaavan geeniekspressiomalleja ihmisen syövissä. Koska lncRNA erityisiä koettimia ovat aliedustettuina kaupallisiin mikrosiruja käytetään syövän transcriptome profiloinnista, nämä tiedot eivät koske ncRNAs. Global sekvensointi RNA väestön on uusi lähestymistapa profiloida RNA ekspressiotasot joka tallentaa laajuus lncRNA ilmaisua. Äskettäin genomin laajuinen ncRNA ilmentymisen profiilit määritettiin 11 näytettä, jotka edustavat eri ihmisen kudoksista [34].

Yksi sekvenssi-pohjainen menetelmä luetellaan runsaasti polyadenyloidun transkriptien on SAGE [35]. Kuten monet lncRNAs itse polyadenyloituina, lncRNA transkriptipitoisuuksissa voidaan päätellä suoralla luettelointi vastaavan sekvenssin tunnisteita SAGE tekniikkaa. Itse asiassa kahden antisense lncRNAs havaittiin käyttäen SAGE perustuva menetelmä [25]. Keksimisen jälkeen SAGE teknologian 1990-luvun puolivälissä, lukuisat SAGE kirjastot edustavat monimuotoisuus ihmisen ja hiiren, normaalien ja pahanlaatuisten kudosten ja solulinjoissa ovat julkisesti saatavilla [36]. Niistä 755 ihmisen SAGE kirjastojen Gene Expression Omnibus (GEO) tietokantaan, ~276 kuuluvat SAGE kirjastot on johdettu ihmisen syövistä tai dysplasioita [37].

Tässä tutkimuksessa olemme koonneet 272 ihmisen SAGE kirjastot hahmotella lncRNA transkriptio kuvioita halki laajan kirjon ihmisen kudosten ja syöpiin. Käyttämällä mukautettua lncRNA löytö putki, me jäsentää yli 24 miljoonaa SAGE sekvenssin leimoilla päätellä (1) erityiset lncRNA ilmaus kuvioita 26 ihmisen kudoksissa ja löysi ekspressoituvat sekä kudoksen erityisiä lncRNAs, ja (2) poikkeava ilmaisu malleja lncRNAs 19 ihmisen syövissä.

tulokset

kokoaminen ihmisen SAGE kirjastoja normaalien ja syövän kudoksissa

yhteensä 1824 SAGE kirjastojen (lyhyt SAGE, pitkä SAGE ja SAGE-seq formaatti) ihmisen ja ei-ihmisen alkuperä on julkisesti saatavilla GEO. Tutkitaan lncRNA ilmaisua laajin ihmiskudostyypeistä ja syöpätyyppejä, me ladattu 360 GEO accessioned ihmisen lyhyt SAGE kirjastojen koostuu kirjastojen kuratoi Cancer Genome Anatomy Project (324 kirjastot) ja keuhkokudoksen ja syövän aineistot (36 kirjastot) ( Taulukko S1). Yksittäiset kirjastot olivat suodatetaan järjestyksessä syvyys, säilyttäen vain ne kirjastojen 50000 raaka tunnisteet, antamaan 272 SAGE kirjastoja analysoitavaksi käyttämällä lncRNA löytö putki (taulukko S2). 272 SAGE kirjastot koostuvat yhteensä 24436076 raaka sekvenssimerkkejä joiden keskimääräinen raaka tag lasken 90212 per kirjasto. Yhdessä kirjastot kesti 26 normaalin ihmisen kudoksen tyypit, mukaan lukien 19 ihmisen syövän tyyppejä, ja 9 kudostyypit peräisin solulinjasta kirjastoista (kuvio 1, taulukko S3).

(CL) osoittaa yhden SAGE kirjasto, joka syntyi seoksesta ihmisen solulinjoissa.

Long koodaamattomalla RNA löytö putki

tuottaa lncRNA ekspressioprofiileja kehitimme lncRNA löytö putki kartoittaa tag-to-lncRNA täsmää (kuvio 2). Salvia tag ilmaisu matriisi rakennettiin kaikki ainutlaatuisia tunnisteita (n = 716330) yksilöidään aineisto 272 kirjastoja. Unigene kartoitettu ja unmapped SAGE tunnisteita (n = 269785 ja n = 446545, vastaavasti) erotettiin erillisiksi ilmaisu matriiseihin jotka sittemmin suodatettu säilyttää vain ne tunnisteet vähintään 2 raaka tag laskee 3 tai enemmän SAGE kirjastoja. Käyttämällä SAGE Genie määrittää geeni tunnisteista Unigene tunnukset, 263 61054 suodatetun tunnisteet vastaavat Unigene tunnukset kartoitettu tiedossa lncRNAs, ja 15773 tunnisteet joko puuttui geeni nimiä tai oli epäselvä merkintöjä (esim. Puhtaaksi loci, cDNA, hypoteettinen geenejä). Perustuen puuttuminen vahvisti yhdessä tunnettujen geenien, nämä 15773 tag-to-Unigene osumat katsottiin ehdokkaana lncRNA tageja.

Numerot osoittavat ohjelmia tai suodatuksen vaiheet seuraavasti: (1) suodatus säilyttää vain ne kirjastot vähintään 50000 raaka tag laskee, (2) tunnistetaan ainutlaatuinen SAGE tunnisteita ja rakentamalla SAGE tag ilmaisun matriisi, (3) kartoitus SAGE tunnisteita Unigene tunnukset käyttäen SAGE Genie kartoitus tiedostoja, (4) suodatus luettelot säilyttää vain tunnisteet ≥ 2 raaka laskee joka ≥3 272 kirjastoja, (5) määritetään geenin identiteetti käyttämällä SAGE Genie, (6) erotetaan Unigene tunnisteita kartoitus lncRNAs ja epäselvä selostukset, (7) yhdistämistä epäselvä tageja ja unmapped tunnisteet, (8) kartoitus sekvenssimerkkejä vertailutasoon luetteloon 9891 lncRNAs käyttäen SeqMap, tag-to-geenin kartoitus ohjelma, (loput tunnisteet voivat karttaa annotoimaton lncRNAs tai antisense selostukset eivät sisälly Referenssilistassamme) (9) suodatus tag vastaa lohkossa mielessä (10) kokoamalla eteenpäin kartoitus tageja ja tunnisteet määritetty Unigene, ja (11) vahvistaa tag-to-lncRNA ottelut ja yhteen tag laskee varten lncRNAs useita tag täsmää. Täydellinen luettelo lncRNAs palvelee Taulukko S5 ja tag-to-lncRNA ottelut tarjotaan taulukossa S6.

15773 Unigene tunnisteet epäselvä geenin tunnisteet yhdistettiin 17816 unmapped, suodatetaan tunnisteet yhteensä 33589 SAGE tunnisteita, joilla on potentiaalia tuottaa tag-to-lncRNA täsmää. Käyttämällä SeqMap, kartoitimme 7040 ja 33589 tagit lncRNA sekvenssit viite lncRNA listan (taulukko S4). Osuus tag-to-lncRNA vastaa on yhdenmukainen sen tosiasian kanssa, että viittaus luettelo 9891 lncRNAs edustaa vain osaa arvioitu 23000 lncRNAs genomissa [33]. Loput tunnisteet, jotka eivät karttaa lncRNAs meidän viite luettelo edustaa antisense selostukset proteiinia koodaavan geenien tai muiden ncRNAs jotka suodatettiin.

Niistä 7040 lncRNA tag täsmää, 3831 kartoitettu eteenpäin suunta, kun taas 3209 kartoitettu vastakkaiseen suuntaan. Vuonna SAGE, tunnisteet vastaavat transkriptio eteenpäin suuntautuminen ovat todennäköisesti peräisin että transkriptio, vaikka tunnisteet sovitus päinvastaisessa suunta eivät ole. Tämä on totta riippumatta siitä, onko geeni normaalisti transkriboidaan plus tai miinus DNA-juosteen. Tässä tutkimuksessa olimme kiinnostuneita ilmaus profiilit valikoidun joukon lncRNAs sijaan uuden geenin löytö. Koska käänteinen tag ottelut eivät vahvistavan ilmaus lncRNAs tässä kuvatun, nämä tunnisteet jätettiin pois lisäanalyysiä.

3831 tunnisteet äskettäin kartoitettu lncRNAs yhdistettiin 263 tunnisteet tunnistaa Unigene kartoitus yhteensä 4094 tunnisteet yksilöllisesti kartoitus lncRNAs. Kun useita tunnisteita kartoitettu selvä lncRNA, tunnisteet olivat romahtaneet yhteen tunnisteen laskee tallentaa kaikki transkriptivariantissa ja isoformit. Lopputuloksena oli lncRNA ilmaisu matriisin, joka koostuu 2649 erillisen lncRNAs (taulukot S5 ja S6). LncRNAs, jolla on korkein ekspression olivat havaittavissa useimmissa ( 90%), 272 kirjastojen (taulukko 1). Näihin sisältyvät tunnettu esimerkit kuten ydin- paraspeckle kokoonpano transkriptio 1 (

NEAT1

) ja kasvun pysähtymisen-erityisiä 5 (

GAS5

).

Long koodaamattomasta RNA ekspressioprofiilit normaaleissa ihmisen kudoksissa

272 SAGE kirjastot, 72 edustaa normaalia ihmisen kudoksissa. Expression of lncRNAs todettiin kaikissa kudostyypeissä, vaikka ainutkertaisten lncRNAs havaittujen vaihteli huomattavasti (kuvio 3A). Keskimäärin oli 145 erillistä lncRNAs joiden keskimääräinen tageja per million (TPM) 20 havaittiin kussakin kudoksessa. Kudoksissa, kuten imusolmukkeesta ja sappirakon osoitti eniten erillisiä lncRNAs, alin määrä erillisiä lncRNAs havaittiin lihasten ja maksan.

(A) määrä erillisiä lncRNAs ilmentyy normaaleissa ihmisen kudoksissa, valkosolujen ja alkion kantasolujen vähintään keskimääräinen TPM 20. arvot suluissa määrän SAGE kirjastoja kunkin kudoksen. (B) Esimerkkejä lncRNAs havaittiin yksinomaan yhdessä normaalin ihmisen kudoksen tai alkion kantasolut (ESC) vähintään ilmentymistason 10 TPM. Kudoksia, joissa on kaksi tai useampia kirjastoja, TPM-arvot laskettiin keskiarvo. LncRNAs ilman nimet leimattu Ensembl ID.

seuraavaksi keskittyneet Näiden kirjastojen onko kudosspesifisiä lncRNA ekspressioprofiileja voitaisiin tuottaa (taulukko S7). Kuvio 4A esittää top 20 eniten ilmaistaan ​​lncRNAs havaittiin paneelissa normaaleissa kudoksissa. Selvät lncRNAs havaittu suurilla ekspressiotasot normaaleissa kudoksissa sisältyvät ne, tunnettu kirjallisuudessa, kuten

NEAT1

,

GAS5

ja X-aktiivinen-erityisiä transkripti (

Xist

). Kuitenkin ainakin puolet voimakkaasti ilmaisi lncRNAs ovat uusia ja tällä hetkellä tuntemattomia. Vahvista lncRNA ekspressioprofiileja, me kysyi ilmentymiskuviot pisimmälle ilmaisi lncRNAs käyttäen RNASeq tietojen Illumina Human BodyMap 2,0 projekti. Tämä data on äskettäin lisätty Ensembl vapautumisen 62 ja esitetään valinnaisena radalla. Meidän pisimmälle ilmaisivat lncRNAs, valtaosa laajasti ilmaistu kudosnäytteitä Illumina aineisto, vastaa meidän havainnot (taulukko S8, kuviot S1 ja S2). Samanaikaisesti lncRNA ilmentyminen havaittiin myös vaihdella suuresti, ja kukin ihmisen kudosta, jolla on ainutlaatuinen lncRNA ilmentymiskuvio (kuvio 4B). Kiinnostavaa, useita lncRNAs ilmennettiin kudoksen-yksinomaisen tavalla (kuvio 3B).

(A) LncRNAs kanssa korkeimmat ilmaisu (B) LncRNAs, jolla on korkein varianssia variaatiokerroin (CV) testata. Heatmaps osoittavat suhteellista intensiteettiä (normalisoitu TPM) kunkin lncRNA poikki seitsemäntoista ihmisen kudoksissa, valkosolujen ja ihmisalkion kantasoluja. Jos useampi kuin yksi SAGE kirjasto oli saatavilla, TPM-arvot laskettiin keskiarvo. Sillä heatmap suurin kynnys asetettiin 300 TPM. LncRNAs ilman nimet leimattu Ensembl ID.

Long ei-koodaavat RNA: n ekspression profiileja ihmisen syövissä

Poikkeava proteiinia koodaavan geenin ilmentyminen on hyvin kuvattu syöpää. Kuitenkin poikkeava ilmentymä ncRNAs, kuten miRNA ja lncRNAs, on vasta hiljattain liittynyt tähän tautiin [2], [26], [27], [38]. Rajata lncRNA ekspressioprofiileja liittyvät ihmisen syöpiin, loimme ihmisen syövän ilme matriisi perustuu 167 syöpää SAGE kirjastojen mukana meidän aineisto (taulukko S9). Sillä keuhkosyöpä aineisto, metaplasiaa, dysplasia ja tulehduskudoksissa jätettiin analyysin ulkopuolelle, koska nämä edustavat precancerous vaiheissa [39], [40]. Kuvio 5A esittää Top 20 eniten ilmaisivat lncRNAs poikki profiloitu syöpiä. Kuten normaalit kudokset, lncRNA ilmentyminen ihmisen syövässä havaittiin myös vaihdella suuresti (kuvio 5B).

(A) LncRNAs kanssa korkeimmat ilmaisu (B) LncRNAs, jolla on korkein varianssia variaatiokerroin (CV) testi. Heatmaps osoittavat suhteellista intensiteettiä (normalisoitu TPM) kunkin lncRNA poikki seitsemäntoista ihmisen syöpien ja ihmisalkion kantasoluja. Jos useampi kuin yksi SAGE kirjasto oli saatavilla, TPM-arvot laskettiin keskiarvo. Sillä heatmap suurin kynnys asetettiin 300 TPM. LncRNAs ilman nimet leimattu Ensembl ID.

Ihmisen syövissä, osoittavat merkittävästi muuttunut lncRNA ekspressiokuvioiden

laajuuden määrittämiseksi ero lncRNA ilmentymisen ihmisen syövässä, loimme kolme ilme matriisit kunkin rinta-, aivo- ja keuhkosyöpä, johon kuului vähintään viisi normaalia ja viisi syöpä SAGE kirjastot (taulukko S10). Rinnan, aivojen ja keuhkojen lncRNA ilmaisun matriiseja itsenäisesti lajiteltu merkittäviä ja ilmennetty eri lncRNAs (p-arvo 0,05, ≥2-kertainen ilmaisun muutos perustuu epäparametrinen permutaatio testi [41]). Kussakin syöpätyyppi, löysimme vähintään 200 lncRNAs ole merkittäviä ero ilme näiden kriteerien perusteella (kuvio 6A). Kiinnostavaa oli päällekkäisyyksiä lncRNAs, jotka ilmentyvät differentiaalisesti kussakin kudoksessa (kuvio 6B), mukaan lukien 8 lncRNAs, jotka ilmentyvät differentiaalisesti kaikki kolme syövissä (taulukko 2). Kymmenen eniten ylä- ja alassäädetty lncRNAs kunkin syöpä on esitetty taulukossa S11.

(A) määrä lncRNAs osoittaa merkittäviä ilme muuttuu. Määrä lncRNAs määritelty olevan merkittävää (BH p-arvo 0,05) tasauspyörästön ilmentyminen 2-kertainen tai suurempi raportoitu. Kiinteät pylväät osoittavat voimistunut geenejä, kun taas baareja luukku merkit osoittavat vaimentua geenejä (B) Venn kaavio ilmentyvät eri lncRNAs ihmisen karsinoomia.

kromosomaalinen jakautuminen pitkän ei-koodaavan RNA: t

rakennettu jakelu juoni määrittää kromosomaalinen jakautuminen 9891 lncRNA geenit meidän lncRNA referenssilistassa (taulukko S3). LncRNAs jaetaan koko genomin ja ovat läsnä joka kromosomi (kuvio 7). Proteiini-koodaus geenit ja miRNA näyttävät jakavat samanlaisen kromosomin jakelu (Spearman korrelaatio p 0,05, kuva S3A). Kuitenkin, kromosomi jakelu lncRNAs eivät korreloineet joko proteiinia koodaavan geenien tai miRNA (Spearman korrelaatio p 0,05, kuviot S3B, S3C).

Protein koodaavan geenin, (n = 20655), microRNA (n = 1746) ja pitkän ei-koodaavat RNA: n (n = 9891) koordinaatit ladattu Ensembl V62 käyttäen BioMart.

keskustelu

viime vuosina, käsite funktionaalinen genomi on otettu uudelleen kirjoitettu sisällyttää monia äskettäin löydetty luokkien ncRNA selostukset [42], [43], [44], [45]. Vaikka toiminnallinen merkitys pitkän ei-koodaavan RNA: t on jo pitkään tunnustettu [46], [47], runsaus ja laajuus lncRNA ilmentymisen muutosten syöpä on vasta alkamassa tulla valoa. Tästä syystä kartoitus transkription maisemaa lncRNAs kaikkialla ihmisen kudosten ja syöpätyyppeihin on tärkeä askel ymmärtämisessä lncRNA toiminnallinen merkitys syövässä.

Tässä esittelemme ensimmäinen multi-kudosta, rajat syöpä lncRNA ilmentymisen profilointi tutkimus. Laajamittainen ilmentymisen profilointi aineistoja, kuten SAGE edustavat arvokas voimavara tutkimiseen ekspressiokuviota polyadenyloitujen lncRNAs. Vaikka tämä lähestymistapa sulkee pois profilointi ei polyadenyloitujen lncRNAs, se kuitenkin helpottaa samanaikainen profilointi tuhansia polyadenyloitujen lncRNAs monenlaisia ​​ihmisen kudoksia ja syöpiin. Käyttämällä 272 SAGE kirjastoja, jotka edustavat 26 ei-pahanlaatuinen ihmisen kudoksia, 19 ihmisen syöpätyyppeihin ja 9 syöpäsolulinjat, olemme tuottaneet ensimmäisen sukupolven atlas rajat syövän lncRNA ekspressioprofiileja voimavarana tällä nopeasti kasvavalla alalla syöpätutkimukseen. Tämänhetkisten arvioiden määrästä lncRNAs koodattu ihmisen genomin vaihtelevat suuresti, jotka vaihtelevat ~7,000 23000 tai enemmän [7]. Nämä arviot kilpailla runsaasti arvioidun 20000 proteiinia koodaavan geenien. Meidän analyysi osoitti, että lncRNAs jaetaan kaikille 22 autosomeiksi ja sukupuolikromosomeiksi, mutta jakautumiskuvion ei korreloinut joko proteiinia koodaavan geenien tai miRNA (kuva 7, kuva S3).

Examination of 72 SAGE kirjastojen normaaleissa ihmisen kudoksissa paljasti, lncRNA ilmentymistä aivoissa, rintasyöpä, ruokatorven, sappirakko, sydämen, maksan, keuhkon, imusolmukkeen, lihas, vatsakalvo, istukka, eturauhanen, verkkokalvo, selkäydin, mahalaukku, kilpirauhasen, verisuonikudoksen, alkion kantasoluja ja valkoinen verisolut. Löydämme laaja ja erittäin ero malleja lncRNA ilmentymisen normaaleissa ihmisen kudoksissa (kuviot 3 ja 4), jotka vahvistavat aiemman raportin kudosspesifisiä ncRNA malleja [34]. Esimerkiksi lncRNA NCRNA00116 oli hyvin ilmaistu supistuvien kudosten, nimittäin sydän (TPM = 349) ja lihaksen (TPM = 399). LncRNAs ENSG00000230658 ja ENSG00000235621 osoittivat hyvin korkean ekspressiotason (TPM = 888) istukassa ja ruokatorven (TPM = 820), vastaavasti, mutta pieni tai havaitsemattomia ilmentymistä muissa kudoksissa, jotka voivat viitata kudosspesifisen rooli näiden transkriptien. Aivot liittyvä ja otaksuttu tuumorisuppressoriproteiinia lncRNA emolle ilmaistaan ​​3 (

MEG3

) [48], on osoittanut nopeinta ilmentymistä aivoissa meidän aineisto (TPM = 677), mutta osoitti alhainen ilmaisunvapautta muissa kudoksessa tyypit ( Kuvio 4). Yhdessä nämä tiedot viittaavat siihen, jotkut lncRNAs voivat toimia kudosspesifisellä tavalla.

Vain ~ 1%: n lncRNAs oli ekspressoituvat kaikissa tutkituissa kudoksissa. Nämä jatkuvasti ilmaissut lncRNAs muistuttavat ilmaisun malleja ”housekeeping” proteiini-koodaus geenit [49]. Kaikki yksitoista lncRNAs taulukossa 1 ilmaistaan ​​vähintään 90% 272 SAGE kirjastojen meidän aineisto, epäilynalaisiksi että nämä transkriptit voivat osallistua yhteisiin biologisiin prosesseihin. Kuitenkin absoluuttinen ilmentyminen vaihteli kunkin kudoksen, joskus satoja TPM (kuvio 4). Tämä viittaa siihen, tietyt lncRNAs voidaan vaatia eri solujen tasoilla eri kudoksissa tai erilaisissa olosuhteissa, aivan kuten monet konstitutiivisesti proteiinia koodaavan geeni [50], [51], [52]. Käsite lncRNAs toimivat konstitutiivisesti säätölaitteet on aiemmin ehdotettu. Esimerkiksi lncRNA

Xist

on kriittinen naisten kehityksen vuoksi sen toiminnallinen rooli X-kromosomin inaktivaatiota [47], [53]. Yhtäpitävästi, useita pisimmälle ja usein ilmaistu lncRNAs meidän aineisto on ennen assosiaatioita keskeisiä biologisia prosesseja, kuten

NEAT1

, rakenteellinen tukirakenteen paraspeckle muodostumisen [14], [54],

MALAT1

joka säätelee vaihtoehtoisen silmukoinnin [31] ja pieni nucleolar RNA isäntä geeni 6 (

SNHG6

), joka isännöi snoRNA, jotka toimivat RNA muutos [55]. Nämä havainnot viittaavat siihen, että lncRNAs voi olla kriittinen normaalin kudoksen ylläpitoon ja toiminnan.

Tässä cross-syöpätyypin analyysi, havaittiin, että lncRNAs poikkeavasti ilmentää tiettyä syöpää voidaan myös muuttaa muita syöpiä. Esimerkiksi kun

MEG3

ilmentyy voimakkaasti normaaleissa aivoissa kudoksissa, tämä lncRNA oli vahvasti vähentynyt meidän aivosyövän aineistoja, ja silmiinpistävän niin sappirakko, verkkokalvon ja eturauhasen syöpiä, yhdenmukainen ehdotetun tuumorisuppressori rooli

MEG3

[48], [56], [57]. Toisessa esimerkissä, miR155 isäntä geenin (

miR155HG

), joka on lncRNA prosessoidaan miRNA

miR-155

, on erittäin yli-ilmentynyt B-solulymfooman aikaisempien raporttien kanssa yhtäpitävä [16], mutta lisäksi myös yläreguloituja ruokatorven ja sappirakon syöpiä.

Long ei-koodaavat RNA: t ovat myös osallisina säätelyyn alkionkehityksen [58], [59], [60]. Sikiön lncRNAs uudelleen syövät voivat edustaa kriittistä sääntelyviranomaisten pluripotenttisuuden tai solujen kasvua. Esimerkiksi lncRNA uroteelisyöpä liittyy 1 (

UCA1

) on osoittanut rooleja sekä alkion kehitykseen on sekaantunut virtsarakon syövän, tukee tätä käsitettä [61]. Meidän aineistoja, löysimme useita lncRNAs alhainen ilmentyminen normaaleissa kudoksissa, mutta voimakasta ilmentymistä sekä alkion kantasoluja ja syöpä (taulukko S12). Vaikka nämä uudelleen sikiön lncRNAs edustaa enimmäkseen tuntemattomia esimerkkejä,

H19

, hyvin tutkittu lncRNA yhdistysten sekä nisäkkäiden kehittämiseen ja syövän [53], havaittiin myös meidän aineisto. Mielenkiintoista,

NEAT1

, joka on konstitutiivisesti ja erittäin ilmentyy normaaleissa kudoksissa [34], [62], lukuun ottamatta alkion kantasoluja, säädeltiin vähentävästi keuhkojen, maksan, ruokatorven ja verkkokalvon syövät (retinoblastooma).

Koska genomista monistukset ja poistot ovat keskeisiä mekanismeja geenin vapauttamisen syövän, tutkimme muutokset lncRNA ilmaisun genomialuetta usein muuttunut rinta-, aivo- ja keuhkosyöpä. Vertailu merkittävästi (p 0,05) vapautettiin lncRNAs yhteistä on aivojen, rinnan ja keuhkosyöpä kudoksissa paljasti kahdeksan lncRNAs oli säädellään eri tavalla (≥2-kertainen) verrattuna normaaliin kudokseen. Kiinnostavaa, nämä kolme lncRNAs – ENSG00000226380, ENSG00000230937 ja ENSG00000253288 – sijaitsi 7q32.3, 1q32.2, ja 8q24.23 vastaavasti alueilla täysin vailla proteiinia koodaavan geenejä. Kuten proteiinia koodaavan geenien ja miRNA, on mahdollista, että ero lncRNA ilmentymistä ohjaavat vastaavia mekanismeja häiriöiden, kuten kopiomäärä voitto /tappio tai poikkeava metylaation. Todellakin, korkea monistamiseen lncRNA sisältävien loci kuten cytoband 19p12 on raportoitu rintasyövän [63], kun taas korkea monistamisen 12p13.2 (joka sisältää useita lncRNA loci) on raportoitu rintasyövän, glioblastooma, astrosytooma ja levyepiteelisyöpä keuhkosyöpä [64], [65], [66], [67]. Samoin, poikkeava ilmentyminen useiden lncRNAs on sidottu muutettu metylaation [68], [69]. Kuitenkin mekanismi (t) ajo poikkeava lncRNA ilme pysyy enimmäkseen tuntemattomia.

Vaikka lncRNAs on dokumentoitu lähes kolme vuosikymmentä, suuruus ja monimuotoisuus lncRNA ilmaisun on vasta hiljattain arvostettu. On arvioitu, että lncRNAs ihmisen genomin numeron kymmeniä tuhansia ja siten kaksinkertaistaa määrän potentiaalisia geenikohteet syövän geeniekspression verkoissa. Laajamittainen, rajat kudos ja syöpä tutkimukset ovat ratkaisevia ymmärtää sääntelyn lncRNA ilmaisun ja miten nämä uudet selostukset integroida nykyisen ymmärrystä nisäkkäiden transcriptome. Lisäksi syvempää ymmärrystä lncRNA ilmaisua ei vain laajentaa määrä potentiaalisia kohde syövän geenejä, vaan myös helpottaa uudenlaisten syöpälääkkeiden, kuten geenisäätelyssä välittämiä antisense-RNA: t [70] tai kohdistaminen lncRNA-proteiini vuorovaikutusten [28 ].

Materiaalit ja menetelmät

SAGE kirjastot

Tässä tutkimuksessa käytetään julkisesti saatavilla SAGE kirjastojen tietojen analysointia. Kaikkiaan 360 SAGE kirjastojen, kuten 324 alkaen Cancer Genome Anatomy Project (CGAP) SAGE kirjastokokoelma (GSE15309), 19 keuhkoissa keuhkoepiteeliverrokkiin kirjastot (GSE3707), 13 keuhkosyöpä kirjastot (GSE7898) ja 4 koskaan tupakoitsija keuhkoepiteeliverrokkiin kirjastot (GSE5473 ), jotka ladataan GEO (taulukko S1). Kirjastot rakennettu kuin ihmisen näytteitä, sekä pitkän SAGE ja SAGE-seuraavien kirjastoja ei käytetty tässä tutkimuksessa. Helpottaakseen suora vertailu SAGEn kirjastot suodatettiin säilyttää vain ne kirjastojen 50000 raaka tag laskee johtaen 272 kirjastoissa soveltuu analyysi (taulukko S2).

Long koodaamattomalla RNA referenssilista

lncRNA löytö putki perustuu viiteluetteloon ihmisen lncRNAs kuratoi online genomista tietokannan Ensembl julkaisu 62, rakennettu Genome Reference Consortium julkaisee GRCh37 [71]. LncRNA viiteluettelo on koottu 1239 Ensembl (V62) tunnusten nimetty ”lincRNAs” (pitkä intergeeniset ei-koodaavat RNA: t, alaluokka lncRNAs) ja 8652 Ensembl tunnukset (V62) on nimetty ”jalostettu selostukset” yhteensä 9891 lncRNAs (Taulukko S4). Kaikki lncRNAs käytetty kyselyn SAGE kirjastot Ensembl kuratoi selostukset ilman ennustettu avoin lukukehys. Sekvenssit kaikki lncRNA transkriptien haettiin Ensembl (V62) käyttäen Biomart tiedonhallintajärjestelmän.

SAGE tag-to-geenin kartoitus

Custom Perl-skriptit käytettiin luomaan ilmaus matriisin ainutlaatuinen SAGE tunnisteita poikki 272 kirjastot (Perl-skriptit: getuniquetags.pl ja makeTable_April20.pl). Sage tunnisteet kartoitettu Unigene tunnukset käyttämällä mukautettuja Perl-skriptit ja lyhyen SAGE kartoitus tiedosto (kartoitus tiedosto: Hs_short) ladattavissa SAGE Genie (https://cgap.nci.nih.gov/SAGE), luoda matriisi Unigene ID kartoitettu tunnisteet ja matriisin unmapped tunnisteet (Perl-skripti: extractUnmappedTags_Unigene). Kaksi ilmaus matriksit unmapped tageja ja Unigene kartoitettu tunnisteet itsenäisesti suodatetaan säilyttää vain tunnisteet raaka tag syytettä 2 tai enemmän, esiintyy vähintään 3 SAGE kirjastoissa.

Unigene kartoitettu tunnisteet, geeni tunnisteet olivat määritetty Unigene tunnukset käyttäen SAGE Genie. Tästä aineisto, tunnisteita vastaavia tunnettuja tai ehdokas lncRNAs poimittiin käsin. Ehdokas lncRNAs ovat Unigene tunnukset ilman geenin nimeä tai vastaavat yksi tai useampi seuraavista kuvaajia: ’ei-koodaava ”,” ei-proteiini ”,” cDNA ”,” puhtaaksi locus ”,” klooni IMAGE ”,” chr (#) ORF (#) ”,” hypoteettista ”,” perhe sekvenssin samankaltaisuus ”,” FLJ (#) ”, tai” KIAA (#) ”. Ehdokas lncRNA tunnisteet fuusioitiin unmapped tageja ja käyttää yhtenä aineisto, josta tunnistaa sekvenssin ottelut lncRNA viiteluetteloon.

tag-to-geenin kartoitus ohjelma SeqMap käytettiin tunnistamaan täydellinen (0 epäsuhta) tag ottelut transkriptio sekvenssit viittaus lncRNA luettelosta. Tunnisteet kartoitus lncRNAs suodatettiin säilyttää ne vastaavat eteenpäin ( ’sense) juoste, kun taas päinvastaisessa tag ottelut eivät tukevat ilmaus ehdokas lncRNAs ja ei analysoitu tarkemmin. Eteenpäin säie-tunnisteita, jotka kartoitettu lncRNAs sitten yhdistettiin Unigene tunnisteet kartoitettu lncRNAs luoda ilmaus matriisin SAGE tagit kartoitus lncRNAs. Tämä matriisi uudelleenkartoitettava että lncRNA viiteluettelo vahvistaa tarkka tag-to-lncRNA täsmää.

Data esikäsittelyä

Jos useita tunnisteita kartoitettu samaan lncRNA, tunnisteet puristettiin yhteen tunnisteen laskee kaapata kaikki lncRNA transkriptivariantissa ja isoformit (Perl-skripti: sumRows.pl). SAGE tunnisteita kartoitus useamman kuin yhden lncRNA heitettiin pois. Raaka tag laskee kullekin SAGE kirjaston normalisoitiin TPM helpottamiseksi riittävän vertailun keskuudessa kirjastot. Muita ilme matriisit mukana vain SAGE kirjastoja kiinnostava tietyn analyysin, kun taas poistamalla kaikki palstoja toivottuja SAGE kirjastoja. Nämä alimatriisit suodatettiin poistamaan lncRNAs kanssa havaitsematta ilme. Kun kudoksen tai syövän edustivat enemmän kuin yksi SAGE kirjasto, normalisoitu TPM laskettiin keskiarvo.

Vastaa