PLoS ONE: Identification of Human HK Genes and Gene Expression asetuksen Study in Cancer alkaen transkriptomiikka Data Analysis

tiivistelmä

geenin ilmentymisen säätelyyn on välttämätön eukaryooteissa, koska se ohjaa prosesseja solujen erilaistumisen ja morphogenesis, mikä johti eri solutyyppejä monisoluisista organismeista. RNA-Sekvensointi (RNA-Seq) antaa tutkijoille tehokas työkalupaketti kuvaamista ja kvantifiointiin transcriptome. Monia eri ihmisen kudos /solu transcriptome aineistoja peräisin RNA-Seq teknologia on saatavilla julkisia tietoja resurssi. Peruskysymys on se, miten kehittää tehokas analyysimenetelmä arvioida ekspressiokuviota yhtäläisyyksiä eri kasvain kudosten ja niitä vastaavat normaalit kudokset. Määrittelemme geeniekspressiomalli kolmesta suunnasta: 1) ilmaus leveys, joka kuvastaa geenin ilmentymisen on /off tilan, ja koskee lähinnä ekspressoituvat geenit; 2) matala /korkea tai vakio /muuttuva ilmaisu geenit, jotka perustuvat geenin ilmentymisen taso ja vaihtelu; ja 3) geenin ilmentymisen säätelyyn geeni- rakenteeseen tasolla. Klusteri analyysi osoittaa, että geeniekspressiomalli on korkeampi liittyy fysiologisen tilan sijaan kudoksen etäisyydestä. Kahdet ihmisen siivous (HK) geenit määritellään mukaan solu- /kudos- tyyppejä, vastaavasti. Luonnehtia geeniekspressiomalli geenien ilmentymisen taso ja vaihtelu, me ensinnäkin soveltaa parannettu K-means algoritmi ja geeniekspressiovektoria varianssi malli. Huomaamme, että syöpään liittyvä HK geenit (HK geeni on erityinen syövän ryhmässä, mutta ei normaalissa ryhmässä) ilmaistaan ​​suurempi ja vaihtelevampi syövän kunnossa kuin normaalissa kunnossa. Syöpään liittyvän HK geenien mieluummin AT-rikas geenit, ja ne ovat rikastuneet solukierron säätelyssä liittyviä toimintoja ja muodostavat joissakin syövän allekirjoitukset. Ilmaisu Suurten geenien myös välttää syöpä ryhmässä. Nämä tutkimukset auttavat meitä ymmärtämään mikä solutyyppispesifiselle malleja geenin ilmentymisen eroavat eri solutyyppejä, ja erityisesti syöpään.

Citation: Chen M, Xiao J, Zhang Z, Liu J, Wu J, Yu J (2013) Identification of Human HK Genes and Gene Expression asetuksen Study in Cancer alkaen transkriptomiikka Data Analysis. PLoS ONE 8 (1): e54082. doi: 10,1371 /journal.pone.0054082

Editor: Rajeev Samant, University of Alabama at Birmingham, Yhdysvallat

vastaanotettu: 19 heinäkuu 2012; Hyväksytty: 06 joulukuu 2012; Julkaistu: 31 tammikuu 2013

Copyright: © 2013 Chen et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus tukivat avustus (2012AA020409) National ohjelmat korkean teknologian tutkimus ja kehitys (863 Program), Ministry of Science and Technology of kansantasavallan Kiinan; ja avustusta National Science Foundation of China (nro 31101063, nro 31271386 ja nro, 31000584). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

geenien ilmentyminen asetus sisältää prosessin, että solut ja virukset käyttävät säädellä tapaa, jolla tiedot geenit on muuttunut geenituotteita, joista useimmat ovat proteiinia koodaavan geenien [1] – [3]. Geenien ilmentyminen asetus on tärkeää eukaryooteissa [4], koska se ohjaa prosesseja solujen erilaistumisen ja morfogeneesiin [5]. Tämä johtaa siihen, että luodaan eri solutyyppien monisoluisista eliöistä, joissa eri solutyyppejä saattaa olla eri geenien ilmentyminen, vaikka ne kaikilla on sama genomin [6]. Merkittävä haaste nykyinen tutkimus on, miten määritellään tilan geenien ilmentymisen sääntelyä. Perustuvat geenin ilmentymisen laajuus [7] – [9], geenit voidaan jakaa ekspressoituvat geenit [6] – [10], kohteen yleinen HK geenejä, ja kudosspesifisiä /solu-geenit. Joka perustuu geenin ilmentymisen taso, geeni voidaan määrittää matalan /korkean ilmentymisen geenistä [11], ja vakio /muuttuva ilmentymistä geenin [12] – [13]. Gene rakenne on yksi tärkeä asetus tekijä geenien ilmentymisen. Se koostuu pääasiassa geenin rakenteen koostumuksen, geenin rakenne organisaatio, geenin vaihtelu, proteiini luokat, huokoinen rakenne, soluprosessien, ja molekyylitason mekanismeja [10], [14] – [25].

RNA-Seq on tulossa yhä suositummaksi bioteknologia, koska sen transkription mittaus hallitseva tarkkuus ja suurikapasiteettisten havaitsemaan heikosti ilmaistu geeni [10] – [11], [15], [26]. Johtuen dramaattinen kehitys RNA-Seq, transcriptome data nousee nopeasti [25] – [27] ja SRA-tietokantaan. Aiemmissa syövän etenemisessä ja geeniekspression sääntelymekanismit perustuvat tutkimukset microarray tietoja [28] – [30], tutkijat lähinnä verrattuna geeniekspression syövän kunnossa vs. normaalitilassa samalla alkuperäiset. Tämä menetelmä saattaa jäädä monta todella sääteli eri ilmaisua (DE) geenejä normalisointiprosessia [31], lukuun ottamatta perustuu mekanismi syöpä. Tässä tutkimuksessa valitsemme 12 normaalia näytettä ja 9 syöpänäytteissä tutkia yleistä mekanismia syövän geenien ilmentymisen sääntely RNA-Seq transcriptome data. Määrittelemme geeniekspressiomalli kolmesta suunnasta ja luonnehtia syöpä HK geenejä tarkkailemaan geenin ilmentymisen sääntely syöpäsoluissa. Tutkimus auttaa meitä ymmärtämään keskeiset säätelygeenit ja patogeneesin syövän.

Materiaalit ja menetelmät

RNA-Seq transcriptome aineisto

RNA-Seq näytteiden tavallisissa ja syöpä ehto valitaan tunnistamiseen HK geenejä. Kaksi suurta elementtejä tarkastellaan valintavaiheessa, määrä ja kylläisyyttä valitun näytteitä. Vaikka RNA-Seq näytteet ovat laajoja julkisen datan resurssi, hyödyllinen näytteet normaaliin vs syövän vertaileva analyysi ovat rajalliset. Jos olisimme mukana enemmän tyydyttymättömiä näytteitä, se olisi johtanut korkeampaan väärien negatiivisten tulosten osuus pääasiassa aiheuttama alhainen runsautta geenejä. Olemme täysin saada 37 eri ihmisen kudos /solulinjassa transkriptomiikka tietoja julkisista SRA tietokannasta (taulukko S1), 22 normaalia näytettä ja 15 syöpänäytteissä. Sitten valita näytteet, joiden kriteerit seuraavasti: 1) poistetaan kaikki sekoitettu solulinjoissa näytteitä, koska yhdistämällä menetelmä kattaa ero geenien ilmentyminen runsaus; 2) poistetaan solulinjat näytteitä erityistä hoitoa, koska asetus mekanismit ovat erilaisia ​​alle erilaisiin fysiologisiin olosuhteissa; 3) suodatus vakava tyydyttymättömiä aineistot; 4) valitaan eniten tyydyttyneitä näytteen jos rinnakkaista olemassa, emme mieluummin yhdentymistä, joka aiheuttaa korkeampia vääriä negatiivisia kurssi; 5) valitaan näytteet tulevat Illumina Genome Analyzer, suosituin sekvensointi väline, täällä pyrimme rajoittamaan alkuperäisen eroa eri sekvensointi alustoille. Lopuksi saamme 12 normaaleista kudoksista ja 9 syöpäsolulinjat tarkempaa analysointia varten. Normaali kudosten analyysimme kuuluvat rasva-, aivot, aivokuori, paksusuoli-, rinta-, munuais-, maksa-, keuhko-, imusolmuke, sydän, kivekset, ja luuston lihaksia. Ja syöpä solulinjoja ovat K562, DLD-1, HepG2, GM12878, lymfooma, BT474, MCF7, MB435 ja T47D nykyisissä RNA-Seq aineistoja (taulukko S1). K562 on kuolemattoman solulinjan kanssa, joka on valmistettu naispuolinen potilas krooninen myelooinen leukemia (CML). DLD-1 on paksusuolen adenokarsinoomasolulinja viljelty 21% happea ei-kohdistuksen siRNA transfektoitujen. HepG2 on solulinja, joka on peräisin miespuolisen potilaan maksan karsinooma. GM12878 on lymfoblastoidisolulinjaan tuotettu verestä naisten luovuttajan EBV muutosta. Lymfooma on Ramos B-solu. Muut solulinjat ovat kaikki rintasyövän solulinjoissa, jotka ovat peräisin invasiivisia duktaalisissa karsinoomissa (ATCC). MCF-7, BT474 ja T47D ovat estrogeenireseptoripositiivinen-positiivisia ja progesteroni-reseptorin-positiivisia; MD435 on negatiivinen molemmille. Korkealaatuinen CEL tiedostot ihmisen microarray tietojen HG-U133A valitaan AffayExpress (E-MTAB-27) [32] (taulukko S2) vertailemista.

Kun satunnainen selostukset suodatuksen, valitsemme 28778 ihmisen RefSeq proteiinia koodaavan selostukset (RefGene of UCSC merkintä tietokannasta, 04 tammikuu 2010 päivitys), ja klusterin ne 18874 ihmisen lokusten kuten aiemmin on kuvattu [9]. 13038 (69.08%) geenien multi-isoformit ja 5836 (30,92%) geenien yhden isoformin käytetään tarkempaa analysointia. Karttaan transkription aineistoja omille viittaus genomisekvenssin GRCH37 (hg19), käytämme MAQ kartoitus ohjelmisto [33] ladata UCSC. Sitten merkinnästä kartoituksen tuloksista verrataan RefGene.

Euroopan transcriptome data-analyysi malli

Geenien ilmentyminen runsaus normalisoidaan luetuksi tiheys eli lukee per kiloemäksen (KB) ja koodaavan sekvenssin (CDS ) miljoonasosaa lukee (RPKM), RNA-seq tietojen miljoona siirrettävissä kartalle lukee yhdessä kokeessa [34]. Ja ilmaisu yhden geenin määritellään summana ilmauksia kaikki isomuodot, jotka kuuluvat tämän geenin [11]. Laskemaan geenin ilmentymisen tasoa tarkasti, me mainita Poisson jakelumalli arvioida isoformeja ilmaisun [11]. Kun otetaan huomioon kulu, me ehdottomasti edellyttävät luku- putoaa eksonin kanssa unohtamatta eksoni-risteyksessä tiedot.

Voit selvittää ilmentyy vai ei, taustalla kynnysarvo geenien ilmentyminen suoritetaan käyttämällä edellisen menetelmää, joka koordinoi väärien positiivisten määrä (

FPR

) ja väärien negatiivisten tulosten osuus (

FNR

) [10]. Tässä artikkelissa, me määrittelemme positiivinen joukko geenejä, joissa lukee jakaa sen eksonit, ja negatiivinen joukko geenejä, joissa lukee lankeavat intergeeniset alueille. Havaitun ilmentymisen arvo, joka on suurempi kuin tausta kynnys on merkitty positiivinen, ja vastapäätä on merkitty negatiivisena. Sitten saamme nämä kaksi määritelmää,, (

FP_count

tarkoittaa yhteenvedon intergeeniseen alueen laskee ilmaisun arvo on suurempi kuin tausta, päinvastoin kuin

TN_count

.

FN_count

tarkoitetaan yhteenveto geeni lasketa geeni ilmentää, mutta ilmaisu arvo pienempi kuin tausta, päinvastoin kuin

TP_count

).

tunnistaminen matalan ja korkean ilmentymisen geenejä voidaan kuvata geeniekspressiomalli näytteestä, ja dynaaminen muuttaminen geenin ilmentymisen taso kudosten välillä /solulinjoissa heijastaa sisäistä reaktio geenien ilmentymisen sääntelyä. Aiemmat tutkimukset yleensä jaettu geenin ilmentymisen tasoa useaan välein, ja ne on merkitty kaksi äärimmäistä geenejä niin matala ja korkea, vastaavasti [11]. Tämä määritelmä on jotenkin mielivaltainen, koska se mitataan geeniekspression taso riippumatta geeniekspressiomalli. Samaan aikaan ekspressiotason ero vierekkäisten ekspressiotason geenien kahdessa peräkkäisessä alaryhmään voisi olla heikosti. Driven by tätä motivaatiota, me ensinnäkin soveltaa paransi K-means algoritmi tunnistaa matala ja korkea ilmaisun kynnysarvoja dynaamisesti, jotka jakavat ilmaistuna geenejä kolmeen ryhmään: pieni lauseke geenejä (LEG), kohtalainen lauseke geenejä (MEG), ja korkea ilmaisun geenien ( HEG). Mitä yksi näyte, heikkoa ilmentymistä kynnys määritetään keskimääräinen arvo enintään geeniekspression arvo LEG pienin geeniekspression arvo MEG. Jotta analyysissä geeniekspressiomalli vaihtelua eri näytteistä, määritellään yhtenäinen alhainen ilmentyminen kynnysarvon mediaani kaikista näytteistä ”heikkoa ilmentymistä kynnysarvot. Korkea ekspressio kynnys yksi näyte määritetään keskimääräinen arvo enintään geeniekspression arvo MEG ja vähintään geeniekspression arvot HEG. Ja yhtenäinen korkean ilmentymisen kynnys on mediaani kaikista näytteistä. Menetelmä perustuu yksittäisten geeni-ilmentymisen jakaantumiskuvio näytteen tunnistamiseksi matala ja korkea ekspressio geenien dynaaminen mittaus. Ja se takaa suurin etäisyys geeni-ilmentymisen tason kahden peräkkäisen alaryhmään.

parannettu K-means algoritmi määrittää kunkin ilmaistuna geenien klusterin, joiden sentroidi on lähin K-means algoritmi ei. Mutta etäisyys kahdesta elementistä määritellään itseisarvon eron kahden geenin ilmentymisen arvoja. Sentroidi määritellään ilmaisu arvo keskellä geenin klusterin lajittelu geenien mukaan geeniekspression arvoa. Joka on erilainen kuin K-means algoritmi määritellään aritmeettinen keskiarvo. Me alustaa geeniekspressiota aineisto pisteeksi muotoon (

x

,

y

), jossa

x

on geeniekspression arvo ja y on sen vastaavan geenin count. Algoritmi karkeasti kuvata seuraavasti:

Transform

x

arvo kaavalla, jossa

n

on muuttaa tekijä ja sen oletusarvo on 1.

määrän asettaminen klusterin

K

(= 3).

satunnaisesti valitse

K

elementtejä piste asettaa centroids klusterien.

Anna kullekin pisteestä lähimpään klusterin centroid.

Re-laskenta

K

uusi klusteri centroids.

Siirry 4), kunnes tehtävä ei ole muuttunut enempää.

Tämän seurauksena ilmaistu geenit on jaettu 3 ryhmään: LEG, MEG, ja HEG. Asetamme Normaaliryhmälle tuloksia kuin valvonnan standardia. Mediaaniarvot matalia kynnyksiä ja korkeita kynnyksiä 12 normaaleissa kudoksissa asetetaan lopullisesti matalan kynnyksen ja korkea kynnys kaikkien kudosten /solulinjoissa.

Käytämme varianssi geenin ilmentymisen taso kuvaamaan geeniekspression vaihtelua, kuten aikaisemmat tutkimukset tekivät [35] – [37]. Korkea ilme arvoja, jotka voivat täydentää vaihtelua, edistää varianssi suoremmin, kun taas pienet arvot geenien ilmentymisen vaikuttaa varianssi heikompia, joka voi peittää todellista vaihtelua. Näin ollen geeni-ilmentymisen arvot sijoittui 1, 2, tai 3, edustaa geenin ilmentymisen taso oli niinkin alhainen, kohtalainen tai suuri, vastaavasti. Käytämme näitä esityksiä sijaan geenin raaka ekspressioarvo arvioida geenien ilmentymisen vaihtelua kuvio. Mille tahansa geeni, laskemme variaatiokerroin arvo (

CV

), joka perustuu geenien ilmentyminen listalla,, jossa

μ

on aritmeettinen keskiarvo geenien ilmentyminen riveissä kaikkien kudosten /solulinjassa näytteet -geenin;

σ

on keskihajonta geeniekspression sijoitus geenin, joka on aritmeettinen keskiarvo poikkeaman neliön geenien ilmentymisen listalla sen aritmeettinen keskiarvo. Asetamme myös normaalia ryhmään kuin kontrolli.

Ehdotamme MDAD juoni luonnehtia poikkeamasta geeniekspressiomalli syövän kunnossa vs. normaali tilanne, joka perustuu laajalti käytetty MA juoni. M Etäisyys (MD) ja etäisyyden (AD) kaikista geenin MDAD juoni määritellään ja vastaavasti jossa

max

arvo on suurin geeniekspressiota arvo kaikilla normaali kudos /solu näytteitä, ja

min

arvo on pienin geenien ilmentymisen (mutta 0) kaikissa normaalia kudosta /solulinjan näytteitä;

max

arvo on suurin geeniekspressiota arvo kaikissa syöpäkudoksessa /solu- näytteitä, ja

min

arvo on pienin geeniekspression arvo (mutta 0) kaikissa syöpäkudoksessa /solulinjan näytteitä.

MD

heijastaa ero geenien ilmentymisen jakautuminen syövän kunnossa ja normaalissa kunnossa, ja

AD

kuvastaa eroa suhteellisen keskimääräisen tason välillä syövän kunnossa ja normaalissa kunnossa. Käytämme MDAD juoni, jossa on pariksi Wilcoxonin rank testi [38], vertailla eroa jaetun tai syöpään liittyvän HK geenin ilmentymisen tasoa välillä normaalin ja syövän kunnossa.

MD

0 tarkoittaa, että geenin ilmentymisen jakautuminen syöpä kunnossa on laajempi kuin normaalissa kunnossa, ja

AD

0 tarkoittaa, että geenin ilmentymisen suhteellista keskimääräinen taso syöpä kunnossa on korkeampi kuin että normaalissa kunnossa. Verrata alkuperäiseen suurin ja pienin ekspressiotasot alle syöpää ja normaalissa kunnossa, me myös laskea

maxR

ja

minR

suhteena suurimman ja pienimmän ilmaisun arvo normaalissa vs syövän codintion (,) . Jos suhde arvo on 0, geeni vain päälle syövän kunnossa; jos suhde arvo etsii klo [0, 1], äärimmäinen ilmaus arvo Normaalioloissa on pienempi kuin syövän kunnossa, jos suhdearvo etsii klo [1, ∞], äärimmäinen ilmaus arvo normaaleissa kudoksissa on suurempi kuin syövässä kunnossa.

Spearmanin korrelaatiota geeniekspressioprofiili käytetään määrittelemään ekspressiomalli samankaltaisuus eri kudoksissa /soluja. Perustuen niiden samankaltaisuudesta, hierarkkinen klusterin korrelaatioinformaatiota suoritetaan käyttämällä R ohjelmistoa. Normalisoituminen microarray tietojen käytön MAS5.0 [39] algoritmi Expression Console ™ -ohjelmiston (havaitseminen p-arvo 0,05). Tehtävä rikastaminen analyysi eri HK geenien tyyppien suoritetaan David (Tietokanta Annotation, visualisointi, ja Integrated Discovery) [40].

Tulokset

Analyysi mallina RNA-Seq transcriptome data

RNA-Seq on voimakas kyky havaita alhainen runsautta selostukset ennennäkemättömän tarkasti ja suuren suorituskyvyn at paljon halvemmalla sisältää muilla menetelmillä. Nyt se on tullut yleisimmin käytetty transkriptomiikka sekvensointitekniikan [11], [41]. Yleinen kysely RNA-Seq tietojen analysointi on, miten määritellään määrä ilmaistuna geenejä yhdessä näytteessä. Poistamaan saastumista ja aiheuttama virhe kokeet ja välineet jne, havaitsemme ekspressiotaso välillä eksonien ja intergeeniset alueita koordinoimaan

FPR

ja

FNR

(katso materiaalit ja menetelmät -osiossa) käyttämällä menetelmä syntyy aikaisemmassa tutkimuksessa [10]. Taustalla kynnysarvot geenien ilmentymisen yksittäisten näytteiden laskussa 0,13-0,41 RPKM. Asetamme mediaaniarvon 0,25 RPKM (kuvio S1) kuin tausta kynnyksen geeniekspression tarkempaa analysointia varten. Sitten käytämme Poisson mallia käsitellä isoformia ilme arviointi ja tarkentaa geeniekspression arvo keräämällä kaikki isoformit ilmaisun arvot yhden geenin [11].

Määritelmä HK geenien

Näytteet jaettu kahteen fysiologiseen ryhmään: 12 normaaleista kudoksista ja 9 syöpäsolulinjoissa, tiedot on esitetty taulukossa 1. klusterin analyysi osoittaa, että geenin ilmentymisen kuviot ovat erittäin liittyvät fysiologista tilaa sen sijaan, että kudoksen etäisyydestä (kuvio 1). Ennakoimme on joitakin yhteisiä sääntelyä kuvioita syöpäsoluissa, kuten päälle /pois päältä sääntelyä ja matala /korkea tai vakio /muuttuva säätö, joka ylläpitää rajaton leviämisen kyky. Täällä, me määrittelemme HK geenien kahteen eri ryhmään, normaali HK geenit ja syöpä HK geenit, pohtimaan geenin ilmentymisen päälle /pois-tilan eri fysiologinen tila. Aiempi tutkimus hierarkkinen klusterointi yhdeksän keuhkojen SAGE kirjastot myös osoittivat selvän eron kasvain ja normaali näytteitä [42].

Spearmanin korrelaatiota geeniekspressioprofiilien käytetään määrittelemään geeniekspressioprofiilien samankaltaisuus 21 eri kudoksissa /solut. Hierarkkinen klusterin analyysi korrelaatio tiedot osoittavat 2 klusterit: 12 normaaleista kudoksista ja 9 syöpäsolulinjoja.

Määrittelemme viittä HK geenien mukaan niiden geeniekspressiomalli normaaleissa ja /tai syöpä ehto: 1) normaali-ainutlaatuinen HK geenejä, erityinen HK geeni esitetty vain normaalissa ryhmässä, ei HK geeni syövän ryhmä; 2) syöpään liittyvän HK geenejä, erityinen HK geeni esitetty vain syövän ryhmään, ei HK geeni normaalissa ryhmässä; 3) osake HK geenit, HK geenit ilmaistaan ​​sekä normaali ja syövän ryhmä; 4) normaali HK geenit, HK geenit ilmaistaan ​​koko normaalin ryhmään, sisältää tavanomaiset-ainutlaatuinen HK geenien ja osuus HK geenit; 5) syöpä HK geenit, HK geenit ilmaistaan ​​koko syövän ryhmä sisältää syöpään liittyvä HK geenien ja osuus HK geenejä.

Koska normaaliin ryhmään, 12 valittu normaaleissa kudoksissa kattavat sidekudoksen, lihaskudoksen, body alue ja 6 ihmisen taksonomian, mukaan lukien urogenitaalijärjestelmän, ruoansulatuskanavan, hengitysteiden, Veri- ja immuunijärjestelmään, keskushermostoon, ja verenkiertoelimistön (Umpieritysjärjestelmä ei kata, kuva S2). Näiden pohjalta 12 normaaleissa kudoksissa, arvioimme, että on olemassa 8831 normaaleja HK geenejä (proteiinia koodaavan HK geenejä) kantavassa HK geeni osuus on 47%, mikä vastaa kahden aikaisempien raporttien: 40% [9] ja 42% [10 ]. Jälkimmäinen Tutkimus toteutettiin myös RNA-Seq data, mutta Daniel Ramsköld ja hänen työkaverinsa määritelty HK geenit erottelematta normaali tai syöpä ryhmä. 8041 HK geenit tunnistettiin 24 ihmisen kudokset /solulinjoissa (10 normaaleista kudoksista ja 4 syöpäsolulinjat pidetään myös tutkimuksessamme), mukaan lukien 7695-proteiini-koodaus geenit, 277 lncR, ja 69 tuntematonta geenejä ei esiinny viittaus genomisen sekvenssin GRCH37, hg19 [10]. HK geenit päällekkäisiä välillä Daniel Ramsköld

et al.

Työn ja normaalin HK geenit ovat 7004 (kuva S3). Ja ainutlaatuinen HK geeni meidän määritelmä (1827) tulee pääasiassa normaalista-ainutlaatuinen HK geeni (1253), joka on esitetty vain HK geenien normaalissa kunnossa. Koska Daniel Ramsköld ja hänen työkaverinsa käyttää 4 syöpäsolulinjoilla, tämä ero HK geenin tunnistaminen tapahtuu tutkimuksessamme on varsin kohtuullinen. Suurin osa määritellään 8831 normaalin HK geenit ekspressoituvat kaikki 19 käytettävissä normaalia näytettä, joista 12 on valittu normaalin HK geenin määritelmää, joista 7 suodatetaan kriteerit on esitetty materiaalit ja menetelmät (kuvio S4A, taulukko S1). ”False havaitsemismäärä” johtuu pääasiassa tyydyttymättömyyttä suodatetun näytteen. Se tarkoittaa, että tarkkuus HK geenien määritelty 12 normaaleista kudoksista on riittävän korkea tarkempaa analysointia.

Nykyinen syöpänäytteissä edustaa kehon alueella ja kolme laajalti tutkittu ihmisen taxonomic, mukaan lukien: urogenitaalinen, ruoansulatuselimistön ja Veri- ja immuunijärjestelmä (kuva S2, taulukko S1). Meidän valitut 9 syöpäsolulinjoja kattavat useimmat niistä, paitsi urogenitaalijärjestelmän näyte, joka suodatetaan tyydyttymättömyys ja alustan valinta kriteerit. Osa syöpä HK geeni on 38% geeniekspressiossa leveys 9. Määrittelimme 7084 syövän HK geenit ja useimmat niistä ovat läsnä normaalissa ryhmässä (kuvio 2A), joka muodostaa jaetun HK ryhmä. Ne jakoi 6237 HK geenit voivat olla olennaisia ​​geenejä solun, joka ylläpitää perustoimintoja eri fysiologinen tila. Syöpä HK geenit ovat alle normaalin HK geenit koska syöpä vaaditaan vähemmän päällä geenejä (taulukko S1). Mutta syöpä vaaditaan korkeampaa osa mRNA-allas [10], [26] vähentää syöpäsolu transcriptome erikoistuminen [26]. Tämä mahdollistaa keskittyä loppuun yksinkertaisia ​​solujen lisääntymisen. Noin 88.65% syövän HK geenit ekspressoituvat kaikissa 13 syöpänäytteissä, mukaan lukien 4 suodatettua näytettä (taulukko S1, kuva S4b). ”False havaitsemismäärä” syövän HK geenien johtuu pääasiassa tyydyttymättömyys suodatetun näytteen. Tämä tulos osoittaa, että vaikka nykyinen 9 syöpä näytteitä voi edustaa eri syöpätyyppejä, tunnistaminen syövän HK geenejä voidaan käyttää geeni-ilmentymisen rakenteessa tutkimuksessa syöpäsolun.

HK-geenit määritellään erikseen kaksi fysiologista ryhmät: 12 normaaleista kudoksista ja 9 syöpäsolun linjat. (B) Eri HK geenin tyyppejä toiminnallinen rikastamiseen. ”Syöpä” tarkoittaa syöpää HK geenejä, lyhennettynä pääte ”C” seuraavasti toiminto termi kuva; ”Syöpä liittyvä” tarkoittaa erityistä HK geenien syövän kunnossa, lyhennettynä pääte ”CA” seuraava toiminto termi kuva; ”Jaettu” tarkoittaa päällekkäisiä HK geenien normaaleissa ja syöpä ehdot, lyhennettynä pääte ”S” seuraa toiminto termi kuva; ”Normal-ainutlaatuinen” tarkoittaa erityistä HK geenejä Normaalioloissa, lyhennettynä pääte ”NU” seuraavasti toiminto termi kuva; ”Normaali” tarkoittaa normaalia HK geenejä, lyhennettynä pääte ”N” seuraa funktiota termi kuva.

HK geeni on tyypillisesti konstitutiivista geeniä, joka tarvitaan ylläpito perus- solun toiminnan, ja se on löytyy lähes kaikissa ihmisen soluissa [7], [43]. Luonnehtia normaalia ja syöpää HK geenifunktioiden, vertaamme solujen geenien toiminnan rikastamiseen ja signaalien kulkureiteillä. Kuten kuviossa 2B on esitetty, syövän HK geenit rikastettu molekyyli toiminta ja biologisia prosesseja. Syöpä HK geenit osallistuvat solusyklin, DNA: n replikaatio, epäsuhta korjaus- ja apoptoosireitin jne vastata kasvaimen esiintyminen. Normaali HK geenit pyrkivät liittymään perus- väyliä (taulukko 2).

karakterisointi jaetun HK geenien ilmentyminen malleja

Luonnehtia geenin ilmentymisen taso ja vaihtelu johtaa geeniekspressiomalleja määritelmä, me ensinnäkin soveltaa parannettu K-means algoritmi ja hyväksyy parannettuja geeniekspression kertoimet varianssi (

CV

, katso materiaalit ja menetelmät lisätietoja) malliin. Aiemmat tutkimukset yleensä määritelty 100 RPKM geenien voimakkaaseen ilmentymiseen kynnysarvot ja 1 RPKM alhaisen ilmentymisen perustuu kahdeksaan log-asteikko roskakorit [11]. Parannettu K-means algoritmi tunnistaa kynnysarvot yksittäisen geenin ilmentymisen jakautumiskuvion. Laskentatulosten perusteella tämän algoritmin, heikkoa ilmentymistä raja-arvot ovat 0,66-1,22 RPKM, ja korkea ekspressio raja-arvot ovat 8,58-19,99 RPKM (taulukko 3). Asetamme mediaaniarvon 1,06 RPKM alhaisen kynnyksen ja mediaaniarvon 12,72 RPKM korkean kynnyksen Normaalioloissa standardina lisäanalyysiä varten (kuva S5). Syrjiä geeniekspressiovektoria vaihtelua asema, käytämme parannettu geeniekspressiota

CV

malli.

CV

arvot normaalissa ryhmässä alueella 0-0,54. Q1 (neljännes) ja Q3 (kolme neljäsosaa)

CV

arvot normaalissa ryhmässä ovat 0,14 ja 0,26, jotka on merkitty vakio ja vaihteleva ilmaisun kynnysarvoja, vastaavasti (kuva S6). Niinpä täysin saada kolmesta tilasta geeniekspression vaihtelua, vakio (0

CV

≤0.14), kohtalainen muuttuja (0,14

CV

≤0.26), ja vaihteleva (

CV

0,26).

on tunnettua, että jotkut geenit ilmentävät jatkuvasti kudosten välillä, kun taas toiset ilmaista vaihtelevasti normaalissa kunnossa. Tämä ilmiö esiintyy myös HK geenejä [12] – [13], [35]. Perustuen geenien ilmentymisen

CV

mallia, huomaamme, että enemmän HK geenejä syövän jäävät lieviksi muuttuja ilmaistaan ​​geenien (kuvio 3A). Pyrimme tutkimaan tapoja, joilla geenin ilmentymisen muutoksen tila säädellään käsitellä syntymistä kasvain. Siten vertaamme 6237 jaetun HK geenejä havainnollistaa niiden säätö. Yli puolet yhteinen HK geenien ilmentymisen vaihtelua tila muuttuu normaalin ja syövän kunnossa. Kuten kuviossa 3B, lähes kaksi kolmasosaa vakio jaettua HK geenit normaaliolosuhteissa muutos kohtalaiseen vaihteleva asema syöpä kunnossa. Kolmannes kohtalainen muuttujan jaetun HK geenien Normaalioloissa tullut vakio jaettua HK geenien syövän kunnossa. Noin puolet muuttujan jaetun HK geenien Normaalioloissa muuttaa ilmaisua vaihtelua asema kohtalaiseen vaihteleva syövän kunnossa (kuva 3B). Solu on omiaan moduloida sen geeniekspressiomalli olevan lähinnä kohtalaista vaihteleva ilmentyminen kasvaimen fysiologisissa olosuhteissa.

On olemassa kolme geenien ilmentyminen vaihtelu tilat, Constant, lyhennettynä pääte ”C” (B), ja Kohtalainen muuttuja, lyhennettynä Kohtuullisen (A) ja pääte ”M” (B), ja Variable, lyhennettynä pääte ”V” (B).

Jos haluat mitata geenien ilmentymisen sääntely ja geeniekspressiota vaihtelu tila sääntely syövän kunnossa, ehdotamme MDAD (katso materiaalit ja menetelmät -osiossa) tontilla pariksi Wilcoxonin rank testi [38] kaikissa jakoi HK geenit (kuvio 4A) ja yhteinen HK geenien kolme vaihtelu tila alatyyppiä (kuva 4B, C, D). Kaikki pariksi Wilcoxonin rank testi yksityiskohtaisesti arvot on esitetty taulukossa 4. Jaettu HK geenien ilmaista suurempi syövässä kuin normaaleissa kudoksissa, joka perustuu tehokkaaseen ilmaisun leveys (

MD

, p-arvo on 4.34E-33 ) ja väliarvojen (

AD

, p-arvo on 0). Edellisen microarray data osoitti, että ihmisen syövän geenit voivat olla laajasti sääteli [31]. Parilliset Wilcoxonin-rank testi p-arvot

MD

kolmen geenin ilmentymisen vaihtelu alatyyppejä ovat 4.24E-67, 0,11, ja 0,59, tässä järjestyksessä. P-arvot

AD

ovat liian pienempi arvojen 3.15E-160, 2.62E-126, ja 3.65E-183 (taulukko 4). Kuten kuviossa 4 on esitetty, suurin yhteinen HK geenit ”

AD

ja

MD

arvot ovat pienempiä kuin 0, joka tarkoittaa geenejä ilmaista korkeampi syövän kunnossa kuin normaalissa kunnossa. Siten syöpä kunnossa, solu säätyy ensisijaisesti vakiona jaettua HK geenejä ilmaista korkeampi toimimaan syntymistä syöpä signaalin.

MD

0 tarkoittaa, että geenin ilmentyminen jänneväli syövän kunnossa on suurempi kuin normaalissa kunnossa, ja

AD

0 tarkoittaa, että geenin ilmentymisen suhteellista keskimääräinen taso syöpä kunnossa on korkeampi kuin normaalissa kunnossa. Mukaan yhteinen normaalia HK geenien ilmentyminen vaihtelu statukset, yhteinen HK geenit jaetaan kolmeen alalajiin, vakio, kohtalainen vaihteleva, ja vaihteleva ilmaistuna jaettu HK geenejä. Parilliset Wilcoxonin testillä tässä mittaamaan geenin ilmentymisen sääntely ja geenien ilmentymisen vaihtelua tilan asetusta. (A) Kaikki yhteinen HK geenejä. (B) Jaettu vakio ilmaisi HK geenejä. (C) Jaettu kohtalainen muuttuja ilmaistaan ​​HK geenejä. (D) Jaettu muuttuja ilmaistaan ​​HK geenejä.

määrällisesti osuus geenien, jotka syöpäsolun moduloivat geeni-ilmentymisen taso on suurempi kuin normaalissa fysiologinen tila. Voit tehdä niin, laskemme geeni laskee joka on suurin suhde arvot (

maxR

) ja pienin suhde arvoja (

minR

) ≤1 (katso materiaalit ja menetelmät -osiossa). Kun

minR

≤1, on 73,47% jaetun HK geenien kertynyt; Kun

maxR

≤1, on 67,79% jaetun HK geenien kertynyt (kuvio 5A, taulukko 5). Pidämme myös solujen säädellä geeniekspressiota tasoilla syövän kunnossa yhdistämällä geenien ilmentyminen vaihtelua tietoja. Kun

minR

≤1 on 78.24% jaetun HK geenien jatkuva tila, 65,10% jaetun HK geenien kohtalainen muuttuva asema, ja 80,16% jaetun HK geenien vaihteleva asema on kertynyt. Ja kun

maxR

≤1, nämä numero on 70,17%, 62,30%, ja 73,53% näiden kolmen ekspression vaihtelut alatyyppiä (kuvio 5B, C, D, taulukko 5). Tiedot osoittavat, että useimmat jaettua HK geenejä jopa säädellään yhdistämällä geenien ilmentyminen vaihtelua asema syövän kunnossa.

Up y-akseli kuvaa

maxR

kanssa alue [0, 3], ja alas y -akseli merkitsee

minR

kanssa alue [0, 3]. Vahvistamiseksi hahmo, asetamme suhdearvo kuin 3,00, jos suhdearvo on suurempi kuin 2,50. Koska sisempi insertin kuvaaja, sininen käyrä osoittaa kertynyt

maxR

; ja vihreä käyrä näyttää kertyneen

minR

. Molemmat vastaavat vasemmalle y-akselin merkitsee kertynyt geenin count. Oikea y-akseli kuvaa yksittäisen geenin määrä (esitetty Gene Count Ratio), joka vastaa punaista

maxR

käyrä ja syaani

minR

käyrä. Me määrällisesti osuus geenien, jotka syöpäsolun moduloivat geeni-ilmentymisen taso on suurempi kuin normaalissa fysiologinen tila. (A) Kaikki yhteinen HK geenejä.

Vastaa