PLoS ONE: Reconstruction of Gene Regulatory moduulit Cancer Cell Cycle Multi-Source Data Integration

tiivistelmä

Background

tarkka säätely solusyklin on ratkaisevan tärkeää kasvua ja kehitystä kaikkien organismeja. Ymmärtäminen sääntelymekanismi solusyklin on tärkeää purkautumassa monia monimutkaisia ​​sairauksia, erityisesti syöpä. Useita lähteitä biologiset tiedot ovat käytettävissä tutkia dynaaminen vuorovaikutus monien geenien, jotka liittyvät syöpäsolujen sykli. Integrointi nämä informatiivinen ja täydentävien tietolähteiden avulla voidaan päätellä yhdessä johdonmukaisesti geenin transkription sääntelyverkon voimakkaiden samankaltaisuutta taustalla geeniregulatiivista suhteita syöpäsoluissa.

Tulokset ja tärkeimmät havainnot

Ehdotamme yhdentämiskehykseen että päättelee geeniregulatiivista moduulit solusyklin syöpäsolujen sisällyttämällä useita lähteitä biologista tietoa, kuten geeniekspressioprofiilien, geeni ontologian ja molekyylien vuorovaikutus. Niistä 846 ihmisen geenit jossa on mahdollinen rooli solukierron säätelyssä, tunnistimme 46 transkriptiotekijöitä ja 39 geenin ontologian ryhmiä. Me rekonstruoida sääntelyyn moduulit päätellä taustalla sääntelyn suhteita. Neljä sääntelyverkon motiiveja tunnistettiin vuorovaikutuksesta verkossa. Suhde jokaisen transkriptiotekijän ja ennakoi maalin geeni ryhmät tutkittiin kouluttamalla toistuva neuroverkon jonka topologia jäljittelee verkon motiivi (t), johon transkriptiotekijä annettiin. Pääteltyihin verkkoon kuviot liittyvät kahdeksan tunnettu solukierron geenien vahvistettiin geeniperimä rikastamiseen analyysi, sitoutumiskohta rikastamiseen analyysi ja vertailu aiemmin julkaistu koetuloksiin.

Johtopäätökset

Me perustettiin vankan menetelmä, joka voi tarkasti päätellä taustalla väliset suhteet tietyn transkriptiotekijän ja sen loppupään kohdegeenien yhdistämällä eri kerrosten biologista tietoa. Meidän menetelmä voisi olla hyötyä myös biologeja ennustamaan komponenttien sääntelyn moduuleja jossa mahdollinen ehdokas geeni on osallisena. Tällaiset ennusteet voidaan sitten käyttää suunnitella virtaviivaisempi kokeellinen lähestymistapa biologisen validointi. Ymmärtäminen dynamiikka näitä moduuleja valottaa prosesseja, joita esiintyy syöpäsoluissa johtuvat virheet solukierron säätelyssä.

Citation: Zhang Y, Xuan J, de los Reyes BG, Clarke R, Ressom HW ( 2010) jälleenrakennus Gene Regulatory moduulit Cancer Cell Cycle Multi-Source Data Integration. PLoS ONE 5 (4): e10268. doi: 10,1371 /journal.pone.0010268

Editor: Geraldine Butler, University College Dublin, Irlanti

vastaanotettu 16. lokakuuta 2009; Hyväksytty 25 maaliskuuta 2010 Julkaistu: 21 huhtikuu 2010

Copyright: © 2010 Zhang et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus tukee osittain avustuksilla National Institutes of Health (CA109872, NS29525, EB00830, ja CA096483) ja Department of Defense (BC030280). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

solunjakautumisen, ikääntyminen, ja kuolema ovat monimutkaisesti säänneltyä prosesseja, jotka riippuvat tasapaino eri kasvua edistäviä ja estäviä signaaleja. Koukeroita nämä prosessit määritellään monimutkaisia ​​geneettisiä ohjelmia, joiden avulla tietyt geenit ilmaistava tiukasti säännelty tavalla. Virheet asetuksessa aiheuttaa hallitsemattoman solujen lisääntymistä, universaali ominaisuus kasvaimia. Tämä ominaisuus ohjaa geenien epänormaalista toiminnasta tuumorisoluissa, joista monet ovat tärkeitä rooleja transdusoinnissa kasvua säätelevä signaaleja tumaan ja rajapinnat nämä signaalit muuttaa geeniekspressiota. Vaikka tämä signalointi väistämättä edistää proliferatiivista kapasiteettia syöpäsoluja, se on usein suunniteltu tekemään niin hierarkkisessa tavalla, vahvistamalla toiminnan afferenttien signalointi, lopulta yhdentyvät ne geenit, jotka ohjaavat solusyklin etenemistä.

ennakot syöpätutkimuksessa viime vuosina on alettu paljastaa monimutkainen geneettinen ohjelmointi solusyklin etenemisen. Ekspressiotasot tuhansien geenien vaihtelevat koko syövän solusyklin [1], [2]. Säännöllinen transkription toimintaa monien geenien mukana solujen kasvua, DNA-synteesi, kara napavarren päällekkäisyyttä, kauttakulkua solusyklin ovat kukin havaittu [3]. Transkription säätelyverkkoja (TRNS) näihin toimintoihin liittyvät on tutkittu laajasti [4], [5], [6], [7], [8]. Edelleen luonnehdinta genominlaajuisten transkription ohjelmointi nisäkkäiden solusyklin on kriittinen vaihe kohti ymmärrystä perus solukierron prosesseja ja niiden tarkka roolista syövässä.

Cell cycle geenien ilmentyminen saadut Hela-soluja on analysoitu useita klustereiden menetelmiä ja geenien järjestetty toiminnallisia ja sääntelyä ryhmät [1], [2]. Näiden tutkimusten perusteella, järjestämään selkeää päättely koskien sääntelyn väliset suhteet tietyn transkriptiotekijän ja oletetun kohdegeenin (t) voitaisiin paremmin toteuttaa yhdistämällä geenien ilmentyminen tietoja tietoa transkriptiotekijän sitoutumiskohtia ja mahdolliset tyypit perustuvan vuorovaikutuksen olemassa olevat biologiset tieto [9]. Transkription aktivaation tai repression riippuu tunnustamisesta promoottorin elementin sekvenssit DNA-sitovan säätelijäproteiinia. Kuinka tietty yhdistelmä näistä proteiineista kumppaniaan geenien poikki genomin kutsutaan TRN. Siksi on tärkeää tutkia, miten nämä ajoittain kuviot säännellään puitteissa TRN solujen pyöräily syöpäsoluissa.

käänteistekniikka maailmanlaajuisen TRN edelleen haastava johtuen useita rajoituksia kuten (1) korkea dimensionality elävien solujen jossa kymmenien tuhansien geenien toimivat eri ajan ja tilan yhdistelmä, (2) kunkin geenin vuorovaikutuksessa lähes useamman partnerin kanssa joko suoraan tai välillisesti, siis mahdollista suhteet ovat dynaamisia ja epälineaarisia, (3) nykyinen suurikapasiteettisia tekniikoita tuottaa tietoja, joihin liittyy huomattava määrä kohinaa, ja (4) näytteen koko on erittäin pieni verrattuna määrä geenejä [10]. Hajottamalla TRN pieneen joukko toistuvia sääntelyn moduulien (

esim

, verkko kuviot) on lupaava strategia tähän haasteeseen.

Kuvaamme innovatiivisen laskennallisen kehys, joka päättelee monimutkainen TRNS integroimalla biologista tietoa useista lähteistä ja käyttämällä käsitettä verkon motiivin modulaarinen analyysi. Uutta tässä laskennallisen puitteiden asuu hajoamista monimutkaisen biologisen verkostonsa dynaamisesti yksinkertainen mutta hyvin tunnettu verkko motiiveja, ja kyky integroida erilaisia ​​biologisten tietojen johtamiseksi näihin verkkoon motiiveja. Päätellä moduulit tarjoavat rationaalinen pohja tuottaa uusia hypoteeseja myöhempää kokeellinen validointi. Me osoittaa kyky tämän laskennallisen kehyksen päätellä sääntelyyn liittyvien moduulien solusyklin etenemisen HeLa-soluissa yhdistämällä tietoja aika-kurssi geenin ilmentyminen kokeiluja [2], proteiini-proteiini vuorovaikutusten (PPI) [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], proteiini-DNA vuorovaikutuksia (PDI) [23] ja geeni ontologian (GO) [24].

verrattuna meidän aiemmin raportoitu strategia, jota sovellettiin TRN päättely hiivan solu- syklin [25], että uusi järjestelmä sisältää integroiva käyttö PPI ja PDI data (jäljempänä molekyylien vuorovaikutus data) kolmestatoista julkisesti saatavissa tietokannoissa yhdistettynä havaitsemiseen merkittävän verkon motiiveja kunkin transkriptiotekijän. Tämän uuden järjestelmän merkittävästi laajensi verkkojen, joissa yhdistyvät syvempää sarjaa tunnettuja ja arvokkaita biologisia todisteita. Lisäksi olemme ottaneet käyttöön uuden klusterin pätevyys menetelmän, joka käyttää GO huomautusta laskea samankaltaisuus minkä tahansa parin geenien klusterissa. Osio, jolla on korkein samankaltaisuuspistemäärä valitaan optimaalinen klusteri. Pieni TRN moduulit (

ts.

, Verkko motiivit) ovat helposti tulkittavia ja saattavat tarjota oivalluksia uusia hypoteeseja. Jos geeni klusteri on mukana verkostossa motiivi transkriptiotekijän, ja useimmat geenit voivat todeta, että ne säätelevät kyseisen transkriptiotekijä, on erittäin todennäköistä, että muut geenit Tässä ryhmässä on samanlaisia ​​sääntelyyn suhteita kyseisen transkriptiotekijän. Päättely kyky meidän hienostunut laskennallisen kehys on todentaa erilaisten analyysien mukaan lukien geeniperimä rikastus analyysi (GSEA), sitoutumiskohta rikastus analyysi (BSEA), ja lisäksi kirjallisuuskatsaus.

Tulokset

Yleistä datan integroinnin puitteissa

pidetään kaksi erilaista kerrosta verkkojen kussakin TRN perustuu analyysiin Hela solusykliä koskevat tiedot. Ensimmäinen on fyysinen verkko, jossa PPI-lääkkeiden ja PDIS on tekijä-geenin sitovampia. Toinen on toiminnallinen verkko, joka sisältää seuraukset nämä fyysiset vuorovaikutukset, kuten aktivoinnin tai tukahduttamisen transkription. Käytimme kolmenlaisia ​​tietoja rekonstruoida TRN, nimittäin PPI-lääkkeiden johdettu kokoelma PPI tietokantojen PDIS päässä Transfac tietokannasta, ja niiden ajallinen geeniekspressioprofiilien julkaisemassa [2]. Ensimmäiset kaksi tietolähteitä tarjotaan suoraan verkkoon tietoja rajoittamaan TRN mallia. Geeniekspressioprofiilien edellyttäen yksiselitteisen mittaus syy vaikutuksista TRN mallin. GO merkintä kuvaa yhtäläisyyksiä geenit yhdessä verkossa, mikä helpottaa entisestään luonnehdinta suhteita geenejä. Tavoitteena oli erottaa väliset riippuvuudet geeniekspressiomalleja ja fyysistä molekyylien välisiä vuorovaikutuksia paljasti täydentäviä tietolähteitä.

Puitteet malli TRN päättelyn monikerroksinen tiedon integroinnin on esitetty kuviossa 1. Lisäksi data esikäsittelyä, kolme peräkkäistä vaihetta olivat mukana näissä puitteissa kuten hahmoteltu seuraavassa:

geeniekspressiomalleja ensin ryhmittyneet biologisesti mielekäs ryhmiin FCM; GO kategoriatiedoilla geenien käytettiin määrittämään optimaalisen klusterin numeron. Arvioida geeni klustereita, GSEA suoritettiin optimaalisen klustereita. Lisäksi myös merkittävät verkko motiiveja havaittu yhdistetyssä verkossa PPI ja PDI sitten kullekin transkriptiotekijän. Sen jälkeen, kun geeni klustereita on muodostettu ja transkriptiotekijöiden jaettiin verkon motiivi luokkiin, väliset yhteydet transkriptiotekijöitä ja geenien klustereita oli päätellä koulutusta RNNs, jotka jäljittelevät verkon topologia motiiveja, jotka transkriptiotekijät on määritetty. Lopuksi päätelty verkko motiivien todensi BSEA ja kirjallisuuden tulosten.

Gene klusterointia.

Genes samanlaisia ​​ekspressioprofiileja edusti klusterin puuttua skaalautuvuuden ongelma TRN päättely [26]. Oletuksena on, että osajoukko geenien, jotka liittyvät suhteen ilmaisun (co-säännelty) voidaan ryhmitellä nojalla yhdistävä cis-sääntelyyn elementti (t) liittyy yhteinen transkriptiotekijän säätelevä jokaisen jäsenen klusterin (co-ilmaistuna) [27]. GO tietoja käytettiin määrittämään optimaalinen määrä klustereiden osalta tiettyjen laajaa toiminnallista ryhmiin. Koska jokainen klusteri pääasiassa edustaa yhtä laajaa biologista tai prosessisarjassa arvioituna FuncAssociate [28]), sääntely verkko sitä, että tietty transkriptiotekijä todennäköisesti osallistuvat valvontaan ryhmä toiminnallisesti liittyvien geenien [29].

verkon motiivin osoittaminen transkriptiotekijän.

vähentää monimutkaisuutta päättelyn ongelma, verkko motiiveja käytettiin sijasta globaalin TRN päättely. Merkittävä verkko motiiveja yhdistetyssä molekyylien vuorovaikutus verkko alettiin perustaa ja osoitettu vähintään yhden transkriptiotekijän. Yhdistykset käytettiin edelleen rekonstruoida sääntelyn moduulit.

rakentaminen verkko motiivit transkriptiotekijän.

Kunkin transkriptiotekijän määritetty verkkoon aihe, geneettinen algoritmi (GA) syntyy kandidaattigeenifragmenttikloonien klustereita jako transkriptiotekijän perustuu perustettujen verkon motiivi. Toistuva neuroverkko (RNN) koulutettiin mallintaa TRN joka jäljittelee verkkostatistiikka motiivi. GA syntyy ehdokas geeniklustereina ja hiukkasten parvi optimointi (PSO) käytettiin määrittää parametrit RNN. Parametrit valittiin minimoimaan tehollisarvo virhe (RMSE) välillä tuotoksen RNN ja kohdegeenin klusterin ilme kuvio. Keskineliövirhe palautettiin GA tuottaa seuraavan sukupolven kandidaattigeenifragmenttikloonien klustereita. Optimointi jatkui kunnes joko ennalta määritetyn enimmäismäärän toistojen valmistui tai ennalta määritetyn vähintään RMSE saavutettiin. Menettely toistetaan kaikille transkriptiotekijöitä. Biologinen tieto tietokannoista käytettiin arvioimaan ennustettu tuloksia.

perustaminen optimaalisen määrän biologisesti merkittäviä klustereiden klusterin voimassaolo mittaus

Geenit, jotka kuuluvat samanlaisia ​​tai toisiinsa liittyviä toiminnallisia luokkia ja että näytteille samankaltaista transkription todennäköisesti säädellä samalla mekanismilla [30]. Coordinately ilmaisi geenit todennäköisesti yhtenäistetään yhteisellä cis-säätelyelementtejä ja sukulaisamideillaan transkriptiotekijä (t) [31], [32], mutta tämä suhde on usein helppo havaita ainoastaan ​​silloin, kun klusterin koostuu erittäin kohtalaisen ilmentyvien geenien . Lisäksi korkea mitoitustiedot tilat nämä yhden korrelaatiot ovat meluisia ja taustalla korrelaatio tiedon rakenteen voi olla monimutkaista [10]. Geenit kohdistettu samaan tai liittyvä toimintakategorioihin perustuvat geeni ontologian todennäköisesti myös sääntelee yhteinen transkriptiotekijä [33]. Integroitu analyysi transkriptio profiilin tietojen ja geeni ontologian merkintä on vakaampi lähestymistapa verkon ennakointi kuin uni-ulotteinen perustuva lähestymistapa yksi kerros tietoja, kuten yksiulotteista korrelaatio toimenpiteitä.

yhteensä 846 liittyvien geenien valvontaa solusyklin on tunnistettu aiemmin HeLa-soluissa [2]. Olemme edelleen osioitu nämä geenit tarkempia funktionaalisia ryhmiä (kuvio 2), jonka sumean c-means klusterointi (FCM) [34]. Verrattuna perinteisiin K-means klusterointi, tämä järjestelmä tarjoaa vankempi strategia, jonka avulla geenit, joilla on samanlaiset ilmentymiskuviot sijoitettavaksi samassa ryppäässä paljon pienentää taustamelua [26]. FCM klusteritoimintaan liittyy kaksi empiirinen parametreja: epätarkkuus parametri

m

ja klusterien lukumäärä

c

. Optimaalinen arvo

m

varten aineisto tässä tutkimuksessa käytetyt oli 1,1548, joka määritettiin perustuen ehdottaman menetelmän Dembélé ja Kastner [35].

Järjestelmä havainnollistaa prosessia ryhmittymän geenejä biologisesti mielekäs klustereita. Geeni ekspressiotietojen ensin käytettiin löytää optimaalinen m arvoa FCM klusterointi. Kun optimaalinen m arvon, FCM ryhmittely suoritettiin geenien ilmentyminen tietojen klusterin numeroita välillä 2 50. samankaltaisuus tulokset kaikkien paria geenien kunkin klusterin yksi osio keskiarvo lasketaan ja merkitään yleinen samankaltaisuus pisteet yhden klusterin osio. Osio, jolla on korkein samankaltaisuuspistemäärä valittiin optimaalinen. GSEA suoritettiin käyttäen FuncAssociate arvioimiseksi geeniryppäät muodostetaan käyttämällä optimaalista klusterin numeron.

Optimaalinen klusteri määrä määritettiin semanttisen samankaltaisuuden tahansa geeni parin yhdessä klusterin. Tämä on tietoon perustuva menetelmä, jonka tavoitteena on arvioida optimaalisen klusterin väliseinää kokoelma ehdokas osioiden ja parantaa ennustavan luotettavuus ja biologista merkitystä lähdön. Semanttinen samankaltaisuus geeni parien laskettiin yhdistämällä samankaltaisuutta tulokset välisen GO termejä kullekin geeniä. Osuma samankaltaisuus toimenpiteitä käytettiin laskemaan samankaltaisuuden suhteen osoitettu GO terminologia [36]. Samankaltaisuus pisteet Kaikkien paria geenien kunkin klusterin yksi osio laskettiin keskiarvo ja merkitään yleinen samankaltaisuus pisteet kyseiselle klusterin osion.

Klusteri pätevyyteen arviointimenetelmää käsitteli kaikkia kolmea ontologian oksat (solukomponentista, molekyyli- toiminto, ja biologinen prosessi) laskemiseen samankaltaisuutta tulokset. Osio, jolla on korkein samankaltaisuuspistemäärä valittiin optimaalinen osio (kuva 3). Vertasimme suorituskykyä FCM klustereiden kanssa K-keskiarvon klusterointi osalta kaksi erilaista

m

arvoja. Yksi on oletusarvo 2 ja toinen perustuu optimaaliseen arvoon 1,1548 (kuvio 2). Tämän analyysin, havaitsimme, että FCM klustereiden kanssa optimaalisen

m

arvo antaa parhaan samankaltaisuuspistemäärä. Korkeimmat samankaltaisuuspistemäärä saatiin 39 klustereita, mikä osoittaa optimaalinen ehto vähentää hakua tilaa TRN päättely.

kolme klustereiden tulokset piirrettiin: k-means klusterointi ja FCM klustereiden kahdella

m

arvot (

m

on epätarkkuus parametri): oletusarvo (

m

= 2) ja optimaalinen arvo (

m

= 1,1548).

arvioimiseksi optimaalisen klustereita valitaan perustuen GO, GSEA sovellettiin käyttäen optimaalista arvoa (taulukko S1). Kukin klusteri rikastui erityinen biologinen ryhmiin. Arvioitava edelleen biologista merkitystä vakiintuneiden klustereita, GO tietoja käytettiin määrittämään onko klusterit ovat merkittävä rikastuminen yhden tai useamman ilmaisun käyttämällä FuncAssociate ohjelmaa [28]. Tämä strategia käytti osajoukko geenien syötteenä tuottamaan paremmuusjärjestykseen (P-arvot) GO määritteet rikastuvat joukossa input geenin alaryhmä [24]. Tuotos antoi GO termejä, joita on huomattavasti rikastettu jokaisessa klusterin kaikkien geenien (yhtä suuri kuin koko 26512 ihmisen geenien FuncAssociate ohjelma).

Tämän järjestelmän, koko joukko geenejä mukana solusyklin säätelyssä oli jaettu edelleen 39 klusterit (taulukko S1). Näistä klustereita, 31 oli selvästi yhteydessä GO luokkia, jotka merkitsevät tarkempi toiminto, joka yhdistää jäsenet yhden mutta ei muuta ryhmää, luoden näin enemmän suoria suhteita keskuudessa eräät pienemmät alaryhmien geenejä. Esimerkiksi klustereiden 29 ja 8 voidaan molemmat liittyä ennalta antimitoottisten mitoosin ja postmitoottisia tapahtumien (M-vaihe). Kuitenkin jäseniä klusterin 8 voidaan erottaa jäseniä klusterin 29 johtuen niiden erityiset roolit kromosomissa kaksinkertaistumiseen (DNA: n replikaatiota) ja sytokineesiin. Käänteisesti jäsenet klusterin 29 voidaan erottaa jäseniä klusterin 8 nojalla erityisten roolit kara kuitu kokoamista ja purkamista.

biologista merkitystä näitä erittäin erityinen toiminnallinen suhde, perustettu meidän klustereiden järjestelmään, voi edelleen laajennetaan kannalta sisäisiä suhteita sääntelyn yhteydessä. Esimerkiksi jäsenet sekä klustereita 29 ja 8 on tunnistettu aikaisemmin suoraan alavirtaan tavoitteet E2F tekijät (Ren et ai., 2002). Samanlaisia ​​suhteita voidaan solmia muiden klustereita kuten klusteri 32, joka koostuu geenien kanssa biokemiallisten rooleja DNA-ligaasia. Täten geenit Cluster 32 ovat mukana liittyviä prosesseja rako korjaus- tai Okazaki fragmentti käsittely aikana DNA: n replikaation ja kromosomi kaksinkertaistamista. Aiemmat tutkimukset ovat osoittaneet, että geenit liittyvät tähän toiminta ovat alle lakisääteisen valvonnan E2F1 ja PCNA (Shibutani et al, 2008; katso lisätietoja taulukossa S2).

Perustuen kaikkiin näihin suhteisiin, yksi erityinen vahvuus nykyinen menetelmä on sen kyky erottaa geenejä, jotka liittyvät toiminnoittain laajassa merkityksessä ja Saharan luokittelemalla ne erittäin spesifinen (kapea) toiminnalliset luokat, jolloin ennustaminen sääntelyn suhteita, jotka ovat yhdenmukaisia ​​biologisesti voimassa suhteita.

määrittäminen transkriptiotekijöitä verkko motiiveja

TRNS koostuvat toistuvista esiintymiä verkon motiiveja, jotka ovat yksinkertaisia, toistuvia kuvioita konservoituneiden biologisten yksiköiden vaihtelevat molekyyli verkkotunnuksia pieniin reaktion verkkoihin [37]. Jokainen verkko motiivi suorittaa määritelty tiedonkäsittelytoimintaa verkoston sisällä. Olemme keskittyneet kolmen solmun verkon kuviot, koska suurin osa suurempi koko verkon kuviot koostuvat maksimaalisesti kolme solmua [38]. Tavoitteena oli määrittää kunkin mahdollisen solusyklikontrollin liittyvät transkriptiotekijän ainakin yksi verkko-motiivin mukaan yhdistetyn molekyylien vuorovaikutus verkkoon. Tavoite saavutettiin rakentamalla RNN malli kaikki mahdolliset sääntelyyn liittyvien geenien transkriptioon perustuvat niiden tietyn verkon motiivi. RNN tuotos on malli, joka yhdistää jokaisen

bona fide

tai otaksuttu transkription säädin niiden alavirran kohdegeeneissä.

Kaikki geenit joko suoria tai välillisiä rooleja transkription säätelyyn ensin tunnistettiin koko joukko 846 solukierron liittyvät geenit mukaan GO luokat, jotka ilmaisevat mahdollisia rooleja transkriptio (Ashburner et al., 2000). Kandidaattigeenejä että jäi suodatuksen jälkeen muiden geenien toiminnan luokat ovat ne, jotka oli määrätty seuraavat otaksuttu toiminnot: transkriptiotekijän aktiivisuutta (GO: 0003700), transkription säätelyyn (GO: 0061019), ja transkriptiotekijä monimutkainen (GO: 0005667). Koska GO tiedot eivät ehkä yksin riitä yksilöimään geenien kanssa bona fide roolit transkriptiotekijöitä, me edelleen suodattanut luettelon ehdokas transkriptiotekijöiden lisäämällä toinen kerros vahvistavia tietoja perustuu tuloksiin PubMed hakuja. Tämä ylimääräinen merkintä pystyimme validoimiseksi GO luokitus meidän kandidaattigeenejä. Yksityiskohtaiset kuvaukset GO termejä ja erityisiä tehtäviä transkriptio ehdokas TF: iä käytettiin tässä tutkimuksessa taulukossa S3. Niistä 846 solusyklin liittyviä geenejä, 46 oli liitettiin Euroopan toiminnot liittyvät transkription säätelyyn perustuu sekä GO ja PubMed tietokantoja. Nämä geenit, pidettiin otaksuttavasti transkriptiotekijöiden.

microarray tiedot, geenit ovat usein edustaa useita oligonukleotidikoettimia. Geenit edustaa koetin, joissa on suurempi varianssi oli edelleen pidetään tässä tutkimuksessa (Zhang et al., 2007). Olemme hajoaa TRN useaan verkkoon kuviot, joissa kukin verkko aihe liittyy mahdollisesti tietyn transkriptiotekijä (s). Yhteensä neljä verkon motiivien todettiin olevan merkittävä yhdistetyn molekyylien vuorovaikutus verkkoon (kuva 4), jolloin kukin transkriptiotekijän osoitettiin ainakin yksi näistä verkon motiiveja.

Vasemmassa paneelissa esitetään neljä verkkoon motiivi sääntelyn moduulit pidetään tässä tutkimuksessa. Oikea paneeli esittää johdettua transkriptiotekijä-kohdegeenin suhteita kahdeksan solusyklin riippuvainen transkriptiotekijät.

päättelemällä verkko motiivi sääntely moduulien välillä transkriptiotekijöitä ja geeniryppäät

väliset suhteet transkriptiotekijöitä ja geeniryppäät määritettiin perustuen RNN malleihin. Kunkin neljän verkon kuviot (kuvio 4), joka on sopiva RNN on rakennettu kuten edellä on kuvattu [25]. RNN mallit koulutettiin käyttäen hybridi geneettinen algoritmi – hiukkanen parven optimointi (GA-PSO) löytää loppupään geeniryppäät kaikille 46 otaksuttu transkriptiotekijöitä. Associations kunkin transkriptiotekijän ja 39 geeniryppäät määritettiin kouluttamalla RNN malli, joka jäljittelee tietyn verkon motiivi tietyn transkriptiotekijän. Johtuen vähentäminen laskennallisen monimutkaisuuden (kartoitus 46 transkriptiotekijöitä ja 39 geeniryppäät sijasta 846 geenien), numerot GA ja PSO sukupolvien saavuttamiseksi tarvitaan ennalta määritetyn vähintään RMSE väheni merkittävästi. PSO sukupolven RNN asetettiin 1000 [39]. Minimiarvo Keskineliövirhe pieneni sukupolvien lukumäärä kasvoi (taulukko 1). Pienin RMSE GA sukupolvien 600 ja 800 olivat 0,077 ja 0,075, tässä järjestyksessä. Perustuen 600 GA sukupolville, teemme johtopäätöksen menetelmää menestyksellisesti määritellyt kaikki 46 otaksuttu transkriptiotekijöitä niiden kohdegeenin klustereita ja päätellä todennäköisin transkription sääntelyverkon motiiveja (TRNMs; katso kuva 4 edustavien TRNMs).

voimassaolon ja tarkkuuden verkon kuvata TRNMs voidaan arvioida vertaamalla verkoston malli on rakennettu perustuu todellisiin biologista tietoa. Ilman näitä tietoja, teimme ensimmäinen validointi verkon etsimällä tunnettujen geeni yhteyksiä tietokantoihin. Perustuu verkon motiivi moduuli tulosennusteita, keräsimme kirjallisuuden todisteita NCBI ja Transfac [40] tietokantoihin. Me tarkistetaan aina ennustaa verkon motiivi ja tutki suhteita transkriptiotekijän ja sen kohdegeenin klusterin (s). Myöhempi analyysi tehtiin alla Lähtökohtana on, että johdettua verkon aihe on todennäköisemmin biologisesti mielekästä, jos transkriptiotekijät siinä korreloivat rikastettua biologisia toimintoja loppupään klustereissa.

Huomattava verkko kuviot johtuvat kyselyn käytettävissä olevista kirjallisuuden solukierron riippuvaisia ​​geenejä, kuten

E2F1, E2F2, SP1, BRCA1, STAT1, PCNA, RBPSUH

, ja

HMGB2

luetellaan kuviossa 4. perustuu yhdistettyyn tietojen biologinen seuraus verkkoa voidaan selittää. Esimerkiksi

E2F

on transkriptiotekijä, joka on keskeinen rooli solusyklin etenemisen nisäkässoluissa [41].

E2F1

, joka sisältää kaksi päällekkäistä

E2F

aa sitova sivustoja sen promoottorialue, aktivoidaan G1 /S siirtyminen käytettäessä E2F-riippuvaisella tavalla.

E2F2

vuorovaikutuksessa tiettyjä elementtejä

E2F1

promoottori ja molemmat geenit ovat mukana DNA: n replikaatioon ja korjata [42], sytokineesi, ja kasvainten kehittymiseen [43]. Mukaan GSEA tuloksiin, Cluster 8 rikastetaan geenien mitoosia ja sytokineesi ja Cluster 34 on rikastettu geenien useita toiminnallisia luokkia liittyy kasvainten kehittymiseen. Kuten kuviossa 4, sekä Cluster 8 ja 34 ennustetaan säänneltävä

E2F1

ja

E2F2

, ja nämä tulokset ovat yhtäpitäviä aikaisempien raporttien perustuu biologista tietoa [41], [43].

analyysi ennustaa, että

E2F1

ja

PCNA

ovat komponentteja samassa verkossa. Molemmat geenit osallistuvat säätelyyn klustereiden 32 ja 34. helpointa ymmärtää molekyylitason funktio

PCNA

proteiini on sen rooli säätelyssä eukaryoottisen DNA-polymeraasin delta prosessiivisuus, joka varmistaa tarkkuuden DNA-synteesin ja korjaus [44]. Kuitenkin viimeaikaiset tutkimukset ovat osoittaneet, että

PCNA

proteiini toimii myös suoraan repressori transkription koaktivaattorikompleksien p300 [45]. Toinen tutkimus osoittaa, että

PCNA

tukahduttaa transkriptionaalista aktiivisuutta retinoiinihapporeseptoreihin (

RAR

s) [46]. Siten edistää näiden geenien samassa verkossa, kuten ennustaa verkostomme päättely algoritmia, tukee voimakkaasti tietoa sääntelyn suhteiden jo perustettu kokeellista tietoa. Tulokset meidän ennustus ovat yhtä mieltä näiden raporttien sillä sekä klusterit 8 ja 32 on rikastunut geenien DNA-synteesin ja säätelytoimia.

kesti kolme lähestymistapoja tutkia vielä geenit ennustettu säänneltävä

E2F

geenien Clusters 8, 32 ja 34 on validoitu klassiseen kuin genomin laajuinen menetelmiä. Ensiksi, tutkimme kuinka monta ”tunnettu”

E2F1

ja

E2F2

tavoitteet ennustamalla tavalla ehdotettu menetelmä. Mukaan Bracken

et al

. [47], 130 geenejä tarkistetaan

E2F

tavoitteita, joista 44 oli alun perin tunnistettiin klassinen, ei-genominlaajuisten lähestymistapoja. Koska me rajoitettu analyysimme on 846 solusyklin liittyviä geenejä, 45 geenejä Hyväksytty

E2F

kohdegeenien lueteltujen ref. [47], joista 21 oli tiedossa tutkimuksista, joissa klassista molekyylibiologian analyysit. Geeni tavoitteet ennustamalla tavalla menetelmällä ottelun 15 45 geenien, kaikki joista 15 ovat niitä löytyy alunperin käyttäen standardeja molekyylibiologian kokeissa. Yksi mahdollinen syy on, että genominlaajuisten lähestymistavat ovat yleensä hyvin meluisa ja epäjohdonmukaisia ​​eri tutkimuksissa. Yksityiskohtaiset tiedot näistä geeneistä on lueteltu taulukossa S4.

Toiseksi halusimme nähdä onko meidän ennustaa geenin tavoite klustereita rikastuvat vastaaviin sitoutumiskohtia transkriptiotekijät niiden ylävirran alueen. Sekä

E2F1

ja

E2F2

, 7 ulos 17 geenien Cluster 8 sisältävät sitoutumiskohtia niiden ylävirran alueilla vahvistanut tiedot SABiosciences tietokannassa (http: //www.sabiosciences. com /chipqpcrsearch.php? app = TFBS).

Lopuksi määritetään kuinka monta geenien geeniryppäät on

E2F

sitoutumiskohtia. Käytimme motiivi löytö työkalu, WebMOTIFS [48] löytää yhteisiä motiiveja geeniryppäät ennustetaan

E2F

tavoitteet käyttäen sitoutumiskohta rikastus analyysi (BSEA). Tulokset paljastivat, että motiivi nimeltään E2F_TDP, GCGSSAAA, tunnistetaan merkittävimmät motiivi joukossa geeniryppäät 2, 8, 29, 31, 32 ja 34. Valitettavasti klusterit 30 ja 36 geenien lukumäärän näissä klustereissa on liian pieni for WebMOTIFS analyysiä. Kaikki nämä geeniklusterien ennustetaan loppupään tavoitteet

E2F

. Esimerkiksi 43 ulos 52 geenien klusteri 2 on otaksuttu

E2F

sitoutumiskohtia niiden ylävirran alueilla. Yksityiskohtaiset tiedot BSEA tulokset on esitetty kuviossa 5. Niiden TRNMs Kahden transkriptiotekijät ovat mukana, myös löytää nämä alavirtaan geeniklusterit rikastettu sekä sitoutumiskohdan sekvenssin motiivia. Esimerkiksi Cluster 32 on rikastettu sekä E2F_TDP ja MH1 kuviot, jotka vastaavat kahta transkription tekijöitä TRNM: E2F1 ja SP1. Nämä BSEA tulokset tukevat voimakkaasti teemme johtopäätöksen tuloksia.

Sequence logoja edustavat motiivin merkittävästi yliedustettuna yksittäisten geeni klusterin liittyvät niiden ennustettu ylävirtaan transkriptiotekijöitä, mukaan WebMOTIFS löytö algoritmi [48].

Vastaa