PLoS ONE: Prediction and Experimental validointi Novel STST3 kohdegeenien ihmisen syöpäsoluja

tiivistelmä

Kattava tunnistaminen funktionaalisten transkriptiotekijän sitoutumiskohtia (TFBSs) on tärkeä askel ymmärtämisessä monimutkaisia ​​transkription säätelyverkkojen. Tämä tutkimus esittelee motiivi perustuvaa vertailevaa lähestymistapaa, STAT-Finder, tunnistamisesta toiminnallinen DNA sitoutumiskohtiin STST3 transkriptiotekijän. STAT-Finder yhdistää STAT-Scanner, jonka tarkoituksena oli ennustaa toiminnallisia STAT TFBSs parannetulla herkkyys, ja motiivi perustuva linjaus minimoimaan väärien positiivisten ennustus hinnat. Käyttämällä kahta viite sarjoista, jotka promoottorisekvenssit tunnettuja STAT3 kohdegeenien, STAT-Finder toiminnallisia STST3 TFBSs tiiviimmän ennustetehokkuutensa ja herkkyyttä suhteessa muihin tavanomaisiin TFBS ennustelaitteet. Lisäksi, STAT-Finder tunnistaa uusia STAT3 kohdegeenien joukossa ryhmä geenejä, jotka ovat yli-ilmentynyt ihmisen syöpäsoluja. Sitominen STAT3 ennustettua TFBSs myös kokeellisesti varmistanut kromatiinin immunosaostus. Meidän ehdotettu menetelmä tarjoaa systemaattisen lähestymistavan ennustamiseen toiminnallisia TFBSs joita voidaan soveltaa muihin TF: ille.

Citation: Voi YM, Kim JK, Choi Y, Choi S, Yoo JY (2009) Prediction and Experimental Validation of Novel STAT3 kohdegeenien ihmisen syöpäsoluja. PLoS ONE 4 (9): e6911. doi: 10,1371 /journal.pone.0006911

Editor: Sridhar Hannenhalli, University of Pennsylvania School of Medicine, Yhdysvallat

vastaanotettu: 02 huhtikuu 2009; Hyväksytty: 03 elokuu 2009; Julkaistu: 04 syyskuu 2009

Copyright: © 2009 Oh et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä työ tukivat avustuksia Korean Science and Engineering Foundationin (KOSEF) avustus rahoittaman MEST (R01-2008-000-20721-0) ja National Core Research Center for Systems Bio-Dynamics (R15-2004-033). J. K. Kim tukee Microsoft Research apurahan. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

kyky biologista järjestelmän vastata oikein ärsykkeisiin vahvasti riippuvainen biokemiallisten päällekkäisiä signaalipolkuja huipentuu transkriptiotekijöiden (TF: t) ja myöhemmin muuttaminen geeniekspressiomalleja [1]. Tietoa, mitkä geenit on ilmaistava tietyssä solutyypissä kulloinkin uskotaan koodattu genomissa. Molekyyli käytettävien koneiden tulkita niin geneettinen informaatio on kehittynyt tarkkuuden varmistamiseksi ja spesifisyys geenisäätelyn. Transkriptio on monivaiheinen prosessi, joka vaatii yhtenäistä toimintaa monien proteiinien. Transkription aktivaattorit ja repressorit sitoutua sekvenssi-spesifinen tavalla promoottoreita tai tehostajia kohdegeenien. Ne säätelevät rekrytointi trans-aktivaattorit chromatin määritteet, ja yleinen transkriptiotekijät, kuten RNA-polymeraasi II, säätelemään geeniekspressiota [2], [3].

Koko genomin lähestymistapoja mittaamiseen genominlaajuisten ilmentymiskuviot ovat ilmaista ryhmät geenien yhteistyötä säännellyn käyttämään paikallisesti ja ajallisesti ohjattu soluvasteita [4]. Tunnistaminen vastaavan sääntelyn moduulit, jotka ohjaavat toimien koordinointi kombinatorisista transkriptiotekijöiden on ratkaisevaa ymmärtää sääntelyn piirit biologisten prosessien [5]. Tätä tarkoitusta varten laskennallisia työkaluja on kehitetty auttamaan tunnistamisessa transkriptiotekijän sitoutumiskohtia (TFBSs) in promoottorit yhteistyössä geenien [6], [7], [8]. Nämä tietotekniikassa voidaan jakaa kahteen luokkaan: (1) kuvion havaitseminen ja (2) kaavoja. Kuvio tunnistus, joka tunnetaan myös nimellä de novo motiivi löytö, toteaa otaksuttu sitoutumiskohtia tuntematon TF: ille, jotka ovat yliedustettuina promoottorit yhteistyön geenien. Jos sitova spesifisyys TF on jo tiedossa, kaavoja menetelmät ovat edullisia [9]. Vuonna kaavoja lähestymistapaa, DNA-sekvenssi tiedot TFBSs ilmaistaan ​​asema painomatriisi (PWM), jota voidaan käyttää viereen mahdollisia säätelypaikat tilastollinen yhteydessä [10]. Kuitenkin, koska DNA: n sitoutumiskohtien TF: ille ovat yleensä lyhyitä ja degeneroituneita, tämä menetelmä on altis suuren määrän vääriä positiivisia ennustus hinnat [11].

Sen havainnon perusteella, että konservoituneita ei-koodaavia DNA-sekvenssit ovat usein tärkeitä sääntely biologisia toimintoja, rajat lajien sekvenssin vertailut ovat aktiivisesti integroitu erottamaan toiminnallisia ja ei-toiminnallisia TFBSs [12], [13], [14]. Teko sisällyttää evoluutiossa säilyneitä sekvenssi tietoja sääntely alueilla suodattaa pois ei-säilyneitä TFBSs, mikä suuresti vähentää väärien positiivisten ennustus rate [15], [16], [17], [18], [19]. Vaikka tämä lähestymistapa on sovellettu menestyksekkäästi lisäämiseksi ennustavan voiman motiivin toteamuksen, se on erittäin herkkä käyttämästä algoritmista sekvenssikohdistuksen ja tarkkuutta selityksin transkription aloituskohdasta (TSS) tiedot. Näin ollen on todettu, että sekvenssi-pohjainen promoottori rinnastukset eivät useinkaan havaita lyhyellä tai degeneroitunut säätelyelementtejä, jolloin kehittyvä erilaisia ​​promoottorisekvenssejä linjassa [12], [17]. Voittaa nämä rajoitukset, linjaus-free-algoritmi perustuu verkon tason säilyttäminen on myös ehdotettu [20].

Signaalin anturin ja aktivaattori transkription 3 (STST3) kuuluu STAT perheen transkriptiotekijöitä, jotka aktivoidaan Interleukiini-6 (IL-6) ja siihen liittyvät sytokiinien, kuten IL-10, onkostatiini M (OSM), ja leukemiaa estävä tekijä (LIF) [21]. Tähän mennessä seitsemän nisäkkäiden STAT (1, 2, 3, 4, 5a, 5b, ja 6) on tunnistettu. He kaikki hallussaan DNA sitova alue, joka on SH2 domain dimeroimista, ja C-terminaali trans aktivaatiodomeenina [22]. Stimuloitaessa solunulkoisen ligandin, aktivoitu STST3 muodostaa homodimeerejä tai heterodimeerejä toisen STAT perheenjäsenen, STAT1, sitten translokoituu tumaan ja sitoutuu sukulais sääntelyyn elementtejä edistäjiä STAT-reagoivien geenien. Kertyvät todisteita mukaan STST3 myös yhdistää muiden transkriptiotekijöiden muodostamaan enhanceosome komplekseja promoottorialueissa kohdegeenien ja ohjaa yhteistyöhön geenin induktion [23], [24], [25]. STAT3 on mukana erilaisia ​​soluvasteita, mukaan lukien solujen erilaistuminen, selviytyminen, kantasolujen uusiminen, haavan paranemista ja systeeminen tulehdus; Tämä on todistettu fenotyyppien muuntogeenisten STAT3 mutanttihiirien [22], [26], [27], [28], [29]. On havaittu, että STAT3 osallistuu karsinogeneesin, ja että ektooppinen ekspressio konstitutiivisesti aktiivisen muodon STAT3 (STAT3-C) indusoi kasvainten muodostumista nude-hiirissä [30]. Lisäksi ilmaisu konstitutiivisesti aktiivisen STAT3 on havaittu erilaisissa ihmisen syövän, mukaan lukien multippeli myelooma, paksusuoli, munasarja, maksan, keuhkojen, pään ja kaulan syöpien [31]. Vaikka sääntely ja yleinen trans-aktivoitumisen mekanismeja STAT3 on tutkittu perusteellisesti, ei liikaa vaivaa on edistytty tunnistamiseksi suoraan kohdegeenien STAT3. Määritettäessä niitä kohdegeenien on ratkaiseva välittävä erilaisia ​​biologisia vaikutuksia STST3 signalointi.

Luonnehtia STST3 välittämän transkription ohjelmia, olemme kehittäneet laskennallinen puitteet suunniteltu ennustamaan STST3 TFBSs on parannettu herkkyys ja alhainen vääriä positiivisia korko. Integroimalla mikrosirun saatujen tietojen STAT3 aktivaatio ja TFBS ennakointivälineet, yritimme tunnistaa uusia STST3 kohdegeenien. Käyttämällä STAT-Finder ohjelma, voimme tunnistaa kahdeksan uusia STAT3 kohdegeenien joukossa ryhmä geenejä, jotka ovat erittäin ilmaistu syöpäsoluja. Sitten ne vahvistettiin läpi kromatiinin immunosaostus.

Tulokset

Katsaus STAT-Finder

tunnistamiseksi suoraan STAT3 kohdegeenien kehitimme laskennallisen kehys, joka ennustaa toiminnallisia TFBSs of STAT3 lisääntynyt herkkyys ja alhainen vääriä positiivisia. Yhteiskuntavastuuohjelmamme, STAT-Finder, rakennettiin perustuu kahteen laskennallisen komponentista TFBS skannaus ohjelma (STAT-Scanner) ja motiivi perustuva linjausohjelmaan (kuvio 1). STAT-Scanner on suunniteltu lisäämään herkkyyttä havaita toiminnallisia STST3 TFBSs. Sillä hetkellä saatavilla STAT3-specific PWM Transfac tietokannan [32], V $ STAT3_01, usein ei havaita kokeellisesti STAT3 sitoutumiskohtia (tuloksia ei ole esitetty). Sillä parannetaan ennusteita, STAT-Scanner näin ollen suunniteltu käyttämään yhdistettyä pulssinleveysmodulaattorit sitoutumisen spesifisyys samanlainen STST3. Vaikka STAT perheenjäsenillä on erilaisia ​​fysiologisia toimintoja ja säätelevät erillisiä sarjaa kohdegeenien, tavoitteet yksittäisten STAT proteiinien joskus päällekkäisiä, ja DNA-sekvenssit tunnustettu STAT perheenjäsenet ovat samankaltaisia ​​[21], [22], [23].

STAT-Finder on kaksi osaa: ensimmäinen moduuli, STAT-Scanner, ottaa niistä kuudesta ortologiset nisäkkään promoottorisekvenssejä syötteenä. Jokainen promoottorisekvenssi etsitään merkitä otaksuttu TFBSs käyttäen muunneltua 8 STAT liittyviä pulssinleveysmodulaattorit. Sitoutumisaffiniteetti tulokset ennustivat TFBSs laskennassa käytetään

P

-arvoja, ja jono affiniteetti tulokset luodaan jokaista promoottori. Toinen moduuli asteittain tasaa pisteet sekvenssit ja laskee taka todennäköisyyden arvioimiseksi asteen motiivin säilyttäminen.

puolueeton tunnistaminen pulssinleveysmodulaattorit että osuus sekvenssin samankaltaisuuden kanssa STAT3 erityisiä PWM, V $ STAT3_01, yhteensä 565 pulssinleveysmodulaattorit peräisin selkärankaisten Transfac tietokannasta [32] ryhmittyivät perustuu niiden motiivi samankaltaisuuden (kuvio S1). Motiivin samankaltaisuus määriteltiin

P

-arvo on aukolliselle rinnastukselle kahden pulssinleveysmodulaattorit perustuu Kullback-Leibler eroja [33] (Katso menetelmät). Kokonaismäärät PWM klustereiden kasvoi tiukat

P

-arvo cut-off, saavuttaen suurimman klusterin määrä noin 10

-16

P

-arvo (kuvio S1A). Kun

P

-arvo katkeaminen 10

-7, pulssinleveysmodulaattorit osoitettu STAT perheenjäsenten havaittiin samassa ryppäässä. On huomionarvoista, että PWM klusterointia ei paljastunut kuin STAT pulssinleveysmodulaattorit jotka olivat riittävän samankaltaisia ​​sisällyttää eikä siellä ollut STAT pulssinleveysmodulaattorit jotka olivat selvästi erilainen (kuva S1B). Valitsimme joukossa kahdeksan pulssinleveysmodulaattorit STAT perheenjäsenten korkea PWM laatupisteet ( 0,6), jossa jokainen laatu pisteet laskettiin ehdottaman menetelmän Rahmann et al. [34]. Merkityksellisyys Valitun pulssinleveysmodulaattorit ilmaisemiseksi tunnettujen STAT3 TFBS on arvioitu aikaisemmin tunnistetut STAT3 kohdegeenien [35] (kuva S2).

minimoimiseksi vääriä positiivisia ennusteita, tulokset STAT-Scanner analysoitiin käyttämällä vertaileva motiivin perustuva linjaus työkalu (kuvio 1). Tämä menetelmä löydöt säilyneitä sitoutumiskohtia sisällä ortologiset promoottorit kuusi nisäkäslajien vertaamalla useita sekvenssejä. Sisällä todennäköisyyspohjaisiin puitteissa, STAT-Finder sitten arvioi posterior todennäköisyydet TFBSs kuin ennusti STAT-Scanner määrittämällä korkeampi ennen todennäköisyydet on säilyneitä sivustojen yli ei-säilyneitä niistä.

validointi STAT-Scanner

ensin verrataan suorituskykyä STAT-Scanner kaikkein käytännön TFBS ennakointivälineet, MATCH 2.7 [36] ja MotifLocator [37]. Tätä tarkoitusta varten olemme keränneet positiivinen geenien kanssa kokeellisesti STST3 sitoutumiskohtia niiden promoottorialueille kirjallisuuden kaivos- ja TRED haku (https://rulai.cshl.edu/TRED) [38]. Tuloksena tiedot 22 viite sekvenssit on lueteltu taulukossa S1. Perimän DNA-sekvenssit ulottuen 2000 bp alkupään 500 emäsparin alavirtaan selityksin varustetun TSS kunkin geenin käytettiin hyväksi promoottorisekvenssejä. Ennustaminen oikeita positiivisia TFBSs oli silloin funktiona koko ennustetun TFBS lasketa eri raja-arvot. Kuten kuviossa 2A on esitetty, STAT-skanneri, joka käyttää yhdistettynä STAT3 liittyviä pulssinleveysmodulaattorit, suoriutuu MATCH ja MotifLocator, jotka molemmat käyttävät edustajan STAT3 PWM (V $ STAT3_01). Uskomme tehostettua ennusteita STAT-Scanner johtui osittain käyttö yhdistetyn STAT3 liittyvien pulssinleveysmodulaattorit, varsinkin kun ennustavan voiman MotifLocator lisääntyi myös yhdistettynä pulssinleveysmodulaattorit käytettiin (kuvio S3).

käyrät muutokset määrän oikeita positiivisia TFBSs havaita käyttämällä MotifLocator (V $ STAT3_01), VASTINE (V $ STAT3_01), tai STAT-Scanner, funktiona kokonaismäärästä ennusti TFBSs (A) viite joukko 22 STAT3 tavoite geenejä (taulukko S1) ja (B) genominlaajuisten STAT3 ChIP-Seq aineisto [39].

arvioitiin myös suorituskykyä STAT-Scanner käyttäen genominlaajuisten STAT3 sitova saadut käyttämällä alkion kantasolujen [39]. Niistä 461 geenit STST3 sitovia piikkien 2,5 kb promoottorialueissa, 412 ovat ennustaa tarkasti STAT-Scanner on ainakin yksi STAT3 TFBS (kuvio 2B). Yleistä suorituskykyä STAT-Scanner oli parempi kuin sekä MATCH ja MotifLocator, kuten havaitseminen sama määrä totta sitoutumiskohdista saavutettiin sekä merkittävästi alhaisempi kokonaismäärät ennusti sivustoja. Vaikka MATCH ja MotifLocator toteuttaa samalla tavalla STAT-Scanner havaitsemisessa noin 50% todellisesta STAT3 TFBSs, jälkimmäinen päihittää sekä ennustaa tarkasti jäljellä todellinen sivustoja. Uskomme, että tämä johtuu osittain käyttö yhdistetyn STAT liittyvien pulssinleveysmodulaattorit joka on kyky parantaa suorituskykyä MotifLocator, vaikkakin vähemmän kuin lisälaitteen STAT-skanneri, jossa on yhdistetty tiedot saatu useista pulssinleveysmodulaattorit (kuva S4). Suhteellinen suorituskyky molempien menetelmien on alhainen verrattuna STAT-Scanner; Tämä selittyy sillä, että niiden tulokset on ennustettu sivustot eivät ole suoraan vertailukelpoisia eri pulssinleveysmodulaattorit, mikä osoittaa, kuinka tärkeää meidän pisteytys järjestelmän integrointi ottelut eri pulssinleveysmodulaattorit. Nämä tulokset osoittavat myös, että päällekkäiset pulssinleveysmodulaattorit samankaltaisia ​​sitoutumisspesifisyys ovat kriittisiä kehittää parempia strategioita havaita toiminnallisia TFBSs of STAT3 suurella ennakoivaa tarkkuudella.

Ominaisuudet toiminnallisen STAT3 TFBS

Lopullinen tavoitteena laskennallinen ennuste on havaita toiminnallinen TFBSs suurella varmuudella. Suodattaa pois vääriä positiivisia TFBSs suurella affiniteetilla tulokset, tutkimme erilaisia ​​toiminnallisia rajoitteita kuten evoluution säilyttäminen ja genomin rakenne ennustettiin STST3 TFBS alueilla. Sekvenssikonservoinnista jakamiseen useiden lajien on todettu rajoittaa toiminnallisten TFBS [16], [17], [40]. Siksi meidän arvioitiin ensin jakelu monilajista säilyttämisen tulokset (PhastCons pisteet) [41] ja sääntelyn potentiaalien (RegPotential pisteet) [42] varten tehtävissä toiminnalliset ja ei-toiminnalliset STAT3 TFBSs havaita STAT-Scanner käyttäen referenssisarjassa 22 geenit (taulukko S1). Yksinkertaisuuden, me pidetään TFBS toiminnallinen jos se tukivat kokeellisia STST3 sitovat tiedot; muuten TFBS pidettiin ei-toiminnallinen. Jakelu PhastCons pistemäärät ei-toiminnalliset STAT3 TFBSs ovat vinossa kohti nollaa, kun taas PhastCons pisteet noin 50% funktionaalisen STAT3 TFBS ylitti 0,1 (kuvio 3A). Sen sijaan, jakelu RegPotential tulokset, jotka mittaavat samankaltaisia ​​malleja näiden tunnetussa säätelyelementtejä, oli samanlainen kannat toiminnalliset ja ei-toiminnalliset STAT3 TFBSs (kuvio 3B). Seuraavaksi tutkimme metylaatio vastustuskykyisten CpG saari piirteet STAT3 TFBS sisältäviä alueita. Yli-esitys sitovia sekvenssejä spesifiseen transkriptiotekijöiden, kuten sinkki-sormen proteiineja, on CpG-saarekkeiden on aikaisemmin raportoitu [43]. Suurin osa ennustetun STAT3 TFBSs sijaitsevat sisällä CpG-saarekkeiden [44], mutta genomijakauman ei muuteta merkittävästi joukossa toiminnalliset ja ei-toiminnalliset STAT3 TFBSs (kuvio 3C). Toista elementtejä [45] genomisessa järjestyksessä saattavat vaarantaa toiminnot transkriptiotekijöiden, koska yksikään toiminnallisen STAT3 TFBSs on tunnistettu sisällä toistuvat alueet (kuvio 3D). Yhteenvetona, aihe säilyttäminen, merkittävä este, joka erottaa toisistaan ​​funktionaaliset ja ei-funktionaaliset STAT3 TFBSs, on siksi sisällytetty STAT-Finder.

(A) PhastCons viereen, (B) Regulatory Potential pisteet, (C ) Prosenttiosuus on CpG-saarekkeen, ja (D) Prosenttiosuus on Repeat alueella.

validointi STAT-Finder

vieressä arvioida suorituskykyä STAT-Finder verrattuna muihin vertailevan menetelmät, nimittäin, EEL [46] ja CONREAL [12]. Koska EEL suorittaa pareittain linjaus perustuu ottelut yhteen PWM vertasimme suorituskyky EEL käyttäen kunkin PWM (V $ STAT3_01 ja V $ STAT1_01) erikseen. Samaan aikaan suorituskykyä CONREAL tutkittiin yhdistämällä pulssinleveysmodulaattorit. Testasimme ennusteen tarkkuus STAT-Finder kaksi positiivista tietuekokonaisuudet STST3 siteet. STAT-Finder näytteillä paremman suorituskyvyn verrattuna EEL käyttäen V $ STAT3_01, EEL käyttäen V $ STAT1_01, tai verrattuna CONREAL ennakoinnissa totta STST3 TFBSs vuonna 22 aiemmin tunnistettu positiivinen geenien (kuvio 4A). Huomaa, että sekä EEL ja CONREAL ei havainnut noin 40-60% oikeita positiivisia STAT3 sivustoja edes pienin raja-arvo, kun taas STAT-Finder löytyy näitä kaikkia. Nämä tulokset osoittavat, että STAT-Finder osoittivat paremman suorituskyvyn suhteen löytää oikeita positiivisia STAT3 TFBSs että muut vertailevan ohjelmien väliin. Se tehtiin selvemmin, kun etsittiin STST3 TFBSs käyttämällä EEL tai CONREAL vuonna tietuekokonaisuudet genominlaajuisten STAT3 sitova. Vaikka yleistä suorituskykyä STAT-Finder oli samanlainen EEL havaitsemaan 56% todellisesta STAT3 TFBSs vain STAT-Finder kykeni havaitsemaan loput 30% todellisesta sivustoja (kuva 4B). Tuloksemme viittaavat siihen, että parannettu herkkyys STAT-Finder voisi johtua käyttö yhdistetyn STAT liittyvien pulssinleveysmodulaattorit, joka ilmeisesti voitti suorituskykyä rajoitukset V $ STAT3_01.

käyrät muutoksiin määrän todellisen sitoutumiskohdat tunnistetaan käyttämällä EEL (V $ STAT3_01 tai V $ STAT1_01), CONREAL (All, yhdistetyn pulssinleveysmodulaattorit V $ STAT3_01 ja V $ STAT1_01), tai STAT-Finder, funktiona kokonaismäärästä ennusti TFBSs (A) viite joukko 22 geenejä (taulukko S1) ja (B) genominlaajuisten STAT3 ChIP-Seq aineisto [39].

seuraava yritettiin genominlaajuisten ennusteen STAT3 sitoutumisen ihmisen promoottori alueilla. Tätä tarkoitusta varten ensin arvioitu cut-off-arvo motiivin säilyttämisen pisteet (MCS) tunnistaa säilyneitä toiminnallisen STST3 TFBSs. Aste säilyttäminen ennustetun TFBS, joka määritettiin laskemalla MCS, integroitiin affiniteetti partituureja STAT-Scanner (katso menetelmät). Luottamus pisteet kullakin MCS arvioitiin käyttämällä 2,5 kb promoottorisekvenssit kaikista selityksin ihmisen geenien ja ortologiset hiiren geeneistä. Luottamus pisteet määrittää todennäköisyys, että tietty TFBS ei säilytetty sattumalta. Cut-off-arvot MCS kasvoi, kokonaislukumäärä ennusti STAT3 TFBSs laski hitaammin kuin keskimäärin linjassa tapauksia ohjaus motiiveja, jolloin laajeni luottamus tulokset at MCS-arvot enintään 0,9 (kuva S5). Käyttämällä STAT-Finder, teimme genominlaajuisten etsiä STST3 TFBSs ihmisen promoottori alueille. Niistä 15461 ihmisen geenien tunnistettu ortologeihin hiiressä, noin 7600 geeniä ennustetaan olevan otaksutun STST3 sitoutumiskohtien 2,5 kb promoottorialueen kello todennäköisyys kynnysarvon 0,9. Merkittävä rikastaminen STAT3 TFBSs voidaan ennustaa proksimaaliseen ylävirran alueiden TSS käyttää STAT-Scanner ja STAT-Finder [35], [39] (kuva S6).

tunnistaminen uusia STST3 kohdegeenien syöpä solut

konstitutiivisen aktivaation STAT3 ja yli-ilmentyminen sen kohdegeenin on ehdotettu kriittisiä rooleja ihmisen syövän synnyn [12], [31], [47], [48], [49], [ ,,,0],50]. Onko vai ei STAT-Finder on hyödyllinen identifioida uusia STAT3 kohdegeenien, sovelsimme ohjelman joukko geenejä, jotka ovat yli-ilmentynyt ihmisen syöpäsoluja. Me integroitu mikrosiru saadut tiedot ilmaus moduuli kartta geenien säädellään ylöspäin syövän [51] ja saatujen tietojen A549-soluja yli-ilmentävät konstitutiivisesti aktiivisen muodon STAT3 [52].

Niistä 33 geenit jotka ovat yleisesti säädelty, yksitoista on jo raportoitu säätelevän STAT3 (taulukko 1). Käyttämällä tätä ryhmää geenejä, tutkimme onko STAT-Finder voi havaita kokeellisesti STST3 TFBSs. On huomionarvoista, että pystyimme analysoimaan vain murto-osa promoottorisekvenssit, lähinnä vaihtoehtoisia promoottorinkäytöllä ja huonosti selityksin TSS tietoa. STAT-Finder havaittu kolmen oletetun STST3 sitoutumiskohdat

JUNB

promoottorialue joista yksi sivusto, joka on aiemmin raportoitu olevan STST3 sitoutumiskohtaan [53] (kuvio 5A). Käyttäen kolmea eri solulinjoissa, jotka ovat peräisin ihmisen syöpäpotilailla, olemme vahvistaneet STAT3 sitoutumisen

JUNB

promoottorin kromatiinin immunosaostuksella (kuvio 5B). STAT-Finder myös onnistuneesti havainnut yhden STAT3 TFBS on Nicotinamide N-metyylitransferaasin (

NNMT

) promoottorialueen, joka on äskettäin tunnistettu STAT3 kohdegeenin [54] (kuvio 5C, D). Mielenkiintoista, STAT-Finder ei pystynyt havaitsemaan tunnettujen STST3 TFBS

MYC

promoottorialue (kuvio 5E), vaikka

MYC

on raportoitu olevan STST3 tavoite [55]. On myös raportoitu, että STAT3 sitoutuminen promoottorialueen

MYC

geenin vaatii sivusto, joka on erilainen kuin konsensus STAT3 sitovia sekvenssejä, mutta on samanlainen kuin E2F TFBS, mikä osoittaa, että tässä tapauksessa, STAT3 sitovat riippuu läsnäolosta muiden transkriptiotekijöiden [55]. Käyttämällä Alukesarjat jotka havaitsevat tunnetut STST3 sitoutumiskohdat

MYC

promoottori, pystyimme vahvistamaan sitovat IL-6 stimulaation HepG2-soluissa (kuvio 5F). Nämä tulokset viittaavat siihen, että STAT-Finder voi tehokkaasti havaita sitoutumiskohtia STST3 vain, jos niiden sitova ei riipu muista läsnä olevista

cis

tai

trans

tekijöitä.

( A, C, E) Yhteenliittyvyyspisteet peräisin STAT-Scanner (ylhäällä) ja posteriori todennäköisyyden STAT-Finder (keskellä) ennustettujen STST3 on piirretty liukuvat ikkunat 2,5 kb promoottorialueen poikki

JUNB

(A),

NNMT

(C), ja

MYC

(E) genomista loci. Avoin neliö alareunassa ilmaisee ennustettua TFBS kanssa posteriori todennäköisyys suurempi kuin 0,95; kun taas tähdellä (*) promoottorialueella kuvaa tunnettua STAT3 TFBS. (B, D, F) Kromatiini immunosaostusanalyysille anti-STAT3 vasta-aine: Raportoitu STST3 TFBSs on

JUNB

(B),

NNMT

(D), ja

MYC

(F) PCR-monistettiin käyttäen alukkeita spesifisiä sitoutumiskohtia (*) tulo ja immunosaostettiin solulysaateista, jotka ovat peräisin ei-stimuloitujen tai IL-6 (10 ng /ml) + IL-6SR (10 ng /ml) stimuloduista HepG2, A549, ja MDA-MB-231-soluja.

seuraava tutkittava, ovatko voimme tunnistaa uusia kohdegeenien STAT3 käyttää STAT-Finder. Tätä tarkoitusta varten olemme valitun geenin kanssa konservoituneiden TSS (taulukko 1) ja määritetään läsnäolo oletetun STAT3 TFBSs käyttäen STAT-Finder niiden promoottorialueiden. STAT-Finder onnistuneesti havaita otaksuttu STST3 TFBSs korkea todennäköisyydet promoottorialueiden

AKAP12

(A-kinaasi ankkurointi proteiini 12),

HIC2

(hyper-metyloitu syövän 2), ja

THBS1

(Trombospondiinin 1). STAT3 sitoutuminen näihin ennustetun sijoituspaikoista kokeellisesti vahvistanut ChIP määrityksellä (kuvio 6A-F). Voit tarkistaa spesifisyyden STAT-Finder, myös testattiin sitominen STAT3 sivustoille, joita ei säilytetty, mutta oli läsnä promoottorit ihmisen ortologiset geenejä. Toisin kuin konservoituneet STAT3 TFBSs, emme voineet havaita STAT3 sitoutumaan ei-konservoituneita STAT3 TFBSs ihmisen syöpäsolulinjoissa (kuvio 6G). STAT3 sitoutuminen muihin ennustettu STAT3 TFBSs läsnä promoottorialueet

ATF3

(aktivoiva transkriptiotekijä 3),

DUSP5

(dual spesifisyys fosfataasi 5),

SERPINE1

(serpin peptidaasi estäjä, luokka E),

NP

(rylaasilla), ja

SLC2A3

(liuenneen aineen kantaja perhe 2, helpotti glukoositransportterin, osa 3) on myös kokeellisesti validoitu (Kuva S7). Lopuksi tutkittiin, onko muita laskenta työkaluja, kuten EEL tai CONREAL voisi myös tarkasti havaita STST3 kohdesivustot, jotka on tunnistettu ja validoitu tässä tutkimuksessa. 10 promoottorisekvenssejä sisältävä kokeellisesti 10 STAT3 sitoutumiskohtia (kuvio 5, 6 ja S7), STAT-Finder ennusti yhteensä 29 STAT3 sitoutumiskohtien lukien kaikki 10 kokeellisesti validoitu STST3 sitoutumiskohtia. Samaan aikaan, EEL ja CONREAL havaittiin vain 5 (50%) ja 2 (20%) validoitu STST3 sitoutumiskohtiin keskuudessa 23 ja 6 yhteensä ennusteita, vastaavasti, mikä osoittaa, että STAT-Finder on parempi suorituskyky kannalta identifioida uusia kohdegeenien STAT3 ( Kuva S8).

(A, C, E) Yhteenliittyvyyspisteet (top, STAT-Scanner) ja posteriori todennäköisyys (keski, STAT-Finder) ennustettujen STAT3 TFBSs piirretään liukuvat ikkunat 2.5 -kb promoottorialueen koko

AKAP12

(A),

HIC2

(C), ja

THBS1

(E) genomisen lokuksen. Suljettu neliö alareunassa ilmaisee ennustetun TFBS kanssa posteriori todennäköisyys 0,5; kun taas keltainen neliö osoittaa ennustetun TFBS ilman säilyttämistä. (B, D, F) pelimerkin analyysi anti-STAT3 vasta-aine. Otaksutun STAT3 TFBSs on

AKAP12

(B),

HIC2

(D), ja

THBS1

PCR-monistettiin käyttäen alukesarjoja osoitettu käänteinen nuolilla. (G) pelimerkin analyysi anti-STAT3 vasta-aine. Ennustettu TFBSs ilman suojelu ihmisen

AKAP12

,

HIC2

, ja

THBS1

geenit PCR-monistettiin käyttäen alukesarjoja osoitettu käänteinen nuolilla.

keskustelu

esittänyt laskennallinen kehyksen tunnistamiseksi toiminnallinen STST3 TFBSs nisäkkäiden promoottoreita. Ensimmäinen osasto, STAT-Scanner, suunniteltiin ennustaa toiminnallisia STST3 TFBSs parantunut herkkyys. Käyttämällä vertailevan motiivi-pohjainen rinnastukset, STAT-Scanner liitettiin STAT-Finder minimoimiseksi vääriä positiivisia ennusteita. Meidän ehdotettu menetelmä testattiin aiemmin tunnistettu STST3 kohdegeenien ja sovellettiin onnistuneesti tunnistamiseen uusien kohdegeenien.

Strategiamme kehittämisessä STAT-Finder tukeutunut useisiin olettamuksiin. Ensiksi, DNA: ta sitovan spesifisyyden STAT3 on jaettu muiden STAT perheenjäseniä. STAT transkriptiotekijöiden sitoutuvat vastaavia DNA-sekvenssejä, ja niiden kaltaiset DNA: ta sitovan spesifisyyden eri STAT transkriptiotekijöiden, kuten STAT1, STAT5A /5B, tai STAT6, on kokeellisesti todistettu [56]. On myös huomattava, että integraatio päällekkäisen ottelut havaita matriiseja samasta perheenjäsenten vähentää huomattavasti määrää koko ennusti TFBSs, ja siten hidastaa väärien positiivisten havaitseminen [57]. Lisäksi on äskettäin raportoitu, että noin puolet ien tunnistaa useita sekvenssimotiiveja [58]. Siksi tavanomainen motiivi skannaus lähestymistapa yhdellä PWM jokaiselle TF on luontainen rajoitus havaitsemisessa kaikki toiminnalliset TFBSs. Tämän seurauksena ennustavan voiman STAT-Scanner on merkittävästi parannettu integroimalla STAT liittyvien pulssinleveysmodulaattorit. Toinen oletus, jota käytetään motiivi-pohjainen rinnastukset, on se, että suhteellisten sijaintien funktionaalisen TFBSs ovat konservoituneet läheistä sukua nisäkäslajilla. Hiivassa hyvin säilyneitä TFBSs varten joukon TF: ien näytteille suhteellisen alhainen spatiaalinen poikkeamat (~150-200 bp) [20]. Samoin, huomasimme, että, kuusi nisäkäslajeja, tunnettu STST3 TFBSs sijaitsevat samanlaista alueellista jakautumista kullakin promoottori.

Käyttämällä STAT-Finder, olemme tunnistaneet listan STAT3 kohdegeenien, jotka yli-ilmentynyt ihmisen syöpäsoluja. Samoin, STAT3 sitoutuminen ennustettu TFBSs on kokeellisesti todennettu IL-6 stimuloitujen ihmisen syöpäsolulinjoja. Mielenkiintoista, STAT3 rekrytoitiin ennustettua TFBS on solutyyppispesifiseen tavalla. Esimerkiksi STAT3 sitoutuminen ennustettu TFBSs promoottorissa alueilla

AKAP12

ja

HIC2

geenien havaittiin un-stimuloiduissa mutta ei IL-6 stimuloitiin A549 ja MDA-MB- 231-soluja. Kuitenkin HepG2-soluissa, STST3 rekrytoitiin samaan TFBS vasta IL-6 stimulaation (kuva 6). Sitä vastoin STAT3 sitoutuminen promoottorialueet

MYC

,

SERPINE1

,

NP

, ja

SLC2A3

oli havaittavissa vain IL-6 stimuloitiin HepG2-soluissa, mutta ei A549 tai MDA-MB-231-soluja (kuvio 6, kuva S7). Lisäksi on selvää, että STAT3 sitoutuminen ennustettu TFBSs että promoottorit ehdokas kohdegeenien ei takaa ilmaus, että geenin. Vaikka ilmaus useimpien kohdegeenien oli muutettu, kun STAT3 sitoutuminen promoottori, olemme havainneet, että STAT3 sitoutumaan kohde-sivustoja ei aina vastaa geenin ilmentyminen testatuissa solulinjoissa (Oh, YM, julkaisematon data). Tämä viittaa siihen, että STST3 sitoutumaan kohde sivustoja ei riitä geeniekspression indusoimisessa, ja kudosspesifisiä transkriptiotekijöiden, tai trans-aktivaattoreita, jotka täsmennetään muutoksia kromatiinin alueella voi myös olla tarpeen [59], [60], [61], [62].

cis

sääntelyvälineitä moduuli sisältää klusterin useita TFBSs että yhteistoiminnassa-vuorovaikutuksessa TF: ien säätelemään geeniekspressiota. Tunnistaminen

cis

sääntelyvälineitä moduuleja geenisäätelyn on haastava askel kohti ymmärrystä genominlaajuisten transkription säätelyverkkojen nisäkkäiden genomeja. Sen vuoksi on välttämätöntä tehokkaasti ennustaa toiminnallisia TFBSs yksittäisten TF: ille. Odotamme vertailevaa lähestymistapaa voidaan soveltaa myös muihin TF: ille joitakin rajoituksia. Ensinnäkin tehokkuus ohjelmamme riippuu asteesta evoluution säilyttämistä kuudesta nisäkäslajeja. Siksi DNA sitoutumiskohtia TF: ille harjoittavat lajikohtaisia ​​geenisäätelyn ei ehkä voida ennustaa. On huomionarvoista, että usein voitto tai tappio TFBSs intergeenisessä alueilla johtaa kehitystä transkription piirien [63]. Toiseksi, meidän ohjelma ei voida soveltaa TF: ille, jotka ovat riippuvaisia ​​muista DNA sitovien proteiinien värväystä DNA. Kolmanneksi, koska me vain verrata 2 kb ylävirran promoottorisekvenssin suhteessa selityksin TSS, DNA sitoutumiskohtien ien, jotka ovat rikastuneet alueilla distaalisesti TSS saattaa huomaamatta ohjelmaamme.

Vastaa