PLoS ONE: kinastelu Phosphoproteomic Data valaista Cancer Signaling Pathways

tiivistelmä

tulkinta biologisia aineistoja on olennaista tuottaa hypoteeseja, jotka ohjaavat tutkimusta, mutta nykyaikaisten globaalin analyysin haaste meidän kyky erottaa mielekkäitä malleja ja sitten välittää tulokset tavalla, joka voidaan helposti arvostaa. Proteomic data on erityisen haastavaa, koska massaspektrometria ilmaisimet jäävät usein peptidejä kompleksista näytettä, jolloin harvaan asutuilla aineistoja. Käyttämällä R-ohjelmointikielen ja tekniikoita alan hahmontunnistuksen, olemme kehittäneet menetelmiä ratkaista ja arvioida klustereita proteiinien kertoneet niiden rakenteessa ilmaisun eri näytettä proteomic aineistoja. Tutkimme tyrosiini phosphoproteomic tietoja keuhkosyöpään näytteistä. Laskimme erojen vuoksi proteiinien perustuu Pearson tai Spearmanin korrelaatiota sekä Euklidinen etäisyydet, kun taas käsitellään suuria määriä puuttuvia tietoja. Erilaisuus käytettiin sitten piirrevektoreille ryhmityksellä ja visualisointi algoritmeja. Laatu clusterings ja visualisointeja arvioitiin sisäisesti perustuvat alkuperäistiedot ja ulkoisesti perustuvat geeni ontologian ja proteiini-vuorovaikutuksen verkkoja. Tulokset osoittavat, että t-jakautunut stokastinen naapurin upottamisen (t-SNE) seuraa pienin virittävä puu menetelmiä ryhmien harva proteomic tiedot mielekkäitä klustereihin tehokkaammin kuin muilla menetelmillä, kuten

k

yhdistetty elin ja klassisen moniulotteinen skaalaus. Lisäksi tuloksemme osoittavat, että yhdistämällä Spearmanin korrelaatiota ja euklidinen etäisyys sen erilaisuuden esitys parantaa resoluutiota klustereita. Meidän analyysit osoittavat, että monet klusterit sisältävät yhden tai useamman tyrosiinikinaaseja ja ovat tunnettuja efektorien sekä proteiineja, joilla ei ole tunnettuja yhteisvaikutuksia. Visualisointiin nämä klusterit verkostojen selvitetty aiemmin tuntemattomia tyrosiinikinaasin signaalintransduktioreitteihin että ajaa syöpä. Lähestymistapamme voidaan soveltaa myös muihin tietotyyppejä, ja voidaan helposti hyväksytty, koska avoimen lähdekoodin ohjelmistopaketteja käytetään.

Citation: Grimes ML, Lee WJ, van der Maaten L, Shannon P (2013) Wrangling Phosphoproteomic Data selvittämiseksi Cancer signalointireittien. PLoS ONE 8 (1): e52884. doi: 10,1371 /journal.pone.0052884

Editor: Jorge Sans Burns, yliopistollisen sairaalan Modenan ja Reggio Emilia, Italia

vastaanotettu: 26 heinäkuu 2012; Hyväksytty: 22 marraskuu 2012; Julkaistu: 03 tammikuu 2013

Copyright: © 2013 Grimes et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: MG oli tukee National Institutes of Health (NIH) NS070746-01, NS061303-01, ja COBRE NCRR avustuksen P20 RR015583. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Solun käyttäytymistä ohjaa toiminnallisen vuorovaikutus biologisia molekyylejä, joita on klassisesti tutkittu yksi kerrallaan, ja kommunikoivat polku kaavioita tai piirrettyjä. Signalointi verkot ovat itse asiassa paljon monimutkaisempi kuin näitä yksinkertaisia ​​malleja, kuten paljasti suuren mittakaavan Iähestymistapoja genomiin, transcriptome, ja proteomia. Nämä tutkimukset tuottavat suuren määrän dataa, joita on vaikea ymmärtää

prima facia

. Tämän ongelman ratkaisemiseksi, yhdistelmä tilastollisen analyysin ja visualisoinnin tekniikat voivat olla hyödyllisiä [1] – [4].

Yksi tärkeimmistä haasteista käsiteltäessä suuria tietomääriä on miten ratkaista suhteet datan, ja näyttö tulokset mielekkäällä tavalla etsintä, esittely, ja lopulta, ymmärtämistä dynamiikan soluvasteita sairaissa valtioissa ja normaalin erilaistumisen [3]. Paljon työtä on tehty alustavia data-analyysin ja johdettujen tilastojen [5], ja ”verkko” metafora, joka kuvaa välisiä suhteita biologisten molekyylien [6]. Hierarkkinen klusterointi dendrogrammissa, lämpöä karttoja, ja verkko kaavioita on käytetty yritetty havainnollistaa malleja, jotka voivat osoittaa toiminnallisia suhteita eri ryhmien välistä tietoja. On yleisesti tunnustettu, että suurikapasiteettisten luonnehdinta tekniikoita hyötyvät parannettu visualisointi ja bioinformatiikan välineitä [7], ja tämä pätee erityisesti phosphoproteomic data-analyysin [4], [8], [9].

Higher päätöslauselma tietorakenne ja tietokone visualisointi voi olla erityisen hyödyllistä tutkimuksia, joissa kartoitetaan fosforylaatiota solun proteiinien. Phosphoproteomic tekniikat ovat yhä tehokkaasti tunnistamaan proteiineja viime vuosina. Comprehending tuloksena data on kuitenkin vaikeaa, koska muiden dynaamisen luonteen solusignalointia, ja koska signalointi näyttää monia päällekkäisyyksiä ja suuria irtisanomisia [10], [11]. Ymmärtää näitä tietoja ja voittaa rajoitukset edustavat signaalitransduktion lineaarisena polkuja, on olemassa selkeä tarve työkaluja ja menetelmiä, jotka integroivat data-analyysi ja kuvaajien [2], [12]. Välineet pitäisi mahdollistaa tutkijat valita tilastollisia menetelmiä asianmukaisilla taustaolettamukset tietojen tyyppi analysoidaan, ja visualisoida tuloksia tavalla, joka viittaa siihen, hypoteeseja edelleen tiedonkeruuta ja kokeita.

Yksi näkökohta, joka on erityisen tärkeää silloin, kun analysoimalla proteomic massaspektrometria data on, miten puuttuvat arvot käsitellään. Huolellisella soveltaminen korkean resoluution välineitä, massaspektrometria on erittäin alhainen vääriä positiivisia [13], mikä tarkoittaa sitä, että meillä olisi suuri luottamus tiedot proteiineja tunnistetaan. Tästä huolimatta vääriä negatiivisia määrä on todennäköisesti suuri ja phosphoproteomic analyysi edellyttää laajuus optimoidun näytteen rikastamisen [14], peptidi fraktiointi [15], [16], fosforylaatiokohdan stoikiometria [17] ja massaspektrometrin resoluutio, kanssa viimeaikaisia ​​parannuksia, joilla pyritään minimoimaan osa peptidien monimutkaisissa näytteissä myöhästyvien ilmaisin [18]. Yleisimmin käytetty ohjelmistotyökaluja tilastolliset analyysit, kuten

k

yhdistetty elin tai hierarkkinen klusterointi, vaativat hyvitysjärjestelmästä tavaksi käsitellä puuttuvat tiedot. Laskennallisten nollat ​​paikkamerkeiksi edustamaan tietojen puutteen on hyvin yksinkertainen lähestymistapa, jota käytetään usein. Laskennallisten nollia on sopimatonta nämä tiedot, mutta koska nolla-arvot vaikuttavat tilastolaskutoimitukset kun niitä käsitellään tietoja. Vaihtoehtoisia menetelmiä arvioida puuttuvia arvoja perustuu aiempiin tietoihin on kuvattu, mutta nämä menetelmät ovat sopivia, kun vain muutamia arvoja puuttuu [19] – [21], tai kun hyvin voimakas oletuksia voidaan tehdä kovarianssi tiedon rakenteen [ ,,,0],22], [23], jotka ovat epärealistisia Proteomiikan tietoja. On kohtuutonta tehdä päätelmiä puuttuvat arvot käyttämällä näitä menetelmiä phosphoproteomic tietoja, koska siellä voi olla enemmän puuttuvat arvot kuin data. Siksi suorin tapa on laskea tilastollisia käyttämällä vain havaitut muuttujat ja sivuuttaa kaikki puuttuvat muuttujat. Käytimme tätä lähestymistapaa lähtökohtana etsimään parempia menetelmiä päätöslauselman tietorakenne, jota sovelletaan phosphoproteomic tietoja keuhkosyövän näytteistä [24]. Tämä lähestymistapa paransi tarkkuutta klustereiden tunnistettu harva aineistoja tyypillisiä proteomic tutkimuksia. Lisäksi meidän analyysi geenien toiminnan merkintöjä ja proteiini-proteiini vuorovaikutusten klustereissa ehdotti useita uusia syövän kuljettaja reittejä ja mahdollisia yhteyksiä näiden reittejä ja proteiineja, joita ei ole aiemmin tunnettu.

Tulokset

upottaminen ja klusterointi menetelmät

ryhmät proteiinien fosfory- samoissa näytteissä voi ilmoittaa signalointireiteissä aktivoituvat eri luokkiin kasvaimia, joten se kannattaa yrittää löytää klustereita määritelty tilastollisia menetelmiä phosphoproteomic tietoja. Phosphoproteomic tiedot Rikova

et al.

[24] tarkasteltiin uudelleen selvittämään suhteita proteiinien fosfory- keuhkosyövän näytteet, joita ei ole aikaisemmin arvostettu. Tämä aineisto, joka käsittää tyrosiinifosforyloitunutta proteiinien 41 ei-pienisoluinen keuhkosyöpä (NSCLC) solulinjojen ja yli 150 NSCLC kasvaimia, muutettiin taulukon 2482 geenien 233 näytettä, on erityisen haastavaa klusterointialgoritmeja koska 95,7% taulukon solut eivät sisällä tietoja. Monet proteiinit tunnistettiin vain lomakelajitelmana näytteitä, ja emme voi tietää, ovatko nämä ovat todella poissa tai yksinkertaisesti ei havaittu. Käytä nollia edustamaan tietoja ei hämärtäisi tilastolaskutoimituksia koska kaikki nollat ​​korreloivat keskenään. Lähestymistapamme R ohjelmisto pystyimme selvittämään mahdollisuuksia käyttää NA (tulkita tietoja ei ole saatavilla) arvona, joka oli sopivampi kuin nolla edustamaan tietojen puuttuminen.

Analysoimme tietoja tai ilman laskennallisten nollia toimistojen käyttäen kahta yleisesti käytetty tilastollinen toimenpiteiden etäisyys: Pearson tai Spearman etäisyyttä, joka on yksi miinus itseisarvo Pearsonin tai Spearmanin korrelaatiota kutakin proteiinia ja joka toinen proteiini, ja Euklidinen etäisyys, joka mittaa suhteellista läheisyyttä moniulotteisessa avaruudessa kunkin proteiinin kaikkiin muihin proteiineihin. Pearson ja Spearman korrelaatioita olivat hyvin lähellä toisiaan, joten Spearman käytettiin seuraaviin analyyseihin. Muuntaminen datan tilastollinen etäisyys sallii ilman suhdetta (etäisyydelle NA) voidaan asettaa mielivaltaisesti suuri arvo (100 kertaa suurin real välinen etäisyys kahden proteiinin, katso materiaalit ja menetelmät). Etäisyys matriiseja sitten muunnetaan moniulotteinen skaalaus suorakulmaisten koordinaattien kahdessa tai kolmessa ulottuvuudessa visualisoida tietorakenne (kuviot 1 ja S1). Käyttämällä toimistot edustamaan puuttuvia arvoja syntyi tietorakenteiden (kuva 1, sininen pistettä), jotka olivat paljon enemmän korkeasti ratkaistu kuin ne, joissa nollia korvattu toimistojen (kuva 1, punainen pistettä).

(A) ja Spearman ( B) etäisyys matriiseja laskea tuloksista, joissa toimistojen (sininen pistettä) tai nollia (punainen pistettä) käytettiin edustamaan puuttuessa phosphoproteomic massaspektrometriaa signaaleja. Tiedot piirretään samassa mittakaavassa pääasiassa kuvaajia; sisäkkeet osoittavat laajuuden ja jakelu solmujen etäisyyden matriiseista laskettu dataa nollia edustamaan mitään signaalia.

kolmiulotteisen tilastotiedot rakenteet ratkaistu Spearman (kuva S1 A, B) ja Euclidean (kuvio S1 C, D) etäisyyden olivat hyvin erilaisia ​​keskenään, koska ne käyttävät erillisiä laskentatapoja tilastollisia yhteyksiä. Jotkut proteiinit, joita ei ole hyvin ratkaistu yhdellä menetelmällä erotettiin muista, mikä viittaa siihen, että yhdistelmä näistä kahdesta menetelmästä tulisi edelleen ratkaista tietoja. Yhdistäminen eri lähteistä erilaisuuden on havaittu olevan käyttökelpoisia hahmontunnistuksessa sillä erilaiset erilaisuuden toimenpiteitä voidaan painottaa eri tyyppisiä tietoja [25]. Skaalattu summa Spearmanin ja Euklidinen etäisyys, johdettu laskelmat toimistojen edustaa puuttuminen tietojen edusti kaksi tai kolmiulotteiset Spearman-Euclidean Erilaisuuden (SED) (Kuva S1, E, F, kuvio S2, A, B; Elokuva S1).

arviointi Clustering Methods

kysyttiin eri klusterointialgoritmeja voisi erottaa suhteita näihin tietoihin. Kuvaajat tietorakenne tuottaman moniulotteinen skaalaus, jossa solmu koko ja väri edustaa kokonaismäärä fosfopeptidejä, ehdotti keskinäiset suhteet proteiineja, jotka voisivat ymmärtää ohjeen tutkia tietorakenteen Cytoscape (kuvio S1). Etsintä ja valinta ryppäitä läheisyyteen tietorakenteessa kolmiulotteisesti käyttäen PyMOL oli myös mahdollista (kuva S2, elokuvat S1, S2, katso alla). Koska manuaalinen valinta klusterien suurten tietorakenteiden on työlästä, arvioimme automatisoitu valikoima klustereiden käyttää

k

-centers,

k

yhdistetty elin, ja moniulotteinen skaalaus ja t-jakautunut stokastinen naapuri upottamisen ( t-SNE, vrt. [26]) käyttäen pienimmän virittävän puun tapa valita ryhmät läheisyyden perusteella.

arvioimiseksi klustereita, indeksi laskettiin alkuperäiset tiedot, joissa mitattiin tiheys tietojen ja määrä geenit, jotka on asennettu yleisen mallin ilmaisun kunkin klusterin (katso materiaalit ja menetelmät ja taulukko 1) .Tämä indeksi sijoittui sisältävät ryhmät yleisesti fosforyloidun proteiineja yli klustereita harvaan asuttuja tiedot (korkeampi prosentti NA, taulukko 1). Tämän perusteella vertailuarvo, tehokkain klusterointimenetelmä oli minimaalinen virittävä puu menetelmä t-kansallisen asiantuntijan upotettu tila. t-SNE on uusi hahmontunnistuksen tekniikka, joka pyrkii mallintamaan paikallisen tiedon rakenteen yhdessä kartan varmistaen samalla, että erilaisia ​​ryhmiä kohtaan mallinnetaan kaukana toisistaan ​​[26]. Kuvio 2 vertailee klustereita tunnistetaan minimaalinen virittävä puu moniulotteinen skaalaus (A) ja t-SNE (B) upotettu tilaa Spearman-Euclid erilaisuus. (Kuva S3 on esitetty kaksiulotteinen t-SNE graafisesti Cytoscape Kuvio S2C, D ja elokuvat S1, S2 osoittaa kolmiulotteinen t-erityisopetuksessa upottaminen piirretään käyttäen PyMOL.) Empiirisesti, huomasimme, että t-kansallisen asiantuntijan ratkaista klusterit yhdistetyn Spearman -Euclid erilaisuus tehokkaammin kuin joko Spearman tai Euclid erilaisuus yksinään (korkein summa Index, taulukko 1). Yleensä klusterin jäsenyys määritelty eri menetelmillä yhä eriytyneet ryhmittelyyn proteiineja, jotka olivat enemmän harvaan edustettuina tiedot. Klusterit ratkaistiin tehokkaimmin, kun etäisyys matriisi oli käsitelty ”ominaisuus vektori” in ns erilaisuus esitys (vertaa Method: erilaisuus suhteessa etäisyyteen, taulukko 1) [27]. Klusterointi menetelmiä raa’alle tiedot tai tiedot, joissa nollia edusti tietojen puuttuminen, ei onnistunut (ei kuvassa); ne lähentyneet vain yksi suuri klusteri, jättäen useita yksittäisiä proteiineja.

(SED) lyhentää kahteen mittoihin moniulotteinen skaalaus (A) tai t-SNE (B). 100 klustereita valittiin yksittäinen sidos pienin virittävä puita. Punaiset ympyrät piirretään ympärille klustereita.

Data kinastelu

Käsite ”sumea klustereiden” käsittää käsitystä, että jäsenyyden useammassa kuin yhdessä ryhmässä on mahdollista. Valitettavasti sumea

c-

means klusterointi ratkaista vain muutama selvä klustereita, jotka sisältävät alle 10% proteiineista on datajoukon (katso taulukko 1 legenda). Vaikka tämä erityisesti klustereiden tekniikka osoittautui vähän käyttöä näiden tietojen, käsite sumea tai päällekkäisiä väliset rajat klusterien On kuitenkin tärkeää pitää mielessä tarkasteltaessa klusterit määrittää millä tahansa menetelmällä. Jäsenyys yksittäisissä klusterit tunnistaa kovaa ryhmittely menetelmiä Spearman, Euklidinen tai SED upottaminen jaettu eri tavoin klustereita, jotka sisältävät jopa kaikkein tilastollisesti hyvin edustettuna proteiineja (kuva S4). Pyrimme arvostamaan kuvioita tyrosiinifosforylaation valottaa erilaisia ​​reittejä, jotka voivat ajaa tai olla aktiivinen erilaisissa keuhkosyöpään. Kun se on hyödyllistä arvioida tarkasti, jossa esitetään proteiineja, ovat useimmiten yhteistyötä aktivoitu, tyrosiinifosforyloituu proteiineja löytyy monista näytteistä voidaan aktivoida useita päällekkäisiä reittejä, ja yksi tai useampi alavirran efektorien voidaan aktivoida useamman kuin yhden tyrosiinikinaasi [28 ], [29]. Siten tehtävä proteiinien yhteen klusteriin ei tulisi pitää todisteena ilman tätä osallistumasta signalointireitin tunnistettu toisessa klusterissa.

Tätä ajatellen, tutkimme kuinka data-driven analyysit yhdistettynä hypothesis- ajettu kuulustelut ja suodatusta voidaan käyttää kerätä lisää tietoa keuhkosyövän keräämiseen. Oletimme, että yhden tai useamman tyrosiinikinaaseja yksittäisissä klustereissa syytöksiä ne kinaasien väyliä (suora tai epäsuora), jotka aiheuttavat tyrosiinifosforylaatiota muita proteiineja, jotka klusteri. Niinpä alustavasti tunnistettu klustereita tyrosiinikinaaseja, jossa läsnä. Klusterit joka sisälsi pisimmälle fosforyloidun proteiinin nämä tiedot sisälsivät FAK (PTK2), LCK, Lyn-, DDR1 ja EGFR. Keskityimme näistä klustereista, ja kaksi muuta sisältävät ryhmät ALK ja MET varten yksityiskohtainen tutkimus. Arvioimme ja suodatetaan ryppäitä sisäiseen kriteereihin, eli jakauma perustuu ensisijaisen datan ja ulkoisen kriteerejä proteiini-vuorovaikutuksen ja geeni ontologian (GO) tietokannat [30] – [32].

arvioimiseksi pätevyyden klustereiden selvitimme osajoukko alkuperäistiedot joihin ne sisältyvät. Olemme keskittyneet klusterointi menetelmiä, jotka menestyivät hyvin kriteerien mukaan määritelty taulukossa 1. Tiedot piirrettiin lämpönä karttoja lajiteltu laskevaan Phosphopeptide sisältö. Lajitellut lämpö kartta, jota voidaan pitää kolmiulotteinen histogrammi kanssa

z

-ulottuvuudella edustavat suure värillisinä, antaa yleiskuvan arvioimaan vaatimustenmukaisuuden samanlaista mallia ensisijaisessa data. Klustereita, jotka sisältävät eniten edustaa proteiinien keuhkosyöpä tiedot on esitetty kuvioissa S4 ja S5. Klusterit arvioitiin myös käyttämällä indeksiä, joka mittaa datatiheyden edellä kuvatulla tavalla (taulukko 2). FAK (PTK2) ja LCK ryhmiteltiin yhdessä MAPK14 (p38a) ja GSK3A (joka oli läsnä kaikissa näytteissä) kaikki toimenpiteet paitsi Spearman (kuva S4C, taulukko 2, Spearman t-SNE ryhmä 108). Sisältävät ryhmät EGFR olivat myös hyvin samankaltaisia, ryhmittely EGFR kanssa DDR1, LYN, ja FYN (kuva S5), paitsi että

k-

keinoja Euclidean embedding ryhmitelty EGFR kanssa FAK-LCK klusterin (kuva S4A; Taulukko 2 , Euclid

k

yhdistetty elin ryhmä 56). Poikkeuksista huolimatta, oli merkittävä sopimus eri klustereiden menetelmiä pisimmälle edustettuna proteiineja tietojen käyttöä.

Eri upottamisen (Spearman vs. euklidisessa) tuotti päällekkäisiä mutta erillisiä klustereita, ja yhdistetty ( SED) upottamisen tuotti kohtuullinen yksimielisyys näkymä (kuvio S4d, S5d). Ottaen huomioon, että sekä Spearmanin ja euklidinen erilaisuutta määrittävät klustereita, jotka ovat tilastollisesti merkityksellisiä, myös yhdistettynä ne eri tavalla, yhdistämällä päällekkäiset ryhmien jälkeen klusterointia, sitten suodattamalla. Soveltamalla tätä lähestymistapaa FAK-LCK ryhmä (kuva S4E) palauttaa klusterin hyvin samanlainen SED klusterin (kuva S4d). Samoin oli hyvä sopimus vertaamalla EGFR klusterin kun Spearmanin ja euklidinen upottamista yhdistettiin ennen (kuvio S5d, SED t-SNE) tai sen jälkeen (kuvio S5E) klusterointi algoritmi suoritettiin. Nämä tulokset viittaavat, että yhdistämällä Spearmanin ja euklidinen embeddings joko ennen tai jälkeen klusterointi on hyödyllistä edustaa konsensusnäkemys klustereiden. SED (t-SNE) FAK (PTK2) klusteri (kuvio S4d) ja yhdistetty Spearman ja Euklidinen EGFR klusterin (kuva S5E) piirrettiin kuten verkkojen kuvassa 3, joka sisältää dataa proteiinin vuorovaikutuksesta tietokantojen reunojen (selitetty ulkopuolisiin arviointeihin, alla).

A) Cluster sisältävä LCK ja FAK (PTK2) johdettu t-Kansallinen asiantuntija SED upottamisen (kuva S4d). B) Cluster sisältävien EGFR ja LYN johdettu suorittamalla ensin t-SNE Spearmanin ja Euclidean upottamisen erikseen, sitten yhdistämällä nämä klustereiden ja suodatus (kuvio S5E). Node kokoa ja väriä (valkoinen tai keltainen) osoittaa kokonaismäärän fosfopeptidejä havaittiin kaikissa näytteissä. Reunat ovat proteiini-vuorovaikutuksen tietoja String (string.embl.de/), GeneMANIA (genemania.org/) ja kinaasi-substraatti tietoja PhosphoSitePlus (phosphosite.org). Selvyyden vuoksi, koska kuvaajat näistä klustereista, mukaan lukien kaikki yksittäiset reunat oli vaikea tulkita, reunat yhdistettiin, ja reuna painot, jotka osoittavat näytön vahvuuden vuorovaikutukseen, laskettiin yhteen määrittämiseksi paksuus reunaviivan. Proteiini vuorovaikutusverkosto data tuotiin R reunan yhdistämisen ja piirtää RCytoscape kuvatulla Materiaalit ja menetelmät. Node asema verkon kaavioita asetettiin käyttämällä reuna-painotettu, kevät-upotettu layout, jossa erittäin kytketty solmujen ryhmä lähemmäksi toisiaan. Klusterin (A) oli 107-kertaisesti enemmän reunat, 544 kertaa suurempi reuna painoa, ja 7,5-kertaisesti enemmän GO termejä noudetaan keskimääräistä satunnainen klusterin. Klusteri (B) oli 88-kertaisesti enemmän reunat, 499 kertaa suurempi reuna painoa, ja 10,8-kertaisesti enemmän GO termejä noudetaan keskimääräistä satunnainen klusterin. Ylimääräisenä toimenpiteenä särmiä odotettavissa näiden solmujen koko keuhkosyöpä verkkoon laskettiin (katso materiaalit ja menetelmät). Lck /PTK2 verkko (A) oli 122 enemmän reunoja, ja EGFR-verkon (B) oli 67 enemmän reunoja, kuin odotetaan tämän laskelman.

Yksi tärkeä tavoite yksityiskohtaisen analyysin suuria tietomääriä on paljastaa uusia mekanismeja tai signalointireittejä. MET, reseptori tyrosiinikinaasin ja hepatosyyttikasvutekijä (HGF) on osoitettu ajaa tuumorigeneesiä, kun overactivated useissa syövissä, mukaan lukien keuhkosyöpä [33]. Anaplastinen lymfooma kinaasi (ALK) on tärkeä onkogeenisen kuljettaja, mutta on tutkittu vähemmän kuin monet muut reseptorityrosiinikinaasit (RTK: t) [34]. Cluster jäsenyys klustereihin aineistosta tunnistaa tutkitaan tässä sisältävän MET ja ALK olivat monipuolisempia, kun eri menetelmiä käytettiin (kuviot S6, S7, S8, taulukko 2). Sisältävät ryhmät MET vaihteli kooltaan 8-162 proteiineja, joilla on vain vähän päällekkäisyyttä (taulukko 2, kuva S6). Mikään klustereiden tunnistetaan automaattisesti näytti olevan erityisen pakottavia perustuu sisäiseen Arvioinnit kuitenkin yhdistetään klusterit t-Kansallinen asiantuntija Euclidean (kuvio S6b) ja Spearman (kuvio S6c) upottamisen jälkeen suodattamalla, määritelty kohtuullisen kokoinen klusteri, joka teki mielekästä sisäiset arvioinnit (kuva 4, alhainen prosenttia NA, taulukko 2). Tämä klusterin tunnistettu yhteistyö on RTK EPHA2, erbB2, ja erbB3 kanssa MET, joka voi tarjota lisää tavoitteita metastasoineeseen keuhkokasvaimia.

(katso materiaalit ja menetelmät). Lämpö kartta (A) edustaa puuttuvat tiedot (NA) mustana, ja lisäämällä skaalata peptidi laskee näkyvät sinisellä-keltainen asteikko (väri avain, vasemmalla). Tiedot tilataan vähentämällä summia skaalata peptidin laskee geenien (vähentämällä ylhäältä alas) ja näytteet (supistunut vasemmalta oikealle). B) MET keuhkosyövässä esitetty proteiini-vuorovaikutuksen verkon graafisesti kuviossa 3. Klusteri oli 70-kertaisesti enemmän reunat, 847 kertaa suurempi reuna painoa, viisi kertaa enemmän GO termejä noudetaan keskimääräistä satunnainen klusterin, ja 249 enemmän reunat kuin voisi odottaa näiden solmujen koko muusta keuhkosyövän verkkoon.

Fosforyloidut ALK havaittiin harvempiin näytteiden tietojoukon tutkittu, mikä luo vaikean tilastollinen ongelma, joka vaatii yhdistelmä lähestymistapoja tuotannollisia mahdollisuuksia biologista tietoa.

k-

tarkoittaa klusteri ei sisältänyt proteiineja, joiden rakenteessa fosforylaation alkuperäistiedot oli hyvin korreloi (kuvio S7A), ja SED (t-SNE) klusteri, joka sisältää ALK oli hyvin suuri, joka sisältää useita harvaan-tunnistettu proteiineja (kuvio S7D). Ainoa geenit, joilla on samanlaiset klusterin malleja välillä t-SNE Euclid ja Spearman klusterit olivat ALK ja EML1 (kuvio S7b, C). Siksi kokeiltiin erilaisia ​​lähestymistapoja yhdistää ja suodatin klustereita.

ALK ja piikkinahkaisten mikrotubulukseen liittyvä proteiini kuten 4 (EML4) korreloivat 6 näytteet, jotka oli tunnistettu Spearman (t-SNE) klusteri (Kuva S7C ). Tämä on todennut Rikova,

et al.,

Joka elegantisti osoittanut, että kromosomaalinen translokaatio tuotettu hybridi

ALK-EML4

geenin osajoukko tapauksissa luoda onkogeenin analoginen nucleophosmin-anaplastinen lymfooma kinaasi (NPM-ALK), joka ajaa anaplastic laaja-solulymfooma [24], [34], [35]. On enemmän tapauksissa, joissa EML4 havaittiin, ja ALK ei ollut (kuvio S8A), ja tapaukset, joissa ALK havaittiin, ja EML4 ei ollut (kuvio S8B). Lisäksi, on olemassa useita proteiineja tunnistettiin yksi näyte, joka sisältää EML4 mutta ei ALK (H3255, kuvio S8A, B). Nämä tiedot vaikuttavat Euclidean erilaisuus yli Spearman, ja siten peittää mahdollisesti kiinnostavia suhteita. Vielä informatiivinen klusterointi tuotettiin ensin yhdistämällä klusterit erilaisia ​​menetelmiä (kuvio S8C), ja suodattamalla sitten ALK ja proteiineja vähintään kaksi kertaa (kuvio 5).

(A) ja proteiini-vuorovaikutuksen verkon (B ). Tässä ryhmässä on johdettu klusterit yhdistetty kuvion S8B ja C, joissa proteiineja on läsnä yhdessä näytteessä tai näytteissä, jotka sisältävät yhden geenin, suodatettiin. Tässä ryhmässä oli kaksitoista kertaa enemmän reunat, kymmenen kertaa suurempi reuna painoa kuin keskimääräinen satunnainen klusterin, ja 7 enemmän reunat kuin voisi odottaa näiden solmujen koko keuhkosyövän verkkoon. Yksittäiset reunat kuvassa String (sininen) ja GeneMANIA (musta).

Koska menetelmiä tunnistaa ALK ja MET klustereita (kuviot 4 ja 5) läpi useita vaiheita pidemmälle klusterointialgoritmeja, eli yhdistäminen klustereita ja suodatus eri tavoin, kuvaamme näitä menetelmiä kuin ”data kinastelu.” Tämä termi on tarkoitettu tarkoittamaan joitakin kuratointi tietojen ryhmiin käyttämällä kvantitatiivista suodattimia, aloittaen klustereita tunnistetaan automaattisia menetelmiä. Edelleen vahvistaa näitä menetelmiä, tutkimme klustereiden avulla ulkoiset arvioinnit.

Ulkoiset arvioinnit

Clusters tunnistaa tilastoista, jotka sisältävät proteiineja, jotka fyysisesti vuorovaikutuksessa todennäköisesti edustaa toiminnallisten signalointi verkot. Proteiini-vuorovaikutuksen ja GO tiedot noudetaan ulkoisten tietokantojen käytettiin lisätoimenpiteitä biologisen merkityksen ja ryhmien oikeellisuuden edellä mainitut. Nämä tietokannat ovat puutteellisia teoksia käynnissä [36], [37], kuitenkin jos klusterit sekaantumaan todellinen polkuja ne todennäköisemmin kuin satunnaisessa geenit aineisto osoittaa yhteisvaikutuksia ja toiminnallista synergiaa. Kontrollina me satunnaisesti valittua 11-34 proteiineja aineisto (koko klustereiden katsoimme informatiivinen) ja määritetään keskimääräinen ja paino reunat ovat todisteita fysikaalista tai geneettisiä vuorovaikutuksia satunnainen klustereita (katso materiaalit ja menetelmät). Verkkojen kuvioissa 3 ja 4B kaikki oli yli kuusikymmentä kertaa enemmän reunat (ja 500-kertaisesti enemmän reunan paino) yli taustan satunnaisesti valitun proteiinit (katso kuviot 3 ja 4 legendoja).

Käytimme satunnainen klusterit määrittää taustan GO termi rikastamisen, mikä oli noin rikastettu GO termi jokaiselle kolme geeniä valittu sattumanvaraisesti keuhkosyövän datajoukon (katso materiaalit ja menetelmät). Tämä suhteellisen korkea tausta GO aikavälin rikastamiseen osoittaa, että GO ehtoja klustereita tulisi tulkita varoen. Kuitenkin määrä GO termejä hakea olivat yli viisi kertaa yli taustan FAK (PTK2), EGFR, ja MET verkot (kuviot 3 ja 4). Yhteenveto GO ehdot näistä klustereista, ja kaikki klusterit tunnistaa t-Kansallinen asiantuntija SED 2D upottamalla (klusterin jäsenyys ja GO tiivistelmätaulukot, saatavilla verkossa), paljasti yhteyksiä moniin signalointi, aineenvaihdunnan ja kasvun-ohjaus prosessi FAK ( PTK2) ryhmä, syytetään näitä proteiineja kuin solmukohdat signaalin integraatio monien keuhkosyöpään signalointireitteihin. EGFR klusteri sisälsi yhteyksiä myös signaalitransduktion ja kasvun säätelyn, ja myös erilaistumista. Sen sijaan MET klusteri oli paljon enemmän yhteyksiä solujen vaeltamiseen, valvonta aktiini organisaatio, ja tarttuvuus, mikä viittaa rooli näiden proteiinien etäpesäkkeitä.

proteiinit ALK klusterin eivät ole yhtä hyvin tutkittu, ja ALK klusterin GO ehtoja ole merkittävästi lisääntynyt taustaan, mutta yksitoista kertaa enemmän reunat (ja kymmenen kertaa enemmän reuna paino) olivat läsnä ALK verkkoon verrattuna satunnainen proteiineja (kuva 5). Havainto, että yksitoista kertaa enemmän reunat (ja kymmenen kertaa enemmän reuna paino) olivat läsnä ALK verkkoon verrattuna satunnainen proteiineihin osoitti, että ALK klusterin ansaitsee lisätutkimuksia.

Co-aktivointi tyrosiinikinaasien keuhkosyövän

31 58 RTK ihmisen perimässä havaittiin tietoaineiston, ja kaikki yhdeksän SFKs. Yhteistyössä aktivointi RTK ja SFKs havaittiin sisältävät ryhmät EGFR (kuvio 3B) ja MET (kuva 4) ehdottivat hypoteesia, että toiminnallinen synergia kahden tai useamman tyrosiinikinaasit on rooli keuhkosyövän kehittämiseen. Tämä sai meidät etsiä muita klustereiden, jossa kahden tai useamman tyrosiinikinaaseiksi havaittiin yhdessä. Havaitsimme määriteltyihin ryhmiin, t-kansallisen asiantuntijan sulauttamisen Spearman, Euklidinen, tai yhdistetty (SED) erilaisuutta, kuten edellä on kuvattu, jotka sisältävät kaksi tai useampia tyrosiinikinaaseja (taulukko 3). Discoidin verkkotunnuksen reseptori 2 (DDR2) on äskettäin tunnistettu mahdolliseksi keuhkosyövän kuljettaja [38], ja se liittyy SFK, HCK klustereissa peräisin kaikki nämä kolme upotukset (taulukko 3). DDR2 on usein yhteistyössä aktivoitu HCK, ja myös DDR1, FGR, ja PDGFRA useissa näytteitä, jotka on yksilöity SED klusterin (kuva 6). Nämä klusterit yhteistyön aktivoitua tyrosiinikinaaseilla osoittavat yhteistyön signaalitransduktion, ja voi ehdottaa hoitoja yhdistelmillä estäjät [39], [40].

(A), graafisesti että karttaa; ja (B), graafisesti verkostona kuin kuviossa 5, paitsi ylimääräisiä reunat otetaan mukaan GeneMANIA: musta – geneettinen vuorovaikutukset; tumma turkoosi – yhteinen proteiinidomeeneja; violetti – fyysinen vuorovaikutukset; vihreä – koulutusjakson ja String: vaalea turkoosi – homologia; oranssi – tuntemus; ja sininen – yhdistetyt pisteet. SHC1 oli mukana, koska se on kytketty verkkoon näitä proteiineja, jotka rajoittivat Yhteisvaikutustiedot tiedossa.

Keskustelu

Tämä paperi osoitteita kiireelliset pyynnöt analysoida proteomic tietoja tehokkaammilla menetelmiä, ja yhdistää nämä analyysit proteiinin vuorovaikutus ja toiminta tietokantoja valottaa signalointi verkkoihin, jotka ajavat sairaudet, kuten keuhkosyöpä [41], [42]. Yhdistäminen data kuulustelujen menetelmiä tietokoneella visualisointityökaluja merkittävästi täydentää kykyämme järkeä suuria tietomääriä ja niiden yhteyksiä genomiin ja proteiini-vuorovaikutuksen tietokantoja. Kuvaamme tässä tehokkaita lähestymistapoja tutkia tietorakenne valitsemalla alaryhmiä perustuen tilastollisia yhteyksiä, ja visualisoida valinnat verkostoja. Yhdistetty sisäisiä ja ulkoisia arviointeja edellyttäen vahvaa näyttöä siitä, että klustereita proteiinien tunnistettu täällä ovat toiminnallisia signalointi verkkojen keuhkosyöpä, koska ne sisältävät proteiineja, joiden tiedetään olevan vuorovaikutuksessa toistensa kanssa.

Avoimen lähdekoodin alustojen R, Cytoscape ja RCytoscape käytettiin tätä tutkimusta varten. Ohjelmointikieliä kuten R ovat paljon taitavia käsittelemään suuria tietomääriä kuin taulukoita ja R on rikas kirjasto tilastollisen analyysin työkalut, kuten monissa kehittyneissä bioinformatiikan ja systeemibiologian [1], [43].

Vastaa