PLoS ONE: Syöpä alatyyppi Discovery ja biologisten merkkiaineiden tunnistaminen kautta New Kestävä Network klusterointialgoritmi

tiivistelmä

Syövän biologian, se on erittäin tärkeää ymmärtää fenotyyppisiä muutoksia potilaiden ja löytää uusia syövän alatyyppejä. Äskettäin microarray-pohjainen tekniikat ovat valottaa tätä ongelmaa perustuu geeniekspressioprofiilien joka voi sisältää harha johtuu joko kemiallisten tai sähköisten syistä. Nämä tuntemattomien alatyyppiä voi olla heterogeeninen suhteessa taustalla verkkoihin tai reittejä, ja ne liittyvät vain muutamia toisiinsa biomarkkereita. Tämä motivoi tarve vankka geeniekspression perustuvia menetelmiä joka löytää tällaisten alatyyppien, valaisemaan vastaava verkon rakenteita ja tunnistaa syöpään liittyvät biomarkkerit. Tässä tutkimuksessa ehdotetaan rangaista mallipohjaista Studentin t klustereiden kanssa rajoittamaton kovarianssi (PMT-UC) löytää syövän alatyyppeihin kanssa klusteri- verkkojen ottaen geeni riippuvuudet huomioon ja ottaa kestävyyttä vastaan ​​poikkeavia havaintoja. Samaan aikaan, biomarkkereiden tunnistamiseen ja verkon jälleenrakentamista saavutetaan määräämällä adaptiivinen seuraamus keinoista ja käänteinen asteikko matriiseja. Malli on asennettu kautta EM-algoritmi hyödyntää graafista lasso. Tässä verkko-pohjainen geenin valintakriteeri, joka identifioi biomarkkerit eivät yksittäisinä geenejä vaan aliverkot on sovellettu. Näin voimme syyttää alhainen erotteleva biomarkkerit joka on keskeinen rooli aliverkossa liittämällä yhteen monien eri tavalla ilmaistuna geenejä, tai on klusteri- perusverkon rakenteita. Kokeilun tuloksia simuloitu aineistot ja yksi käytettävissä syöpä aineisto todistavat tehokkuutta, luotettavuutta PMT-UC syövän alatyypin löydön. Moveover, PMT-UC on kyky valita syöpään liittyvät biomarkkerit, jotka on todennettu biokemiallinen tai biolääketieteellisen tutkimuksen ja oppia biologisia merkittävää korrelaatiota geenejä.

Citation: Wu MY, Dai DQ, Zhang XF, Zhu Y (2013) Cancer alatyyppi Discovery ja biologisten merkkiaineiden tunnistaminen kautta New Kestävä Network klusterointialgoritmi. PLoS ONE 8 (6): e66256. doi: 10,1371 /journal.pone.0066256

Editor: Zhi Wei, New Jersey Institute of Technology, Yhdysvallat

vastaanotettu: 08 helmikuu 2013; Hyväksytty: 02 toukokuu 2013; Julkaistu: 17 kesäkuu 2013

Copyright: © 2013 Wu et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: rahoitus National Science Foundation of China (90920007, 11171354), ja opetusministeriö Kiinan (20120171110016). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Kun yhä kertymistä genominlaajuisten ekspressioprofiileja, microarray perustuva menetelmä tulee keskeinen tekniikka tunnistaa syöpään liittyvien geenien (biomarkkereita) ja löytää uusia syövän alatyyppejä [1]. Verrattuna kliiniset ja patologiset riskitekijöitä, kuten potilaan ikä, kasvaimen koon ja steroidi reseptoristatus, ymmärtäminen taustalla geenit voivat perehtyä syöpä fysiologia [2] – [4], ja on tehokkaampaa havaitsemista varten uusia syövän alatyyppejä, kuten rintasyövän [5], [6], munasarjasyöpä [7], paksusuolen syöpä [8]. Nämä alatyyppiä voi olla eroja geenin tai proteiinin ilmentymisen, geeniregulatiivista tai proteiinin signalointi verkkojen [9]. Ennustamiseksi nämä alatyyppien geeniekspressioprofiilit voidaan pitää klusterointi ongelma, ja löytää geeneistä ennustus voidaan pitää ongelmana muuttujan valinta high-ulotteinen nimeämättömän aineiston avulla.

Yksi haaste syövän alatyypin löytö on että erot verkossa tai koulutusjakson tasolla koko näitä alatyyppejä voidaan tehdä perinteisen klustereiden lähestymistavat perustuvat geeniekspressioprofiilien eroja riittämättömiä [9]. Löytö Näiden verkkojen ja reittejä on erittäin tärkeää ymmärtää kollektiivinen biologinen geenien ja niiden vaikutusta fenotyypin muutosten potilaista [9] – [12]. Lisäksi, biomarkkerit ovat usein valittu toisistaan ​​riippumatta perustuen niiden erotteleva kyvyt [13]. Kuitenkin geenit tarvitsevat usein vuorovaikutuksessa muiden osallistua joihinkin biologisissa prosesseissa tai molekyylin toimintoja [14] – [17]. Jotkut niistä voivat olla ei ilmennetty eri, mutta jotka kuuluvat aliverkko, jolla on yleinen erotteleva toimintaa tai on hyödyllinen koulutusjakson tietyn alatyypin [3], [9], [18]. Siksi tehtäväksi löytää alatyypeistä, valaisemaan niiden vastaavan verkon rakenteita, ja poiminta verkkopohjaiset biomarkkerit on edelleen erittäin tärkeää biolääketieteen aloilla.

On olemassa erilaisia ​​ryhmittely menetelmät geenien ilmentymisen aineistot partitioimiseksi biologisten näytteiden [19]. Malli perustuva klusterointi, joka on vankka todennäköisyyksiin kehystä käytetään laajalti biomarkkereiden ja syövän alatyypin löytää, koska sen hyvä suorituskyky, tulkittavuutta ja täytäntöönpanon helppous [20]. Tällä hetkellä geeni valintaprosessi useimmat lähestymistavat on suunniteltu määräämällä seuraamus rajoituksia todennäköisyys saavuttaa harva ratkaisu.

rangaistaan ​​mallipohjaista klusterointia, vähentämiseksi parametrien määrä, yksi yhteinen Oletuksena on, että kukin klusteri on diagonaalinen kovarianssimatriisi, joten geenit oletetaan olevan riippumaton. Jokainen klusteri on usein mallinnetaan satunnaismuuttuja peräisin seoksesta Gaussin käyrään, ja yhdistettynä useita seuraamuksia, kuten rangaistus, mukautuva rangaistus ja ryhmä rangaistus [21], [22]. Koska log-todennäköisyys Gaussin hajoaa neliöllisesti etäisyyden päässä keskustasta, se on herkkä harha joita yleisesti havaitaan microarray kokeiluja johtuen joko kemiallisten tai sähköisten syistä [23]. Vakaampi rangaista mallipohjaiset Studentin t klustereiden vinot kovarianssi (PMT-DC) on otettu käyttöön [24] käsittelemään melua ja äärimmäinen geenejä. Ne tarjoavat myös tapa ranking geenien mukaan niiden osuus Klusterointiprosessia kanssa bootstrap menettelyä. Kuitenkin edellä mainitut menetelmät sivuuttaa välisten riippuvuuksien geenien syöpää alatyyppejä. Laillistettu Gaussin Seos mallia ehdotetaan toteuttamaan erilaisia ​​riippuvuuksia huomioon sallimalla käsittelemällä yleisen kovarianssimatriiseja. Odotus maksimointi (EM) algoritmia hyödyntämällä graafista suopunki käytetään parametrien estimointi, ja saavuttaa parempi alatyyppi löytää suorituskykyä ja geenin valinta [20]. Koska välimuoto lävistäjä ja yleinen kovarianssimatriisi, toinen ajatus, että mallinnetaan kovarianssimatriisi käyttäen joitakin piileviä muuttujia kuten on tehty seos tekijä analysaattorit on otettu käyttöön [25]. Se on enemmän rajoituksiin, ja on monimutkaisempi kuin menetelmä, joka perustuu rajoittamaton kovarianssimatriisiestimaatin. Se on kuitenkin tehokkaampaa, jos jotkut latenttimuuttujaa aiheuttamaa covariance oletus pätee geenin ilmentymisen aineisto. Molemmilla menetelmillä on vaikea käsitellä virheellisten havaintojen vuoksi niiden Gaussin oletuksen. Nämä tavanomaiset rangaista mallipohjaisia ​​menetelmiä valita vain geenejä perustuen keskimääräinen vaste, ja sivuuttaa niiden vaikutukset olevien verkkojen kulkeutumisväylät jotka ovat erittäin tärkeitä ymmärtämisessä kollektiivinen biologinen toiminto.

motivoi haasteisiin olevien verkkojen tai reittejä ja harha havaittiin korkea-ulotteinen geeniekspressiota aineisto, ja rajoitukset edellä mainittuja menetelmiä, tässä tutkimuksessa ehdotetaan rangaista mallipohjaista Studentin t klustereiden kanssa rajoittamaton kovarianssi (PMT-UC) syövän alatyypin löytämisen ja biologisten merkkiaineiden tunnistaminen. Ehdotettu uusi menetelmä perustuu monimuuttujatestausta Studentin jakauma, joka tekee algoritmi ei vaikuta äärimmäinen tai epätavallisia geenejä. Toisin kuin PMT-DC riippumattoman oletukseen, jotta voidaan harkita suhdetta geenien ja löytää syövän alatyypeistä jotka eroavat toisistaan ​​perusverkon rakenteita, klusteri-erityinen rajoittamaton covariance sijasta käytetään lävistäjä kovarianssi. Kehitys algoritmien arvioimiseksi harva kuvaajia soveltamalla rangaistuksen käänteisen kovarianssimatriisi [26], [27] tehdä ajatus, että kun geeni riippuvuus huomioon toteutettavissa. Me määrätä adaptiivisen seuraamus keinoista ja käänteinen asteikko matriisit saavuttaa verkkopohjaisten biomarkkereiden tunnistamiseen ja verkon jälleenrakentamista. Malli on asennettu kautta EM algoritmi hyödyntämällä graafista lasso. Uusi geeni valikoima vaatimuksen avulla löytää seuraavat informatiivinen geenit: geenit, jotka on klusteri-erityisiä keinoja, geenit, jotka eivät ole ilmentyvät eri vaan vuorovaikutuksessa joitakin erotteleva geenejä muodostaa kollektiivisen biologinen funktio, ja geenit, joilla on luokka- erityiset perusverkon rakenteita. Soveltamalla uuden mallin simuloitu aineistoja ja yksi julkisesti saatavilla syöpä aineisto, osoitamme, että algoritmi on vankka vastaan ​​vieraat havainnot on klusterointia, geeni ja verkon jälleenrakentamista samanaikaisesti, ja antaa kilpailukykyinen tulosten kanssa state-of-the-art algoritmeja havaitaan uusi syöpä alatyyppejä. Monet tunnistetut biomarkkerit on todennettu biokemiallinen tai biolääketieteellisen tutkimuksen. Gene ontologia (GO) analyysi osoittaa, että geenit samassa aliverkossa valitsema uusi ehdotettu menetelmä on merkittävä biologinen ja toiminnallinen korrelaatio.

Methods

Tässä jaksossa esitellään rangaistaan ​​mallipohjaisia ​​Opiskelijan t klustereiden kanssa rajoittamaton kovarianssi (PMT-UC) valita muutama useita geenejä, jotka voidaan luokitella näytteet luonnossa esiintyviä ryhmiä, ja löytää geenien välisestä suhteesta.

puitteissa PMT -UC

Oletetaan, että on olemassa riippumattomia ulotteinen näytteitä, joissa edustaa geenin geenien ilmentyminen. Geenit ovat standardoitu olla keskiarvo 0 ja varianssi 1. poikki havaintoja.

Jokainen näyte on tarkoitus tulla seoksesta jakaumasta komponenttien jonka tiheysfunktio on (1), jossa sisältää kaikki parametrit malli, on ei-negatiivinen sekoitussuhde komponenttien kanssa, ja on tuntemattomien parametrien asettaa vastaavat.

Jokainen komponentti on määritetty monimuuttuja Studentin t-jakauman kanssa parametrien, jossa on sijainti parametri, on mittakaava matriisi ja on vapausasteita. Se on todennäköisyys tiheys (2) missä on gamma funktio, ja merkitsee Mahalanobiksen potenssiin etäisyys ja. Keskiarvo ja kovarianssimatriisi kunkin Studentin t jakelun ja vastaavasti. Yleisesti, parametrijoukko voidaan arvioida maksimoimalla log-todennäköisyys funktion.

Koska joukko geenejä on usein paljon enemmän kuin näytteiden lukumäärä, suurimman uskottavuuden arvio on todennäköisesti yksikössä. Käänteisen asteikko matriisi merkitään elementit. Viime vuosina useat kirjoittajat käyttöön monia lähestymistapoja, jolloin saatiin positiivinen tiettynä kovarianssi lisäämällä niukkuus ja [26], [27]. Rakenne verkko rakennetaan yleensä perustuu korrelaation tai osittainen korrelaatio [28]. Tässä asiakirjassa, osittainen korrelaatio voidaan johtaa käänteinen mittakaavassa matriisi. Osittainen korrelaatio sijasta käytetään korrelaation esittää suhdetta kahden geenin, koska sen kyky pois laskuista vaikutuksen muiden geenien. Näin ollen voi heijastaa suhdetta geenien klusterin ja voidaan pitää verkkojen tai väyliä geenejä. Lausunto että useimmat geenit (geenituotteet) vain vuorovaikutuksessa muutamia geenejä (geenituotteet) ilmaisee niukkuus of kannalta biologisen tulkinnan [15]. Me määrätä adaptiivisen rangaistusta off-diagonaalialkiot käsitellä niukkuus on [29].

Lisäksi niukkuus keskiarvon katsotaan, jota käytetään usein geenin valintaan. Keskimääräinen perustuva erotteleva geeni määritellään olevan klusterin-erityisiä keinoja, olipa se on yhteinen tai klusteri- vaihtelut [20]. Erityisesti se on ainakin yksi nollasta poikkeava, koska näytteet on standardoitu on keskimääräinen 0 kullekin geenille. Siksi asetamme mukautuva rangaistus jokaisen kutistaa se nollaa [29].

Sitten perustuu rangaistaan ​​log-todennäköisyys-toiminto, joka koostuu log-todennäköisyys-toiminto ja rangaistus aikavälillä tavoitteena funktio PMT- UC voidaan maksimoida on seuraava: (3), jossa, ja se sisältää ei-negatiivinen laillistaminen parametrit ja s ja s vastaavasti. Laillistamista parametrit ohjaavat niukkuus mallin. Suurempi arvot ja, sitä enemmän geenejä on noninformative ja riippumattomia. Mukautuva rangaistus on painotettu versio rangaistusalueen joiden paino tai kutakin komponenttia. Siinä saavutetaan kolmen toivottavia ominaisuuksia samanaikaisesti, jotka voivat tuottaa harva ratkaisuja, johdonmukaisuuden varmistamiseksi mallin valinta, ja johtaa puolueeton arvioita suurten kertoimien [30].

päättely Algoritmi

Tässä tutkimuksessa käytetään odotus maksimointi (EM) algoritmia [31] optimointiin kohdefunktion Tiettyyn kiinteään ja. Kuten [20], [24], kunkin näytteen oletetaan olevan vastaava havaitsematon indikaattori vektori, jossa täsmennetään seoksen komponentti, joka kuuluu. Jos tulee komponentti sitten, toisin. Koska, noudattaa Studentin t-jakauman kanssa tiheysfunktio. Mukaan, että Studentin t-jakauma voidaan kirjoittaa Monimuuttuja Gaussin jakaumalla ja kovarianssimatriisi skaalataan käänteisluvun Gamma satunnaismuuttuja, lisäksi puuttuvat tiedot otetaan käyttöön, jossa jokainen elementti seuraa Gamma jakelu [32]. Sitten rangaistaan ​​täydelliset-data log-todennäköisyys koko data on (4), jossa voidaan ilmaista tuotteen todennäköisyyden tiheys toiminnot Gaussin ja Gamma jakaumat (katso teksti S1 lisätietoja).

EM algoritmi iteratiivisesti soveltaa odotus (E) vaihe laskea odotusarvo suhteessa nykyiseen parametrien arviointiin klo nnen iteraation, ja maksimointi (M) vaihe löytää päivitetyt parametrit maksimoimalla, kunnes saavuttaa pysähtymättä kriteeri.

E askel. Arvo riippuu seuraavista kolmesta odotukset (katso teksti S2 lisätietoja).

Koska seuraa Multinomijakauma ja tulee seoksesta jakauman tiheysfunktio, arvo annetaan (5)

voidaan pitää posteriori todennäköisyys kuuluvien th klusterin. Seeing että gammajakauman on konjugaatti itseensä (self-konjugaatti) suhteessa Gaussin uskottavuusfunktio, meillä on (6) ja

(7), jossa on digammafunktio [32].

M vaihe. Ensinnäkin, päivitys saadaan equationwith rajoite kuin

(8) Toiseksi, arvo on nnen iteroinnin on yhtälön (9), jossa. Tässä asiakirjassa, koska liuos (9) on ei-suljetussa muodossa, R toiminto ”nlminb” käytetään löytää numeerinen ratkaisu [24].

Kolmanneksi tavoitteena on maksimoida ( 10) saada päivityksen. Vaiheessa, adaptiivisen painot on määritetty olevan

(11) parametri on otettu käyttöön, jotta vakautta ja sen varmistamiseksi, että nolla-arvoisten komponenttien voi paeta nollasta seuraavaan toistoon [33]. Kun on liian pieni, nolla-arvo komponentti on edelleen niin suuri paino, että se pysyy nolla seuraavaan toistoon. Kun on liian suuri, se tekee eron s tai t ei ole merkittävä ja sallii monien nollasta poikkeava-arvo komponentteja, jolloin tuloksena on monimutkainen ja epätarkkoja malli. Se on annettu useita arvoja kokeen aikana menettelyn. On osoitettu, että on tarkoituksenmukaista. Alustavien arvioiden ja valitaan sillä tulokset arvioima rangaistus.

Tarkastelemalla differentiability on suhteen kaksi tapausta, jotka ja, päivittämiseen arvio on seuraava (katso teksti S3 lisätietoja) [20] : jos (12) jälkeen; muuten

(13) Sen jälkeen pudottamalla termejä liity vuonna, meillä on (14), jossa

Tämä optimointi ongelma voidaan ratkaista käyttämällä graafista lasso joista vastaavien R paketti ”glasso” on saatavissa CRAN [27]. Graafinen suopungin on suunniteltu käsittelemään ongelmaa arvioitaessa harva kuvaajia suopungin rangaistus sovelletaan käänteisen kovarianssimatriisi [27]. Se on ensimmäinen ehdotettu maksimoinnin Gaussin log-todennäköisyys datan suhteen kovarianssimatriisin. Ehdotettu uusi menetelmä otetaan huomioon sijasta näytekovarianssi matriisi, jossa on jälkikäteen tietoja näytteen, ja voi vähentää vaikutusta harha tämän optimoinnin ongelmaa.

Mallivalikoima

on olemassa kolme parametreja, jotka on arvioitu ennen PMT-UC-algoritmi, mukaan lukien määrä klustereiden penalization parametrit ja. Tässä asiakirjassa, suunnilleen seuraavanlainen todistusnäytön (AWE) perustuva kriteeri approksimaatio luokitusta log-todennäköisyys käytetään mallin valinta: (15), jossa on tehokas määrä parametrien malli ja [34], [ ,,,0],35]. Siinä asetetaan suurempia seuraamuksia monimutkaisempia mallin kuin BIC ja pystyy tunnistamaan oikean määrän klustereita, vaikka komponentti tiheydet ovat misspecified [36], [37]. Ruudukko haku kohdistetaan löytää optimaalinen jolla on pienin AWE.

alatyyppi löytäminen kautta Clustering

Kun arviointi parametrien PMT-UC, klustereita voidaan tällöin määritellä näytteistä seuraavien samanlainen jakauma, joka määritetään arvo posteriori todennäköisyys. Koska näyte, PMT-UC ennustaa syövän alatyypin geenin ilmentymisen profiilin se, joka antaa suurimman posterior todennäköisyys, että on.

selvittämiseen perusverkon Structures

Voimme sitten valaista klusteri- perusverkon rakenteita perustuu käänteisen mittakaavassa matriisi. Klusteri-erityinen verkko voidaan esittää suuntaamaton verkko, jossa geenien kärkipisteet ja reunat niiden suhteet perustuvat. Reunat liittää ne geenit, joiden osittainen korrelaatiot johdetut ovat suurempia kuin. Sitten aliverkko määritellään joukko, joka sisältää geenejä ja reunat joka aiheuttaa yhden Lähdelaitteen tässä verkossa. Nämä klusteri- aliverkkoihin osoittavat eri geenien välisten suhteiden eri syövän alatyyppejä ja pidetään olevan verkon rakenteita.

Verkko-pohjainen biomarkkereiden tunnistus

Koska että geenit solussa harvoin toimia yksinään, mutta muodostavat verkoston vuorovaikutusta [14], biomarkkerit tunnistetaan osaverkkoja vuorovaikutuksessa geenien sijaan yksittäisten geenien tässä asiakirjassa. Erityisesti me ensin poimia aliverkot määritelty edellä. Toiseksi, ottaen huomioon se, että meluisa geenin ja informatiivinen geeni ovat korreloimattomia toistensa kanssa [20], [38], aliverkot, jotka ovat vähintään yhden keskimääräisen-pohjainen erotteleva geenin valittu aliverkon biomarkkereita. Tämä geeni valintakriteerinä voi tunnistaa geenit, joita ei ole eri tavoin ilmaistuna, mutta vuorovaikutuksessa joidenkin erotteleva geenien muodostamiseksi kollektiivisen biologinen funktio. Lopuksi jäljellä aliverkot, joiden sisäinen rakenne (suhde geenien) ovat erilaisia ​​joukossa pidetään myös biomarkkereiden valaista klusteri- perusverkon rakenteita.

Lopullinen algoritmi PMT-UC

Kuva 1 on tiivistelmä yksityiskohtainen algoritmi löytää syövän alatyyppejä, perusverkon rakenteita, ja verkko-pohjainen biomarkkerit kautta PMT-UC. Minkä tahansa, tuloksena K-välineiden käytetään alustuksen EM-algoritmi. Jotta vältettäisiin paikallinen optimaalinen K-means, otamme koko algoritmi viisi kertaa satunnainen K-välineiden alustus ja valitse tulos, joka antaa suurimman arvon kohdefunktion (3).

tulokset ja pohdinta

Simulaatiot

aineisto tarpeeton geenien simuloidaan arvioida klustereiden, geeni ja verkon jälleenrakentamista menetelmän suorituskykyä. Aineisto on näytteitä ja informatiivinen geenien tulo ulottuvuus. katsotaan olevan suurempi kuin otos koko kunkin klusterin jotta näytekovarianssi kunkin klusterin ei ole palautuva. Ensimmäinen informatiivinen geenit tulevat ulotteinen monimuuttujatestausta Studentin t jakauman th klusterin. Loput meluisa geenejä, jotka ovat riippumattomia informatiivinen geenit itsenäisesti ja samoin jakautuneita välillä univariate Studentin t jakelu kaikille klustereita. Vapausasteet vaikuttaa melutasoa aineisto. Alempi vapausasteet lihavampia hännät aineisto on.

Ensinnäkin aineisto kahdella klustereita simuloidaan, jolla näytettä kutakin klusterin. Kolme tapausta käsitellään seuraavassa kokeita tutkia vaikutuksia harha suorituskyvystä menetelmän [24]. Kun jakelun simuloitu aineisto on arvioitu Gaussin jakauma. Kullekin kolmessa asiassa seuraavat neljä set-up pidetään:

set-up 1 on klusteri-erityisiä keinoja kanssa ja, ja yhteinen diagonaalinen asteikko matriisi, jossa on ulotteinen identiteetti matriisi.

set-up 2 on cluster-erityisiä keinoja kanssa ja sekä tavallinen ei-diagonaalinen mittakaavassa matriisin. on harva symmetriamatriisi että on diagonaalialkiot ja ei-lävistäjäalkiot lukuun ottamatta,.

set-up 3 on klusteri-erityisiä keinoja kanssa ja, ja käyttää kahta yleistä harva mittakaavassa matriisit tuottama samankaltaista menetelmää kuin kuvataan [9], [26]. Diagonaalimatriisi kanssa samassa myönteisessä lävistäjä merkintöjä syntyy ensinnäkin sitten tietty määrä nollasta poikkeavien alkioiden sattumanvaraisesti asetettu ei-diagonaalinen sijainnit määritellyn osan matriisin symmetrisesti. Lukumäärä nollasta poikkeava ei-diagonaalinen merkinnät on asetettu. Usean identiteetin on lisätä matriisiin varmistaa positiivisen definiteness. Lopuksi jokainen elementti on jaettu vastaava diagonaalinen elementti tuottaa käänteisen asteikko matriisi. Tässä set-up, ja.

set-up 4 on klusteri-erityisiä keinoja kanssa ja, ja vastaavat ei-diagonaalinen mittakaavan matriisit kuin perustaa 3 ja.

alle simuloitu kuvio edellä, asetamme, ja samanlainen käyttöön [20]. Kullekin set-up, simulointi toistetaan 50 kertaa ja varustettu, ja.

PMT-UC verrataan rangaistaan ​​mallipohjaiset Gaussin klustereiden kanssa rajoittamaton kovarianssi (PMG-UC) ja rangaista mallipohjaisia Studentin t klustereiden vinot kovarianssi (PMT-DC) suhteen seuraavissa arvioinnin kriteerit. Rand Index (RI), oikaistu Rand Index (ARI) ja taajuudet valitun numerot (N) klusterien (K) käytetään arvioimaan menetelmän kykyä klusterointi [20]. Jotta määrällisesti menetelmän kykyä verkon jälleenrakentamiseen, rakenteellinen hamming etäisyys (SHD) oikean ja pääteltyihin verkot lasketaan, joka on määrä reunan eroja muuttaa verkosta toiseen verkkoon [9]. Pienempi SHD osoittaa lähennetty todellisen verkkoon. Seuraavat kaksi indeksejä käytetään arvioinnissa geenin valinta suorituskyky, määrä informatiivinen muuttujia virheellisesti valittu olemaan noninformative (väärät negatiiviset, FN) ja lukumäärä noninformative muuttujien valittu oikein (tosi negatiivit, TN) [20].

vaikutus parametrin.

vaikutus parametri joka on suunniteltu vakautta algoritmin suorituskyvystä PMT-UC käsitellään kannalta viisi toimenpidettä käyttöön edellä (RI, Ari , SHD, FN ja TN). Erityisesti otamme PMT-UC kiinteään aineisto alle perustamiseen 4 kanssa, joiden aineisto on korkeampi äänitaso, joka on vähemmän geenejä klusterin-erityisiä keinoja ja jotkut geenien klusteri-tietyn verkon rakenteita, joissa eri arvoja ( ). Taulukossa 1 on esitetty keskiarvot ja keskihajonta viidestä toimenpiteiden 50 simulaatioita suhteen eri arvoja tällä set-up. Kun ei ole liian suuri, algoritmi suorituskyky on yleensä melko vahvaa valintaan. Koska tulokset osoittavat jonkin verran parannusta muissa tilanteissa, on asetettu 0,1 seuraavissa kokeissa.

vaikutus alustuksen.

lähentyminen PMT-UC tutkitaan harkitsee vastaaviin tuloksiin nähden eri alustukset käyttäen K-keinoin. Tutkimus riippuu myös set-up 4 kanssa. Simuloitu aineisto on kiinteä ja koko menettelyä sovelletaan kymmenen kertaa, joista joka kerta käyttää viittä K-means alustukset. Keskihajontojen valittujen parametrien ja kokeilun tulokset näistä kymmenestä kokeiluja voidaan pitää arvioinnin indeksit lähentymisen PMT-UC. Vähentää vaihtelua, viisi aineistoja syntyy, ja keskiarvot ja keskihajonnat tulokset kutakin aineisto ovat listan taulukossa 2. On osoitettu, että klustereiden ja geenin valinta tulokset eivät ole merkittäviä muutoksia eri alustukset. Kuitenkin täydellinen PMT-UC-algoritmi on tietty varianssi kannalta parametrin ja tulokset SHD, jotka vastaavat verkon jälleenrakentamiseen.

klusterointi tuloksia.

Koe klusterointi tulokset neljän set-ups on esitetty taulukossa 3. Koska aineistot tulevat noin jakautuminen Gaussin, sekä PMT-UC ja PMG-UC aina tunnistaa oikein kahtena ryhmänä. Sillä set-up 1, 2, 3, PMT-UC toimii hieman parempi kuin PMG-UC tunnistamisessa klusterointi rakenteissa, kuten tiivistää RI tai ARI taulukossa 3. set-up 4, läsnäolo enemmän melua muuttujien perustuvat keskiarvoon, RI Ari PMG-UC vähenee dramaattisesti 0,734 ja 0,47. Pystytyksestä 1 tosi malli, jossa on diagonaalinen kovarianssimatriisi, sekä PMT-UC ja PMT-DC on samanlaiset klustereiden esityksiä. Mitä vahvempi korrelaatiot keskuudessa muuttujia, sitä todennäköisemmin että PMT-DC saada enemmän klustereita vahingossa ja huono klustereiden suorituskyky. Erityisesti, PMT-DC riippumattomuuden oletuksen aineisto in set-up 4 on vain viisi informatiivinen geenejä, mikä johtaa suuren klusterointi virheprosentti.

tutkimiseksi vaikutuksen harha, me käytä pienempää astetta ja. Taulukko 3 antaa myös tulokset neljän set-ups näissä kahdessa tapauksessa. Kuten odotettua, PMG-UC toimii huonosti pienempiä astetta, ja se on herkempi äärimmäisiä havaintoja. Sillä set-up 1, klusterointi tulokset PMT-DC eivät muutu merkittävästi vähenevän astetta sen kestävyyttä ja riippumattomuuden oletus. Kuitenkaan useinkaan voi löytää todellisen klusterointi rakenteita muissa kolmessa set-ups. Yhteenvetona tulokset set-up 1-4, kun osoitetaan, että PMT-UC on parempi klustereiden suorituskyky kuin PMG-UC ja PMT-DC aineistoja riippumattomien tai korreloi informatiivinen geenejä, ja on vankka, että vieraat havainnot.

Verkon jälleenrakentamiseen.

kuvassa 2 boxplots klusterin erityisiä SHD arvioidusta totta verkkojen yli 50 simulaatioita edellä neljän set-ups kolmessa tapauksessa, kun on 2. lisäksi piirretään keskimääräinen niukkuus malli, joka on suhteellinen taajuus matriisi PMG-UC ja PMT-UC. Koska PMT-DC oletetaan diagonaalinen kovarianssi, se ei ole piirretty täällä. Suhteellinen taajuus matriisi koostuu suhteellisen taajuuden nonzero arvioitu kunkin elementin käänteisen asteikon matriisi yli 50 toistoja. Kuvio 3 esittää klusteri- tulokset ensimmäisen informatiivinen geenit (katso teksti S4 tuloksia koko geenien). Teemme seuraavat huomautukset tulosten perusteella esitetty kuvissa 2 ja 3. kaikki tapaukset, PMT-UC tarjoaa pienimmät SHD suhteessa kaksi muuta mallia. Kun jolla Studentin jakauma on samanlainen kuin Gaussin, sekä PMT-UC ja PMG-UC pystyvät palauttamaan harva käänteinen kovarianssi rakenne set-up 1. On osoitettu, että vaikka sekä PMT-UC ja PMG-UC on ei-diagonaalinen olettamus, he voivat saada lävistäjä kovarianssi kuin totuuden riittävän suuri rangaistus off-diagonaalialkiot käänteisen kovarianssimatriiseja. Sillä set-up 2, PMT-UC voidaan täsmällisesti tunnistaa sijainnin nollasta poikkeavien alkioiden lähes joka simulointi. Samaan aikaan, jossa korkea arvo off-lävistäjä nollasta poikkeavien alkioiden kovarianssi, PMG-UC voi myös palauttaa käänteinen kovarianssi kuvio joskus. Kuitenkin, kun osittainen korrelaatio geenien eivät ole korkea set-up 3, jossa rangaistus, PMG-UC ei ole hyvä verkon jälleenrakennus suorituskyky eroaa PMT-UC. Sillä set-up 4, lisääntyvä melun suhteen keskiarvon, tulos PMG-UC on hämärä. Kun tai jolla aineisto on korkeampi äänitaso, PMG-UC ei kykene saamaan takaisin verkon rakenne. Kuitenkin PMT-UC voi silti löytää suhdetta geenien alla verkkoon.

Jokaisessa ruutuun keskeinen merkki on mediaani, reunat laatikko ovat 25. ja 75. prosenttipisteet, viikset ulotu äärimmäisissä datapisteitä ei pidetä poikkeavuuksien ja harha piirretään yksitellen. Tulokset esitetään PMT-UC, PMG-UC ja PMT-DC neljän-laitteistojen kolme tapausta. SHD1 ja SHD2 ovat tulokset ensimmäisen ja toisen klustereita, vastaavasti.

TOSI: 1 ja TOSI: 2 ovat osia alkuperäisestä ja joka vastaa ensimmäistä informatiivinen geenit ensimmäisen ja toisen klustereita vastaavasti. PMT-UC: 1 ja PMT-UC: 2 ovat arvio niiden osien käänteinen asteikko matriiseja käyttäen PMT-UC. PMG-UC: 1 ja PMG-UC: 2 ovat arvio niiden osien käänteinen kovarianssimatriiseja käyttäen PMG-UC.

Gene valinta.

Kaksi geeniä valinta arviointi indeksit FN ja TN myös yhteenvetona taulukossa 3. neljän set-up, PMG-UC taipumus poimii enemmän geenejä, jotka ovat epäinformatiivisia kuin PMT-UC ja PMT-DC. In-laitteistojen 1 ja 3, informatiivinen geenit ovat klusteri-erityisiä keinoja ja voidaan valita kaikki kolme menetelmää, kun aineisto on alhainen melutaso. Sillä set-up 2 ja 3, on olemassa kaksi geeniä, jotka eivät ole ilmennetty eri vaan vuorovaikutuksessa joidenkin erotteleva geenejä, ja viisi geeniä, jotka eivät myöskään ole ilmennetty eri, mutta eri perusverkon rakenteita, tässä järjestyksessä. Taulukossa 3 osoitetaan, että yksi kolmesta menetelmästä vain PMT-UC voi löytää näitä geenejä.

Aineisto useita ohuita-tailed klustereita.

, ylimääräinen aineisto enemmän ohut-pyrstö klustereita on

Vastaa