PLoS ONE: Bayesian Hierarkkinen Clustering opiskeluun Cancer Gene Expression Data kanssa Unknown Statistics

tiivistelmä

klusterointi analyysi on tärkeä työkalu tutkittaessa geeniekspression data. Bayes hierarkkinen klusterointi (BHC) algoritmi voi automaattisesti päätellä klusterien lukumäärä ja käyttää Bayesin mallia valinta parantaa klustereiden laatua. Tässä artikkelissa esittelemme laajentaminen BHC algoritmin. Meidän Gaussin BHC (GBHC) algoritmi edustaa dataa seoksena Gaussin jakaumat. Se käyttää normaalia-gammajakauman konjugaatin ennen sen keskiarvo ja tarkkuus kunkin Gaussin komponentteja. Testasimme GBHC yli 11 syöpää ja 3 synteettisiä aineistoja. Tulokset syövän aineistot osoittavat, että näytteessä klusterointi, GBHC keskimäärin tuottaa klusterointi osio, joka on enemmän yhtäpitävä maahan totuutta kuin ne, joita saadaan muita yleisesti käytettyjä algoritmeja. Lisäksi GBHC usein päättelee määrä klustereiden joka on usein lähellä maanpintaa totuus. Geenien klusterointi, GBHC myös tuottaa klusterointi osio, joka on biologisesti uskottava kuin useat muut state-of-the-art menetelmiä. Tämä viittaa GBHC vaihtoehtona välineenä tutkimalla geenien ilmentyminen tietoja.

toteuttaminen GBHC on saatavilla https://sites.google.com/site/gaussianbhc/

Citation: Sirinukunwattana K Savage RS, Bari MF, Snead DRJ, Rajpoot NM (2013) Bayesian Hierarkkinen klusterointi opiskeluun Cancer Gene Expression Data kanssa Unknown tilastot. PLoS ONE 8 (10): e75748. doi: 10,1371 /journal.pone.0075748

Editor: Ferdinando Di Cunto, University of Torino, Italia

vastaanotettu: 1 maaliskuu 2013; Hyväksytty: 19 elokuu 2013; Julkaistu: 23 lokakuu 2013

Copyright: © 2013 Sirinukunwattana et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Korsuk Sirinukunwattana rahoitetaan osittain Qatar National Research Fund myönnä. NPRP5-1345-1-228 ja osittain Department of Computer Science, University of Warwick. RSS tunnustaa tukevat Medical Research Council Biostatistics Fellowship (G0902104). MFB myöntää tukea Higher Education komission ja Dow University of Health Science, Pakistan. Rahoitusta keräämiseen keuhkokudoksen oli West Midlandsin Lung Tissue Consortium. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

klusterointi analyysi on tärkeä työkalu tutkittaessa genomista tietoa kuten geeniekspressioprofiilien ja voidaan päätellä biologisen toiminnan ja sääntelyn geenien. Eisen

et al.

[1] mukaan hiivasta

S. cerevisiae

, geenejä, jotka ovat ryhmittyneet yhteen usein samanlaiset biologinen toiminta tai ovat yhdessä säänneltyjä, mikä johtaa sen tunnustamista, että geenit samassa ryppäässä voi olla toiminnallisesti liittyvän tai säännellään yhteisten transkriptiotekijöiden. On osoitettu kirjallisuudessa, että biologisen toiminnan klusterin voidaan päätellä ontologian merkinnästä sen geenien [2], ja biologinen toimintoa, karakterisoimattomat geeni voidaan myös päätellä tietoa geenien klustereita [3], [ ,,,0],4]. Lisäksi moderni lääketieteellinen tutkimus, klustereiden analyysia on käytetty tunnistamaan taudin alatyyppeihin perustuu geneettinen vaihtelu [5], [6], ja tunnistaa geeniekspression allekirjoituksen, voidaan käyttää ennustetyövälineenä merkkiaine tunnettujen tautien alatyyppejä [7] – [9]. Tämä auttaa kerrostuminen potilaiden henkilökohtaisen lääketieteen.

Lukuisat yleisesti käytetty klusterointialgoritmeja on merkittävä rajoitus, että ne nojaavat

ad hoc

menetelmiä tunnistaa klusterien lukumäärä sisällä tietoja. Hierarkkisessa klusterointialgoritmeja [10] – [12], esimerkiksi tunnistamaan määrä klustereita riippuu lähinnä visuaalinen tunnistus, kun taas määrä klustereita tarvitaan tulona muita algoritmeja, kuten yhdistetty elin [13] ja itseorganisoituva kartta [14]. Lisäksi monet klusterointialgoritmeja vaativat valinta etäisyyden metristä osoittaa vahvuus samankaltaisuuden /erilaisuuden datapisteiden tai klustereita. Kuitenkin on vain vähän järjestelmällisesti opastusta siitä, miten valita metrinen datan kuten geenin ilmentymisen mittauksen, joka heijastaa suhteellisen hyvin suhde datan. Usein on vaikeaa määritellä suhde, etenkin korkean ulotteisessa avaruudessa. Kaksi yleistä valintoja muuttujista geenin klusterointi analyysi kirjallisuus ovat Euklidinen etäisyys ja Pearsonin korrelaatiokerrointa [15]. Kuitenkin Euklidinen etäisyys on herkkä skaalaus ja erot keskimääräisissä. Pearsonin korrelaatiokerroin talteen vain lineaarinen suhde datan, ja se ei ole vankka ja harha ja ei-Gaussin [16]. Mallipohjainen klusterointialgoritmeja voi käsitellä molemmat ongelmat. In mallipohjaista algoritmeja, data edustaa seoksella malli [17], [18] parameterized jakaumien, jossa jokainen komponentti edustaa eri klusteri. Ongelmat miten tunnistaa klusterien lukumäärä ja etäisyyden metrinen voidaan siten valaa mallina valinta ongelma – miten valita tilastollinen malli, joka parhaiten kuvaa datan.

Bayes hierarkkinen klusterointi (BHC) [19 ], [20] on malli-pohjainen klusterointialgoritmi perustuu Dirichlet’n prosessin seoksen malli (DPM) [18], [21], [22]. Se on vahva etuja muihin malliin perustuvia lähestymistapoja. Ensinnäkin se tuottaa hierarkkinen klusterointi rakenne, joka on enemmän informatiivinen kuin tasainen yksi. Toiseksi, se käyttää Bayesin mallia valinta määrittää hierarkkista rakennetta, mieluummin kuin

ad hoc

etäisyys metristä, mikä lisää laatua tuloksena klustereita. Multinomial BHC (MBHC) [23] edustaa datan kunkin seoksen komponentin tuote multinomial todennäköisyydet, joihin sovelletaan Dirichlet’n etukäteen, ja sen on osoitettu suuremmat dendrogrammi puhtaus ja biologisesti merkityksellisiä klustereita kuin muut yleisesti käytetyt algoritmit

Arabidopsis thaliana

microarray aineisto [23]. Kuitenkin käyttämällä multinomial todennäköisyydet, algoritmi vaatii kategorinen lähentäminen jatkuvana muuttujana. Tämä ei välttämättä siis pystytä taustalla rakenne jatkuvan geeniekspression data. Gauss likelihoods ovat ilmeinen vaihtoehto tässä, koska ne eivät vaadi tietojen lähentämistä ja niitä on käytetty kuvaamaan geeniekspression data monissa klusterointi analyysejä. Aiempi työ ilmentymisen aineistot munasarjan ja hiivan solusyklin osoittavat, että mallipohjaisen klusterointialgoritmeja jotka käyttävät äärellinen Gaussin seos malli tuottaa yhtä laadukkaita klustereita johtava heuristinen klusterointialgoritmi, vaikka tiedot eivät täysin täytä Gaussin seoksen oletus [24]. Vertailevassa tutkimuksessa klusterointialgoritmeja syövän geenien ilmentyminen tietoja, koska todellinen määrä klustereita, äärellinen Gaussin malli lähestymistapa on johtava määrittämällä tietoja oikean klusterin [25]. Rasmussen

et al.

[26] ehdottaa mallipohjaista klusterointialgoritmi äärettömällä Gaussin seoksen malli tutkia Rosetta kokoelman ilmaisun profiileja

S. cerevisiaie

, ja huomaavat, että klustereiden tuloksia ei vain vahvistavat aiemmin julkaistu klustereiden analyysit mutta myös paljastaa hienompaa klustereiden tasolla, jotka ovat uusia ja biologisesti johdonmukainen.

Tässä tutkimuksessa ehdotamme pidentämistä BHC algoritmi geeni ekspressiotietojen jota me termi kuin Gaussin BHC (GBHC). GBHC tarjoaa useita etuja verrattuna muihin klusterointialgoritmeja: ensin, se olettaa ääretön Gaussin seosta mallin geeniekspression data, joka on osoitettu olevan biologisesti uskottava kirjallisuudessa [24] – [26]; toiseksi, se työllistää seos mallin Bayes puitteissa suorittaa mallipohjaista hierarkkinen klusterointi geenien ilmentymisen, joista ilmenee hierarkkinen rakenne läsnä tietoja; Kolmas, se päättelee määrä klustereita automaattisesti data; ja neljänneksi, se käyttää Gaussin seoksen oletus kuvata datan ja käyttää normaali-gammajakauman konjugaattina ennen tuntemattomia keinoja ja täsmennyksiä Gaussin likelihoods. Esittelemme kaksi vaihtoehtoa GBHC: yksi hyperparameter optimoinnin koko puu (GBHC-TREE), ja toinen hyperparameter optimointi jokaisessa sulautumista (GBHC-NODE). Edelleen, me johtamiseksi taipuisa muotoilua nopeuttamiseen hyperparameter optimointi tapauksessa GBHC-NODE, tuloksena pyörimisnopeuden tekijä jopa 11 yli GBHC-TREE. Me vertailua algoritmit useita muita klustereiden menetelmiä, suorittamalla tutkimus yli 3 synteettisiä aineistoja ja 11 syöpää geeniekspression aineistoja. Tulokset osoittavat, että vaikka tiedot eivät ole kovin hyvin edustaa sekoitus Gaussin jakaumat, molemmat versiot edelleen parantaa klusterointi laatua jos tiedot on normalisoitu ja ei ole vahva korrelaatio muuttujien. Keskimäärin sekä makuja meidän GBHC algoritmin tuottaa klusterointi tuloksia, jotka ovat verrattavissa suotuisin Nykyiset lähestymistavat.

Materiaalit ja menetelmät

Merkinnät

Bayes hierarkinen klusterointialgoritmi

BHC [19] olettaa, että generoidaan seoksesta malli, jossa jokainen klusterin sisällä data vastaa eri jakautuminen osa mallin. Oletetaan, että datapisteet klusterissa ovat itsenäisesti ja samoin syntyvät probabilistinen malli tuntemattomia parametreja, ja säätelevät etukäteen kanssa hyperparameters. Siten marginaalinen todennäköisyys voidaan ilmaista (1) Algoritmi aluksi sijoittaa datapisteen omaan triviaaleja klusterin ja iteratiivisesti yhdistää kaksi eniten samanlainen klusterit, kunnes kaikki datapisteet laittaa yhdeksi klusteri. Tämä fuusio prosessi voidaan esittää dendrogrammimuodossa (kuvio 1A).

A) dendrogrammissa edustaa sulautumisen prosessi BHC. Jokainen pystysuora viiva edustaa klusterin. Vaakasuora viiva yhdistää minkä tahansa kahden pystysuoraa viivaa edustaa sulautumisen klustereita, jossa sen korkeus liittyy erilaisuus toimenpiteen välillä yhdistyivät klustereita. B) Kaavamainen näyttää aineistoja ja sulautettiin, missä ja ovat liittyvät fuusiot, jotka tekevät, ja vastaavasti. C) BHC luumut dendro- osoitteessa, jolloin lopullinen osioon.

käsite samankaltaisuus klusterien liittyy todennäköisyys, että ne olisi yhdistettävä. Tämä määritellään perustuu Bayes hypoteesin testauksen seuraavasti. Sulautua klustereita ja osaksi (kuvio 1 B), BHC katsoo nollahypoteesi: ja kuuluvat ja vaihtoehtoinen hypoteesi: koostuu kahdesta tai useammasta klustereita. Todennäköisyys, että ja olisi yhdistettävä lasketaan kautta Bayesin sääntö: (2) missä marginaalinen todennäköisyys määritellään rekursiivisesti (3) on marginaalinen todennäköisyys määritelty kaavassa (1), ja on ennen mainittua ja olisi yhdistettävä ja määritellään rekursiivisesti (4) (5), jossa asetamme ja jokaisen alkuperäisen klusterin. Toteamme, että määritelmä määritellyn täällä tekee yhtälön (3) approksimaatio marginaalinen todennäköisyys DPM. Lisäksi arvo pitoisuusarvo on kytketty odotettu määrä klustereita että BHC päättelee. Lisääntyminen merkitsee kasvua odotetun määrän klustereita.

, ja ovat todennäköisesti kuulua samaan klusteriin kuin. Näin ollen saadaan lopullinen määrä klustereita ja osion kun kaikki loput parit sulautumiseen (kuvio 1 C).

marginaalinen todennäköisyys Gaussin jakaumalla ja Unknown Mean ja Precision

Tarkastellaan aineisto jossa kukin havainto kuuluu muuttujia, eli. Oletamme, että

1 aineisto on normalisoitu, eli se on tarkoittaa nollaa ja yksikkövarianssi-;

2 kunkin havainnon, muuttujat ovat riippumattomia ja syntyvät eri Gaussin jakaumat;

3 toteumat kunkin muuttujan klusterin ovat riippumattomia ja samoin jakautuneita ja vetää Gaussin jakaumalla ja tuntematon keskiarvo ja tarkkuutta, ja ennen päälle on normaali-gammajakauman kanssa hyperparameter.

todennäköisyyden tiheysfunktio Gaussin määritellään (6) ja tiheysfunktio normaalin-gammajakauman määritellään (7) B-

edellä oletuksia, marginaalinen todennäköisyys voidaan ilmaista (8) missä (9) ja (10) (11) (12) (13) johtaessaan (8) hyperparameter joka osoittaa keskiarvon parametri on heijastamaan Neitsyt A1. Yhtälö (8) on kaikki mitä tarvitaan on GBHC.

Hyperparameter Optimization

GBHC päättelee arvot hyperparameters käyttämällä tietoja, joista kertoo kuinka hyvin klustereiden hierarkia sopii data. Tämä päättely voidaan tehdä kahdella optimointi järjestelmiä seuraavasti.

Optimization globaalisti koko puun (puu). GBHC-TREE löytää vain yksi sarja optimaalisen hyperparameters joka sopii koko data, ja annetaan (14), jossa on marginaalinen todennäköisyys (3) lopullisesta sulautumisen BHC. Saat optimaalisen hyperparameters tässä tapauksessa on kallista, koska nousukulma suhteessa hyperparameters ovat analyyttisesti hankala, ellei rakenne klusterointi hierarkian on kiinteä. (Katso [19] lisätietoja optimointi siinä tapauksessa, että klusterointi hierarkia on kiinteä.) B

Optimization jokaisella sulautuminen (NODE). GBHC-NODE löytää optimaalinen hyperparameters kunkin fuusion BHC suorittamalla (15) missä (16) ja oletamme, että (17) (18) (19) Pistetodennäköisyysfunktio of Gamma jakauma määritetään (20) Näin ollen tukin -likelihood toiminto (16) voidaan kirjoittaa, (21) ja sen kaltevuudet suhteen hyperparameters ovat (22) (23) (24) Ks S1 Materiaali S1 johdannaisia ​​yhtälöiden (22) – (24). Käytämme heikosti informatiivinen prioritodennäköisyydet yli hyperparameters yhtälöissä (17) – (19), olettaen, että normalisoidaan, (25) Toteamme, että yhtälö (15) liittyy optimointiin, jossa lähentäminen ja maksimointia sen taka jakelu pidetään. Voimme nähdä, että GBHC-NODE löytää optimaalinen rakenne klusterointi hierarkian yhdellä ajolla etsimällä paras sulautumisen kullakin tasolla, kun hierarkia on rakennettu. Niin, se on enemmän aikaa säästävä kuin GBHC-TREE.

mahdollinen rajoitus Molempien optimointi järjestelmiä on, että optimointi tavoite toiminnot (14), (15) voi olla ei-kupera. Tämä johtaa GBHC-TREE ja GBHC-NODE vain löytää hyperparameters jotka ovat paikallisesti optimaaliset. Kuitenkin meidän kokeissa klustereiden synteettisen datan ja geenien ilmentyminen tietojen molemmat järjestelmät ovat tuottaneet lupaavia tuloksia.

Muut klusterointialgoritmeja

Me vertailla GBHC-TREE ja GBHC-NODE muille klusterointialgoritmeja vuonna Taulukko 1. algoritmit ja niiden samankaltaisuus /erilaisuus toimenpidettä kutsutaan lyhenteillä annettu taulukossa. Esimerkiksi APE sanoista affiniteetin leviäminen käyttämällä negatiivista Euklidinen etäisyys. Lisäksi käytämme L-menetelmät [27] päätellä määrän klustereiden AC, AE, CC, CE, KC, ja KE, jotka ovat algoritmeja, jotka vaativat ennalta määritetyn määrän klustereita.

tässä työssä me toteuttaa GBHC-TREE, GBHC-solmu ja MBHC MATLAB. Käytämme AP, joka on julkisesti saatavilla kirjoittajien verkkosivun (https://www.psi.toronto.edu/index.php?q=affinity\\%20propagation). Kaikki jäljellä olevat algoritmit löytyisi niin MATLABin sisäänrakennettuja toimintoja.

aineistot

Synthetic Tietoaineistot.

GBHC-TREE ja GBHC-NODE tulisi suorittaa hyvin, jos oletukset A1-A3 täyttyvät. Kuitenkin todellinen ekspressiotietojen odotetaan olevan ole täysin tyytyväinen Gaussin seoksen olettamus, ja korrelaatio datamuuttujilla on mahdollista. On erittäin tärkeää arvioida suorituskykyä GBHC-TREE ja GBHC-NODE verrattuna muihin klusterointialgoritmeja kun jotkut oletuksia rikotaan. Täällä käytämme synteettisiä aineistoja tutkia GBHC-TREE ja GBHC-solmun kolme eri vaihtoehtoa seuraavasti (ks S2 Materiaali S1 lisätietoja siitä, miten tiedot luodaan).

Synthetic Dataset1: seos Gaussin jakaumat ja Independent Data muuttujat.

1000 havaintoja 10-ulotteinen satunnaisvektorin ovat peräisin seoksesta 7 monimuuttujatestausta Gaussin jakaumat, jossa jokainen monimuuttuja Gaussin jakaumalla on diagonaalinen kovarianssimatriisi. Sitten normalisoidaan.

Synthetic Dataset2: seos Gaussin jakaumat ja Correlated Data muuttujat.

Samalla tavoin kuin ensimmäisessä skenaariossa, 1000 havainnot 10-ulotteinen satunnaisvektorin ovat peräisin seoksesta 7 monimuuttujatestausta Gaussin jakaumat, mutta kovarianssimatriisi kunkin monimuuttujatestauksen Gaussin on ei-diagonaalinen merkinnät, jotka poikkeavat nollasta. Sitten normalisoidaan.

Synthetic Dataset3: seos erilaisia ​​jakaumia.

tuottaa 1000 havaintoja 10-ulotteinen satunnaisvektorin seoksesta 7 eri monimuuttujatestauksen jakaumat. Ensimmäistä 6 monimuuttujatestauksen sekoitteen komponentit, nimittäin Gauss, gamma, yhtenäinen, opiskelijan t, Weibull, ja khiin neliö jakaumat, satunnaismuuttujat eri mitat ovat riippumattomia. Viimeisen monimuuttuja komponentin seos, joka on Gaussin jakauma, on korrelaatio satunnaismuuttujien eri ulottuvuuksissa. Tämä aineisto on normalisoitu ennen käyttöä.

Gene Expression Tietoaineistot.

Suorituskyky kaikille edellä mainituille klusterointialgoritmeja arvioidaan läpi 11 syöpä aineistoja, kuten taulukossa 2. Blood1, Blood2, luuytimen, Brain1, Brain2, Colon, Multi-tissue1, Multi-tissue2, Prostate1 ladataan https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer/datasets.htm. Nämä aineistot ovat jo suodatetaan protokollan mukaan kuvattu [25]. Me tehden jokaisesta aineisto mukaan ja normalisoida se ennen.

Prostate2 ladataan Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) (GDS1439). Aineisto on muunnettava ja sitten suodatetaan Wilcoxonin-summa testi merkitsevyystasolla 0,001. Testi suoritetaan ryhmän välillä hyvänlaatuinen ja ryhmä primaarinen ja metastaattinen. Aineisto on normalisoitu ennen käyttöä.

Lung on saatavana Gene Expression Omnibus (GSE44447). Microarray kokeilu näistä tiedoista tehtiin Agilent SurePrint G3 Human Gene Expression 8 × 60 K mikrosiruja (Agilent Technologies, Wokingham, UK), käyttäen keuhkojen kudoksia, jotka oli eettisesti mukaisesti hyväksytty Monikeskustutkimuksessa Research eettisen komitean (Koy) hyväksyntää. Kokeen tarkoituksena oli verrata geenin ilmentymisen profiilit kahden läheisesti korkealaatuista neuroendocrine karsinoomat, pieni cacinoma ja suuri solu neuroendocrine karsinooma, joita on vaikea luokitella oikein silloinkin, keuhkojen patologia. Raaka ilme Aineisto käsiteltiin käyttämällä R Bioconductor paketti

Limma

(https://www.bioconductor.org/packages/2.10/bioc/html/limma.html), lössi ja quantiled normalisoitu ja korjattuna erän vaikutus käyttämällä

Combat

(https://www.bu.edu/jlab/wp-assets/ComBat/Abstract.html). Suodatamme tietoaineiston käyttäen Wilcoxonin-summa testi testaa eroa normaalin ja syövän ryhmiä merkitsevyystasolla 0,001, ja normalisoida se ennen klustereiden.

Clustering Performance Indeksit

Käytämme kaksi käyttötiedot arvioida klustereiden suorituskyky: (i) säätää Rand-indeksi (ARI) [28] ja, (ii) biologinen homogeenisuus indeksi (BHI) [29]. Vuonna klusterointi synteettisen datan, koska todellinen osio tietojen luokkia tunnetaan, ARI käytetään mittana välisen klustereiden osio ja todellisen osio. ARI saanut pari väliseinien välillä 0 ja 1, ja korkeampi ARI pisteet merkitsevät korkeampia sopimusta. Käytämme myös ARI näytteessä klusterointi kokeessa geenien ilmentymisen datan.

geeni klusterointi geenien ilmentymisen tiedot, olemme kiinnostuneita, miten biologisesti merkityksellisiä ryhmittely tulokset ovat. BHI käytetään mittaamaan biologinen uskottavuus geenin klustereiden tuloksista algoritmilla. Se saanut osion välillä 0 ja 1, missä korkeampi pistemäärä on määritetty enemmän biologiseen homogeeninen osio perustuu viittaus toiminnallisten luokkien. Tässä tapauksessa käytämme Gene ontologia (GO) merkinnästä Bioconductor paketti (jakso S3, taulukko S1 Material S1), kun taas BHI lasketaan R paketti

clValid

[30].

tulokset ja pohdinta

Synthetic Tietoaineistot

ARI tulokset klusterointialgoritmeja on esitetty taulukossa 3, ja numerot klusterien päätellä algoritmit esitetään jaksossa S5, taulukko S2 Materiaali S1 . Tiedot kokeellisen asetus löytyy myös jaksossa S4 Material S1. Sillä silmämääräisesti klustereiden tulosten käytämme ulottuvuus vähennys lähestymistapa nimeltään t-Distributed Stokastinen naapurin upottaminen (t-SNE) [31] algoritmi vähentää ulottuvuuteen alkuperäisen synteettisen datan 2-ulotteinen Euklidinen avaruus. t-SNE karttatiedot säilyttämällä paikallinen rakenne; Näin tiedot ovat samassa ryppäässä sijoitetaan lähellä toisiaan alemmassa ulottuvuudessa. Visualisoinnit ryhmittymisen tulokset on esitetty kuvioissa 2, 3, 4

Klusterit edustavat eri värejä tai tyyppisiä merkkiaine. A) 7 todellinen klustereita. B) Clustering tulos tuottama GBHC-TREE on 7 klustereita. C) Clustering tulos tuottama GBHC-solmu on 7 klustereita. D) Clustering tulos tuotetaan AE on 7 klustereita.

Klusterit edustavat eri värejä tai tyyppisiä merkkiaine. A) 7 todellinen klustereita. B) klusterointi tulos tuottama GBHC-TREE on 14 klustereita. C) klusterointi tulos tuottama GBHC-solmu on 37 klustereita. D) klusterointi tulos tuotetaan KE on 4 klustereita.

Klusterit edustavat eri värejä tai tyyppisiä merkkiaine. A) 7 todellinen klustereita. B) Clustering tulos tuottama GBHC-TREE on 22 klustereita. C) Clustering tulos tuottama GBHC-solmu on 12 klustereita. D) Clustering tulos tuotetaan KE on 5 klustereita.

Synthetic Dataset1: seos Gaussin jakaumat ja Independent Data muuttujat.

Kun Oletukset A1-A3 täyttyvät, GBHC -puu ja GBHC-NODE outperform toiset oikein päätellä jäsenyys datapisteet sekä klusterien lukumäärä. Toisaalta, on olemassa joitakin pieniä korkeaan hajoamisen klusterointi tulokset muita algoritmeja.

Synthetic Dataset2: seos Gaussin jakaumat ja Correlated Data muuttujat.

Tapauksessa, jossa Neitsyt A2 rikotaan, esityksiä GBHC-TREE ja GBHC-NODE ovat erittäin suoritetaan korrelaatio datamuuttujilla. Kuvasta 3, voimme nähdä, että GBHC-TREE ja GBHC-NODE päätellä monia alaryhmiä varsinaisen yhden. Syynä on se, että isompi klusterin vastaaviin tietoihin tarjoaa vahvemman näyttöä siitä, että tietoja ei syntyvät mallista taustalla GBHC-TREE ja GBHC-NODE. Siten marginaalinen todennäköisyys (8) pienenee, kun klusterin suurenee, ja näin ollen GBHC-TREE ja GBHC-NODE kannattavat eivät sulautuvan pienempiä klustereita osaksi isompi mukaan Bayesin sääntö (2). Meidän kokeessa, olemme huomanneet, että hajoaminen riippuu sekä useita vastaaviin pareihin muuttujien ja korrelaatio. Kasvu joko tekijä johtaa lisääntymiseen Johdettujen alaryhmiä (ks S5, taulukot S3, S4 materiaali S1 lisätietoja).

Synthetic Dataset3: seos erilaisia ​​jakaumia.

GBHC-TREE ja GBHC-NODE pystyvät tunnistamaan kaikki klusterit syntyvät kuin Gaussin jakaumat vaikka jakaumat ovat erittäin poikkesi Gaussin jakauma, koska oletukset A1, A2 ovat tyytyväisiä.

on ilmeistä, että voimakas korrelaatio datamuuttujilla on tärkein tekijä, joka rajoittaa suorituskykyä GBHC-TREE ja GBHC-NODE. Yksi voisi yrittää muuttaa tietoja vähentää korrelaatio muuttujien ennen klusteroinnin, mutta on muistettava, että muutos saattaisi tuhota merkitys alkuperäisten tietojen muuttujia. Huolimatta hajoaminen klusterointi tuloksiin, GBHC-TREE ja GBHC-NODE vielä päihittää kaikki muut menetelmiä kokonaisuutena.

Gene Expression Tietoaineistot

vertailla näyte klustereiden ja geenin klusterointi esityksiä GBHC- TREE ja GBHC-NODE kuin muita algoritmeja. Huomaa, että geeni klusterointi, käsittelemme antureista tähystyksen ja ekspressiotasoja eri näytteitä muuttujia. Näytteen ryhmittely, on toisinpäin, näytteitä käsitellään havaintoja ja ekspressiotasoja eri koettimia käsitellään muuttujia.

näytteen klusterointia, taulukko 4 osoittaa, että GBHC-NODE ja GBHC-TREE antavat korkein ARI 4 aineistoja (Blood2, Multi-tissue2, Prostate1, Prostate2) ja 2 aineistot (Bone Marrow, Prostate2), tässä järjestyksessä. Toinen algoritmit antavat korkeimman ARI toimii korkeintaan 2 aineistoja. Ensimmäiset kolme algoritmeja, joilla on korkein keskimääräinen ARI ovat GBHC-NODE, GBHC-TREE, ja CC. Kuitenkin, ei ole merkittäviä eroja (p-arvo; § S6, taulukko S5 Material S1). Tarkkuutta päätellessään määrä näytteen luokkien (§ S6, taulukot S6, S7 Material S1), kolme ensimmäistä algoritmit ovat keskimäärin GBHC-TREE, KE, ja GBHC-NODE, mutta ei ole merkittäviä eroja (p-arvo; § S6, taulukko S8 Material S1).

geeni klusterointia, taulukko 5 osoittaa, että GBHC-NODE ja GBHC-TREE antaa parhaan BHI 2 aineistoja (Brain1, Multi -tissue2) ja 1 aineisto (Lung), vastaavasti, kun taas suurin ja keskiarvo määrä aineistoja, että jokainen algoritmi antaa parhaan BHI ovat 3 ja 1.17, vastaavasti. Keskimäärin kolme ensimmäistä algoritmit, joilla on korkein keskimääräinen BHI ovat APE, GBHC-NODE, ja GBHC-TREE. Jälleen ei ole merkittäviä eroja (p-arvo; § S7, Table S10 Materiaali S1). Määrä geeniryppäät päätellä algoritmit löytyy myös pääluokasta S7, Table S11 Materiaali S1.

kannalta suoritusajan (§ S6, Taulukko S9 ja § S7, Table S12 materiaali S1), GBHC-TREE ja GBHC-NODE ovat hitaampia kuin ei-BHC menetelmiä, koska niiden korkea laskennallinen kuormitus vaikuttivat tilastollisesta mallista ja hyperparameters optimointiin. Kuten odotettua, GBHC-TREE ja GBHC-solmu ei aina paremmin kuin muut klusterointialgoritmeja jokaisessa aineisto jälkeen taustalla rakenne luonnon data on monimutkaisempi ja yleensä eivät täytä oletusten A1-A3. Siitä huolimatta, voimme nähdä niistä tuloksista, joita GBHC-TREE ja GBHC-NODE ovat ainoat algoritmeja, jotka keskimäärin tuottaa laadukkaampaa tulosta sekä näytteen ja geenin klusterointi. Lisäksi ne ovat todennäköisesti päätellä määrä näytteen luokkia, jotka ovat lähellä todellista yhteen.

Vertailu BHC algoritmeja.

Verrattuna MBHC, näytteen klusterointi, GBHC-NODE ja GBHC-TREE suuremmat ARI kuin MBHC, mutta GBHC-NODE lisää huomattavasti tulos (§ S6, taulukko S5 Material S1). Lisäksi ne antavat huomattavasti pienempi ero pääteltyihin ja todellisen lukumäärän näytteen luokkia kuin MBHC (§ S6, taulukko S8 Material S1). Mitä suoritusaika, GBHC-NODE kulkee noin 4 kertaa nopeammin kuin MBHC, ja noin 11 kertaa nopeampi kuin GBHC-TREE näytteessä klusterointi (kohta S6, taulukko S9 Material S1). Geenien klusterointia, GBHC-NODE kulkee noin 1,2 kertaa nopeammin kuin MBHC ja noin 6,3 kertaa nopeammin kuin GBHC-TREE (jakso S7, Table S12 Materiaali S1). Toteamme, että GBHC-TREE ja MBHC ajaa hitaammin kuin GBHC-NODE koska niiden hyperparameter optimointeja ovat laskennallisvaltaiset, koska ne edellyttävät klusterointi tulos koko tietojen arvioimiseksi kohdefunktion. Siten GBHC-TREE ja GBHC-NODE voitto parani klustereiden laatua, ja GBHC-NODE myös voitot nopeutus.

Johtopäätökset

Tässä artikkelissa, esitimme mallipohjaista klusterointialgoritmi joka käyttää Gaussin seoksen Mallikohtaisen geeniekspressioprofiilien on Bayes puitteissa. Ehdotettu algoritmi, kutsua kuin Gaussin BHC tai GBHC, käyttää Gaussin seos malli yhdessä normaali-gamma ennen tuntemattoman keskiarvon ja tarkkuusparametrit seoksen komponenttien jotta kaapata luontainen tiedon rakenteen. Ehdotimme kaksi muunnelmia GBHC algoritmin: GBHC-TREE ja GBHC-NODE mukaan kahden eri hyperparameter optimointi järjestelmiä. Laaja vertailu nämä vaihtelut ja muita tunnettuja klusterointialgoritmeja suoritettiin perustuva 3 synteettisiin aineistot ja 11 syövän aineistoja. Koetulokset synteettisiin aineistot osoittivat, että GBHC-TREE ja GBHC-NODE, yleensä ylitti muut klusterointialgoritmeja jos tiedot normalisoituivat ja voisi hyvin edustaa sekoitus monimuuttujatestauksen Gaussin jakaumat jossa jokainen variate oli riippumaton muista. Vaikka tiedot olivat erittäin poikennut seoksesta monimuuttujatestauksen Gaussin jakaumat tai oli kohtalainen korrelaatio muuttujien välillä, GBHC-NODE ja GBHC-TREE vielä paransi klusterointi tuloksia. Geenien ilmentyminen klusterointia, sekä GBHC-TREE ja GBHC-NODE antoivat vahvoja esityksiä koko. Ne tuotetaan johdonmukaisesti laadukkaampaa tuloksia sekä näyte geeni klustereiden ja olivat todennäköisemmin kuin muut klusterointialgoritmeja päätellessään tosiasiallisten näytteen luokkiin. Verrattuna MBHC joka on edellinen laajennus BHC varten microarray tietojen GBHC algoritmit oli myös parempi klustereiden esityksiä. Edelleen, meidän muotoilu log-todennäköisyys pystyimme käyttämään konjugaattigradienttimenetelmä algoritmi tehokkaasti löytää optimaalinen hyperparameters johtaa GBHC-SOLMUN variantti on keskimäärin yli 10 kertaa nopeammin kuin GBHC-TREE variantti algoritmimme tinkimättä klustereiden suorituskykyä.

Saatavuus

MATLAB täytäntöönpano GBHC-TREE ja GBHC-NODE ovat saatavilla https://sites.google.com/site/gaussianbhc/

tukeminen tiedot

Material S1.

Bayes hierarkkinen klusterointi opiskeluun Cancer Gene Expression Data kanssa Unknown Tilastot.

doi: 10,1371 /journal.pone.0075748.s001

(PDF) B

Kiitokset

Tekijät Kiitokset Katherine A. Heller jakaa hänen koodi alkuperäisen BHC algoritmia.

Vastaa