PLoS ONE: päättelemällä Tree Syy mallit Cancer Progression todennäköisyydellä Raising

tiivistelmä

Olemassa tekniikoita rekonstruoimaan puu malleja etenemisen akkumuloidulle prosesseissa, kuten syövän, pyrkivät arvioimaan syy yhdistämällä korrelaatio ja frekventistisiin käsite ajallinen prioriteetti. Tässä artikkelissa, me määrittelemme uusi teoreettinen kehys kutsutaan CAPRESE (syövän etenemisessä Uuttamalla Single reunat) rekonstruoida tällaisia ​​malleja perustuu käsitteeseen todennäköisyyksiin syy määritelty Suppes. Pidämme yleinen rekonstruktio asetus monimutkaistaa melun tietojen takia biologinen vaihtelu sekä kokeellista tai mittausvirheitä. Parantaa sietokykyä melulle määrittelemme ja käyttää kutistuminen kaltainen estimaattori. Me todistaa oikeellisuuden algoritmimme näyttämällä asymptoottinen lähentyminen oikean puun miedoissa rajoitteita melutasosta. Lisäksi synteettisiin tiedot, osoitamme, että lähestymistapamme päihittää state-of-the-art, että se on tehokas jopa suhteellisen pieni määrä näytteitä ja että sen suorituskyky nopeasti konvergoi sen asymptootti kun näytteiden määrä lisääntyy. Oikeasti syöpä aineistoja saadaan eri teknologioihin, korostamme biologisesti merkittäviä eroja progressions päätellä suhteessa muihin kilpaileviin tekniikoita ja myös osoittaa, kuinka validoida conjectured biologisia suhteita etenemiseen malleja.

Citation: Loohuis LO, Caravagna G, Graudenzi A, Ramazzotti D, Mauri G, Antoniotti M, et al. (2014) päättelemällä Tree Syy mallit Cancer Progression todennäköisyydellä Raising. PLoS ONE 9 (10): e108358. doi: 10,1371 /journal.pone.0108358

Editor: Lars Kaderali, Technische Universität Dresden, lääketieteellisen tiedekunnan, Saksa

vastaanotettu: 11 huhtikuu 2014; Hyväksytty: 27 elokuu 2014; Julkaistu: 09 lokakuu 2014

Copyright: © 2014 Olde Loohuis et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Data Saatavuus: Tällä kirjoittajat vahvistavat, että kaikki tiedot taustalla olevat havainnot ovat täysin saatavilla rajoituksetta. Kaikki tiedot sisältyvät paperin.

Rahoitus: Tätä työtä tukivat National Science Foundation myöntää CCF-0836649 ja CCF-0926166 ja Lombardian alueella (Italia) alle tutkimushankkeet RetroNet kautta ASTIL [12 -4-5148000-40]; UA 053 ja nedd Project [ID14546A Rif SAL-7] Fondo Accordi Istituzionali 2009. rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: kirjoittajat ovat ilmoittaneet, ettei kilpailevia etuja olemassa.

Johdanto

Syöpä on sairaus evoluution. Sen aloittaminen ja eteneminen aiheutuvat dynaamiset somaattisia muutoksia genomin ilmeni pistemutaatioita, rakenteelliset muutokset, DNA: n metylaation ja histonimodifikaation muutokset [1].

Nämä genomiset muutokset syntyvät satunnaisia ​​prosesseja, ja koska yksittäiset kasvain solut kilpailevat tilaa ja resursseja, luonnonvalinta variantit ovat luonnollisesti valittu. Jos esimerkiksi läpi mutaatioiden solu hankkii kyvyn sivuuttaa anti-kasvua signaaleja ruumiista, tämä solu voi menestyä ja jakaa, ja sen jälkeläiset voivat lopulta hallitsevat joitakin osa (t) kasvain. Tämä

kloonilaajenemisen

voidaan pitää

diskreetti tila

syövän etenemisen, merkitty hankinta joukko geneettisiä tapahtumia. Syöpä etenemistä voidaan ajatella sekvenssin näistä erillisin askelin, jossa kasvain hankkii tiettyjä erillisiä ominaisuuksia kussakin tilassa. Eri eteneminen sekvenssit ovat mahdollisia, mutta jotkut ovat yleisempiä kuin toiset, eikä jokainen järjestys on toteuttamiskelpoinen [2].

Viimeisten kahden vuosikymmenen aikana monia erityisiä geenejä ja geneettisiä mekanismeja, jotka osallistuvat eri syöpätyyppien on tunnistettu (katso esimerkiksi [3], [4] yleiskatsaus yhteisiä syövän geenien ja [5], [6] tiettyjä geneettisiä analyysejä munasarja- ja keuhkojen adenokarsinooma, vastaavasti), ja

hoitoja

kohdistaminen aktiivisuus näiden geenien kehitetään nyt nopeaan tahtiin [2]. Mutta valitettavasti

syy ja ajalliset suhteet

joukossa geneettisiä tapahtumia ajo syövän etenemisen pysyvät suurelta osin hämäräksi.

Suurin syy tähän tilanteeseen on se, että tieto paljastuu data saadaan tavallisesti vain yksi (tai muutaman) ajankohtina, sen sijaan yli taudin kulkuun. Puran tämän dynaamisen tiedon käytettävissä

poikkileikkaus

data on haastavaa, ja yhdistelmä matemaattisia, tilastollisia ja laskennallisia menetelmiä tarvitaan. Viime vuosina useita menetelmiä poimia etenemistä malleja poikkileikkaustiedot on kehitetty, alkaen uraauurtava työ yksireittinen-malleja Fearon ja Vogelsteinin [7]. Erityisesti erimallisia oncogenetic puiden kehitettiin vuosien varrella. Ytimessä joitakin näistä menetelmistä, esim. [8], [9], on käyttää

korrelaatio

tunnistaa välisiä suhteita geneettisiä tapahtumia. Nämä tekniikat rekonstruoida

puu

malleja etenemistä itsenäisinä asyklisiä polkuja oksat eikä jokien yhtymäkohdista. Distinct malleja oncogenetic puiden sijaan perustuvat

suurimman uskottavuuden estimointi

, esimerkiksi [10], [11], [12]. Yleisempiä

Markovin ketju

malleja, esim [13], kuvaavat joustavampi todennäköisyyspohjaisiin verkkoja, vaikka laskennallisesti kallis parametriestimoinnissa. Muita viime mallit ovat konjunktiivista Bayesian Networks, CBNs [14], [15], että ote

suunnattu syklitön verkko

, mutta määräämällä erityisrajoitteiden yhteisestä tapahtumien esiintymisestä. Lopuksi hieman eri yhteydessä ajallinen malleja rekonstruoitiin aika-kurssi geenien ilmentyminen tietoja [16], [17].

Tässä raportissa esitellään uusi teoreettinen kehys kutsutaan CAPRESE (syövän etenemisessä Uutto Single reunat) rekonstruoida kumulatiivinen progressiivinen ilmiöitä, kuten syövän etenemistä. Oletamme alkuperäiseen ongelmaan asetus [8], ja ehdottaa uutta tekniikkaa päätellä

todennäköisyyksiin etenemistä puut myynnissä maassa poikkileikkaustiedot. Toisin kuin suurin todennäköisyys arvioihin perustuvia tekniikoita, tavoitteenamme on louhinta

minimaalinen

etenemisen malli selittää, missä järjestyksessä mutaatioita esiintyy ja kerääntyä. Menetelmä on teknologia agnostikko, eli sitä voidaan soveltaa aineisto on peräisin kaikenlaisia ​​(epi) geneettiset tiedot kuten syvä exome sekvensointi, bisulfiitti sekvensointi, SNP paneelit, jne., (Katso tulokset), ja ottaa syötteenä joukko ennalta valitun geneettisiä tapahtumia, joiden läsnäolo tai puuttuminen kunkin tapahtuman kustakin näytteestä.

CAPRESE perustuu kahteen tärkeimmät ainesosat: sijaan käyttämällä

korrelaatio

päätellä etenemistä rakenteet, emme perusta tekniikka on käsite

todennäköisyyspohjaisiin syy

, ja lisäämään kestävyyttä melulta, hyväksymme

kutistuminen kaltainen estimaattori

mitata syy keskuudessa tahansa pari tapahtumia. Tarkemmin sanottuna osalta ensimmäinen ainesosa, hyväksymme käsite (alustava) syy ehdottamat Suppes in [18]. Sen perustehtävä intuitio on yksinkertainen: tapahtuma aiheuttaa tapahtuma jos ilmenee

ennen

ja esiintymistä

nostaa todennäköisyyttä

tarkkailla. Tämä on hyvin yksinkertainen käsite Todennäköisyyspohjaisia ​​syy, joka ei sinänsä käsitellä monia ongelmia, jotka liittyvät sen (kuten epäsymmetria, yleisiä syitä, ja seulonta pois [19]), ja se sisältää

näennäisiä

sekä

aito

aiheuttaa. Kuten on käynyt ilmi, tämä perusajatus yhdistettynä suodatin riippumaton progressions alkaen samasta juuresta, on erinomainen työkalu opastaa etenemistä uuttamalla poikkileikkaustiedot – yksi, joka päihittää yleisesti käytetty korrelaation perustuvia menetelmiä.

Todennäköisyyspohjainen syy käytettiin biolääketieteen sovelluksissa ennen (esim löytää kuljettajan geenejä CNV tietojen [20], ja poimia syitä biologisesta aikasarjan tietoja [21]), mutta parhaan tietomme koskaan päätellä

etenemistä malleja

puuttuminen

suoran ajallisen tiedon.

louhinta ongelmaa monimutkaistaa sekä vääriä positiivisia ja vääriä negatiivisia huomautuksia (ks [22], jossa käsitellään tästä asiasta perustuu jälleenrakentamisen [8]), kuten yhden tarjoamia luontainen vaihtelu biologisten prosessien (esim

geneettinen heterogeenisyys

) ja

menetelmävirheiden

. Tämä aiheuttaa ongelman, koska vaikka todennäköisyys lisääminen on erittäin tarkka työkalu, se itsessään ei ole riittävän luotettava melulta. Ehdollinen määrästä kohinaa, me riippuvat sekä todennäköisyyksiin syy ja vankempi (mutta vähemmän tarkka) korrelaatio perustuva metrinen optimaalisella tavalla. Siksi meidän esitellä meidän toinen ainesosa, joka on

kutistuminen kaltainen estimaattori

mitata syy keskuudessa tahansa pari tapahtumia. Intuitio taustalla estimaattorin, joka on läheistä sukua kutistuminen estimaattorin alkaen [23], on löytää optimaalinen tasapaino todennäköisyyden lisääminen toisaalta ja korrelaatio toisaalta määrästä riippuen melua.

Me todistaa oikeellisuutta algoritmimme osoittamalla, että yhä otoskoot, rekonstruoitu puu asymptoottisesti lähestyy oikea (Lause 3). Lievissä rajoituksia melun hinnat, tämä tulos pätee jälleenrakentamiseen ongelma läsnäollessa yhtenäinen melusta sekä.

Tutkimme myös suorituskykyä CAPRESE todenmukaisempiin asetukset rajoitettu otoskokoja. Käyttäen synteettistä tiedot, osoitamme, että näissä olosuhteissa, meidän algoritmi päihittää state-of-the-art puu rekonstruointialgoritmi of [8] (katso tulokset). Erityisesti meidän kutistuminen kaltainen estimaattori tuottaa keskimäärin lisääntynyt herkkä melulle, joka takaa sen parempaan oncotrees [8]. Suorituskyky on määritellään

rakenteellinen samankaltaisuus

välillä rekonstruoitu puu ja todellinen puu, eikä niiden aiheuttamaa jakelun kuten tehdään esimerkiksi siinä [11]. Tämä tieto on erityisen sopiva tavoite rekonstruoimiseksi etenemisen malli, jossa data-todennäköisyys fit on toissijainen ”kutsuvan” mahdollisesti minimaalinen joukko kausaalisuhteiden.

Lisäksi osoitamme, että CAPRESE toimii hyvin jo suhteellisen pieni määrä näytteitä ja että sen suorituskyky nopeasti konvergoi sen asymptootti kun näytteiden määrä lisääntyy. Tämä tulos vihjeitä sovellettavuutta algoritmin suhteellisen pieni aineistot vaarantamatta tehokkuutta.

huomauttaa, että jatkotutkimuksiin synteettisiin tiedot viittaavat siihen, että CAPRESE päihittää tunnettu Bayesian probabilistic graafisen mallin sekä (eli

konjunktiivisessa Bayes-verkot

[14], [15]), joka oli alun perin jälleenrakentamiseksi monimutkaisempia topologioita, esimerkiksi DAG, mutta oli osoittautunut tehokkaaksi palautuksessa puurakenteita sekä [24] (ks Results).

Lopuksi sovellamme tekniikkaa muutoksia arvioidaan sekä Vertaileva Genominen Hybridisaatio ja Next Generation Sequencing tekniikoita (katso tulokset). Edellisessä tapauksessa, osoitamme, että algoritmi [8] ja CAPRESE highlight biologisesti merkittäviä eroja munasarja-, ruoansulatuskanavan ja suun syöpä, mutta meidän johtopäätökset ovat tilastollisesti merkittäviä. Jälkimmäisessä, me vahvistaa äskettäin löydetty välisestä suhteesta kaksi keskeistä geenien leukemia.

Methods

Ongelmanasettelu

perustamiseen jälleenrakennuksen ongelma on seuraava . Olettaen, että meillä on joukko mutaatioita (

tapahtumien

, vuonna todennäköisyyksiin terminologia) ja näytteet, me edustavat poikkileikkauksen aineisto kuin binary matriisi, jossa merkintä, jos mutaatio havaittiin näytteessä, ja toisin. Ongelma ratkaisemme tässä asiakirjassa on poimia joukko reunoja antaen etenemistä

tree

tästä matriisi, joka meillä huomautus, vain epäsuorasti antaa tietoa etenemisen ajoitus. Juuri mallinnetaan käyttäen (erikois) tapahtuma siten, että

heterogeeninen etenemisen reittejä

tai

metsien

voidaan rekonstruoida. Tarkemmin sanottuna pyrimme rekonstruoimiseksi

juurtunut puu

joka tyydyttää: jokaisella solmulla on korkeintaan yksi saapuvan reuna, juuri ei ole saapuvia reunat ole

sykliä

.

Jokainen etenemistä puu subsumes jakautuminen tarkkailla osajoukon mutaatioiden syöpä näyte, joka voidaan virallistaa seuraavasti:

Määritelmä 1. (puu aiheuttama jakelu)

Anna

olla puu ja

leimaavan toiminnon ilmaiseva riippumaton todennäköisyys kunkin reunan,

generoi jakelun jossa havaitsemisen todennäköisyys näytteen kanssa joukon muutoksia

on

(1)

, jossa kaikki tapahtumat

oletetaan olevan tavoitettavissa juuresta

, ja

on joukko reunat yhdistävät juuresta tapahtumien

.

Haluamme korostaa kahta liittyvät ominaisuudet puiden aiheuttama jakeluun. Ensimmäinen, jakelu subsumes, että koska mitään suuntautunut reuna, joka on havaittu näyte sisältää muutoksen todennäköisyydellä, joka on havaitsemisen todennäköisyys jälkeen. Tästä syystä, jos syyt, havaitsemisen todennäköisyys on suurempi kuin todennäköisyys tarkkailemalla vastaavasti ajallista prioriteettiperiaatteesta jonka mukaan kaikki syyt täytyy edeltää ajoissa, niiden vaikutukset [25].

Toiseksi tulo aineisto on joukko näytteitä syntyy, ihannetapauksessa tuntemattomasta jakautuminen aiheuttamien tuntematon puu tai metsä että pyrimme uudelleenrakentamisen. Kuitenkin joissakin tapauksissa, voi olla, että ei puu olemassa, joiden aiheuttama jakelu generoi

juuri

näitä lähtötietoja. Kun näin tapahtuu, laite havaittujen näytteiden hieman poikkeaa yhtään puuta aiheuttamaa jakelun. Mallintaa nämä tilanteet käsitteeseen

kohinaa

voidaan ottaa käyttöön, joka riippuu asiayhteydestä, jossa tietoja kerätään. Lisäämällä melu mallin mutkistaa jälleenrakentamiseen ongelma (katso tulokset).

oncotree

lähestymistapaa.

[8] Desper

et al.

kehittänyt menetelmän purkaa etenemiseen puut, nimeltään

”oncotrees”

, staattinen CNV tiedot. In [22] Szabo

et al.

Laajennettiin asettamiseen Desper jälleenrakentamiseen ongelma huomioon sekä

vääriä positiivisia

ja

negatiivit

että lähtötietoja. Näissä oncotrees, solmut edustavat CNV tapahtumia ja reunat vastaavat mahdollisia progressions yhdestä tapahtumasta toiseen.

jälleenrakennus Ongelma on juuri edellä kuvatulla tavalla, ja jokainen puu on juurtunut erityinen tapahtuma. Valinta, joka reuna sisällyttää puu perustuu arvioijan (2), joka antaa jokaiselle reunan painoarvoltaan sekä suhteellinen että yhteinen taajuuksilla tapahtumista – näin mittaus

korrelaatio

. Estimaattorin arvioidaan jälkeen myös kuhunkin näyte aineisto. Tässä määritelmässä oikeanpuoleisin termi on (symmetrinen)

uskottavuussuhde

varten ja esiintyvät yhdessä, kun taas äärimmäisenä vasemmalla on epäsymmetrinen

ajallinen prioriteetti

mitataan esiintymistiheys. Tämä implisiittinen muoto ajoitus oletetaan, että jos esiintyy

useammin

kuin, niin se todennäköisesti tapahtuu

aikaisemmin

, mikä tyydyttää

oncotree on juurtunut puu joiden kokonaispaino ( eli summa painot reunojen) on maksimoitu, ja voidaan rekonstruoida vaiheissa käyttäen Edmond algoritmia [26]. Rakenteeltaan, saatu kuvaaja on oikea puu juuret ovat: kussakin tapauksessa esiintyy vain kerran,

jokien yhtymäkohdista

ovat poissa, toisin sanoen, tapauksessa aiheuttaa enintään yksi muu tapahtuma. Tätä menetelmää on käytetty johtamaan progressions eri syövän aineistoja esimerkiksi [27], [28], [29]), ja vaikka useita menetelmiä, jotka ulottuvat tämän kehyksen olemassa (esim [9], [11], [15] ), parhaan tietomme mukaan se on tällä hetkellä ainoa menetelmä, joka pyrkii ratkaisemaan täsmälleen sama ongelma kuin yksi tutkittu tässä paperin ja tarjoavat siten vertailtaessa vastaan.

todennäköisyyspohjaisen lähestymistapa syy

lyhyesti läpi lähestymistapaa todennäköisyyspohjaiset syy, johon meidän menetelmä perustuu. Saat laajan keskustelun tästä aiheesta viittaamme [19].

uraauurtavan [18], Suppes ehdotti seuraavaa käsite.

Määritelmä 2. (Probabilistic syy, [18] ).

Mistään kaksi tapahtumaa

ja

, esiintyvät vastaavasti ajoittain

ja

alla lievä oletukset,

tapahtuma

on ensi näkemältä syynä tapahtuman

jos se tapahtuu ennen kuin vaikutus ja syy nostaa todennäköisyyttä vaikutus, eli

(3) B-

Kuten [19] edellä mainitut ehdot eivät yleensä riitä väittää, että tapahtuma on syynä tapahtuman. Itse asiassa ensi näkemältä syynä on joko

aito

tai

vääriä

. Jälkimmäisessä tapauksessa, että olosuhteet pitää huomautuksissa johtuu joko sattumaa tai läsnäolo tietyn kolmannen

sekoittava tekijä

, liittyvät sekä ja [18]. Aito syitä, sen sijaan, täyttävät Määritelmä 2 ja eivät ole seulotaan pois millään sekoittavia tekijä. Kuitenkin, niiden ei tarvitse olla suoria syitä. Katso kuva 1.

Esimerkki alustavaa topologia, jossa kaikki reunat ovat ensi näkemältä syitä, mukaan Määritelmä 3: on todennäköisyys nostaja ja se tapahtuu useammin. Vuonna jäljellä, me suodattaa vääriä syyt ja valita vain oikeita joukossa aito tuottaen yhden syyn alustavaa topologia.

Huomaa, että pidämme poikkileikkaustiedot jossa mitään tietoa ja on saatavilla, joten meidän jälleenrakennukseen ympäristössä olemme rajoitettu harkita ainoastaan ​​

todennäköisyys nostamalla

(PR) omaisuus, eli, mikä vaikeuttaa syrjiä aito ja väärä syistä. Nyt tarkistaa joitakin sen ominaisuuksia.

Lause 1. (Riippuvuus).

Kun

PR

pitää kahden tapahtuman välillä

ja

, niin tapahtumia

tilastollisesti riippuvaisia ​​

positiivisessa mielessä, eli

(4) B

Tämä ja seuraava ehdotus ovat tunnettuja tosiasioita PR; niiden johto sekä todisteet kaikki tulokset esittelemme on File S1. Huomaa, että päinvastainen vaikutuksia pätee myös: kun tapahtumat ja ovat edelleen riippuvaisia ​​mutta kielteisessä mielessä, eli, PR ei pidä, eli.

Haluamme käyttää epäsymmetrisyys PR onko pari tapahtumia ja tyydyttää syy suhteen niin ennen etenemisessä puussa, mutta valitettavasti PR täyttää seuraavat omaisuutta.

Lause 2. (Mutual PR). .

Eli jos nostaa havaitsemisen todennäköisyys, nostaa sitten havaitsemisen todennäköisyys liikaa.

Kuitenkin, jotta voidaan määritellä syy-seuraus joukossa geneettisiä tapahtumia, voimme käyttää

luottamus

meidän arvio todennäköisyys nostaa päättää suuntaan syy suhdetta paria tapahtumia. Toisin sanoen, jos nostaa todennäköisyys

enemmän

kuin päinvastoin, niin on todennäköisempää syy kuin. Huomaa, että tämä on terve niin kauan kuin jokainen tapahtuma on

korkeintaan

yksi syy; muuten,

usein myöhässä tapahtumia

on enemmän kuin yksi syy, jotka ovat melko yleisiä biologisia progressiivinen ilmiöitä, tulisi kohdella eri tavalla. Kuten on mainittu, PR ei ole symmetrinen, ja

suuntaan

todennäköisyydellä lisääminen riippuu suhteellisesta taajuuksilla tapahtumista. Teemme tätä epäsymmetriaa tarkkoja seuraavassa ehdotus.

Lause 3. (Probability lisääminen ja ajallinen prioriteetti).

Mistään kaksi tapahtumaa

ja

siten, että todennäköisyys lisääminen

pitää, olemme

(5) B

Eli, koska PR pitää kahden tapahtuman välillä, herättää todennäköisyys

enemmän

kuin nostaa todennäköisyyttä, jos ja vain jos havaitaan useammin kuin. Huomaa, että käytämme suhde arvioida PR eriarvoisuutta. Todiste tästä ehdotus on tekninen ja löytyy File S1. Tästä tuloksesta seuraa, että jos me mitataan ajoitus tapahtumana osuus sen esiintyminen (eli merkitsee, että tapahtuu ennen), tämä käsite PR subsumes saman käsitteen ajallista ensisijaisia ​​aiheuttama puun. Olemme myös huomauttaa, että tämä on myös ajallinen prioriteetti mainittava selvästi kertoimien Desper menetelmällä. Näiden tulosten, määritellään seuraavasti käsite syy.

Määritelmä 3.

esitämme, että

on ensi näkemältä syynä

jos

on todennäköisyys nostaja

, ja sitä esiintyy useammin:

termi

alustavaa topologia

suunnatun asyklinen graafi (yli joitakin tapahtumia), jossa kunkin reunan edustaa alustavaa syy. Kun korkeintaan yksi saapuva reuna on kullekin tapahtumaan (eli tapahtuma on korkeintaan

ainutlaatuinen syy

, todellisessa maailmassa), kutsumme tätä rakennetta

yhden syyn alustavaa topologia

. Intuitiivisesti tämä viimeinen luokka topologies vastaavat puita tai yleisemmin metsät, kun ne on irrotettu osia, jotka pyrimme uudelleenrakentamisen.

Ennen siirtymistä käyttöön algoritmimme voimme keskustella meidän määritelmä

syy

, sen asema määriteltäessä jälleenrakentamisen ongelmia ja joitakin sen rajoituksia. Kuten jo mainittiin, voi olla, että joillekin alustavaa syy tapahtuman, on kolmas tapahtuma ennen molemmat, niin että syyt ja lopulta aiheuttaa. Vaihtoehtoisesti voi aiheuttaa sekä ja itsenäisesti, ja syy suhde havaita ja on pelkästään

vääriä

. Yhteydessä puiden jälleenrakennuksen ongelma, nimittäin kun oletetaan, että jokainen tapahtuma on korkeintaan ainutlaatuinen syy, tavoitteena on suodattaa pois väärä reunat yleisestä alustavaa topologian, joten poimia yhden syyn alustavaa rakenne (katso kuva 1).

Määritelmä 3 esitetään Suppes perusajatus alustavaa syy, kun se sivuuttaa syvemmälle keskusteluja aiheuttamisperiaatteelle jotka tähtäävät erottamaan todelliset aito ja väärä syistä, esimerkiksi seulonta-off, tausta yhteydessä d-erottelu [30], [31], [19]. Meidän tarkoituksiin kuitenkin edellä mainittu määritelmä on riittävä, kun kaikki merkittävät haittavaikutukset ovat, eli kaikki aito syyt havaitaan suljettuun maailman oletus, ja pyrimme purkanut

järjestyksessä

etenemisen keskuudessa niitä (tai määrittää, että ei ole ilmeistä suhteen), sen sijaan talteen syy-

sinänsä

. Huomaa, että nämä oletukset ovat vahvoja ja voisi heikentyä tulevaisuudessa (ks Keskustelut), mutta ovat yhteisiä meille ja [8].

Lopuksi muistamme muutama algebrallisia tarvittavat vaatimukset meidän kehys on hyvin on määritelty. Ensinnäkin, PR on laskettavissa: jokainen mutaatio olisi noudatettava todennäköisyydellä tiukasti. Lisäksi tarvitaan kunkin parin mutaatioiden olla

erotettavissa

kannalta PR, joka on kunkin parin mutaatioiden ja, tai samalla tavalla kuin edellä mainittu edellytys. Mikä tahansa ei-erotettavissa parin tapahtumia voidaan yhdistää yhdeksi komposiitti tapahtuma. Tästä lähtien, oletamme nämä ehdot voidaan varmentaa.

Suorituskyky toimenpide ja synteettiset aineistot

hyödyntäneet

synteettinen data

arvioida suorituskykyä CAPRESE kuin funktio aineisto koko ja vääriä positiivisia ja negatiivisia hintoja. Monia erilaisia ​​synteettisiä aineistoja luotiin tätä tarkoitusta varten, kuten jäljempänä selitetään. Algoritmi suorituskykyä mitattiin kannalta

Tree Edit Etäisyys

(TED, [32]), eli pienin kustannuksin sekvenssi solmun muokkaustoimintojen (relabeling, deleetion ja insertion), joka muuttaa rekonstruoitu puut osaksi ne tietojen tuottamiseen. Valinta Tämän toimenpiteen arviointi on perusteltu sillä, että olemme kiinnostuneita

rakenne

takana asteittainen ilmiö syövän kehittyminen ja erityisesti olemme kiinnostuneita mitta aidon syitä, menetämme ja vääriä syitä, emme tunnusta (ja poistaa). Lisäksi, koska topologiat samanlaisia ​​jakaumien voi olla rakenteeltaan erilainen päätämme suorituskyvyn mittaamiseksi käyttämällä rakenteellisia etäisyys sijaan matkan suhteen jakaumat. Sisällä valtakunta rakenteellinen mittareita ”olemme kuitenkin myös arvioineet suorituskykyä

Hamming Etäisyys

[33], toinen yleisesti käytetty rakenteellinen metristä, ja saimme analogisia tuloksia (ei kuvassa).

Synteettinen luonti ja kokeellinen ympäristössä.

Synteettiset aineistoja kertyi näytteitä eri satunnainen puista pakko syvyyttä, koska leveä oksat ovat vaikeampi rekonstruoida kuin polut, ja ottamalla näytteitä tapahtuma todennäköisyydet (katso File S1).

Ellei nimenomaisesti mainita, kaikissa kokeissa käytettiin erillistä satunnaisia ​​puita (tai metsiä, vastaavasti testin suorittamiseksi) tapahtumien jokaisen. Tämä tuntuu melko kohtuullinen määrä tapahtumia ja on sopusoinnussa tavanomaisen koon rekonstruoitu puita, esim. [34], [35], [36], [37].

skaalautuvuus

tekniikoita testattiin määrä näytteitä vaihtelevat, sen kanssa vaiheen, ja monistamalla riippumattomat aineistoja jokaiselle parametrien asetus (katso kuvatekstin lukujen lisätietoja).

sisältyi muotoa

melu

generoimaan aineistot, jotta selittämään realistisen läsnäolon

biologista kohinaa

(kuten yhden tarjoamia sivustakatsoja mutaatioita, geneettinen heterogeenisyys jne) ja

menetelmävirheiden

. Kohinan parametri merkitsee todennäköisyyttä, että joka tapauksessa oletetaan, satunnaisen arvon (yhtenäiset todennäköisyys), näytteenoton jälkeen puusta aiheuttama jakeluun. Algoritmien tämä prosessi merkitsee keskimäärin satunnainen merkinnät kussakin näytteessä (esim olemme keskimäärin yksi virhe per näyte). Haluamme arvioida, nämä meluisia näytteet voivat virheellisesti jälleenrakennusprosessiin, jopa alhainen arvoja. Huomaa, että olettaen tasaisesti jakautunut saattaa esiintyä häiriöitä yksinkertaistettu koska jotkut tapahtumat voivat olla vakaampi, tai helppo mitata, kuin toiset. Kuitenkin käyttöön datan sekä

vääriä positiivisia

(nopeudella) ja

negatiivisten

(nopeudella) tekee päättelyn ongelma olennaisesti vaikeampaa, ja tutkittiin ensin vuonna [22].

tulokset-osiossa viitataan tietosarjat intensiteetillä kuin meluisa synteettinen aineisto. Vuonna numeerinen kokeita, on yleensä diskretointi on suoritettu, (eli melu).

Tulokset

Puran etenemistä puut todennäköisyydellä lisäämistä ja kutistuminen kaltainen estimaattori

CAPRESE jälleenrakennus menetelmä kuvataan algoritmi 1. algoritmi on samanlainen Desper ja Szabo algoritmi, tärkein ero on vaihtoehtoinen paino toiminto perustuu kutistuminen kaltainen estimaattori.

algoritmi 1. CAPRESE: puumainen jälleenrakennukseen kutistuminen kaltainen estimaattori.

1: harkita joukko geneettisiä tapahtumia plus erityinen tapahtuma, lisätään jokaisen näytteen aineisto;

2: määrittää matriisin, jossa jokainen osa sisältää kutistumista -kuten estimaattori mukaan havaittu todennäköisyys tapahtumista ja;

3: [PR syy] määrittelevät puun, jossa sillä jos ja vain jos:

4: [Itsenäinen progressions suodatin] määritellä, korvata reuna reuna, jos kaikissa, se omistaa

Määritelmä 4. (Kutistuminen kaltainen estimaattori).

Määrittelemme of the kutistuminen kaltainen estimaattori

että luottamus syy suhde alkaen United

kuin

(6) B

jossa

ja

(7) B

Tämä estimaattori on samanlainen henki kutistuminen estimaattorin (katso [23]) ja yhdistää normalisoitu versio PR,

karkea arvio

, jossa on

korjauskerroin

(tässä tapauksessa korrelaatio perustuva mitta ajallisen etäisyyden keskuudessa tapahtumat), määrittämään oikea järjestys luottamus kunkin syy suhteen. Meidän on analoginen että

kutistuminen kerroin

ja voi olla Bayes tulkinta perustuu vahvuus Uskomme, että ja ovat kausaalisesti liittyvät toisiinsa ja todisteet, joka nostaa todennäköisyyttä. Koska suljetussa muodossa ratkaisu optimaalinen arvo, voidaan luottaa ristivalidointi simuloidun datan. Voima kutistuminen (ja meidän kutistuminen kaltaiset arvioijan) piilee mahdollisuus määrittää optimaalisen arvon tasapainottaa vaikutuksen korjauskerroin on raaka mallin arvion optimaalista esityksiä huonosti aiheuttamiin esiintymät päättelyn ongelman. Olennainen ero on kuitenkin välillä arvioijan ja klassista kutistuminen, että meidän estimaattori pyritään parantamaan suorituskykyä

yleinen

jälleenrakentamista, ei rajoitu suorituskykyä estimaattorin itse on laita kutistuminen. Eli metrinen indusoi tilaaminen tapahtumiin heijastaa luottamusta heidän syy. Lisäksi koska emme tee oletusta siitä taustalla jakelu, opimme sen empiirisesti rajat validointi. Seuraavassa kohdissa osoitamme, että kutistuminen kaltainen estimaattori on tehokas tapa saada tällainen tilaus varsinkin kun tiedot ovat meluisia. Vuonna CAPRESE käytämme pareittain matriisi versio estimaattorin.

Raaka estimaattori ja korjauskerroin.

Tarkastelemalla vain raaka estimaattori, me sisältäisi reunan puussa johdonmukaisesti kannalta of Määritelmä 3 (menetelmät) ja jos on paras todennäköisyys kasvattaja. Kun tapahtumia ja ovat erottamattomat kannalta ajallinen prioriteetti, mikä ei riitä päättää niiden syy-yhteys, jos sellaisia ​​on. Tämä luontainen moniselitteisyys on epätodennäköistä käytännössä vaikka periaatteessa on mahdollista. Huomaa, että tämä muotoilu on monotoninen normalisoitu versio PR suhteen.

Lause 4. (monotoninen normalisointi).

Mistään kaksi tapahtumaa

ja

meillä

(8) B

Tämä raaka malli estimaattori täyttää: kun se yleensä pari tapahtumat näkyvät disjointly (eli ne osoittavat anti- syy kuvio), kun se on yleensä ei ole syy-yhteyttä tai anti-syy voidaan päätellä ja kaksi tapahtumaa ovat tilastollisesti riippumattomia, ja kun se pyrkii, syy-yhteyden suhde kahden tapahtumaa on aito. Siksi tarjoaa kvantifiointi luottamus varten PR syy suhdetta. Itse asiassa minkä tahansa mahdollisen syy reuna, termi esitetään arvio

virheprosentti

on siis osoittajan raaka malli antaa arvion siitä, kuinka usein on itse aiheuttanut. Estimaattori on sitten normalisoidaan vaihtelevat ja.

kuitenkaan ei tarjoa yleistä kriteeri yksikäsitteistänyt keskuudessa aitoa syitä tietyn tapahtuman. Näytämme erityistapaus, jossa ei ole riittävä estimaattori. Tarkastellaanpa esimerkiksi syy-lineaarinen polku:. Tässä tapauksessa, kun arvioidaan ehdokkaan vanhemmat ja olemme: niin ja ovat aitoja syitä, vaikka haluaisimme valita sijasta. Niinpä voimme vain päätellä, että ja, eli osittainen tilaus, joka ei auta disentangle suhdetta keskuudessa ja suhteessa.

Tässä tapauksessa kertoimien avulla voidaan määrittää, kumpi kahdesta aito syyt tapahtuu lähempänä aikanaan sen (, yllä olevassa esimerkissä). Yleensä tällainen korjauskerroin antaa tietoa

ajallista etäisyyttä

tapahtumien välillä, ottaen huomioon tilastollinen riippuvuus.

Vastaa