PLoS ONE: Teksti Mining for Literature Review and Knowledge Discovery in Cancer Risk Assessment and Research

tiivistelmä

Tutkimus biolääketieteen tekstinlouhintaa alkaa tuottaa tekniikkaa, joka voi tehdä tietojen biolääketieteen kirjallisuudessa helpommin bio-tutkijoille. Yksi tämän hetken haasteista on integroida ja tarkentaa tätä teknologiaa tukemaan tosielämän tieteellisiä tehtäviä biolääketieteen ja arvioida sen hyödyllisyyttä yhteydessä tällaisia ​​tehtäviä. Kuvaamme CRAB – täysin integroitu tekstinlouhintaa työkalu on suunniteltu tukemaan kemiallisten terveysriskien arviointia. Tämä tehtävä on monimutkainen ja aikaa vievä, vaatii perusteellista tarkastelua nykyisten tieteellisiä tietoja on erityinen kemiallinen. Joka koskee ihmisen, eläimen, solu- ja muut mekanistista tietoja eri alojen biolääketieteen, tämä on erittäin monipuolinen ja siksi vaikea satoa kirjallisuudesta tietokantoihin manuaalisesti. Meidän työkalu automatisoi erottamalla asianomaisten tieteellistä näyttöä julkaisujen ja luokittelemalla sen mukaan useita laadullisia ulottuvuuksia. Kehitetty tiiviissä yhteistyössä riskinarvioijia, työkalu mahdollistaa navigoinnin luokiteltu aineisto eri tavoin ja jakaa muiden käyttäjien kanssa. Esitämme suora ja käyttäjä perustuvaa arviota, joka osoittaa, että tekniikka integroitu työkalu on erittäin tarkka, ja raportoi useita tapaustutkimuksia, jotka osoittavat, miten työkalua voidaan käyttää tukemaan tieteellinen löytö syövän riskin arviointiin ja tutkimukseen. Työmme osoittaa hyödyllisyyden tekstin kaivos putki helpottaa monimutkaisten tutkimustehtäviin biolääketieteen. Keskustelemme edelleen kehittäminen ja soveltaminen teknologiaamme muihin kemiallisten riskien arviointia tulevaisuudessa.

Citation: Korhonen A, Ó Séaghdha D, Silins I Sun L, Högbergistä J, Stenius U (2012) Text kaivostoiminta Literature Review and Knowledge Discovery in Cancer Risk Assessment and Research. PLoS ONE 7 (4): e33427. doi: 10,1371 /journal.pone.0033427

Toimittaja: Neil R. Smalheiser, University of Illinois-Chicago, Yhdysvallat

vastaanotettu 25 marraskuuta 2011; Hyväksytty: 08 helmikuu 2012; Julkaistu: 12 huhtikuu 2012

Copyright: © 2012 Korhonen et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: AK ja DOS tukevat Engineering ja fysikaalisten tieteiden tutkimusneuvosto (www.epsrc.ac.uk) avustus EP /G051070 /1 AK. LS tukee Dorothy Hodgkin jatko palkinnon. IS, USA ja JH tukee Ruotsin Research Council (https://www.vr.se/). Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Uusi tutkimus biolääketieteen riippuu hyödynnetään tehokkaasti olemassa olevia tieteellisen tiedon – tehtävä, joka bio-tutkijat ovat havainneet yhä vaikeampaa. Kun kerrannaisvaikutukset eksponentiaalinen kasvu biolääketieteellisen kirjallisuuden viime vuosina [1], on nyt tarve kehittää teknologiaa, joka voi tehdä tietojen julkaistussa kirjallisuudessa helpommin ja hyödyllistä tutkijoille. Tällainen tekniikka voi perustua tekstinlouhintaa. Piirustus tekniikoilla luonnollisen kielen käsittely, tiedonhaku ja tiedon louhinta, tekstin louhinnan automaattisesti noutaa, purkaa ja löytää uusia tietoja myös valtava kokoelma kirjoitetun tekstin. Vaikka se ei voi vielä korvata ihmisille monimutkaisia ​​tehtäviä, se voi mahdollistaa ihmisten tunnistaa ja todentaa vaaditut tiedot kirjallisuudessa tehokkaammin ja paljastaa asiaankuuluvat tiedot hämärtävät määrästä saatavilla tiedot.

Viime vuosina biolääketieteen tekstinlouhintaan on lisännyt suosiotaan. Tekniikoita on kehitetty auttamaan, esimerkiksi uuttamalla asiakirjojen, tietokantojen, sanakirjoja, ontologiat, yhteenvetoja ja tarkkoja tietoja (esimerkiksi vuorovaikutukset proteiinien ja geenien, novel tutkimushypoteeseja) alan kirjallisuudesta [2] – [4]. Arviointi tällaisista tekniikoista on paljastanut lupaavia tuloksia. Kuitenkin suuri osa arviointi on ollut suoraan luonnossa ja on käyttänyt ennalta määrätyn kultaa standardeja. Tällä hetkellä ollaan yleisesti tunnustetaan tarve siirtyä biolääketieteen tekstinlouhintaa tutkimus lähemmäs käytäntöä: integroida teknologiaa tukemaan tosielämän tieteellisten tehtävien (esim prosessi tieteellinen löytö) ja arvioida sen hyödyllisyyttä yhteydessä tällaisten tehtävien [3] , [5].

Useat tutkimukset ovat vastanneet tähän tarpeeseen käyttäjäkeskeinen arviointi, vaikka yritys on käyttäjätutkimukset on vielä kaukana universaali. Joissakin tutkimuksissa on mitattu, missä määrin osittain automaatio voi nopeuttaa curation tai muu työnkulun [6] – [8]. Toinen säie, läheisempää sukua työmme, pyrkii löytämään uusia suhteita biologisiin kokonaisuuksiin, joita tuetaan, mutta ei nimenomaisesti kirjallisuudessa [9] – [11]; Esimerkiksi, on olemassa tunnettu yhteys sairauden ja geenin välillä ja saman geenin ja lääke voi ehdottaa rooli lääkkeen sairauden hoidossa. Käyttäjien arviointi tässä yhteydessä käsittää vertaamalla ehdotettua suhteita aiemmin ehdottanut hypoteeseja ja tehdä laadullisiin arvioihin siitä ne näyttävät tarjoavan hedelmällistä suuntiin jatkotutkimuksen. Tapaustutkimuksemme seuraa samat malliin, vaikka käsillä olevaan tehtävään, joka edellyttää synteettinen analyysi täysi tiivistelmiä, on mutkikkaaksi kuin luokituksessa suhteiden kokonaisuus mainitsee.

Tässä artikkelissa esittelemme uuden, täysin integroitu tekstilouhinta järjestelmä on suunniteltu tukemaan monimutkaisia ​​ja erittäin kirjallisuus riippuva tehtävänä kemiallisten terveysriskien arviointia. Tämä tehtävä on kriittinen, koska kemikaalit on tärkeä rooli jokapäiväisessä elämässä ja niiden mahdollinen riski ihmisten terveydelle on arvioitava. Tuhansia kemikaalien käyttöön vuosittain, monissa maailman maissa ovat perustaneet tiukentuvat lakeja niiden tuotantoa ja käyttöä. Esimerkiksi Euroopan unionin äskettäinen rekisteröinti, arviointi, lupamenettelyt ja rajoitukset (REACH) lainsäädäntö [12] edellytetään, että kaikki kemikaalit, joita valmistetaan tai tuodaan suuria määriä on tehtävä perusteellinen riskinarviointi.

arviointi suuria määriä kemikaaleja on helpommin sanottu kuin tehty. Käyttäen tällä hetkellä saatavissa olevia menetelmiä, se kestää jopa kaksi vuotta arvioimaan yksittäisen kemiallisen [13]. Vaikka kehitys on täysin uudenlainen järjestelmä myrkyllisyystestausta voi auttaa parantamaan tehokkuutta kemiallisen arvioinnin pitkällä aikavälillä [14], on pakottava tarve parantaa uusinta lyhyellä tai keskipitkällä aikavälillä.

Chemical riskinarviointi on monimutkainen prosessi, joka koostuu useista erillisistä vaiheista. Ensimmäinen pääkomponentti on tyypillisesti laaja katsaus ja analyysi käytettävissä tieteellistä tietoa kyseiseen kemikaaliin. Tämä tarkastelu keskittyy tietoja mahdollisten merkitystä – ei ainoastaan ​​ihmisen tiedot, mutta myös eläin, solu (in vitro) ja muut mekanistisen data [15]. Ensisijainen lähde tätä tietoa tieteellisen vertaisarvioinnin kirjallisuuteen.

Tuoreen raportin, riskinarvioijat löytää kirjallisuudesta kerääminen ja analysointi liian aikaa vievää [16]. Tämä ei ole yllättävää, koska Biolääketieteiden joka kemiallinen riskinarviointi pohjautuu (epidemiologia, solubiologian, ja syöpätutkimukseen monien muiden joukossa) kehittyvät nopeammin kuin koskaan ennen. Tämä kehitys voidaan havaita tutkimalla kasvu MEDLINE (Medical Literature Analysis ja hakujärjestelmä Online) – Yhdysvaltain National Library of Medicinen (NLM) Premier bibliografinen tietokanta, joka on merkittävä kirjallisuutta resurssi työskentelee nykyisen kemiallisen riskinarvioinnissa. Vuonna 2005 tähän tietokantaan sisältyi 13 miljoonaa viittauksia. Nykyään se on yli 18 miljoonaa, ja 2,000-4,000 viittaukset lisätään Medline joka päivä; itse asiassa, tietokanta kasvaa kaksinkertainen eksponentiaalisesti [1]. Tiedot yhden kemikaali voi löytyä hajallaan tuhansia lehtiartikkelia (esim MEDLINE sisältää yli 30000 artikkeleita kadmium).

Tällä hetkellä riskinarvioijat ja tutkijat käyttävät järjestelmiä, kuten PubMed kerätä alan kirjallisuutta tietokannoista . Nämä järjestelmät palauttaa listan lehtiartikkeleita vastauksena avainsanoihin perustuvan kyselyitä. Ottaen kuitenkin huomioon monenlaisia ​​ja monimutkaisia ​​tieteellisiä tietoja käytetään riskien arvioinnissa, avainsanojen määrä, niiden synonyymeja ja mahdollisia yhdistelmiä yksinkertaisesti ylittää sen, mitä ihmisen riskinarvioijia voidaan kohtuudella muistaa ja käsitellä. Mikä on pohjimmiltaan tarvitaan on paljon tehokkaampi teknologia, joka ylittää avainsanoihin perustuvan haku – tekniikka, joka luokittelee ja sijoittuu eri tieteellisten tietojen perusteella niiden merkityksen, tekee yhteyksiä muuten kytkemättä artikkeleita ja luo yhteenvetoja, tilastot, visualisointeja ja uusia hypoteesia tieteellisestä kirjallisuudesta, jättäen riskinarvioijat tutustua tuloksena jäsenneltyä tietoa. Työ raportoitu tässä yhtyy joitakin tavoitteita Semanttisen MEDLINE hanke [17], [18] ja lisäämällä ”semanttinen” kerros automaattiseen käsittelyyn yli avainsanaperusteisten haku toiminnallisuuden PubMed tai vastaavaa hakukoneen. Uskomme, että työmme eroaa Semanttinen MEDLINE- meidän tilastollisten NLP menetelmiä, joita tarkennuksen underexplored tehtävänasettelua erottuva tiedontarve ja keskittyminen käyttäjäkeskeisen arviointi.

Jos oma tekstilouhinta työkalu kehitettiin kemiallisten riskien selvittämiseksi voitaisiin käyttää tehokkaasti tunnistaa, kaivos, ja luokitella tieteellistä näyttöä biolääketieteen kirjallisuudessa sekä löytää uusia kuvioita luokiteltu data. Helpottaminen laajamittainen arviointi olemassa olevien tietojen, tällainen työkalu voisi tarjota keinoja parantaa tarkkuutta, perusteellisen ja tehokkaan kemiallisen riskinarvioinnin. Työkalu voidaan myös käyttää tukemaan tieteellistä tutkimusta aloilla, joihin riskien arviointi perustuu.

Korhonen et al. [16] otimme ensimmäisen askeleen kohti kehittämistä tekstin kaivosteknologian kemiallisten riskien arviointia, jossa keskitytään syöpäriskiin arviointiin. Otimme perus taksonomian joka kattaa päätyyppiä tieteellistä näyttöä käytetään määritettäessä syöpää aiheuttavia ominaisuuksia kemikaalien ja valvottu kone oppimista, jota voidaan käyttää luokitella MEDLINE- tiivistelmiä asiaan taksonomian luokkiin. Arviointi osoitti, että taksonomia on hyvin muodostuneita ja että kone oppiminen lähestymistapa on melko tarkka. Vaikka koe oli pienimuotoisia eikä arviointia käytännön hyöty teknologiaa tosielämän riskinarviointia ei suoritettu, tulokset olivat kuitenkin lupaavia.

Otamme tällaista tutkimusta huomattavasti pidemmälle ja esitellä TASKURAVUN – täysin integroitu tekstinlouhintaa työkalu pyritään tukemaan koko prosessin kirjallisuuskatsauksen ja tiedon löytämisen syövän riskinarvioinnissa. Loppukäyttäjien saatavilla kautta online-Web-käyttöliittymän, se mahdollistaa pääsyn PubMed, lataaminen tieteellisiä tiivistelmiä valitusta kemikaaleja, ja luokittelemalla ne mukaan laaja taksonomian käyttämällä ohjattua koneoppimisteknologia. Työkalun avulla navigoinnin luokitellut aineisto eri tavoin ja jakaa muiden käyttäjien kanssa. Esitämme sekä suoran ja tehtäväpohjainen arviointi teknologian integroitu työkaluun, sekä useita tapaustutkimuksia, jotka osoittavat käyttökelpoisuutta väline, joka tukee tiedon löytö syövän riskinarvioinnissa ja tutkimukseen.

Tutkimus osoittaa, että suhteellisen kunnianhimoinen tekstinlouhintaa putki koostuu sekä hakuun ja multi-luokitus vaiheita voi olla hyödyllistä monimutkaisia ​​tutkimustehtäviin biolääketieteen. Vaikka tällä hetkellä sovellettavaa syöpä, työkalu voidaan suoraviivaisesti sovitettu tukemaan arviointia ja tutkimus muiden tärkeiden terveyteen liittyviä riskejä kemikaalit (esim allergia, astma, lisääntymishäiriöitä, monien muiden joukossa).

Methods

seuraavat kolme osa-osissa kuvataan tärkeimmät osat TASKURAPU: syöpäriskin arviointiin taksonomian, corpus MEDLINE tiivistelmiä selityksin mukaan taksonomian luokkiin, ja luokittelija perustuen koneoppimista. Viimeinen osa-osiossa on yleistä arkkitehtuuria TASKURAVUN työkalun mukana käyttöliittymän.

Taxonomy

Ytimessä TASKURAVUN on taksonomian kehittämä asiantuntijat syöpätutkimuksessa, jossa määritellään tieteelliset tietotyyppejä merkitystä syövän riskien arvioinnin. Otimme taksonomian Korhonen et al. [16] lähtökohdaksi ja laajennettu ja puhdistettu sitä eri tavoin. Tuloksena taksonomia sisältää tietotyypit mainittujen julkisesti saatavilla syöpäriskin arviointiin ohjeet (esim US EPA suuntaviivat [15]) sekä muita, tarkempia ja tuoreempia tietoja havaitut asiantuntija riskianalyysin koskevaan kirjallisuuteen.

taksonomia on kaksi pääosaa. Ensimmäinen osa (esitetty kuviossa 1) keskitytään

tieteellinen näyttö syöpää aiheuttavasta

. Se on viisi huipputason luokat, jotka edustavat erilaisia ​​tieteellisiä todisteita:

Human tutkimus /Epidemiology

,

Animal tutkimus

,

Solukokeet

,

Tutkimus mikro- organismeja

, ja

Subsellulaariset järjestelmiä

. Jotkut näistä jakaa edelleen alaryhmiin luokkiin; esimerkiksi

Human tutkimus

on viisi alaluokkia kuten

Kasvain liittyviä

ja

polymorfismi

. Hyväksyimme kaikki huipputason luokat ja suurin osa alaluokkia ehdottama Korhonen et al. [16].

toinen osa taksonomian (kuvassa 2) keskittyy

Vaikutusmekanismi

(MOA, eli järjestyksessä tärkeitä tapahtumia, jotka johtavat syövän muodostumisen esim mutageneesi, lisääntynyt solujen lisääntymistä, ja reseptorin aktivointi), syömällä nykyinen käsitys eri prosessien johtaa syövän synnyn. Otimme yksinkertainen MOA taksonomian Korhonen et al. [16], joka erottaa kaksi tavallista MOA tyypit –

Genotoksiset

(eli karsinogeeni sitoutuu DNA) ja

Non-genotoksisia /epäsuora genotoksinen

(eli syöpää aiheuttava aine ei sitoudu DNA) – lähtökohtana. Lisäsimme neljä osa-luokissa

Non-genotoksisia /epäsuora genotoksinen

luokan (

Co-aloittamisen

,

Promotion

,

Progression

ja

Monivaiheinen

) jälkeen hiljattain ehdottanut MOA luokittelua Hattis et al. [19]. Kukin näistä luokista jakaa edelleen alaryhmiin luokkiin sen tyyppisiä todisteita, jotka voivat osoittaa MOA tyyppi kyseessä. Esimerkiksi

Sytotoksisuus

voi todistaa sekä

Promotion

ja

Monivaiheinen

genotoksinen Moas.

Tuloksena taksonomia sisältää 47 luokkaa . Jokainen luokka liittyy useita avainsanoja (ja hakulauseista) josta löytyy kirjallisuudesta, ovat hyviä indikaattoreita läsnäolon minkätyyppisiä tieteellisiä tietoja kyseessä (esim

Solukuolemaan

luokka

MOA

osa taksonomian sisältää avainsanoja, kuten

apoptoosin

,

DNA pirstoutuminen

,

kaspaasi-9

,

Bcl2

,

bax

,

apoptosome

,

ohjelmoidun solukuoleman

,

Fas

,

nekroottinen solukuolema

, ja

elinkelpoisuuden

). Kuvassa 3 esitetään edustavat avainsanoja kullekin luokalle

tieteellinen näyttö syöpää aiheuttavasta

taksonomian haara. Kuvassa 4 on esitetty esimerkki avainsanoja

MOA

taksonomian haara. Avainsanat esitetty valittiin käsinkirjoitetun corpus kuvattu alla.

Koska nopea kehitys tieteen taksonomian näin ei koskaan ole täydellinen. Kuitenkin voidaan laajentaa ja päivitetään helposti asiantuntijoiden käyttämällä työkalua.

Annotated Corpus

TASKURAVUN luokittelu ohjelmisto vaatii koulutusta data corpus (eli kokoelma) MEDLINE tiivistelmiä, jotka ovat olleet käsin luokiteltu taksonomian. Korhosen ym. [16] corpus luotiin valitsemalla kahdeksan kemikaaleja, jotka ovat (i) hyvin tutkittu käyttäen erilaisia ​​tieteellisiä kokeita ja jotka (ii) edustavat kahden yleisimmin käytetty Moas (

genotoksinen

ja

ei -genotoxic

): 1,3-butadieeni, bentso (a) pyreenin, diethylnitrosamine, styreeni, kloroformi, dietyylistilbestrolilla, fumonisiini B1 ja fenobarbitaali. Joukko 15 lehdissä Sitten tunnistettiin joita käytetään usein syövän riskin arviointiin ja tuottavat yhdessä hyvän peiton erilaista tieteellistä näyttöä merkitystä tehtävän (esim. Cancer Research, Karsinogeneesi, Environmental Health Perspectives, mutageneesi, muun muassa). Näistä lehtiä, kaikki tiivistelmät palauttama PubMed vuosilta 1998-2008, jotka sisältävät yhden 8 kemikaalit ladattu (1297 tiivistelmät yhteensä). Kukin tiivistelmä tutkittiin sitten asiantuntija syöpäriski arviointi ja osoitetaan asianomaisten taksonomian luokkiin kautta avainsanan huomautusta. Merkintä työkalu kehitettiin ja käytetty tässä työssä (katso Korhonen et al. [16] lisätietoja).

selityksin aineisto on saatavilla Creative Commons Attribution-Kaupallinen lisenssi (Information S1 ja S2); sikäli kuin tiedämme, tämä on ensimmäinen kerta, corpus kemiallisten riskien huomautus data on ollut julkisesti saatavilla.

uudelleen selityksin korpus Korhonen et al. [16] käyttämällä taksonomian ja laajennetaan se huomattavasti: valitsimme kaksitoista ylimääräistä kemikaaleja (esitetty taulukossa 1) – ne, jotka yhdessä edustavat tyyppejä tieteellinen näyttö ja MOAS joita laajennettu taksonomia. Abstracts palauttama PubMed etsiä näiden kemikaalien (kaikki vuosilta 1999-2009) on ladattu ja selityksin syöpä riskinarvioijia käyttäen käsinkirjoitustyökalun Korhosen ym. [16]. Tuloksena yhdistetty korpus koostuu 3078 selityksin MEDLINE tiivistelmiä 20 kemikaaleja. Kokonaismäärä lyhennelmiä ja selityksin avainsanoja kuuluu kuhunkin taksonomian luokkaan on esitetty kuvassa 5 (sarakkeet 1-3). Voimme nähdä, että 1292 tiivistelmät on luokiteltu

tieteellinen näyttö syöpää aiheuttavasta

sub-taksonomian, kun taas 1766 on luokiteltu MOA taksonomian. Lukumäärä lyhennelmiä ja yksittäisten avainsanojen liittyvät huipputason luokat on korkea, mutta saada yhä pienempi kuin menemme syvemmälle tasojen taksonomian.

Classification kokeita

luokitin

TASKURAVUN luokittelija osoittaa näkymätön MEDLINE- tiivistelmiä asianmukaisesti taksonomian luokkiin käyttämällä ohjattua koneoppimisen tekniikkaa. Tekniikka ei perustu ennalta määriteltyihin avainsanoja, mutta se käyttää joukon kielellisiä asiakirjan ominaisuuksia (kuvattu alla) ja siihen liittyvä corpus merkinnät (kuvattu edellä osassa) koulutusta tietojen optimaalisen suorituskyvyn.

Korhonen et al. [16] käytetty tiettyjä Support Vector Machine (SVM) luokittelijoiden [20], yksi kutakin taksonomian luokan päättää, mitä (jos on) taksonomia luokat kuvaavat sisältöä tiivistelmä. Koska SVMs ovat menestyneet hyvin monissa tekstinlouhintaa tehtävät [2], [21] ja koska ne olleet lupaavia alustavassa kokeissa Korhonen et al. [16] käytämme niitä myös meidän järjestelmässä. Olemme kuitenkin käyttöön parannettu malli ja lisäominaisuuksia saada parempaa suorituskykyä tehtävämme.

Kuten muita tunnettuja luokittelijoiden kuten logistinen regressio tai Perceptron, SVMs erottaa koulutus aineisto kahteen luokkaan opiskeluun päätösfunktion joka vastaa yhdistelmää ominaisuuden arvojen ja ominaisuus painoja. Sillä SVMs Tätä toimintoa voidaan kirjoittaa: (1) missä on vektori painoja oppinut koulutus tiedot ja on toiminto, joka kartoittaa tietopisteiden tulo tila on (mahdollisesti eri) ”ominaisuus space”. SVM koulutus algoritmi asettaa paino vektorin vastaten

max-marginaali

periaatteessa valita rajan, joka maksimoi erottaminen luokkiin. Usein ominaisuuden tilan kartoitus ei tarvitse laskea suoraan sen vaikutus voidaan ottaa talteen kautta käyttämällä

ytimen toiminto

, joka vertaa kahden tietopisteiden; tämä mahdollistaa SVMs oppia epälineaarinen päätöksen rajojen säilyttäen laskennallisen tehokkuuden lineaarisen luokitus. Kirjoissa [22], [23] tarjota kattavia katsauksia SVMs ja ytimen menetelmien yleensä.

Yksi standardi ytimen toiminto on pistetulo tai

lineaarinen ytimen

, jota käytimme Korhonen et ai. [16] 🙁 2) Vaihtoehtoinen ytimen toiminto, voidaan verrata jakaumat (tai L1-normalisoitu vektorit), voidaan johdettu Jensen-Shannon eroavuus (JSD) [24] kautta ehdottama menetelmä Hein ja Bousquet [25 ] 🙁 3) Ó Séaghdha ja Copestake [26] osoittaa, että tämä

JSD ytimen

tuottaa huomattavasti paremman suorituskyvyn kuin lineaarinen ydin erilaisia ​​luokitustehtävissä luonnollisen kielen käsittely; joten käytämme sitä tässä olettaen, että se parantaa tarkkuutta automaattisen abstrakti merkintä.

Abstracts syötetään luokittelun öljyputken PubMed XML, joista kunkin pitoisuus abstraktin ja jotkut liittyvät markup uutetaan . Tiivistelmän teksti on valtuudenvälitykseen (jaettu sen osan sananmuodon) käyttäen OpenNLP Toolkit [27] ja muutettiin ”pussi sanoja” piirrevektorin, joka tallentaa monta kertaa kukin sana esiintyy tekstissä. Erillinen joukko ominaisuuksia kirjaa sanoja, jotka esiintyvät abstraktilla otsikossa, vangita intuition että otsikko sanat ovat etuoikeutettu asema tunnistaa pääasiallinen teema artikkeli. Nämä ominaisuudet ovat täydennetty MeSH (

Medical Subject Headings

) otsikot tarjoamat MEDLINE; Esimerkiksi abstrakti mahdollisesti saanut kuvailevaa otsikot

Lääkkeiden yhteisvaikutukset

ja

entsyymin estäjät

. Vanhemman luokkia tai

hypernyms

Näiden otsikoiden MeSH taksonomian lisätään myös; esimerkiksi hypernyms on

entsyymin estäjät

sisältävät

Molecular vaikutusmekanismit

ja

Farmakologiset vaikutukset

. Lopuksi kaikki merkkijonot pituus 7 (mukaan lukien virke sisäiset välimerkit ja välilyönnit) uutetaan tekstistä ja toisiin joukko ominaisuuksia; Ehdotetun sekvenssin pituus 7 seuraavasti Wang et al. [28], mutta käyttö merkkipohjainen ominaisuuksia merkkijonon vertailu on pitkä historia bioinformatiikan, esim.

kirjo ydin

Leslie et ai. [29].

Verrattuna järjestelmän Korhonen et al. [16], järjestelmä integroi seuraavat tarkennukset: (1) käyttö JSD ytimen sijasta lineaarinen ydin; (2) käyttö otsikossa sanan ominaisuuksia; (3) lisäämällä MeSH hypernyms.

luokitin liittyvät kunkin taksonomia luokan ennustaa binary etiketti; abstrakti luokitellaan joko leimautumisen kanssa kyseisen luokan tai ei. Kukin luokittelija on koulutettu itsenäisesti ja sen ennustaminen riippumatta muista luokittelijoiden. Kuitenkin, se, että luokat sijaitsevat taksonomian tarkoittaa, että on olemassa itse asiassa niiden välisiä riippuvuuksia; jos tiivistelmä on myönteinen esimerkki

katkeamisen

niin se on myös määritelmän mukaan positiivinen esimerkki

genotoksisuudesta

. Tällaiset riippuvuudet vangiksi jälkikäsittelyvaiheesta vaihe, jossa positiivinen luokitusten tietyllä luokkaan etenevät ylös taksonomian kaikille ylempiin luokkiin.

rapu työkalu

tiiviissä riskinarvioijia Kehitimme online tekstilouhinta työkalu, joka integroi komponentteja kuvattu edellä olevista kohdista. Työkalu on liukuhihna rakenne, kuten kuvassa 6. Käyttäjä voi määrittää kemikaalin (kemikaalien) kohteisiin ja lataa vastaava kokoelma tiivistelmiä PubMed XML-muodossa. Tiivistelmät jälkeen esikäsiteltyjä ja luokiteltu taksonomian edellä kuvatulla tavalla. TASKURAVUN näytöt, tietyn kemikaalin jakautuminen luokiteltujen tiivistelmiä yli eri puolilla taksonomian. Käyttäjä voi navigoida aineisto valitsemalla taksonomian luokan ja nähdä kaikkia tiivistelmiä luokiteltiin positiivisiksi tämän luokan. Käyttäjä voi myös antaa palautetta järjestelmän merkitsemällä luokiteltu väärin tunnisteita; nämä poistetaan sitten näytössä. Tulokset tallennetaan MySQL-tietokantaan, joka mahdollistaa pysyviä tietoja pääsy: aiemmasta istunnot voidaan uudelleen ja jakaa muiden käyttäjien kanssa. Kuvio 7 esittää kuvakaappauksia, jotka kuvaavat joitakin toimintoja työkalun. Olemme tehneet TASKURAVUN saataville loppukäyttäjien kautta verkossa Web-käyttöliittymän, joka on saatavilla pyynnöstä kautta https://omotesando-e.cl.cam.ac.uk/CRAB/request.html.

kokeet ilmoitetaan tässä käyttää SVM täytäntöönpanotiedot LIBSVM kirjaston [30], räätälöity helpottamaan käyttöä JSD ytimen. Koulutuksen aikana suoritamme myös ominaisuus valinta poistaa monia ei-ennustava piirteitä parantamisen kannalta tehokkuutta ja tarkkuutta. Jokainen ominaisuus on sijoitettiin mukaan sen erotteleva valtaa koulutus tietoja käyttämällä

F-pisteet

menetelmällä Chen ja Lin [31]. Ristiinvalidointi koulutusta dataa käytetään valitsemaan osuuden ominaisuuksia hävittämään; Tämä tehdään mittaamalla suorituskykyä top-pisteytys ominaisuuksia ja pitää osajoukon, joka antaa parhaan suorituskyvyn. SVM luokittelija on kaksi parametrit koulutusta, ”hinta” parametri ja painoa parametri, joka asettaa suhteellisen painotuksen positiivisten harjoitusesimerkkien; on tärkeä rooli, kun jotkut etiketit ovat hyvin harvinaisia, kuten käsillä olevan sovelluksen. Samanlainen toiminto valintaprosessissa, molemmat parametrit asetetaan kautta verkkoon hakumenettely, joka tutkii erilaisia.

Käytimme 10-kertainen rajat validointimenettelyissä meidän arviointi: aineisto on satunnaisesti jaettu 10 disjoint osioita ja ottamalla yksi osio kerrallaan lajittelijan on koulutettu muut yhdeksän osiot ja teki ennustaa merkintöjä tiivistelmät valitun osion. Tällä tavoin kukin tiivistelmä on merkitty tasan kerran ja voimme arvioida näitä ennusteita käytetään toimenpiteitä Precision (), Recall () ja F-mitta (ei pidä sekoittaa F-pisteet käytetään ominaisuuksien hallintaan) 🙁 4) ( 5) (6) missä, ja seistä määrä tosi positiivisia, vääriä positiivisia ja vääriä negatiivisia, vastaavasti. Nämä arviointi toimenpiteet ovat vakiona luonnollisen kielen käsittely ja tekstinlouhintavälineissä. Koska joukko etiketin ennusteet kaikkien datakohteiden, Precision, Recall ja F-toimenpide lasketaan itsenäisesti kullekin etiketti. Jotta tuottaa yleistä suorituskykyä toimenpide nämä per-label tulokset voidaan keskiarvoistaa (

makro-keskiarvo

) tai yhden tarkkuus ja Recall luvut voidaan laskea koko aineisto ja

mikro-keskiarvo

F-toimenpide valmistettu käyttäen kaavaa (6). Micro-keskimäärin suorituskyky on taipumus olla hallitseva yleisempää luokkaa, kun taas makrotason keskimäärin suorituskyky kohtelee kaikkia luokkia tasapuolisesti.

Käyttäjän kokeiluja ja tapaustutkimuksia

Käyttäjä suoritettiin mitata hyväksyttävyys luokitin n lähdön riskinarvioijia joka olisi käyttää sitä työssään. Seitsemän syöpää aiheuttavia kemikaaleja valittiin (katso ensimmäisessä sarakkeessa taulukko 2); yksikään näistä kemikaaleista oli aikaisemmin käytetty huomautusta, luokittelua tai arviointia varten. Testi corpus kerättiin kutakin kemikaalia hakemalla PubMed kaikkien muiden kuin katsaukset mainiten kemikaali, joka julkaistiin välillä 1996-2010 (Alkaen 07 joulukuu 2010) lehdissä taulukossa 3. Saatu aineisto sisälsi 2546 tiivistelmät. Kuten realistinen käyttö, monet näistä tiivistelmiä ovat merkityksettömiä syövän riskien arviointi; luokitin täytyy erottaa asiaa artikkeleita merkitystä artikkeleita sekä antamaan kuvaavat luokka tarroja. Testi korpuksia toimitettiin luokitusjärjestelmän automaattista huomautusta.

tiivistelmät luokiteltu positiivisia ainakin yhden taksonomian luokkaan tarkastettiin kaksi riskinarvioijia toimi itsenäisesti. He päättivät onko abstraktit palasi kullekin luokalle oli merkitty asianmukaisesti vai ei. Kun ensimmäinen kokonainen kierros merkintä, taso välisen riskinarvioijien laskettiin suhteessa luokitusten joista molemmat selitysten lisääjien teki saman päätöksen. Emme käytä Kappa mitta interannotator sopimus [32], jota käytetään usein NLP, koska se ei ole tulkittavissa, kun luokan jakauma on äärimmäisen vinossa: jos jokin annotator soveltaa samoja etiketin kaikissa tapauksissa (meidän tapauksessamme, kuljettaa out haluttua käyttäytymistä merkitsemiseksi palaavia tiivistelmät positiivisena) Kappa-arvo on nolla. Se, että marginaalinen jakautuminen luokat sekä aineisto itsessään ja tuomioita selitysten lisääjien vaikuttaa joukko mahdollisia ja todennäköisiä Kappa tulokset on havaittu useissa tutkimuksissa [33] – [35]. Tällaiset tutkimukset suosittelevat usein, että lisätietojen raportoidaan apuna paremmin tulkinnassa mielekkyyden tietyn Kappa pisteet; kuitenkin tapauksessa, jossa annotator käyttää vain yhtä leimata vaikutus saavuttaa patologisen vaiheeseen, jossa Kappa aina nolla riippumatta muiden annotator päätösten ja ei ole olennaisesti mitään tulkita.

Yksi ilmeinen etu tekstin kaivos työkalu kuten TASKURAVUN on huomattavasti parantunut tehokkuus tärkeä osa riskien arviointi: on tarkasteltava uudelleen nykyistä tieteellistä tietoa kyseiseen kemikaaliin. Ihmisen riskinarvioijat voi viettää kuukausia suorittaa osittainen katsaus asiaan liittyvään MEDLINE kirjallisuudesta [16], kun taas CRAB pystyvät varmistamaan perusteellisen tarkastelun muutamassa sekunnissa. Toinen merkittävä etu on kyky suorittaa moniulotteista luokittelua kirjallisuuden mukaan taksonomian, eli erilaisia ​​tieteellisiä todisteita jokainen artikkeli tarjoaa riskinarviointiin. Tällainen luokittelu olisi erittäin vaikeaa ja aikaa vievää tehdä käsin, erityisesti kokemattomille riskinarvioinnista, mutta se voi olla erittäin arvokas, koska se mahdollistaa sekä määrällisiä että laadullisia katsaukset saatavilla olevasta tiedosta.

Olemme suorittaneet useita tapaustutkimuksia osoittaa, miten tällaisia ​​katsauksia voidaan käyttää tukemaan syöpäriskin arviointia ja tutkimusta. Menetelmien Näiden tutkimusten mukana piirtämällä jakautuminen etiketit määrittämä luokittelija on koko joukko MEDLINE tiivistelmiä mainita kemikaalit on suoraa merkitystä riskinarvioijia. Nämä määrälliset havainnot verrattuna tunnettuihin ominaisuuksia kunkin kemiallisia ja myös käyttää tuottamaan uusia hypoteeseja, jotka ansaitsevat edelleen kokeellinen tutkimus.

Tulokset

Tässä osiossa ilmoittaa sekä suoria että käyttäjä perustuvaa arviota luokitusta teknologia, ja esillä tapaustutkimuksia pyrittiin selvittämään hyödyllisyyttä TASKURAVUN väline tosielämän riskinarviointia.

Luokittelutulokset

ensimmäinen otti laajennetun taksonomian ja aineisto ja arvioidaan tarkkuuden

Vastaa