PLoS ONE: Parempi luokittelu keuhkosyöpään Kasvaimet Perustuu rakenne- ja fysikaalis-kemialliset ominaisuudet Proteiinit Data Mining Models

tiivistelmä

havaitseminen erot kasvaimia synnyttävän kasvaimia on keskeinen rooli syövän diagnosoinnissa ja hoidossa. Tämä tutkimustyö on keskittynyt suunnittelemalla laskennallinen strategia ennustaa luokan keuhkosyöpään kasvainten rakenne- ja fysikaalis-kemialliset ominaisuudet (1497 määritteitä) proteiinisekvenssien saada geeneistä määritelty mikrosiruanalyysillä. Ehdotettu menetelmät voitaisiin hybridisiä ominaisuuksien hallintaan tekniikoita (voitto suhde ja korrelaatio perustuvat osajoukko arvioijien Incremental Feature Selection) seurasi Bayesian Network ennustuksen syrjiä keuhkosyöpä kasvaimissa pienisoluinen keuhkosyöpä (SCLC), ei-pienisoluinen keuhkosyöpä ( NSCLC) ja yhteinen luokat. Lisäksi tätä menetelmää poistaa tarvetta laajoihin tietojen puhdistus strategioita proteiinin ominaisuuksista ja paljasti optimaalinen ja minimaalinen joukko ominaisuuksia, jotka vaikuttivat keuhkosyöpä kasvain luokittelu, jossa on parannettu tarkkuus verrattuna aikaisemman työn. Olemme myös yrittäneet ennustaa kautta ohjattua klustereiden mahdollisia klustereita keuhkojen kasvain tiedot. Tuloksemme paljasti, että valvotuissa klusterointialgoritmeja näytteillä huono suorituskyky erottaa keuhkojen kasvain luokissa. Hybridi ominaisuus valinta tunnistettu jakelu liuottimelle, polaarisuus ja hydrofobisuus kuin korkein ominaisuuksia Incremental ominaisuuksien hallintaan ja Bayes-verkko ennustaminen tuottaa optimaalisen Jack-veitsi cross validointi tarkkuus 87,6%. Tarkka luokittelu onkogeenisten geenien aiheuttaa SCLC ja NSCLC perustuu rakenteellisiin ja fysikaalis-kemiallisia ominaisuuksia niiden proteiinisekvenssien odotetaan purkaa toiminnallisuutta proteiineja, jotka ovat välttämättömiä säilyttämään genomisessa eheyden solun ja toimia myös informatiivinen lähde lääkkeiden kehittämisen, kohdistaminen proteiinien ominaisuuksia ja niiden koostumus, joka on todettu esiintyvän keuhkosyövän kasvaimissa.

Citation: Ramani RG, Jacob SG (2013) Parannettu luokittelu keuhkosyöpään kasvaimet Perustuu rakenne- ja fysikaalis-kemialliset ominaisuudet proteiinit Data Mining mallit. PLoS ONE 8 (3): e58772. doi: 10,1371 /journal.pone.0058772

Editor: Vladimir N. Uversky, University of South Florida College of Medicine, Yhdysvallat

vastaanotettu: 22 joulukuu 2012; Hyväksytty: 06 helmikuu 2013; Julkaistu: 07 maaliskuu 2013

Copyright: © 2013 Ramani, Jacob. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Tämä tutkimus työ on osa All India neuvoston tekninen koulutus (AICTE), Intia rahoittama tutkimus menekinedistämisohjelma projektin nimeltään ”Efficient luokitin kliinisten elämän tietojen (Parkinson, rintasyöpä ja P53 mutantit) kautta ominaisuus merkityksellinen analysointi ja luokittelu” ja viitenumerot 8023 /RID /RPS-56 /2010-11 ja 200-62 /FIN /04/05/1624. Rahoittajat ollut mitään roolia tutkimuksen suunnittelu, tiedonkeruu ja analyysi, päätös julkaista tai valmistamista käsikirjoituksen.

Kilpailevat edut: Kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

onkogeeninen kasvaimia ovat yleisin kuolinsyy maailmassa keuhkosyöpä joissa suuria menetyksiä pahanlaatuisten kuolemantapauksia [1] – [3]. Tupakointi ja tupakan käytön ohella monipuolinen ympäristön karsinogeenien kasvoi ihmisen alttius tämän tappavan sairaus [4] – [5]. Geenipolymorfismien koskee vieroitus syöpää on liittynyt muodostumista keuhkokasvaimia. Keuhkokasvaimia on yleisesti luokiteltu ei-pienisoluinen keuhkosyöpä (NSCLC), jotka vaikuttavat lähes kaksi kolmasosaa potilaista, joilla on alhainen eloonjäämisaste ja pienisoluinen keuhkosyöpä (SCLC), jotka molemmat reagoivat eri terapia [6] – [10]. Tämä ajaa tarve tarkasti tunnistaa patologisia eroja näiden kahden tyyppisiä kasvaimia.

geeniekspressiomalleja alkaen mikrosiruanalyysi käytössä osa-luokittelu keuhkosyöpään tyyppejä, jotka liittyvät aste kasvaimen rajaamista, luonne hoito ja uhri eloonjäämisaste [11] – [14]. Se oli havaittu, että Lung syövän synty oli prosessi, joka osallistuu asteittainen fenotyyppisiä muutoksia, jotka tapahtuivat seurauksena onkopsykologista geenin aktivointi ja deaktivointi tuumorisuppressorigeeneille [8]. Raportit tähän mennessä kirjallisuudessa ei ole pystytty osoittamaan mitään luotettavia biomarkkereita tätä ehtoa, koska märkä-laboratoriokokeissa usein kulutetaan enemmän aikaa, asiantuntemusta ja pääoman epävarma tuotto [1], [4] – [6]. Sirutekniikalla on hyödynnetty viime aikoina havaita sopiva biomarkkerit mutta esillä menetelmiä olivat alttiimpia unohtaa potentiaalia seikkojen potilaiden kudosnäytteistä [14]. Siksi määrittäminen potentiaalisten ja informatiivinen markkereita (ja ennustavia) sekä biologiset ja molekyylitason näkökulmasta on erittäin tärkeää tutkia ja arvioida geneettisiä ja molekyylitason erottamiskyvyn että ominaista kasvaimia ja kasvaimen etäpesäke (TNM) lavastus keuhkojen syövän synnyn mahdollistamiseksi tehokkaasti diagnoosi , ja vahvistaa hoitostrategioita.

viime tutkimus yrityksiä, useat luokittelijoiden ja data mining malleja on käytetty, joka kohdistaa asianmukaisen luokittelun keuhkosyöpään kasvaimia. Neljäkymmentäyksi näytteitä ominaista 26 määritteet laskettu massa-ja varauksen suhde (m /z) ja piikkien korkeudet proteiinien tunnistetaan massaspektrillä veren seeruminäytteiden keuhkosyöpään vaikuttaa ja ei-Potilaiden käytettiin kouluttaa luokitus ja regressio puu (CART) malli [13]. Molecular luokittelu NSCLC perustuu prosenttiosuuteen juna-testiä lähestymistapaa käytettiin arvioimaan luotettavuutta cDNA microarray-pohjainen luokitukset resektoidun ihmisen ei-pienisoluisen keuhkosyövässä (NSCLCs) [14]. Jatkotutkimukseen Linear Diskriminanttianalyysi ja Artificial Neural Network luokittelu yksittäisten keuhkosyövän solulinjoja (SCLC ja NSCLC) suoritettiin perustuen DNA: n metylaatio markkereita [13]. Tulokset kertoivat, että Artificial Neural Network analyysi DNA: n metylaatio datan oli mahdollinen tekniikka kehittää automaattisia menetelmiä keuhkosyöpään luokitusta. Toisessa tutkimuksessa Support Vector Machine [14] käytettiin keuhkosyöpä geenien ilmentymisen tietokannan analyysi ja tulokset ehdotti, että sisällytetään aiempaa tietoa syövästä luokittelu perustuu geenien ilmentyminen tietojen oli välttämätöntä parantaa luokittelun tarkkuutta. Automaattinen luokittelu keuhkosyövän TNM syövän vaiheissa vapaamuotoisia patologiaraporteista käyttäen symbolinen sääntöihin perustuvan luokittelun yritettiin [15]. Metodologia oli arvioitu tarkkuus parametrien ja hämmennystä matriisit vastaan ​​tietokanta monitieteellinen lavastus päätöksillä ja koneoppimisen perustuva tekstinluokittelujärjestelmien järjestelmän avulla tukivektorikoneet.

Käynnissä oleva tutkimus keskittyi hyvin äskettäin artikkelin by Hosseinzadeh et.al [1], jonka tarkoituksena oli luokitella keuhkosyöpään kasvaimia perustuen rakenteellisiin ja fysikokemialliset ominaisuudet proteiinien avulla bioinformatiikan malleja. Valitsimme tämän paperin kolmesta syystä. (I) Teos on uusin ja tiedot on julkisesti saatavilla. (Ii) Tutkimukseen osallistui runsaasti tietojen puhdistus ja esikäsittelyä strategioita, jotka voitaisiin välttää. (Iii) niiden työhön muutamia oletuksia kootut tiedot, joita ei ole hyväksytty tässä työssä. Lisäksi ehdotetun menetelmän tässä asiakirjassa pystyi tuottamaan korkeamman luokittelun tarkkuutta erotella keuhkosyövän kasvainten perustuu proteiinien ominaisuuksiin säilyttäen alkuperäiset tiedot ja poistaa oletukset. Juuri tämä paperi antaa seuraavat maksut: (a) Design of uusi metodologia hybridi ominaisuuksien hallintaan tekniikoita tunnistaa optimaalista proteiini ominaisuuksia, jotka erotettiin toisistaan ​​keuhkosyövän kasvainten suuremmalla tarkkuudella. (B) Putosi tarve tietojen puhdistus ja oletuksia määrite merkitystä. (C) edistetään ominaisuudet tunnistetaan uskotaan vaikuttavan lääkeaineen rakenne, joka voi kohdistaa proteiinin ominaisuus johtaa keuhkosyöpään kasvaimia.

Materiaalit ja menetelmät

Dataset

Gene Set Enrichment analyysi tietokanta (GSEA db) [16] käytettiin saamiseksi geenin sarjaa, jotka edistivät NSCLC ja SCLC. Se saatiin Kioton Encyclopaedia geenien ja Genomit (Kegg) [17] geenin sarjaa. Kaikkiaan 84 geenien [17] olivat läsnä SCLC geeniperimä kun 54 geenejä [17] havaittiin edistää NSCLC. Jotta voidaan tarkasti erottaa toisistaan ​​kaksi luokkaa kasvaimia, geenien yleisesti esiintyviä sekä kasvaimia laitettiin eri luokan nimeltä COMMON. Vahvuus geenin asetetut SCLC oli 59, NSCLC mukana 29 Vaikka yhteisessä geeniperimä tiivistää jopa 25. Proteiinit kullekin ryhmälle geenejä saatiin Gene Card tietokannan [18] ja vastaavan proteiinin sekvenssit uutettu UniProt Tietopankki tietokannasta [19]. Nämä sekvenssit tallennetaan tekstitiedostoon ja ladattiin PROFEAT web-palvelin [20] – [21] laskea rakenteelliset ja fysikokemialliset ominaisuudet, jotka liittyvät proteiinin. Yhteensä tuhatneljäsataayhdeksänkymmentäseitsemän attribuutteja laskettiin ja edustettuina Fi.jkl jossa ”l” edusti deskriptoriarvo ja ”k” merkitään määrittelijä kun ”j” ilmaistuna ominaisuuden ja I merkitsi ominaisuus ryhmä [ ,,,0],20] – [21]. Ominaisuuksia ja niiden merkinnät ovat palvelee File S1. Täydelliset tietosarjat koostuu 1497 ominaisuuksia ja 113 kasvain näytteet [17] lastattiin sisään WEKA 3.7.7 koneoppimisen ohjelmistojen [22] ja kasvaimen tyyppi asetettiin olemaan kohde luokassa. Täydellinen Esikäsitelty aineisto palvelee File S2. Vaihtelu otoskoko verrattuna aikaisemman työn katsotaan johtuvan mahdollisen updations tietokantaan. Ehdotetulla menetelmällä tämä tutkimustyö on kuvattu seuraavassa osiossa.

Ehdotettu Computational Menetelmät

Ehdotettu metodologia koostuu kahdesta vaiheesta: koulutus vaihe ja ennusteen vaihe. Harjoitusvaiheessa sisällytetty tietojen valmistelu, ominaisuus valinta ja luokittelu prosessia ennuste vaiheessa mukana arvioinnissa lajittelijan malliin käyttäen Jack-veitsi rajat validointitestiä perustuu suorituskykyparametrit [23] – [24]: Matthews Korrelaatio Co-tehokas ( MCC) ja tarkkuus. Kaaviokuva ehdotettua menetelmää on esitetty kuviossa 1. Tiedot valmisteluvaiheessa sisällytetty luokittelun tulo geenin sarjaa kuin SCLC, NSCLC ja yhteinen luokat. Tätä seurasi Hybrid ominaisuus valinta Incremental Feature Selection. Luokittelu mallit sitten rakennettu ja verrataan tunnistaa tehokkaimpiin laskennallinen ennuste tekniikka keuhkojen kasvain luokitusta käyttämällä proteiinia rakenne- ja fysikaalis-kemialliset ominaisuudet.

Hybrid Feature Selection.

Ominaisuus ranking esitetään merkittäviä piirteitä järjestyksessä niiden osuus luokitteluun näytteet alla eri kohderyhmien luokat [25] – [28]. Koska useimmat ominaisuus valinta algoritmit keskittyy ranking ominaisuuksia mukaan niiden merkitys arvoon, vastuun Valittaessa rajoittava rajoite lepoon käyttäjä [29] – [31]. Niinpä jotta automatisoida löytää minimaalinen vielä ole paras mahdollinen joukko ominaisuuksia, ranking ominaisuus valinta algoritmit seurasi Korrelaatio alijoukko arvioijien [32], joka sisälsi ominaisuuksia korreloi luokkaan ja vähiten korreloivat keskenään. Koska sekä sijoitusta ja osajoukon arvioijat käytettiin saamiseksi optimaalinen ominaisuuksia, tämä kutsuttiin Hybrid Feature Selection strategiaa. Kuvaus menetelmistä käytetään tässä tutkimuksessa on kuvattu alla.

Gain Ratio Criterion.

Saada suhde kriteeri [33] – [34], paljasti yhdistyksen välillä attribuutin ja luokan arvo , on ensisijaisesti lasketaan Information Gain käyttäen Information Entropy (InfoE) arvot [35]. Saatuaan arvo Entropy H (S

R), ja olettaen ’F’ on asetettu kaikkien ominaisuuksia, ja S

R on asetettu kaikkien kirjaa, arvo (r, f) käsitetään arvo erityisessä tapauksessa ”r $ \\ rasteri =” RG1 ” $ S ’toiminto’ f $ \\ rasteri = ”RG1” $ F ’. Tiedot Gain attribuutin laskettiin käyttäen yhtälöä (1) seuraavasti [35] 🙁 1) B

Jotta laskea itseisarvo testi, seuraavan kaavan hyväksyttiin: (2) B-

Information Gain ratio [33] – [35] laskettiin suhde Information Gain ja itseisarvo, yhtälön (3) (3) B

määritteitä siis luokiteltu niiden sijoitus alenevassa järjestyksessä Gain Ratio pisteet ja käytettiin CFS Subset arvioija jäljempänä kuvatulla menetelmällä.

Korrelaatio Feature Selection (CFS) Subset arvioija.

CFS hypoteesi [36] ehdotti, että eniten ennakoiva ominaisuuksia tarvitaan korreloivan kohde luokan ja vähiten merkitystä muiden ennustaja attribuutteja. Seuraava yhtälö [36] – [37] kirjattu arvo ominaisuus osajoukon S, joka koostui ”k” ominaisuuksia (4), jossa oli keskimääräinen arvo kaikkien ominaisuus-luokitus korrelaatioita, ja oli keskimääräinen arvo kaikkien Feature ominaisuus korrelaatioita. CFS kriteeri [36] määriteltiin seuraavasti:

(5) Jos ja muuttujat kutsutaan korrelaatioita. Määritteet, jotka kuvataan suuri korrelaatio kohde luokan ja vähiten merkityksellinen toisiinsa valittiin parhaaksi osajoukko määritteitä.

määritteet suodatettu CFS Subset arviointielimen menetelmää lisättiin lisäävä tavalla tunnistaa optimaalinen joukko ominaisuuksia, jotka vaikuttivat keuhkojen kasvain luokittelun. Tämä menetelmä on esitetty alla.

Incremental Feature Selection.

ennustaja määritteet tuottamat Gain Ratio ja CFS Alijoukko Taito Evaluator (Hybrid Feature Selection) menetelmä myöhemmin hyödynnetään Inkrementaalinen Feature Selection (IFS ) [38] – [39] määrittää minimaalinen ja optimaalinen joukko ominaisuuksia. Lisättäessä kunkin toiminnon, uusi ominaisuuksia saatiin ja k

th ominaisuuksia voitiin totesi (6) B

Jos M merkitään kokonaismäärästä ennustajan osajoukkoja. Rakentamisesta jokainen ominaisuuksia, ennustajan malli rakennettiin ja testattiin kautta Jack-veitsi ristivalidointi menetelmällä. MCC ja tarkkuus ristivalidointi mitattiin, mikä johtaa muodostumista IFS pöydän useita ominaisuuksia ja luokittelun tarkkuus he pystyivät tuottamaan. ”AT

O ’oli vähäistä ja optimaalinen ominaisuuksia, jotka saavuttanut korkeimman MCC ja tarkkuutta.

Jotta voitaisiin määritellä paras luokitusmalli keuhkojen kasvain luokitusta [40], yhteensä viisi benchmark ennustus tekniikoita nimittäin, Support Vector Machine [29], Random Forest [1], Lähin naapuri algoritmia [39], Bayes-verkko oppimisen [22] ja Random komitea (Ensemble luokitin) [22] analysoitiin ja verrattiin. Tuloksemme vahvisti, että Bayes-verkko lähestymistapa syntyy entistä tarkemmin kasvain luokitukseen optimaalisen ominaisuuksia.

Bayes-verkko oppimisen.

oppimisen vaihe tässä lähestymistavassa otettu prosessi löytää sopivan Bayes-verkko [41] antanut datajoukon D yli R jossa R = {r

1, r

n}, n ≥1 oli joukko panosmuuttujia. Luokittelu tehtävänä koostui luokittelemalla muuttuja V = v

0 kutsutaan luokan muuttuja (NSCLC /SCLC /YHTEINEN) annetaan joukko muuttujia R = r

1. . . r

n. Luokittelija C: r → v oli toiminto, joka kartoitettu instanssi ”r” arvoon ”v”. Luokitin oppinut aineisto D, joka koostui näytteiden yli (r, v) [42]. Bayes-verkko yli muuttujia R oli verkon rakenne B

s, suunnattu asyklinen kuvaajan (DAG) päälle muuttujia R ja joukko todennäköisyys taulukot [43] antoivat (7) B

Jos pa (r) oli asetettu vanhempien r B

S ja verkon edusti todennäköisyysjakauman antama Eq. (8) (8) B

päättely valmistettu Bayes-verkko [41] – [43] oli jakaa luokan suurimmalla todennäköisyydellä [44]. Simple arviointityökalu kanssa K2 paikallinen haku, jossa käytetään Bayes Score hyödynnettiin (oletusparametrit) toteuttamista varten algoritmin WEKA 3.7.7 [22]. Klusterijärjestelyssä menetelmiä kertoi siitä seuraavassa jaksossa.

Ohjattu klusterointi.

Valvottu klustereiden [45] – [47] poikkesi valvomatta klusterointia, että se levitettiin jo luokiteltu esimerkkien kanssa ensisijaisena tavoitteena havaita klustereita, jotka oli suuri todennäköisyys tiheys suhteessa yhteen luokkaan. Ohjattu klustereiden tarvittava määrä klustereita voidaan pitää minimissä, ja esineet jaettiin klustereihin käyttämällä käsitettä läheisyys suhteessa tietyn etäisyyden funktiona [48] – [49]. Ohjattu klusterointi arvioitiin klusterointi tekniikka perustuu seuraavat kaksi perustetta [47] – [49]:

Class epäpuhtautta, Epäpuhtauden (X):

Se mitattiin prosenttiosuus marginaalinen esimerkkejä eri klustereita niputtamisesta X marginaalinen esimerkki oli esimerkki, jotka kuuluivat eri luokkaan yleisimmät luokan sen klusterin.

määrä klustereita, k.

tässä tutkimuksessa olemme verranneet luokat klusterin arvioinnin tarkkuuden seitsemän klusterointialgoritmeja [22] eli Odotus-maksimointi (EM) algoritmi, COBWEB [22], hierarkkinen klusterointi, K-means klusterointi, Kauimmaisin Ensinnäkin klusterointi, Density-Based klustereiden ja Suodatetut klusterointi. Määrä klustereita määritettiin automaattisesti vuonna COBWEB algoritmin taas jäljellä algoritmien ansiosta käyttäjä voi valita halutun määrän klustereita [22]. Jotkut algoritmit näytteillä parempaa suorituskykyä sisällyttäminen kaikki ominaisuudet klusterointi kun huonontui Hybridilainan ominaisuuksien hallintaan aineistoja. Suorituskyvyn arviointiin menetelmät ja parametrit kertoi siitä seuraavissa kohdissa.

Jack-veitsi Cross-Validation Test.

Tilastollinen ennustaminen menetelmiä [50] käytettiin mittaamiseen ennustajan suorituskykyä, jotta arvioida niiden tehokkuutta käytännön sovelluksissa. Tässä tutkimuksessa jackknife cross validointimenetelmän [50] – [51] käytettiin todentaminen ja validointi luokittelija tarkasti, koska aiemmissa raporteissa ovat todenneet sen olevan ainakin luonteeltaan epämääräisiä ja laajalti ylistämä tutkijoiden ja käytännön arvioida suorituskykyä of ennustavat. In jackknife ristivalidointi [38] – [39], [52], kunkin yksi tilastomerkinnät koulutuksessa aineisto oli puolestaan ​​erikseen, koska testinäytteen ja ennustin kouluttajanaan jäljellä näytteitä. Aikana jack-knifing prosessi [23] – [24], [39], sekä koulutus aineisto ja testaus aineisto oli todella avoin, ja tilastollisen otoksen siirtää yhdestä ryhmästä toiseen. Tässä tutkimuksessa seuraaviin indekseihin [50] – [52] hyväksyttiin testata ehdotettua menetelmää. (9) (10) missä näkyi Mathews Korrelaatiokerroin; heijastuu tarkkuutta, ts nopeus ennusti oikein keuhkosyöpä kasvain luokka; TP, TN, FP ja FN merkitty määrä tosi positiivisia, true negatiivit, vääriä positiivisia ja vääriä negatiivisia, vastaavasti.

Kokeellinen Tulokset ja niiden tarkastelu

Koetulokset käsitellään kolmeen osaan. Tärkein kuvaa sijoitusta rakenne- ja fysikaalis-kemialliset ominaisuudet mukaan niiden voitto-suhde. Koko ominaisuusluetteloon sijoittui ja tiedosto palvelee Taulukko S1. Toisessa osassa käsitellään tulosten Incremental Feature Selection ja viimeisessä osassa kuvaa vertaileva suorituskykyä vertailukohtana luokituksen malleja proteiinisekvenssin ominaisuuksien luokittelua keuhkokasvaimia.

Hybrid Feature Selection

yhteensä 1497 attribuutteja alun perin käytettiin, koska koulutus tietoja 113 tapauksia [17] – [18]. Ei ennätykset monistaa ja ei ollut puuttuvat arvot. Ranking määritteet Gain Ratio kriteeri, yhteensä 134 määritteitä osoitettu vahvistus on suurempi kuin nolla. CFS osajoukko arvioijan palautetaan 39 ominaisuudet kuin optimaaliset osajoukko, joka korreloi voimakkaasti kohde luokan mutta vähiten korreloivat keskenään. Nämä ominaisuudet käytettiin sitten inkrementaalisen ominaisuuden Valintaprosessi. Tulokset Hybrid Feature Selection tekniikoita on annettu taulukossa S1.

Incremental Feature Selection

sijoittui määritteet CFS osajoukon arvioijan Sitten panosta alenevassa järjestyksessä niiden listalla luokituksen tekijällä . Klo kunkin ominaisuuden merkintä, MCC ja tarkkuus luokittelija Jack-veitsi testi laskettiin. Bayes Network Learning havaittiin antavan korkeimman ennusteen MCC 0,812 ja tarkkuus 87,6% 36 ominaisuuksia. IFS käyrät generated on luokittelija tarkkuutta ja vastaava MCC on esitetty kuvassa 2. Optimaalinen ennustetarkkuus ehdotetun metodologian kunkin toiminnon osajoukko annetaan taulukossa 1. täydelliset tulokset Incremental Feature Selection prosessin kaikkien kolmen Hybrid Feature Selection aineistot on esitetty taulukossa S2.

(A) IFS käyrä muodostettiin käyttäen luokitustarkkuudesta Lung Kasvain luokittelun. X-akseli edustaa useita ominaisuuksia, kun taas y-akseli edustaa jackknife ristivalidointi tarkkuudella. Huippu luokitustarkkuudesta saavutettu oli 87,6% 36 ominaisuuksia. Top 36 ominaisuudet johdettu Hybrid Feature Selection (Gain Ratio + CFS Subset) lähestymistapa muodostavat optimaalisen ominaisuuksia. (B) IFS käyrä muodostaa käyttämällä MCC-arvoja luokittelu algoritmeja. Huippu MCC on 0,812 36 ominaisuuksia. Top 36 ominaisuudet saamia Hybrid Feature Selection lähestymistapaa (Gain Ratio + CFS Subset) muodostetaan optimaaliset ominaisuudet.

luokitin mallit

Benchmark luokitus malleja, jotka ovat olleet raportoitu [14], [38] – [39] [53] – [54] tuottaa erittäin tarkasti ja luokittelu biologisten tietojen verrattiin määrittää optimaalisen ennustus tekniikka, joka syntyy erittäin tarkasti ennustuksen. Vertaileva suorituskykyä luokitus mallien kanssa ominaisuuksia tuottamat Hybrid Feature Selection tekniikka on esitetty taulukossa 2. Esitys verrataan perustuu MCC ja ennustearvon.

Clustering mallit

Tämä tutkimus hyödyntää seitsemän klusterointialgoritmeja [22], jotta voidaan verrata suorituskykyään luokitteluun luokissa keuhkotuumoreiden perusteella määreet. Tulokset tuottaa klusterointialgoritmeja on aineisto ennen ja jälkeen suorittamista hybridi ominaisuuksien hallintaan esitellään. Luokat klusterin arvioinnin tulokset ovat ikään taulukossa 3. On ilmeistä taulukkomuodossa tulokset klusterointialgoritmeja olleet hyödyllisiä tarjoamalla uusia idea määrite merkitystä havaitsemisessa klustereissa koska niiden suorituskyky tarkkuus oli huomattavasti alhainen. Keskusteluissa tietoihin ja tulokset esitetään Syntyneessä osiossa.

Keskustelu

vaikutus rakenne- ja fysikaalis-kemialliset ominaisuudet

On ollut useita tutkimuksia keuhkojen syöpä luokittelu [55] – [65], mutta vain edellisen laskennallisen tutkimuksen vaikutuksesta proteiinisekvenssin perustuu rakenteellisiin ja fysikaalis-kemiallisten ominaisuuksien in luokittelussa keuhkotuumoreiden tehnyt Hosseinzadeh et.al [1], joka käyttää päätöksen puu syntyy Random Forest luokittelija tunnistaa edistää määritteitä. Tässä tutkimuksessa käytimme pienimmän puun joukossa 10 Päätöksentekokaaviota mallien tuottamat Random Forest luokittelija [66] koulutusta aineisto, jotta voidaan tunnistaa kaikkein vaikuttaneita määritteitä keuhkojen kasvain luokitusta. Joskin Random komitea algoritmi myös kuvattu 100% tarkkuudella ja korkea MCC 1 koulutukseen vaiheessa saadut tulokset Jack-veitsi ristivalidointi eivät olleet niin korkeita kuin Random Forest Model. Päätös puu malli pienin määrä solmuja tuottaman Random Forest koulutusta aineisto on kuvata kuviossa 3. visualisointi tämän puun teki helpompi tunnistaa koostumuksen kunkin proteiinin omaisuuden erityyppisten keuhkosyöpään kasvaimia, mikä tarjoaa lähde lääkkeiden kehittämisen kohdistaminen proteiinin koostumus.

seuraavat uudet oivalluksia proteiinin ominaisuudet saadut Random Forest malli, jossa on uusia syrjiviä piirteitä on raportoitu ensimmäisen kerran vuonna erotteleva keuhkojen kasvain luokissa.

Dipeptidiyhdisteet koostumus oli kaikkein vaativimmillekin ominaisuus luokkien joukossa. F1.2 [Dipeptidiyhdisteet Kokoonpano], F5.3 [Distribution Descriptor], F4.1 [Geary Auto-korrelaatio] ja F6.1 [Sarja jotta kytkin numero] olivat myöhemmistä merkittävistä proteiinin ominaisuuksia joita Random Forest Model erottelemaan keuhkojen kasvain luokissa.

alhainen arvo F5.3.2 [Normalized VDW volyymit] ja F [7,1] pseudo aminohappokoostumus muutti tietueet COMMON luokkaan. Korkea F5.3.1 [jakeluun hydrofobisuuden] ja F5.3.3 [jakelu napaisuuden] todettiin niiden joukossa geenit yleinen molemmat luokat kasvaimia taas alhaisempi pitoisuus saman todettiin niiden joukossa NSCLC kasvain geenejä. Tämä ohjaa molekyyli tutkimuksen suunnitella lääkkeitä, jotka alentavat jakelua hydrofobisuuden ja polariteetin ja nostamalla normalisoitu VDW määrien ja pseudo aminohappokoostumus kohdistaa COMMON luokat kasvaimia.

korkea dipeptidi koostumus oli ominaista NSCLC geenit ja suhteellisen alhainen arvo edusti SCLC kasvaimia. Korkea pitoisuus F5.3.1 [jakelu hydrofobisuuden] ja F5.3.7 [jakelu liuottimelle] näkyi COMMON luokissa kasvaimia. Nämä havainnot viittaavat siihen lääkkeiden suunnitteluun, jotka nostavat dipeptidi koostumus tukiin parantamiseen SCLC kasvaimia ja lääkkeitä, jotka alentavat dipeptidi yhdisteen kovettua NSCLC kasvaimia. Lisäksi suunnittelu lääkkeitä, jotka alentavat jakelu hydrofobisuuden ja liuottimelle voisi tukea kuivatuksen kasvaimissa Molempien.

Sen selvää, että tiukka rajanveto joukossa kasvain luokkia oli monimutkainen tehtävä, koska monet ominaisuudet olivat havaittu olevan samanlainen koostumus sekä kasvaimen luokissa. Kuitenkin ehdotettua menetelmää todettiin erottamaan kasvaimeen luokkien suurella MCC 0,812 ja luokittelun tarkkuus 87,6%, korkein raportoitu tähän mennessä proteiinia -ominaisuutta perustuu keuhkojen kasvain luokitteluun.

Vertailu edelliseen Work

Kuten edellä todettiin, ainoa edellinen laskennallisen tutkimuksen keuhkojen kasvain luokittelun perusteella proteiinisekvenssin perustuvia rakenteellisia ja fysikaalis-kemiallisten ominaisuuksien raportoivat Hosseinzadeh et.al [1], että verrannut kymmenen eri ominaisuuksien hallintaan tekniikoita ja raportoi ominaisuuksia tuottamat Gain Ratio kriteeri tuottaa optimaalisen 10-kertainen cross validointi tarkkuus 86% kanssa Random Forest luokittelija. Niiden menetelmien sisällytetty 114 sekvenssit 30 geenien NSCLC luokassa, 59 on SCLC ja 25 yhteiseen luokan kasvaimia. Lisäksi niiden menetelmien mukana laaja tietojen puhdistus ja esikäsittelyä. Täällä käytti 113 sekvenssit [16] – [18] päässä Kegg geenistä asettaa vastaavat NSCLC ja SCLC kasvain luokat ja erillisiä geenit alle kolme luokkaa eli, NSCLC, SCLC ja COMMON. Tietueiden määrä kiteyttää 113 29 geenejä [16] – [17], että NSCLC luokassa. Tässä tutkimuksessa pyrittiin tunnistamaan minimaalinen ja optimaalinen joukko ominaisuuksia luokittelemaan keuhkojen kasvain luokkia käytettäväksi diagnostisissa käytännössä ja lääkekehityksessä. Siksi käytimme Gain Ratio kriteeri, Information Gain kriteeri ja symmetrinen Epävarmuus listalla ominaisuuksia ja sitten soveltanut korrelaatio Feature Subset arvioijan [22], jossa on haku päättymisen kynnyksellä 5 ja Best Ensimmäinen haku lähestymistapa tunnistaa pienin osajoukko ominaisuuksia kanssa suuri korrelaatio kohde-luokan ja ainakin korrelaatio toisiinsa. Tämä johti ominaisuus osajoukko 39 ominaisuuksia. Verrattaessa jackknife ristivalidointi tarkkuus viisi benchmark luokittelu mallia, Bayes Network Learning algoritmia todettiin tuottaa korkeimman MCC 0,77 tarkkuudella 85% kaikkien kolmen hybridi ominaisuuksien hallintaan osajoukot. Hakemisesta Incremental Feature Selection saimme kaikkein paras ominaisuus joukko 36 ominaisuuksia (ominaisuus osajoukko Gain Ratio + CFS) tuottaa tarkkuus 87,6%.

Aikaisempi työ Hosseinzadeh et.al raportoitu korkea tarkkuus 86% ainoastaan ​​puhdistaa tietojen poistamisen jälkeen kahdentuneet, korreloi kirjaa ja perustuvat keskihajonnan arvot. Kun otetaan huomioon samat tiedot, meidän ehdotettu työ on saavuttanut suurempaa tarkkuutta alkuperäisen, muuntamattoman datan mikä säästää laskennallisen ajan poistamalla datan puhdistuksen. Jotta tuoda esiin vertailun selkeämmin olemme tunnistaneet tarkkuus Random Forest Gain Ratio (aiemmin ehdottanut luokittelija malli) alkuperäisestä tietojen pystyi synnyttämään optimaalinen tarkkuus ainoastaan ​​79,6% 26 piirteitä Gain Ratio – CFS ominaisuuksia verrattuna meidän ehdotettua menetelmää, joka tuotti 87,6% tarkkuudesta 36 piirteitä samasta ominaisuus osajoukko. Uskomme ehdotettua menetelmää voidaan helposti laajentaa luokitella ja erotella muista onkogeenisten kasvainten koska alkuperäinen data säilytettiin laskennallisen analyysin. Kuitenkin edellinen menetelmä näyttää syntyvän korkean tarkkuuden (86%) vain puhdistettu data, joka tekee siitä rajoitus laajennettaessa menetelmää muille syöpää aineistoja. Lisäksi aiemmin ehdotettu malli lisäisi datan esikäsittelyä, kun sovelletaan uutta syöpää aineistoja.

Vertailu muiden Methods

verrattiin kolmea ominaisuutta valintamenetelmät [22] eli Information Gain, Symmetric epävarmuus ja Gain Ratio. Käytimme CFS Subset arvioijan kaikista ominaisuus asetetaan paremmuusjärjestykseen kolme algoritmeja. Kaikki viisi benchmark luokittelu algoritmeja [67] – [68] levitettiin alennettua ominaisuus aineistot. Tulokset on esitetty taulukossa 2. Kaikki kolme ennustaja menetelmät näkyvät tasaisen korkean tarkkuuden kanssa Bayes Network ennuste tekniikkaa. Optimaalinen tarkkuus saatiin vasta prosessin aikana Incremental Feature Selection kanssa Gain Ratio ja CFS osajoukko arvioijan yhdistelmä, joka saavuttaa parannettu tarkkuus 87,6% 36 ominaisuuksia.

Vastaa