PLoS ONE: luokittelu Keuhkosyöpä Kasvaimet Perustuu rakenne- ja fysikaalis-kemialliset ominaisuudet proteiinien bioinformatiikan Models

tiivistelmä

Rapid eroa pienisoluinen keuhkosyöpä (SCLC) ja ei-pienisoluinen keuhkosyöpä (NSCLC) kasvaimet on erittäin tärkeää diagnoosi tämän taudin. Lisäksi sekvenssistä peräisin rakenteelliset ja fysikokemialliset kuvaajat ovat erittäin hyödyllisiä koneoppimista ennustamiseen proteiinin rakenteellisten ja toiminnallisten luokkien, luokittelu proteiineja ja ennusteen suorituskykyä. Tässä tutkimuksessa on luokittelu keuhkotuumoreiden perustuu 1497 johdettuja rakenne- ja fysikaalis-kemialliset ominaisuudet proteiinisekvenssien (perustuu geeneihin määritelty mikrosiruanalyysillä) tutkittiin yhdistämällä määrite painotus, valvotaan ja ilman valvontaa klusterointialgoritmeja. Kahdeksankymmentä prosenttia painotusmenetelmiä valitut ominaisuudet, kuten autokorrelaatio, dipeptidi kokoonpano ja jakelu hydrofobisuuden tärkeimpänä proteiini attribuutteja luokittelun SCLC, NSCLC ja YHTEINEN luokat keuhkotuumoreiden. Samat tulokset havaittiin useimmissa puun induktion algoritmit kun kuvaajien hydrofobisuuden jakelu oli paljon proteiinia sekvenssit YHTEINEN molemmissa ryhmissä ja jakelu käytettäessä näiden proteiinien oli erittäin alhainen; näytetään YHTEINEN proteiinit olivat erittäin hydrofobinen. Lisäksi koostumukset polaaristen dipeptidi vuonna SCLC proteiinit olivat korkeammat kuin NSCLC proteiineja. Jotkut klustereiden malleissa (yksinään tai yhdessä määrite painotus algoritmit) pystyivät lähes luokitella SCLC ja NSCLC proteiineja. Random Forest puu induktio algoritmi laskettuna lehdet one-out ja 10-kertainen cross validointi) osoittaa yli 86% tarkkuudella ryhmityksellä ja ennustamisessa kolme erilaista keuhkosyöpä kasvaimia. Tässä ensimmäisen kerran soveltamista data mining työkalut tehokkaasti luokitella kolmeen keuhkosyöpään kasvainten siitä, miten tärkeää on dipeptidin koostumuksen, autokorrelaatio ja jakelu avainsana on raportoitu.

Citation: Hosseinzadeh F, Ebrahimin M, Goliaei B, Shamabadi N (2012) Classification of Lung Cancer Kasvaimet Perustuu rakenne- ja fysikaalis-kemialliset ominaisuudet proteiinien bioinformatiikan mallit. PLoS ONE 7 (7): e40017. doi: 10,1371 /journal.pone.0040017

Editor: Hassan Ashktorab, Howard University, Yhdysvallat

vastaanotettu: 27 maaliskuu 2012; Hyväksytty: 30 toukokuu 2012; Julkaistu: 19 heinäkuu 2012

Copyright: © 2012 Hosseinzadeh et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään.

Rahoitus: Kirjoittajat ei ole tukea tai rahoitusta raportoida.

kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

Keuhkosyöpä on johtava kuolinsyy syöpään maailmanlaajuinen. Joukossa keuhkosyövässä, ei-pienisoluinen keuhkosyöpä (NSCLC) vaikuttaa noin 80%: lla potilaista ja kun diagnosoidaan lokalisoitu vaiheessa 5 vuoden pysyvyys on noin 50%, kun se laskee 8% ja 3%, kun kyseessä imusolmuke osallistuminen tai etäpesäke, vastaavasti [1]. Hengittäminen tupakansavua ja muita ympäristön karsinogeenien pidetään suurena etiologic tekijä [2]. Epidemiologiset tutkimukset edelleen osoittamaan, että geneettistä vaihtelua yksittäisten vastauksena karsinogeeneja saattaa muuttaa alttiutta syöpään. Polymorfismit liittyvien geenien vieroitus karsinogeenien, ja ne, jotka moduloivat ja korjata DNA-vaurioita jälkeen karsinogeeni altistuksen, on liitetty riskeihin keuhkosyöpään [3].

Potilaat, joilla on ei-pienisoluinen keuhkosyöpä kasvaimia (squamous , AC, ja suuret solu) kohdellaan eri tavalla kuin niitä, joilla on pieniä kasvaimet, siis patologinen ero näiden kahden keuhkojen kasvain on erittäin tärkeä. Geeniekspression kuviot mahdollistanut sub luokittelu adenokarsinooma alaryhmiin korreloivat aste kasvaimen erilaistumista sekä potilaan selviytymistä. Geeniekspressioanalyysissä täten lupaa laajentaa ja tarkentaa tavallinen patologinen analyysi [4]. On yleisesti hyväksytty, että keuhkojen karsinogeneesi on monivaiheinen prosessi ja fenotyyppisiä muutoksia, jotka johtuivat aktivointi onkogeenien ja inaktivaation tuumorisuppressorigeeneille [5]. Ei-pienisoluinen keuhkosyöpä (NSCLC) on johtava syy syövän kuolleisuus kaikkialla maailmassa. Tällä hetkellä ei ole luotettavia biomarkkerit ovat saatavilla ohjaamaan sairauden hoidossa. Sirutekniikalla voi sallia tarkoituksenmukaista biomarkkerit voidaan tunnistaa, mutta esillä alustat puuttuvat tauti tarkennuksen ja ovat siten todennäköisesti kaipaamaan mahdollisesti tärkeät tiedot sisältyvät potilaan kudosnäytteistä. Yhdistelmä laajamittaista in-house sekvensointi, geeniekspressioprofilointi ja julkinen järjestyksessä ja geenien ilmentyminen data mining käytettiin luonnehtimaan transcriptome NSCLC [6]. Tunnistaminen hyödyllinen prognoosi- biologinen ja molekyylitason merkki on siis tärkeää arvioida biologinen ja molekyylitason ominaisuuksia, jotka erosivat kasvain, imusolmuke, etäpesäke TNM lavastus ei-pienisoluinen keuhkosyöpä (NSCLC), jotta voidaan ennustaa ennustetta ja luoda ehkäiseviä menetelmiä [7 ]. Parempi ymmärrys molekyylitason patogeneesin SCLC olisi todennäköisesti ehdottaa strategioita aikaisemmin diagnosointiin ja uusia molekyylitason kohdennettuja hoitomuotojen [8].

Viimeaikaisissa tutkimuksissa jotkut luokittelijoiden käytetään luokittelun syövän geenien tai proteiinien, esimerkiksi KNN luokittelija voi olla joitakin hyödyllisyys jostain microarray luokitusta ongelmia, jotka vaikuttavat koko ei-mitta pienentää aineisto. Ne osoittavat, että lisäämällä dimensionaalisuus näistä joukoista (ottaen paria, kolmen tai neljän tuples, eikä yksittäisiä transkriptio sekvenssit yksitellen) voi johtaa merkittäviin parannuksiin kuhunkin ulottuvuuteen sai [9]. Muissa tutkimuksessa piirteitä proteiinien ilmaistuna pahanlaatuinen, hyvänlaatuisia ja molemmat syöpiä verrattiin käyttämällä erilaisia ​​seulonta tekniikoita, klusterointi menetelmät, päätös puu malleja ja yleistynyt sääntö induktio (GRI) algoritmeja etsiä malleja samankaltaisuutta kahden hyvän- että pahanlaatuisia rintasyöpä ryhmien [10] tai kehitetään ja testataan naiivi Bayes luokitin perustuen sekvenssiin ominaisuuksiin geenien ja molekyylien toiminta ja biologisista prosesseista, joissa ne ovat mukana, jotta paljastaa niiden ainutlaatuisia ominaisuuksia, jotka voivat auttaa kohti tunnistamisen uuden ehdokkaan syövän geenejä [11 ] tai toteuttamiseksi systemaattinen menetelmä, joka ennustaa syöpää osallistuminen geenien integroimalla heterogeeninen aineistoja luottamalla: (i) proteiini-proteiini vuorovaikutusten; (Ii) differentiaalikaavojen tiedot; ja (iii) rakenteelliset ja toiminnalliset ominaisuudet syövän geenien [12].

Myös luokittelu keuhkosyövän, useissa tutkimuksissa, data mining malleja on käytetty. Esimerkiksi luokitus ja regressio puu (CART) malli koulutettiin luokitella 41 kliinisissä näytteissä kuin sairauden /nondisease Yhteensä 26 muuttujaa laskettu massa-ja varauksen suhde (m /z) ja piikkien korkeudet proteiinien tunnistetaan massa- spektroskopia veri seeruminäytteistä ihmisiä ja ilman keuhkosyöpä [13], tai koulutus-testaus lähestymistapa molekyyli luokittelu resektoidun ei-pienisoluinen keuhkosyöpä, että tässä tutkimuksessa, koulutus-testaus lähestymistapaa on käytetty testata luotettavuutta cDNA microarray-pohjainen luokitukset resektoidun ihmisen ei-pienisoluisen keuhkosyövässä (NSCLCs) analysoitiin cDNA microarray [14]. Toisessa tutkimuksessa, luokittelu yksittäisten keuhkosyövän solulinjoja (SCLC ja NSCLC) on tehty perustuu DNA: n metylaatio markkereita käyttämällä lineaarisen erotteluanalyysi ja keinotekoiset neuroverkot, ja seurauksena tämä työ tukee lupaus ANN analyysi DNA: n metylaatio tietojen tehokas lähestymistapa kehittämiseen automatisoitujen menetelmien keuhkosyövän luokitus [15]. Toisessa tutkimuksessa keuhkosyöpään geenien ilmentymisen tietokannan analyysi yhdistetty aiempaa tietoa kanssa tukivektorikone perustuva luokitus menetelmää yhdessä soveltamisessa tukivektorikone kuin erotteluanalyysi lähestymistapa, ja menetelmää ehdotti, että sisällytetään aiempaa tietoa syövästä luokittelu perustuu geenien ilmentyminen tietojen tarkkuuden parantamiseksi [16]. Automaattisesti luokitella keuhkojen kasvain-solmu-etäpesäkkeet (TNM) syöpä vaiheissa vapaamuotoisia patologiaraporteista käyttäen symbolinen sääntöihin perustuva luokitus. Tarkkuus toimenpide ja hämmennystä matriiseja käytettiin arvioimaan TNM vaiheiden luokiteltu symbolinen sääntöihin perustuva järjestelmä. Järjestelmä arvioitiin vastaan ​​tietokanta monitieteellinen lavastus päätöksillä ja koneoppimisen perustuva tekstinluokittelujärjestelmien järjestelmän avulla tukivektorikoneet [17]. Sekvenssistä peräisin piirteiden uusi on usein käytetty tilastotietojen kehittämiseen oppimisen malleja ennustamiseen proteiinien ja peptidien erilaisten rakenteellisten, toiminnallisten ja vuorovaikutus profiileja.

PROFEAT (Protein ominaisuudet) on web-palvelin computing yleisesti -käytetty rakenteelliset ja fysikokemialliset piirteet proteiinien ja peptidien aminohapposekvenssi [18]. -Sekvenssistä peräisin olevan rakenteellisia ja fysikaalis-kemialliset ominaisuudet on usein käytetty ennustamiseen proteiinin rakenteelliset ja toiminnalliset luokat [19], [20], [21], [22], [23], proteiini-proteiini-vuorovaikutuksia [24], [25], [26], subsellulaarisista sijainteja [27], [28] ja peptidit erityisiä ominaisuuksia [29] niiden järjestyksessä. Nämä ominaisuudet ovat erittäin hyödyllisiä edustaa ja erottaa proteiineja tai peptidejä eri rakenteellisten, toiminnallisten ja vuorovaikutus profiilit, joka on välttämätön onnistunut tilastollisten oppimismenetelmiin ennustaa rakenteellisten, toiminnallisten ja vuorovaikutus profiilit proteiinien ja peptidien riippumatta sekvenssin samankaltaisuuden [ ,,,0],30].

tässä tutkimuksessa kanssa huomiota siihen, että luokituksen keuhkotuumoreiden diagnosoinnissa ja hoidossa tämän taudin ja soveltaminen ja hyödyllisyyttä sekvenssistä peräisin piirteiden uusi proteiinien, luokittelu 2 tyyppisiä keuhkokasvaimia perustuu rakenteellisiin ja fysikaalis-kemialliset ominaisuudet proteiinien tutkittiin käyttämällä bioinformatiikan ja data mining työkaluja.

Materiaalit ja menetelmät

data valmistelu

Microarray-analyysi GSEA db ( Gene Set Enrichment Analyysi tietokanta) käytetään erottamaan liittyvät geenit joko tyyppi keuhkotuumoreiden (SCLC tai NSCLC). Jotkut geenit olivat yleisiä molemmissa kasvaimia siten nimettiin yhteisiä. Proteiinit jokaiselle ryhmälle geenejä (SCLC = 59, NSCLC = 30 tai YHTEINEN = 25) uuttaa DAVID palvelimen (https://david.abcc.ncifcrf.gov) ja proteiinisekvenssien uutettu UniProt Tietopankki (Swiss-Prot ja vapisevat) tietokanta. Yksi tuhansia ja yhdeksänkymmentäseitsemän proteiinin ominaisuuksia tai määritteitä lasketaan PROFEAT web (https://jing.cz3.nus.edu.sg/cgi-bin/prof/prof.cgi) mukaan lukien rakenne- ja fysikaalis-proteiinia. Indeksi Fi.jkl käytetään edustamaan l

th avainsana arvo k

th avainsana on j

th piirre i

th ominaisuus ryhmä, joka toimii helposti viittaus PROFEAT käsikirja annetaan palvelimelle etusivulla ja luettelot näistä ominaisuus ryhmistä osoittivat taulukossa S1 (yksityiskohdat ovat esitetty liitteessä S1) [18]. Tietoaineisto näistä proteiinin ominaisuuksia tuotiin Rapid Miner (Rapid Miner 5.0.001, Rapid-I GmbH, Stochumer Str. 475, 44227 Dortmund, Saksa) ohjelmistoja, ja kasvaimen tyyppi (SCLC, NSCLC tai yleinen) asetettiin kohde tai etiketti määrite.

Data Puhdistus

Monista ominaisuuksia poistetaan vertaamalla esimerkkejä keskenään perusteella määritetyn valinnan attribuutteja (kaksi esimerkkiä oli oletetaan vastaavan jos kaikki arvot kaikista valitut ominaisuudet olivat yhtä suuret). Sitten hyödytön määritteet poistetaan aineisto. Numeeriset attribuutit joilla oli keskihajonnat vähemmän kuin tai yhtä suuri kuin tietty poikkeama kynnys (0,1) oletetaan olevan hyödytön ja poistetaan. Lopuksi korreloi piirteet (Pearson korrelaatio on suurempi kuin 0,9) pois. Puhdistuksen jälkeen määrä attribuutteja ja kirjaa laskenut ja tämä tietokanta merkitty Final Puhdistetut tietokanta (FCdb).

ominaisuus Painotus

Tunnistaa tärkeimmät ominaisuudet ja löytää mahdollisia malleja ominaisuudet jotka edistävät keuhkosyöpä kasvaimia, 10 eri algoritmeja määritettä korjauskertoimet sovellettu puhdistettu aineisto (FCdb) jäljempänä kuvatulla tavalla.

paino tiedoilla vahvistusta.

Tämä operaattori on laskenut merkityksellisyyttä ominaisuus laskemalla tiedot voitto luokassa jakeluun.

paino tiedoilla voitto suhde.

Tämä operaattori laskettu merkitystä ominaisuus laskemalla tiedot voitto suhde luokan jakeluun.

paino säännön mukaan.

Tämä operaattori laskettu merkitystä ominaisuus laskemalla virhemäärä on Oner mallin esimerkkiä ilman tätä ominaisuutta.

paino poikkeama.

Tämä operaattori luotu painoja keskihajontojen kaikki määritteet. Arvot normalisoitiin keskiarvo, pienin tai suurin ominaisuuden.

Weight by chi potenssiin tilastotieto.

Tämä operaattori laskettu merkitystä ominaisuus tietokone-, kunkin ominaisuuden tulon esimerkin asetettu, arvo khiin neliö suhteessa luokan attribuutti.

paino mukaan Gini-indeksi.

Tämä operaattori laskettu merkitystä määrite laskemalla Gini-indeksi luokan jakelun, jos annetaan esimerkki joukko olisi jaettu mukaan ominaisuus.

paino epävarmuus.

Tämä operaattori laskettu merkitystä määrite mittaamalla symmetrinen epävarmuutta suhteessa luokkaa.

paino avustushenkilökunnnan.

Tämä operaattori mitataan merkitystä ominaisuuksia ottamalla näytteitä esimerkkejä ja vertaamalla arvoa nykyisen ominaisuus lähin esimerkki saman ja erilaisen luokan. Tämä versio on myös työskennellyt useita luokkia ja regressio aineistoja. Saatu painot normalisoitiin osaksi välin 0 ja 1 välillä

Paino, jonka SVM (Support Vector Machine).

Tämä operaattori käyttää kertoimien normaalin vektorin lineaarinen SVM kuin ominaisuus painoja.

paino PCA (periaate Component Analysis).

Tämä operaattori käyttää tekijöitä ensimmäisen tärkeimpien komponenttien ominaisuus painoja.

ominaisuus Selection

Kun määrite painotus mallit juoksi sen FCdb, kukin proteiini määrite (ominaisuus) saavutti arvon välillä 0 ja 1, joka paljasti, että on tärkeää, että attribuutin suhteen tavoite määrite (tyyppi kasvaimet). Kaikki muuttujat painoilla yli 0,50 valittiin ja 10 uutta aineistoja luotu. Nämä äskettäin muodostettu aineistot nimettiin niiden määrite painotusta mallit (Information voitto, Information voitto suhde, sääntö, Poikkeama, Chi Squared, Gini-indeksi, epävarmuus, Relief, SVM ja PCA) ja käytettiin liittyä myöhemmin mallien (valvottu ja ilman valvontaa ). Jokainen malli valvottujen tai valvomattoman klustereiden tehtiin 11 kertaa; Ensimmäistä kertaa se ajettiin tärkeimmistä aineisto (FCdb) ja sitten 10 vastaperustetun aineistot (tulokset attribuutin painotus).

valvomaton klusterointialgoritmeja

klusterointialgoritmeja alla olivat levitetään 10 uusille aineistot (generoidaan tuloksista 10 eri määritteen painotusta algoritmeja (sekä pääasiallinen aineisto (FCdb).

K-Means.

Tämä operaattori käyttää ytimet arvioida etäisyyttä esineiden ja klustereita. luonteesta johtuen ytimistä on välttämätöntä summata kaikki alkiot klusterin laskea yksi etäisyyttä.

K-Medoids.

Tämä operaattori edustaa toteutuksen k-Medoids. Tämä operaattori luo klusterin määrite jos se ei ole vielä läsnä.

Tree induktio mallit

DecisionTrees.

Viisi puu induktio mallien mukaan lukien päätös puu, päätös Tree Parallel, päätös Stump, Random Tree ja Random Forest sai pitkän tärkeimmistä aineisto (FCdb). painon perustuva rinnakkainen päätöspuumallia, joka oppii karsittiin päätöspuuta perustuu mielivaltaiseen ominaisuus merkityksellinen testi (attribuutin painotus järjestelmää sisempi operaattori), sovelletaan 10 eri aineistoja luotu määrite painotusta valinta (SVM, Gini Index, epävarmuus, PCA, Chi Squared, sääntö, Relief, Information Gain, Information Gain Ratio ja poikkeama).

Machine Based Prediction by lähteä-out 10-kertainen Cross Validation

päätöksen Tree.

Sixteen koneoppimismalleja ajettiin neljä päätös puu algoritmeja (

päätöksen Tree, päätös Tree Parallel, päätös Stump

ja

Random Forest

) neljällä eri kriteerien (

Gain Ratio, Information Gain, Gini indeksi

ja

Tarkkuus

) kaikissa 11 aineistoja löytää sopiva malli (t ) ennustaa määrityksistä ja luokittelu virheet luokkien perustuu proteiinin ominaisuuksia. Laskea tarkkuus kunkin mallin, 10-kertainen cross validointi [14] käytetään kouluttaa ja testi malleja kaikki kuviot. Suorittamaan rajat validointi, kaikki tiedot jaettiin satunnaisesti 10 osaan, 9 sarjaa käytettiin koulutukseen ja 10. yksi testaukseen (jätä yksi-out). Prosessi toistettiin 10 kertaa ja tarkkuutta tosi, epätosi ja kokonaistarkkuus laskettiin. Lopullinen tarkkuus ilmoitetaan keskiarvona tarkkuutta kaikissa kymmenessä testeissä.

Tulokset

Data Puhdistus

Alkuperäinen aineisto sisälsi 114 kirjaa (proteiinisekvenssien) kanssa 1497-proteiinin ominaisuuksia . Näistä kirjaa, 59 kirjaa luokiteltiin SCLC luokka, 30 kirjaa kuului NSCLC luokkaan ja 25 kirjaa luokiteltiin yleisiksi luokkaan. Poistamisen jälkeen kaksoiskappaleita, hyödytön ominaisuuksia, ja korreloivat ominaisuuksia (data puhdistus) määrä proteiinin ominaisuuksia laski 1089 ominaisuuksia.

ominaisuus Painotus

Data normalisoitiin ennen käynnissä malleja; odotettiin, että kaikki painot olisivat välillä 0 ja 1. Ominaisuudet lihonut suurempiin 0,50 ainakin 50% painotuksen algoritmeja pitää tärkeänä proteiinin ominaisuuksia (taulukko S2).

valvomaton klusterointialgoritmeja

Kaksi erilaista valvomatta klusterointialgoritmeja (K-Means ja K-Medoids) levitettiin FCdb ja kymmenen aineistot luotu määrite valinta (painotus) algoritmeja. Mikään klusterointialgoritmeja pystyivät erottamaan täysin proteiineja, jotka liittyvät kaikki mahdolliset keuhkojen kasvain (taulukko S3).

Tree induktio mallit

Viisi puu induktio mallit (päätös Tree, päätös Tree Parallel päätös Stump, Random Tree ja Random Forest) sai pitkän FCdb ja 10 aineistoja syntyy tehtyään 10 määrite painotus algoritmeja. Kaikkiaan 151 puuta syntyy (Random Forest itse mallin mukana 10 mallia).

Useita malleja aiheuttama yksinkertainen puita toiset olivat monimutkaisia; 9 Päätös Tree ja 35 Random Forest mallit olivat parhaita puita selvästi erottaa kahden syöpätyyppeihin.

Jakelu hydrofobisuus oli tärkein ominaisuus tarkoitus rakentaa puu kun päätös Tree mallia sovelletaan Information Gain aineisto ( Kuvio 1). Kun arvo tätä ominaisuutta oli enemmän kuin 30.628, proteiinit putosi COMMON luokkaan. Autokorrelaatio kuvaajat ja dipeptidi koostumukset olivat muita ominaisuuksia käyttää rakentaa loput puu. Jos koostumus kysteiini-glutamiinihappo ([F1.2.1.24]: polaarinen dipeptidi) oli enemmän kuin 0,087, proteiini kuului SCLC kasvain ja muuten putosi NSCLC luokkaan. Kokoonpano polaaristen dipeptidien NSCLC proteiineihin oli yli SCLC proteiineja ([F1.2.1.218]: Met-Val) ja overhand, dipeptidi koostumukset SCLC proteiinit ovat enemmän polaarisia kuin NSCLC proteiinit ([F1.2.1.326]: Thr Gly, [F1.2.1.98]: Phe-Val). Yksityiskohdat Tämän mallin ovat tällä alla.

Seuraa tärkeitä pisteitä voidaan uuttaa suortuva yleensä, nämä tulokset ovat raportoineet ensimmäisen kerran:

F1.2 (dipeptidi koostumus), F3.1 (Moran autokorrelaatio) ja F5.3 (jakelu avainsana) olivat tärkeimmät proteiinin ominaisuuksia käyttävät Päätöksentekokaaviota malleja luokitella kolmeen keuhkosyöpä luokkaa (SCLC, NSCLC, yleinen).

jakelu hydrofobisuus (F5.3.1) yhteinen luokka oli erittäin korkea, kun taas jakelun kulut (F5.3.5) oli hyvin alhainen (kuva 2).

Yleensä koostumus ei-polaaristen dipeptidit in SCLC luokassa oli pienempi kuin YHTEINEN proteiineja ja koostumus napa-dipeptidi vuonna SCLC liittyviä proteiineja oli korkeampi kuin NSCLC luokkaan (kuva 1).

ensimmäisessä vaiheessa, jos jakaminen maksutta oli yhtä suuri tai pienempi kuin 22,703 proteiineja putosi YHTEINEN luokkaan; dipeptidi koostumus oli muu tärkeä ominaisuus piirustus tätä puuta.

Machine Perustuu Prediction by Leave One-out 10-kertaisesti Cross Validation

tarkkuudet kaikkien aiheuttama Ennustusalgoritmien on esitetty taulukossa S4. Lähes keskimääräinen tarkkuudet kaikkien mallien osoitti tarkkuuksia yli 60%. Pienin tarkkuudet sai kun Stump päätöspuumallia sai pitkän Relief aineisto kanssa Gini Index kriteerit (41,89%). Paras ennustettu tarkkuus saavutetaan, kun Random Forest päätöspuumallia sai pitkän Rule aineisto kanssa Gain Ratio (86.00%).

Keskustelu

Keuhkosyöpä voidaan karkeasti jakaa kahteen ryhmään sen mukaan patologian: non -pieni keuhkosyöpä (NSCLC) (80,4%) ja pienisoluinen keuhkosyöpä (16,8%) [31]. Potilaat, joilla on ei-pienisoluinen keuhkosyöpä kasvain kohdellaan eri tavalla kuin niitä, joilla on pieniä kasvaimia. Patologinen ero pienisoluinen keuhkosyöpä (SCLC) ja ei-pienisoluinen keuhkosyöpä on siis erittäin tärkeää, [4]. Monet tutkimukset ovat katsotaan luokittelu keuhkosyöpään [16], [32], [33], [34], [35], [36], [37], [38], [39]. Esimerkiksi RNA ilmaisu kuvioita liittyy ei-pienisoluinen keuhkosyöpä sub luokitus on raportoitu, mutta on huomattavia eroja keskeisten geenien ja kliinisiä piirteitä näistä subsets kyseenalaiseksi niiden biologista merkitystä. Tässä tuoreessa tutkimuksessa, koulutus-testaus lähestymistapa on testata luotettavuutta cDNA microarray-pohjainen luokitukset resektoidun ihmisen ei-pienisoluisen keuhkosyövässä (NSCLCs) analysoitiin cDNA microarray. Nämä tulokset osoittivat, että geeniekspressioprofilointi voidaan tunnistaa molekyylien luokat resektoitiin NSCLCs että oikein luokittelee Sokeutetussa testi kohortti, ja korreloi ja täydentää normaaleja histologisia arviointi [14]. Yhteenvetona, laaja ja yksityiskohtainen tukea ajatukselle, että geenien ilmentymisen perustuva luokittelu kasvainten tulee pian kliinisesti käyttökelpoinen keuhkosyöpään ovat antaneet [4]. Molecular luokittelu NSCLC objektiivista kvantitatiivinen testi voi olla erittäin tarkka ja voitaisiin kääntää diagnostista alustan laajaan kliiniseen käyttöön [40].

sekvenssistä peräisin rakenne- ja fysikaalis kuvaajat on usein käytetty koneoppimisen ennustus proteiinin rakenteelliset ja toiminnalliset luokat [19], [20], [21], [22], [23], [24], proteiini-proteiini-vuorovaikutuksia [24], [25], [26], [41], subsellulaarisista paikoissa [27], [28], [42], [43], peptidejä, jotka sisältävät erityisiä ominaisuuksia [29], [44], microarray data [45] ja proteiinien sekundaarinen rakenne ennustus [46]. Nämä kuvaajat palvelevat edustamaan ja erottaa proteiineja tai peptidejä eri rakenteellisten, toiminnallisten ja vuorovaikutus profiileja tutkimalla niiden erottaa ominaisuuksia koostumuksissa, korrelaatioita, ja jakaumat osatekijän aminohapot ja niiden rakenteelliset ja fysikaalis-kemialliset ominaisuudet [18], [20], [ ,,,0],26], [30] ja tämä osoitti, että nykyisin käytettävä avainsana-sarjat ovat yleensä käyttökelpoisia luokitteluun proteiineja ja ennusteen suorituskykyä voidaan parantaa tutkimalla kuvaajien yhdistelmiä [47].

tässä tutkimuksessa käytimme rakenteelliset ja fysikaalis-kemialliset ominaisuudet proteiinien, joissa on kaikki mahdolliset keuhkotuumoreiden luokittelun niistä ja havaitsemaan tärkeimmät proteiinin ominaisuuksia, jotka ovat osallistuneet erottaa keuhkotuumoreiden. Erilaisia ​​mallintamistekniikoita sovellettiin tutkia 1497 ominaisuuksia proteiinien mukana kahdessa ja neljää tyyppiä (julkaisematon data) keuhkosyöpään. Kun määrä muuttujia tai ominaisuuksia on riittävän suuri, on kyky käsitellä yksiköitä vähenee merkittävästi. Tietojen puhdistus algoritmeja käytettiin poistamaan korreloivat, hyödyttömiä tai monistaa attribuutteja, joka johtaa pienempään tietokantaan [48], [49]. Noin 15% määritteet poistetaan, kun nämä algoritmit sovellettiin alkuperäisen aineistot.

Kymmenen eri määritettä painotusta malleja levitetään lopullinen puhdistettu aineisto; koska jokainen algoritmi käyttää tietty kuvio määritellä tärkeimmät ominaisuudet, siten, tulokset voivat olla erilaisia ​​[50]. Ominaisuus ryhmät F5.3 (jakelu kuvaajat), F1.2 (dipeptidi kokoonpano) ja F3.1 (autokorrelaatio) olivat tärkeimpiä ominaisuuksia valitun ominaisuuden mukaan painotuksen malleja erottaa SCLC, NSCLC ja YHTEINEN luokkien keuhkojen kasvain tyypit, määrittelemien 80% ominaisuuden painotuksen algoritmit (taulukko S2).

Lisäksi sopivassa päätöspuilla, yhteensopiva tulokset määrite painotus algoritmeja näytettiin ja samaa proteiinia määrite ryhmät (F2.1, F3.1 , F5.3 ja F1.2) valittu tärkeimpiä ominaisuuksia luokittelun keuhkojen kasvain proteiineja. Lisäksi useimmat aiheuttama puut osoitti F5.3 ominaisuuksia, jakelu hydrofobisuuden yhteistä proteiineihin oli erittäin korkea ja jakelu varautuneiden tähteiden näissä proteiineissa oli hyvin alhainen, joten tulokset vahvistivat proteiineja luokkaintressiltään olivat hyvin hydrofobisia.

merkitys hydrofobisuuden on korostettu joissakin tutkimuksissa [51], [52], [53]. On hyvin tunnettua, että hydrofobisuus on tärkeä rooli määritettäessä ominaisuuksien aminohapot, peptidit ja proteiinit. Toisessa tutkimuksessa, hydrofobiset tähteet olivat hallitseva hitaasti alueella taitto, ja hydrofiiliset tähteet usein tapahtui nopeasti alueella. Yleisesti, ympäristön proteiinien on vettä. Tyypillisesti sivuketjut hydrofobisten tähteiden on haudattu sisätilojen proteiinien muodostamiseksi hydrofobisen ytimen, joka on veden lisäksi, kun taas sivuketjut hydrofiiliset tähteet altistuvat proteiinien pinnalla, joka on lähellä veden molekyyli [ ,,,0],54]. Siksi tulokset Tutkimuksessamme ensimmäistä kertaa, vahvistaa, että on tärkeää hydrofobisuuden salliessaan nopea taitto Yhteisen proteiinien toisistaan ​​kaksi keuhkotuumoreiden ja lisäämällä niiden kyky tuumorigeenisia omaisuutta.

Dipeptidiyhdisteet koostumus oli muita tärkeitä proteiinin ominaisuus ryhmät valitaan tärkeänä nykyisessä tutkimuksessa. Meidän Viimeaikaisissa tutkimuksissa osoitimme, että erityiset dipeptidit keskeisessä asemassa luokittelu rintasyövän ja proteiinia halo vakautta ja termo vakaus [10], [55], [56]. Tärkeys järjestyksessä perustuva luokitus havaitsemiseen eri proteiinien ilmaistu rintasyövän ja merkitys Ile-Ile dipeptidi ryhmityksellä proteiineja, on raportoitu siellä [10]. Tässä artikkelissa useimmat Päätöksentekokaaviota mallien osoitti, että koostumus napa-dipeptidi vuonna SCLC proteiinit olivat yli NSCLC proteiineja ja päinvastoin, tuloksena NSCLC proteiineja näyttää enemmän hydrofobisuutta. Nämä tulokset ovat raportoineet ensimmäisen kerran ja se voi olla yksi tärkeimmistä tekijöistä helpottamaan SCLC kasvaimen jakelua.

Tässä tutkimuksessa, autokorrelaatio avainsana oli toinen tärkeä ominaisuus ryhmä luokittelun keuhkotuumoreiden. Autokorrelaatio kuvaajia ovat luokan topologinen kuvaajien, joka tunnetaan myös molekyylien liitettävyys indeksit kuvaavat korrelaatio kahden kappaleen (proteiini tai peptidi sekvenssit) mitattuna niiden erityisten rakenteellisten tai fysikaalis omaisuuden [57], jotka on määritelty perustuvat jakelusta aminohappo ominaisuuksien pitkin sekvenssi [58]. Kahdeksan aminohappo ominaisuuksia käytetään johdettaessa autokorrelaation kuvaajia: hydrofobisuusasteikolla [59]; keskimääräinen joustoindeksi [60]; polaarisuus parametri [61]; vapaa energia aminohapon vesiliuosta [61]; Jäännös pääsee pinta-alat [62]; aminohappotähde määriä [63]; steerinen parametrit [64]; ja suhteellinen mutability [65]. Yksi viimeaikainen tutkimus osoitti, että AASA (aminohapposekvenssi autokorrelaatio) tieto on erittäin tehokas edustaa suhdetta proteiinin sekvenssi ja vastaavat taittuvat hinnat [54]. Joten autokorrelaatio-ominaisuudet voi olla tärkeä rooli taitto kolmen keuhkosyöpään kasvaimia tutkittu täällä ja tämä ominaisuus on ilmoitettu ensimmäistä kertaa tässä tutkimuksessa. Autokorrelaatio lähestymistapa oli menestyksekäs käyttö mallintamiseen molekyylirakennetta, biologisia vaikutuksia [66], [67] ja ennustaminen proteiinin helix sisällöstä [68]. Tuoreessa tutkimuksessa menetelmä rekonstruoimiseksi kannan jakauma muokkaamalla autokorrelaatio tekniikka, ”yhdistetty autokorrelaatio menetelmä” ehdotti. Kokeissa käyttäen kasvaimen phantom ja uutettiin rintakudoksen lukien syöpäkasvain, kukin kimmomoduuli saatu kuva yhdistetty autokorrelaatio menetelmää ja 3-D Elementtimallissa kudosmalli selvästi näkyvissä alueella kovempaa kuin ympäröivä pehmeästä materiaalista tai kudoksen. Nämä tulokset osoittavat, että yhdistetty autokorrelaatio menetelmä on lupaava keino diagnosoinnissa kasvaimia [69], kuten tässä paperissa.

valvomaton klusterointialgoritmeja on laajalti käytetty eri alueilla biotieteiden, diagnostiikka ja kuvankäsittely [70], EST [71], syövän havaitseminen [72], promoottori analyysi [71], geeni ja proteiini bioinformatiikan [56], [73], [74], [75], [76]. Täällä, käytimme kahta eri valvomatta klustereiden menetelmiä (K-Means ja K-Medoids) on FCdb ja 10 aineistoja luotu proteiinia attribuutteja, joka oli osoitettu korkea painoja. Esitykset Näiden algoritmien vaihteli huomattavasti. Jotkut menetelmät pystyivät lähes määrittää NSCLC proteiinia oikeaan luokkaan (esimerkiksi K-Medoids algoritmia, sovellettuna FCdb ja Poikkeama, Gini-indeksi Information Gain, PCA ja epävarmuus aineistot). Tulokset osoittivat, että K-Medoids algoritmi oli lähes osaa luokitella SCLC proteiinien oikeaan luokkaan, kun kulkee sen Chi Squared aineisto. Mutta kukaan klusterointialgoritmi pystyi oikein luokitella YHTEINEN proteiinien vastaavaan luokkaan (taulukko S3). Tarkempaan klusterointi proteiineja, jotka kuuluivat kaikki mahdolliset keuhko- kasvainten, muut klusterointi malleja, kuten EM soveltaa tietojen suurempi tarkkuus (julkaisematon data).

Kuten taulukosta S4, yleinen tarkkuus puiden induktion

Vastaa