PLoS ONE: Hierarkkinen Gene valinta ja geneettinen Fuzzy System for Cancer Microarray Data Luokitus

tiivistelmä

Tässä artikkelissa esitellään uusi lähestymistapa geenin valinta perustuu muuttuikin analyyttinen hierarkian (AHP). Modifioitu AHP järjestelmällisesti integroi tuloksia yksittäisten suodattimen menetelmiä valita parhaiten informatiivinen geenit microarray luokitusta. Viisi yksittäisten ranking menetelmiä, kuten t-testiä, entropia, vastaanotin toimii (ROC) käyrä, Wilcoxonin ja signaalikohinasuhde käytetään listalla geenejä. Nämä sijoittui geenit sitten pidetään tuloa modifioidun AHP. Lisäksi menetelmä, joka käyttää sumeaa peruslisäainese- malli (FSAM) Syövän luokittelu perustuu geeneihin valitsema AHP ehdotetaan myös tässä asiakirjassa. Perinteinen FSAM oppiminen on hybridi menetelmällä, jossa valvomatta rakenne oppiminen ja valvotun parametrin viritys. Geneettinen algoritmi (GA) on sisällytetty-välillä ilman valvontaa ja ohjatun harjoittelun määrän optimoimiseksi sumean sääntöjä. Integrointi GA mahdollistaa FSAM käsitellä korkea-ulotteinen-low-näyte luonne microarray tietojen ja siten tehostaa luokituksen. Kokeet tehdään lukuisia microarray aineistot. Tulokset osoittavat suorituskyvyn ylivoima AHP-pohjainen geenin valinta vastaan ​​yhden ranking menetelmiä. Lisäksi yhdistelmä AHP-FSAM osoittaa suurta tarkkuutta microarray tietojen luokittelu verrattuna kilpailevien luokittelijoiden. Ehdotettu lähestymistapa on siten käyttökelpoinen lääkärit ja lääkärit kuin päätöksenteon tukijärjestelmä, joka voidaan toteuttaa todellisessa hoitokäytännön.

Citation: Nguyen T, Khosravi A, Creighton D, Nahavandi S (2015) Hierarkkinen Gene valinta ja Geneettiset Fuzzy System for Cancer Microarray Data Classification. PLoS ONE 10 (3): e0120364. doi: 10,1371 /journal.pone.0120364

Academic Editor: Enrique Hernandez-Lemus, National Institute of Genomisen Medicine, MEXICO

vastaanotettu: 20 marraskuu 2014; Hyväksytty: 08 helmikuu 2015; Julkaistu: 30 maaliskuu 2015

Copyright: © 2015 Nguyen et al. Tämä on avoin pääsy artikkeli jaettu ehdoilla Creative Commons Nimeä lisenssi, joka sallii rajoittamattoman käytön, jakelun ja lisääntymiselle millä tahansa välineellä edellyttäen, että alkuperäinen kirjoittaja ja lähde hyvitetään

Data Saatavuus: Kaksi aineistot DLBCL ja leukemia voi ladata 2 linkeistä: https://old.biolab.si/datasets/DLBCL.tab https://old.biolab.si/datasets/leukemia.tab Yksitoista aineistoja riippumattoman validointi ehdotetun menetelmä voi ladata seuraavasta linkistä: https://linus.nci.nih.gov/~brb/DataArchive_New.html.

Rahoitus: Tämä tutkimus tukee Australian Research Council (Discovery Grant DP120102112) ja keskuksen Intelligent Systems Research (CISR) at Deakinin yliopisto.

kilpailevat edut: kirjoittajat ovat ilmoittaneet, etteivät ole kilpailevia intressejä ole.

Johdanto

suuri määrä geenejä ei voida mitenkään analysoida perinteisin menetelmin. DNA-siru on tekniikka, jonka avulla tutkijat analysoida ekspression monien geenien nopeasti. DNA-siru sisältää prosessi, joka leimatun mRNA koeputkeen levitetään microarray, joka koostuu tuhansista paikkoja. Jokainen DNA paikalla, joka edustaa yhtä geeniä, sisältää useita identtisiä DNA-säiettä. Leimattu mRNA-molekyylien liikkua microarray löytää ja kiinni niiden täydellinen ottelut. Määrä mRNA sidottu kukin täplä array määrittää ekspressiotaso eri geeneistä.

DNA sirutekniikalla siis auttaa tutkijoita löytää geneettiset syyt poikkeavuuksien syntyvien toimintaan ihmiskehon. DNA mikrosiru mahdollistaa tutkijoiden tunnistaa kaikkia eroja geeniekspression kahden eri solutyyppejä, esim. normaalin (terve) ja sairastunut (syöpä) solut, yhdessä kokeessa. Sovellukset DNA-siru tietojen luokittelu taudin perustuvat eri malleja geeniekspression keskeinen rooli lääketieteellisessä tutkimuksessa. Luokittelu microarray tietoja tarvitaan todellista kliinistä käytäntöä, erityisesti diagnoosin sydänsairaus, infektiotauti ja tutkimuksen syövän. Tämä tehtävä herättää valtava haaste tutkijoille tilastoja ja myös laskennallisen älykkyyden, koska korkea-ulotteinen-low-näyte luonne microarray data.

Wu et al. [1] palveluksessa Laplace naiivi Bayes mallin microarray tietojen luokitteluun. Menetelmässä otetaan ryhmä vaikutukset huomioon ja mittaa luotettavasti harha, joita yleisesti nähdään geenien ilmentyminen tietoja, koska joko kemiallisten tai sähköisten syistä. Chopra et ai. [2] muutoin käyttää geenipari yhdistelmiä tuloina syövän luokitteluun algoritmit sijaan alkuperäinen geeniekspressioprofiilien.

Basford et al. [3] pidetään sekä valvottuja ja valvomattomia varten microarray data. Valvotun luokitus on tunnistaa klustereita kudosten perusteella geenien taas valvomaton tekniikka käsittelee klusterointi geenien perusteella kudoksiin. Vaihtoehtoisesti laskennallinen protokolla ennustamaan geenimerkkejä syöpäkudoksiin käytetään analysointiin useiden syöpätyyppien Xu et al. [4].

Yu et ai. [5] ehdottanut Alinäytteistys menetelmää käyttäen ajatus muurahaiskeko optimoinnin luokitella epätasapainoinen DNA-siru data. Giugno et ai. [6] toisessa lähestymistavassa otettiin käyttöön microarray data luokittelu, jossa käytetään yhdistyksen säännöissä. Kirjoittajat ehdottivat, että transkriptin ilmentyminen välein pätevästi osoittaa syrjiä alatyyppejä samassa luokassa.

Äskettäin Reboiro-Jato et al. [7] on rakennettu web-pohjainen interaktiivinen työkalu arvioida erotteleva luokittelu suorituskykyä mukautettuja hypoteesin muodossa biologisesti liittyvän geenin sarjaa. Työkalu pystyy tarjoamaan arvostus tietoa diagnostisia analysointi ja kliinisen hoidon päätöksiä.

Vaikka monia menetelmiä on ehdotettu microarray tietojen luokittelua, ne voi antaa vain nonintuitive luokittelun tuloksia, jotka eivät ole kattavia ja sovellettavissa lääkäreitä todellinen käytäntö. Käyttäytymistä luokitustekniikka on ymmärrettävä ihmisen käyttämällä työkaluja kuten kielellisiä sääntöjä. Onneksi tämä tehtävä voidaan toteuttaa keinoin sumean logiikan, joka otettiin käyttöön 1960-luvulla. Sovellus sumean logiikan voi antaa lääkäreille ymmärtämään paremmin tietoja ja selityksiä miten diagnosoitu tulokset on annettu. Lisäksi sumea logiikka tarjoaa hyvän kyky käsitellä äänekäs /puuttuvia tietoja, mikä on yleinen ongelma microarray data [8-10].

innoittamana edellä olosuhteet tässä asiakirjassa esitetään menetelmä, jossa käytetään sumean standardin lisäainetta malli (FSAM) syövän microarray tietojen luokittelu. Tehostaa of FSAM käsiteltäessä korkea-ulotteinen-low-näyte microarray data, geneettinen algoritmi (GA) on sisällytetty FSAM oppimisprosessin optimoida FSAM sääntörakenteeseen.

Ennen geneettisen FSAM varten microarray tietojen luokittelu, osajoukko kaikkein informatiivinen geenit on valittu tuhansien geenien. Ehdotamme tässä uusi geeni valinnan muuttamalla perinteinen analyyttinen hierarkia prosessi (AHP) [11], joka voidaan sitten kvantitatiivisesti käyttöön integroida tuloksia useista yksittäisistä geenin ranking menetelmiä.

Gene Selection Methods

Microarray data yleisesti kerätään määrä geenejä (usein tuhansia) on paljon suurempi kuin määrä näytteitä. Monet standarditekniikoita siksi sopimatonta tai laskennallisesti mahdotonta analysoinnissa tällaisia ​​tietoja. Tosiasia on, etteivät kaikki tuhannet geenit ovat syrjiviä ja tarvittavat luokittelua. Useimmat geenit eivät ole merkityksellisiä eivätkä vaikuta luokitteluun suorituskykyyn. Kun tällaiset geenit huomioon suurentaa ongelman laajuus, johtaa laskennallisen taakan, ja esittelee tarpeetonta melua luokittelukäytäntö [9]. Siten on ratkaisevan tärkeää valita pieni määrä geenejä, kutsutaan informatiivinen geenejä, mikä voi riittää hyvän luokituksen. Kuitenkin paras osajoukko geenien on usein tuntematon [12].

Yleinen geenin valinta lähestymistavat ovat suodattimen ja kääre menetelmiä. Suodattimen menetelmiä listalla kaikki ominaisuudet mitä tulee niiden hyvyyden käyttäen suhteessa kunkin yksittäisen geenin luokan etiketti perustuu muuttujan pisteytys metristä. Korkeimmilla sijoilla geenit valitaan ennen luokittelua tekniikat käyttöön. Sen sijaan, kääre menetelmät vaativat geenin valinta tekniikka yhdistää luokittelija arvioida luokittelu suorituskykyä kunkin geenin alaryhmä. Optimaalinen osajoukko geenien tunnistetaan perustuu sijoitusta suorituskyvyn peräisin käyttöönotossa luokittelija kaikista löytyy osajoukot. Suodatin menettely ei pysty määrittämään suhdetta geenien samalla kääreen lähestymistapa vaatii suuren laskentakustannus [13].

Lyhyt kirjallisuuskatsaus geenin valintamenetelmien

On ollut useita geenin valinta tekniikoita kirjallisuudessa DNA-siru tietojen luokittelu. Liu al. [14] otettiin käyttöön kokonaisuus geeni valintatapa perustuen ehdollisiin keskinäisestä tiedot syövän microarray luokitusta. Useita geeni osajoukot palvella kouluttaa luokittelijoiden ja lähdöt yhdistetään äänestyksen lähestymistapaa.

Samoin Leung ja Hung [15] käynnistettiin usean suodatin-multiple-kääre lähestymistapa geenin valinta parantaa tarkkuutta ja luotettavuutta microarray data luokitusta. Liu et ai. [16] ehdotti toista menetelmää, jota kutsutaan ensemble geeni valinta ryhmittymä, johtamiseksi usean geenin osajoukot. Menetelmä perustuu nojalla informaatioteorian ja arvioitu Markov huopa.

Bolon-Canedo et al. [17] toisessa lähestymistapa tutkittu geeni valintatapa käsittää kokonaisuus suodattimien ja luokittelijoiden. Äänestäminen lähestymistapa käytettiin yhdistää lähdöt luokittelijoiden, jotka auttavat vähentämään vaihtelevuutta valitut ominaisuudet eri luokitusta verkkotunnuksia.

Toisaalta, Bicego et al. [18] ehdotettu hybridi generatiivinen-erotteleva lähestymistapaa käyttäen tulkittavia piirteitä uutetaan aihe malleja ilmaisun microarray tietojen luokittelu. Orsenigo ja Vercellis [19] tutkitaan epälineaarisia moninaisia ​​oppimisen menetelmiä dimensionality alennus microarray tietojen luokitteluun. Samoin Ramakrishnan ja Neelakanta [20] tutkittiin tiedotus–theoretics vaikutteita entropia yhteistyössä esiintyminen lähestymistapaa ominaisuuksien hallintaan luokittelun DNA microarray data.

Äskettäin Du et al. [21] ehdotti eteenpäin geenin valinta-algoritmin tehokkaasti valita kaikkein informatiivinen geenien microarray data. Algoritmi yhdistää laajennettu data tekniikka ja L

2-normi rangaistus käsitellä pieniä näytteitä ”ongelma ja ryhmän valinta kyky vastaavasti.

Tässä asiakirjassa, parantaa luotettavuutta ja vakautta microarray tietojen luokittelijoiden esittelemme uuden geenin valinta perustuva menetelmä muuttamista AHP. Ajatuksena lähestymistapa on koota eliitin geenit eri ranking geenistä valintamenetelmien järjestelmällisellä hierarkian.

Seuraava alakohdissa tutkia taustalla yhteistä suodattimen geenin valintamenetelmiä, joita seuraa ehdotustamme.

Huomaa, että seuraavat geeni valintamenetelmien saadaan aikaan ranking geenien kautta pisteytys käyttötiedot. Ne ovat tilastollinen testit perustuvat kahteen datan näytteiden kaksijakoinen luokittelu ongelma. Näyte keinoja merkitään μ

1 ja μ

2, kun taas σ

1 ja σ

2 ovat näytteen keskihajonnat, ja

n

1 ja

n

2 ovat otoskoot.

kahden otoksen t-testiä

kahden otoksen t-testi on parametrinen hypoteesitestin joka levitetään vertailla onko keskimääräinen ero kahden riippumattoman datanäytteisiin on todella merkittävä. Testimuuttuja ilmaistaan: (1) soveltamisessa t-testiä geenien valintaan, testi suoritetaan kunkin geenin erottamalla ekspressiotasoja perustuu luokan muuttuja. Itseisarvo

t

käytetään arvioimaan merkitystä keskuudessa geenejä. Mitä suurempi itseisarvo, sitä tärkeämpää on geeni.

Entropy test

Suhteellinen entropia, joka tunnetaan myös Kullback-Liebler etäisyys tai poikkeama on testi olettaen luokat ovat normaalijakautuneita. Entropia pisteet kullekin geeniä lasketaan käyttäen seuraavaa ilmaisua: (2) Sen jälkeen, kun laskenta suoritetaan jokaiselle geeni, geenien korkeimman entropian pisteet valitaan palvelemaan panoksina luokitusta tekniikoita.

Vastaanotin toimivat (ROC) käyrä

Merkitään jakelun toiminnot

x

kahdessa väestöjen

F

1 (

x

) ja

F

2 (

x

) hännän toiminnot määritellään vastaavasti

T

i (

x

) = 1-

F

i

(

x

),

i

= 1,2.

ROC

annetaan seuraavasti: (3) ja Alue käyrän ja suoran linjan (AUC) lasketaan: (4) Mitä suurempi

AUC

, sitä vähemmän on päällekkäisyyden luokkiin. Geenien valinta sovellus, geenit, joilla on suurimmat

AUC

Näin valitaan.

Wilcoxonin menetelmällä

Wilcoxonin summa testi vastaa Mann-Whitneyn U-testi , joka on testi tasa väestöstä paikoissa (mediaanit). Nollahypoteesi on, että kahden populaation liittää samanlaista jakaumafunktioiden taas vaihtoehtoinen hypoteesi viittaa tapauksessa kaksi jakaumat eroavat koskien mediaanit. Normaalisuus oletus välisiä eroja kahden näytteen ei tarvita. Siksi tämä testi sijasta käytetään kahden otoksen t-testi monissa sovelluksissa, kun normaaliuden olettamus on huolissaan.

päävaiheet Wilcoxonin testi [22] voidaan tiivistää seuraavasti:

Kokoa kaikki näytteitä kahden populaation ja lajitella ne nousevaan järjestykseen.

Wilcoxonin tilasto lasketaan yhteen kaikkien joukkoon liittyy näytteitä pienempi ryhmä.

hypoteesi päätös pohjalta tehnyt p-arvo, joka on löydettävissä Wilcoxonin summa jakotaulussa.

sovelluksiin Wilcoxonin testi geenin valintaan, absoluuttiset arvot standardoitua Wilcoxonin tilastojen käytetään listalla geenejä.

Signaali (SNR) B

SNR määritellään suhteellinen luokan erottaminen -luku: (5), jossa

c

on luokan vektori,

f

i

on

i

th piirrevektorin. Käsittelemällä kukin geeni ominaisuutta, muuttaa SNR ominaisuuden valinta geenin valinta ongelma microarray tietojen luokitukseen.

SNR merkitsee sitä, että etäisyys avulla kahteen luokkaan on mitta erottaminen. Lisäksi pieni keskihajonta suosii toisistaan ​​luokkiin. Välinen etäisyys keskiarvoista siis normalisoidaan keskihajonnan luokat [23].

uusi geeni valikoima muunnellulla AHP

Kumpikin edellä kriteereitä voidaan käyttää johtamiseksi ranking geenien ja sitten valita paras ranking geenejä luokittelun menetelmiä. Luottamuksen yhdellä valintaperuste geenien ei aina saavutettu. Kun otetaan huomioon, mitä perustetta on käytetty arka. Tämä kysymys herättää käsityksen ottaen huomioon sijoitusta kaikki kriteerit arvioitaessa geenejä. Tällä tavoin, eliitin geenit kustakin peruste olisi järjestelmällisesti koota muodostamaan kaikkein informatiivinen ja vakaa geeni subsets luokitusta. Se on vaikea käytäntö yhdistää ranking kaikkien kriteerien koska vaihteluvälit tilastojen kriteerit ovat erilaiset. Peruste synnyttää suuremman joukko tilastoja hallitsisi matalasti alue. Välttääkseen tämän ongelman, hyödynnämme AHP arvioinnissa geenejä. AHP käyttöönotto on yleisesti käsitelty laadulliset kriteerit, joissa niiden arvioinnit ovat peräisin asiantuntijoita. Kuitenkin asiantuntijoiden tieto rajoittuu usein varsinkin kun ongelma ratkaistu tehdään laaja joukko perusteita viitataan eri osaamisalueita. Tämä kannattaa käyttämällä määrällisiä kriteerejä AHP. Seuraavassa on esitetty uusi ehdotus nähden suhteessa ranking menettely käyttää määrälliset perusteet AHP geenin valinnan ongelma. Kriteerit käytetään tässä ovat viiden testisuureen eli t-testiä, entropia, ROC, Wilcoxonin, SNR.

AHP menetelmä laajasti sovellettu monimutkaisia ​​monikriteerinen päätöksenteko on usein suoritetaan puurakenne kriteerien ja osaperusteita [24]. Luonteesta johtuen kriteerien tässä valittu, puurakenteen on kolme tasoa hierarkioiden, kuten kuviossa. 1.

viisi kriteerit pidetään samanaikaisesti aikana AHP toteuttamista. Viisi kriteerit ovat kaikki määrälliset jotta voimme intuitiivisesti laittaa todellisia lukuja nämä kriteerit elementit pairwise sijoitusta matriisi. Tämä kuitenkin vääristäisi matriisin suhteessa muihin matriisit kuvaavat arvioinnit ja tuomiot suhteessa muihin kriteereihin. Esimerkkejä perinteisestä hierarkkisten analyysi usein hyödyntää Saaty arviointiasteikko [1, 9] ja karkea suhteet, esim. 1, 3, 5, 7, 9 rakentaa pareittain vertailu matriisit [24, 25]. Tässä tutkimuksessa ehdotamme mittakaava [1, 10] sijoitusta merkitystä tai merkitystä geenin verrattuna muihin geeneihin. Tämä asteikko sovelletaan kaikkiin kriteerejä AHP sovelluksen.

Oletetaan

X

= (

x

ij

) on

n

×

n

-ulottuvuudella pareittain asiassa matriisin, jossa jokainen elementti

x

ij

edustaa suhteellinen merkitys geenin

i

yli geeni

j

suhteen määrätyllä kriteeri,

n

on joukko geenejä. Vastavuoroinen ominaisuus aiheuttaa seuraavat rajoitteet (6) (7) Jos geeni

i

on ehdottomasti enemmän informatiivinen kuin geenin

j

, niin meillä on

x

ij = 10. Siten geeni

j

on oltava ehdottoman vähemmän tärkeää kuin geenin

i

ja

x

ji = 1/10. Jossa

x

ij = 1, tämä tarkoittaa, että kaksi geeniä ovat yhtä informatiivisia. Mitä suurempi arvo

x

ijε [1,10], sitä tärkeämpää geenin

i

on vertaamalla geenin

j

. Elementti

x

ij, joka on suurempi kuin 1 on nimeltään ylivoimainen elementti. Muuten

x

ij kutsutaan huonompi, koska sillä on pienempi kuin 1.

Määritellään etäisyys

d

ij kahden geenien

i

ja

j

suhteen tietyn kriteerin (esim t-testiä, entropia, ROC, Wilcoxonin tai SNR), jonka itseisarvo vähennyslaskua kahden tilastoista

c

i

ja

c

j

kahden geenejä.

(8)

Huomaa, että kaikki kriteerit, sitä suurempi tilastotieto, sitä tärkeämpää geeni on. Menettely hankkia osia vertailun vastavuoroisesti matriiseista kuvataan alla jossa

C max

on suurin etäisyys geenien suhteen annettu kriteeri,

C max

=

max

(

d

ij

), ∀

i

,

j

∈ [0,

n

], ja

c

on väliaikainen muuttuja.

ranking menettely.

kaikille paria kahden geenien

i

ja

j

(9) IF (

c

i

c

j

) NIIN

x

ij

=

c

MUUTEN

x

ij

= 1 /

c

END IF

END FOR

ilmauksia x

ij varmistavat, että ylivoimainen seikat tuomiossa matriisien jaetaan välillä [1, 10]. Huomaa, että kautta laskelmien määrällisen sijoitusmenetelmää, esimies suhteet saavat olla todellinen numeroita [1, 10], joten ne voivat luonnehtivat tiukemmin tuomion merkitys vastaan ​​alkuperäisen Saaty arviointiasteikko. Ajatellaan esimerkiksi neljä määrälliset kriteerit A, B, C, ja D vastaavat arvot 0,9, 1,3, 8,7, ja 9,2. Mukaan Saaty arviointiasteikko, kriteerit B ja A (D ja C) pidetään ”yhtä tärkeitä” ja suhteet

x

BA

ja

x

DC

tulee yhtä osoitetaan 1:

x

BA

=

x

DC

= 1. Ilmeisesti eroa B- ja A (tai D ja C), vaikkakin pieni, on laiminlyöty. Kuitenkin meidän ranking menetelmällä, suhteet

x

BA

ja

x

DC

annetaan tarkemmin ja eri 1,4337 =

x

BA

x

DC

= 1,5422. Samalla tavoin Saaty arviointiasteikko, kriteeri C pidetään ehdottoman tärkeämpää kuin kriteeri A ja B, ja suhde

x

CA

ja

x

CB

ovat molemmat osoitetaan 9. esitämme mittakaavassa suhde

x

CA

ja

x

CB

osoitetaan eri 9,4578 ja 9,0241 vastaavasti. Siksi ”ehdottoman tärkeää” tuomio on rento ja korvattu tiukempi tuomioita eri reaalilukuja 9,4578 ja 9,0241 sijasta sama karkea numero 9 sekä

x

CA

ja

x

CB

.

Kun vertailu matriisit rakennetaan, hierarkkinen analyysi laskee ominaisvektorit, jotka osoittavat ranking tulokset geenejä. Laskelmat AHP kuvataan tiivistetysti taulukossa 1.

samalla soveltaen AHP, matriisin on oltava johdonmukaisia ​​ja siten sen osien on oltava transitiivinen, joka on

x

ik

=

x

ij

x

jk. Johdonmukaisuuden varmistamiseksi vertailun matriisi X, Saaty [25] ehdotti laskettaessa Johdonmukaisuus Index (CI) ja sitten johdonmukaisuus Ratio (CR), joka perustuu suurten näytteitä matriisit puhtaasti satunnaisia ​​tuomioita. Olkoon

ε

= [

ε

1, …,

ε

n

]

T olla ominaisvektori ja λ ominaisarvo on neliömatriisi

X

, joten: (10) (11) (12) CR saisi ylittää 0,1, jos joukko tuomioita on johdonmukainen vaikka CR yli 0,1 (mutta ei liian paljon ) joskus on hyväksyttävä käytännössä. CR yhtä suuri kuin 0 tarkoittaa tuomiot ovat täysin yhdenmukaisia.

Kun laskelmat viiden kriteerin valmistuttua saadaan ns vaihtoehto suorituskyvyn matriisi koostuu viidestä ominaisvektorien joka on muotoa esitetään taulukossa 2.

Lopuksi sijoitusta geenien kertomalla suorituskyvyn matriisin ja vektori edustaa tärkeää paino jokaisen kriteerin. Painoarvovektori voidaan saada arvioimalla huomattavan kunkin kriteerin suhteen maalia käyttäen samaa menetelmää kuin edellä on kuvattu. Kuitenkin välttää bias tuomion pidämme viiden kriteerin, joilla on yhtä tärkeä taso koskien tavoite. Sitten paino vektori on (1/5, 1/5, 1/5, 1/5, 1/5)

T. Näin ollen on selvää, että sijoitusta geenien automaattisesti normalisoitu ja se osoittaa huomattavan kunkin geenin ottaen huomioon paitsi yksi kriteeri, mutta kaikki kriteerit samanaikaisesti. Korkein geenit valitaan sitten luokittelun jälkeen. Tässä asiakirjassa, todistaa suorituskykyä luokittelutekniikoita, monenlaisia ​​määrä geenejä määritetään. Tiedot määrä geenejä valittujen on esitetty kokeellisessa osassa.

Genetic Fuzzy System for Microarray Data Classification

Fuzzy peruslisäainese- malli (FSAM) B

FSAM järjestelmä

F

:

R

n

→ R

p

koostuu

m

if-then sumeaa säännöt, jotka yhdessä voivat tasaisesti arvioitu jatkuvan ja jota rajoittaa mitattavissa toimintoja kompaktissa verkkotunnuksen [26, 27]. Jos-osa sumeita joukkoja

j

R

n

voi olla mitä tahansa jäsenyyden toimintoja. Samoin silloinen osa sumeita joukkoja

B

j

R

p

voidaan valitsivat mielivaltaisesti, koska FSAM hyödyntää vain painopisteen

c

j

ja volyymi

V

j

B

j

laskea tuotoksen

F

(

x

) annetaan syötevektori

x

sr

n.

(13)

Jokainen

m

sumea sääntöjä sanan muodossa

”Jos X = A

j

sitten Y = B

j

edustaa sumea sääntö laastari muotoa A

j × B

j⊂R

n × R

p. FSAM siis graafisesti kattaa kuvaaja approximand

f

kanssa

m

sumea sääntö laastaria. Jos-osainen sarja

j

R

n

on ominaista yhteinen set toiminnon

j

:

R

n

[0, 1], että tekijät:. Sitten-osassa sumea joukko B

j⊂R

p on samalla mallinnetaan jäsenyysfunktion

b

j

:

R

p

[0, 1], että on tilavuus (tai alue)

V

j ja painopisteen

c

j

. Kupera painot ilmaista: (14) indusoivat FSAM lähtö

F

(

x

) kuin kupera summana silloisen osavalvontaan centroids. FSAM erityisesti tai sumea järjestelmä yleensä edellyttää suuruusluokkaa

k

n + p-1 säännöt luonnehtia toiminnon

f

:

R

n

→ R

p

kompaktissa verkkotunnuksen.

Oppiminen on elintärkeä prosessi FSAM rakentaa tietopohja, joka on rakenne if-then sumeaa sääntöjä. FSAM oppimisprosessi perinteisesti sisältää kaksi perusvaihetta: a) valvomatta oppimisen rakentamiseen if-then sumeaa sääntöjä ja b) ohjattu oppiminen virittämiseen säännön parametrien [28].

ohjattu oppiminen alkaa usein satunnaisesti alustettu setti parametrien ja päättyy, kun se täyttää määritetyn lopetuskriteerejä. Koska koulutus prosessi maksaa paljon aikaa ja on usein loukussa paikallisia minimit, alustus parametrien on siis triviaali asia. Valvomatonta oppimisprosessi, joka toteutetaan usein niputtamisesta menetelmällä, esim. sumea c-means, auttaa alustamaan parametrit sumean sääntöjen taitavammin (Fig. 2).

Microarray data tavallisesti yhdistetään korkean ulotteinen luonnetta, joka johtaa FSAM luokituksen sääntö räjähdys järjestelmä päin kirous dimensionality [29]. Jossa on suuri joukko sääntöjä, FSAM vaatii suuren määrän näytteitä opettaa järjestelmälle. Tämä kuitenkin ristiriidassa alhaiseen näyte ominaisuus geenin ilmentymisen microarray data. Tästä syystä on välttämätöntä optimoida sääntörakenteeseen tehokkuuden parantamiseksi oppimisprosessia ja yleistys kyky FSAM.

Tässä tutkimuksessa ehdotamme käyttö kehittyvä oppimisprosessin eli GA, optimoimaan numero sumean ennen kuluvan ohjattu oppiminen suoritetaan. Evoluution oppiminen komponentti on suunniteltu myös lievittää laskennallisen kustannukset onnistua ohjattu oppiminen. Koko integraatio GA ja FSAM muotoilemaan geneettinen sumea järjestelmä on esitetty kuvassa. 3. Tiedot jokaisen oppimiskomponentti esitetään seuraavissa kappaleissa.

valvomaton oppiminen sumean c-välineet (FCM) klusterointi

FCM klusterointimenetelmä [30] sovelletaan alustaa parametrit FSAM. Järjestämme vastaava tulo ja lähtö tiedot ainutlaatuinen havainto p + 1 mitat jossa

p

on määrä tuloa ja yksi lähtö, joka vastaa luokkaa luokitellaan. Merkitään

x

i on

i

nnen järjestetty havainto (

i

= 1, …,

N

),

x

i on esitetty seuraavasti: (15), jossa on

j

th tuloon

i

th havainnointi ja

teho

i

on lähtö

i

th havainto. Ryhmittelemällä otoksen

N

havaintoja, joilla on edellä formaatti, pystymme johtamaan

C

tuloksena klustereita vastaava

C

sumea sääntöjä FSAM. Kun FCM klusterointi on valmis, keskuksia tuloksena klustereiden osoitetaan keskuksia jäsenyysfunktiot (MFien). Keskusten lähdön kukin sääntö osoitetaan sama kuin lähtöarvo vastaavan klusterin. Leveydet MFien kunkin säännön alustetaan perustuvat keskihajonta tietoja.

sinc

jäsenyys toiminto

sin

(

x

) /

x

suositella parhaana muoto sumea asetettu toiminto approksimaatiota käytetään rakentamaan if-then sumeaa sääntöjä [31].

j

th sinc joukko toiminto (Fig. 4) keskitetty

m

j

ja leveys d

j

0 määritellään alla: (16) Käynnissä FCM klusterointi useita kertoja sama GA väkilukuun voimme saada alkupopulaatiosta GA, jota kuvataan seuraavassa.

Fuzzy sääntörakenteeseen optimointia GA

GA [32] on epäsovinnainen hakua tai optimointi tekniikka liikennöi asukkaan

n

keinotekoinen yksilöitä. Yksilöt on tunnusomaista kromosomien (tai genomeja)

S

k,

k = {

1,

,

n}

. Kromosomissa on merkkijono symboleita, joita kutsutaan geenejä, S

k = (S

k1

, …, S

kM

), ja

M

on merkkijonon pituus. Yksilöitä arvioidaan kautta laskettaessa hyvyysfunktion. Kehittyä läpi peräkkäisissä sukupolvissa, GA huolehtii kolmesta perus geneettisen operaattorit: valinta, crossover ja mutaatio.

rulettipyörän valintatapa valitaan henkilöitä, jotka menevät välituotteen väestöstä. Vanhemmat valitaan perustuen niiden kunto. Kromosomit on enemmän mahdollisuuksia valita, jos ne ovat parempia (korkeampia kunto) kuin toiset. Kuvittele kaikki kromosomien väestöstä asetetaan ruletin, ja jokaisella on paikka suuri mukaan sen sopivuuskertoimina.

Pyörää pyöritetään ja valinta piste osoittaa, mikä kromosomi on valittu, kun pyörä on pysäytetty. On selvää, että kromosomi isompi kunto valitaan useammin (kilpailevat sääntö evoluutioteorian).

crossover operaattori valitsee sattumanvaraisen parit väli- väestöstä ja suorittaa 1 pisteen crossover. Geenit ylemmän kromosomeista valitaan luoda uusia jälkeläisiä.

Lisäksi yksilöt mutatoitunut ja ne muodostavat uuden väestöstä. Mutaatio estää kuuluvat kaikki ratkaisut väestön osaksi paikallista optimia ongelma on ratkaistu. Muutama satunnaisesti valittua bittiä kytketään 1-0 tai 0 1

kautta kromosomeja ”evolution, GA hakee paras ratkaisu (t) siinä mielessä, että tietyn sopivuuskertoimina. Palveluksessamme GA kouluttaa monimutkainen FSAM sisältää monia parametreja. Hyvyysfunktioiden on suunniteltu tarkoituksena vähentää sumean sääntöjä ja myös vähentää oppimisen virheen samanaikaisesti. Seuraava kaava ehdotetaan: (17) Jos

m

on määrä sumean sääntöjä,

n

on tietojen määrä näytteitä, ja on virhetermi määritellään seuraavalla yhtälöllä 🙁 18) missä

y

i

on todellinen arvo ja

F

(

x

i

) on lähtö FSAM. Parametrit FSAM koodataan geenit GA kromosomien /yksilöitä.

Vastaa