Uvrščanje in diskretizacija mnogorazsežnih mikromrežnih DNA-podatkovij : doktorska disertacija

Kastrin, Andrej

Izpis gradiva
A+ | A- | | SLO | ENG

Naslov:	Uvrščanje in diskretizacija mnogorazsežnih mikromrežnih DNA-podatkovij : doktorska disertacija
Avtorji:	ID Kastrin, Andrej (Avtor) ID Povh, Janez (Mentor) Več o mentorju...
Datoteke:	DR_2015_Kastrin_Andrej.pdf (2,87 MB) MD5: 8F16D84C2CEBD6F18DF82733F3DEC0AD
Jezik:	Slovenski jezik
Vrsta gradiva:	Doktorsko delo/naloga
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	FIŠ - Fakulteta za informacijske študije v Novem mestu
Opis:	Tehnologija DNA-mikromrež je danes dostopna v vsakem bolje opremljenem biomedicinskem laboratoriju. Kljub dovršenosti postopkov je statistična analiza mikromrežnih DNA-podatkovij za statistika še zmeraj velik izziv. Mikromrežno podatkovje opišemo z matriko razsežnosti n p, kjer se vrstice matrike nanašajo na posamezne primere, stolpci pa na proučevane gene. Velja, da je n << p. Na osnovi analize geometrijskih lastnosti mnogorazsežnih podatkovnih objektov lahko pokažemo, da je v tem primeru podatkovni prostor zelo redek. Fenomenu praznega prostora se poskušamo izogniti z uporabo metod za krčenje podatkovne strukture. Empirična evidenca razkriva, da na področju statistične analize mikromrežnih DNA-podatkovij sistematična raziskava, ki bi proučevala vpliv metod za krčenje podatkovnih struktur, še ni bila opravljena. Prav tako ostaja odprto vprašanje smiselnosti diskretizacije mikromrežnih podatkov. V doktorski nalogi smo obravnavali tri problemske naloge. V prvem sklopu eksperimentov smo proučili kakovost različnih klasifikatorjev v nalogi uvrščanja primerov v dva vnaprej podana razreda. Uporabili smo nekatere najpogosteje uporabljene metode, kot so nevronske mreže, metoda najbližjih sosedov, klasifikacijska drevesa s slučajnimi gozdovi, metoda podpornih vektorjev, logistična regresija s kaznijo ter tri izpeljanke linearne diskriminantne analize (Fisherjeva, klasična in diagonalna). V drugi problemski nalogi smo analizirali vpliv metod za krčenje števila razsežnosti na uvrščanje. Podrobno smo proučili vpliv analize glavnih komponent in metode delnih najmanjših kvadratov na kakovost uvrščanja. V tretjem sklopu smo se ukvarjali s proučevanjem vpliva diskretizacije neodvisnih spremenljivk na uvrščanje. V analizo smo vključili nekatere najpogosteje uporabljene algoritme diskretizacije, kot so metode enake širine intervalov, enake zastopanosti intervalov, 1R, MDLP in ChiMerge. Eksperimente smo izvedli nad 37 realnimi DNA-podatkovji. Vpliv metode uvrščanja in izbire spremenljivk smo ovrednotili tudi nad sintetičnimi podatki. Izbor parametrov uvrščanja in ovrednotenje kakovosti uvrščanja smo opravili po shemi prečnega preverjanja. Kakovost smo izrazili s štirimi merami: točnostjo uvrščanja, občutljivostjo, specifičnostjo in ploščino pod ROC-krivuljo. Pri uvrščanju realnih mikromrežnih podatkovij se najbolje odreže logistična regresija s kaznijo, najslabše pa nevronske mreže. Nad sintetičnimi podatkovji po kakovosti izstopa metoda podpornih vektorjev. Med metodama krčenja podatkovne matrike glede na kakovost uvrščanja ni statistično značilnih razlik (z izjemo ploščine pod ROC-krivuljo). Med metodami diskretizacije se glede na uvrščanje najbolje odrežeta metodi MDLP in ChiMerge. Po našem védenju in dostopni empirični evidenci gre za prvo raziskavo na tako velikem številu mikromrežnih podatkovij.
Ključne besede:	računska statistika, biostatistika, bioinformatika, strojno učenje, analiza DNA-mikromrež, uvrščanje podatkov, diskretizacija spremenljivk, doktorska disertacija
Kraj izida:	Novo mesto
Kraj izvedbe:	Novo mesto
Založnik:	[A. Kastrin]
Leto izida:	2015
Leto izvedbe:	2015
Št. strani:	XVI, 223 str.
PID:	20.500.12556/ReVIS-4948
UDK:	004:577.21(043.3)
COBISS.SI-ID:	2048345875
Datum objave v ReVIS:	21.08.2018
Število ogledov:	5071
Število prenosov:	162
Metapodatki:
:	Kopiraj citat

Objavi na:

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:	CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:	Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.
Začetek licenciranja:	21.08.2018

Sekundarni jezik

Jezik:	Angleški jezik
Opis:	High-throughput DNA microarray technology is nowadays available in any modern biomedical laboratory. Despite the sophistication of the microarray technology, a state-of the-art statistical analysis of microarray data is still a great challenge. Microarray dataset could be described by a matrix with n rows and p columns, where the former refer to individual samples, and the later to the particular genes. It is assumed that n « p. Based on a topological analysis of the geometrical properties of the high-dimensional data objects we can show, that in this case the data space is very sparse. The empty-space phenomenon can be effectively managed using various dimensionality reduction techniques. The empirical evidence reveals that systematic evaluation that examined the behavior of different dimensionality reduction methods on the microarray data has not yet been performed. Moreover, the question of the usefulness of discretization of microarray data still remains unanswered. In this thesis, we discussed three different problem tasks. In the first set of experiments, we systematically studied the performance of various classifiers in a standard classification task with two pre-defined classes. We used a bundle of state-ofthe-art classifiers, including neural networks, nearest neighbors, classification trees with random forests, support vector machines, penalized logistic regression, and three variants of linear discriminant analysis (Fisher, classical and diagonal). In the second experiment, we analyzed the effect of dimensionality reduction on the classification performance; in particular we examine principal component analysis and partial least squares. In the third experiment we studied the effect of data discretization on classification performance. The analysis included some of the most commonly used discretization algorithms, including equal width and equal frequency discretization, 1R, MDLP, and ChiMerge. Experiments were carried out on a set of 37 real DNA microarray datasets. Effect of classification method and variable selection procedure was evaluated on synthetic data as well. Learning parameters and performance measures were evaluated using the cross-validation scheme. The classification results were represented by standard performance measures including classification accuracy, sensitivity, specificity, and area of the ROC curve. Results showed best classification performance with penalized logistic regression for real datasets and support vector machines for synthetic data. Neural networks perform worst in both settings. Principal component analysis and partial least squares did not show statistically significant differences according to classification performance (with the exception of the area under the ROC curve). Among discretization methods the best classification performance was achieved using the MDLP and ChiMerge algorithms. To the best of our knowledge and according to available empirical evidence this is the first study on such large number of microarray datasets.
Ključne besede:	computational statistics, biostatistics, bioinformatics, machine learning, DNA microarray analysis, data classification, data discretization, doctoral dissertation

Nazaj

Izpis gradiva A+ | A- | | SLO | ENG

Licence

Sekundarni jezik

Izpis gradiva
A+ | A- | | SLO | ENG