1. Uvrščanje in diskretizacija mnogorazsežnih mikromrežnih DNA-podatkovijAndrej Kastrin, 2015 Opis: Tehnologija DNA-mikromrež je danes dostopna v vsakem bolje opremljenem biomedicinskem laboratoriju. Kljub dovršenosti postopkov je statistična analiza mikromrežnih DNA-podatkovij za statistika še zmeraj velik izziv. Mikromrežno podatkovje opišemo z matriko razsežnosti n p, kjer se vrstice matrike nanašajo na posamezne primere, stolpci pa na proučevane gene. Velja, da je n << p. Na osnovi analize geometrijskih lastnosti mnogorazsežnih podatkovnih objektov lahko pokažemo, da je v tem primeru podatkovni prostor zelo redek. Fenomenu praznega prostora se poskušamo izogniti z uporabo metod za krčenje podatkovne strukture. Empirična evidenca razkriva, da na področju statistične analize mikromrežnih DNA-podatkovij sistematična raziskava, ki bi proučevala vpliv metod za krčenje podatkovnih struktur, še ni bila opravljena. Prav tako ostaja odprto vprašanje smiselnosti diskretizacije mikromrežnih podatkov. V doktorski nalogi smo obravnavali tri problemske naloge. V prvem sklopu eksperimentov smo proučili kakovost različnih klasifikatorjev v nalogi uvrščanja primerov v dva vnaprej podana razreda. Uporabili smo nekatere najpogosteje uporabljene metode, kot so nevronske mreže, metoda najbližjih sosedov, klasifikacijska drevesa s slučajnimi gozdovi, metoda podpornih vektorjev, logistična regresija s kaznijo ter tri izpeljanke linearne diskriminantne analize (Fisherjeva, klasična in diagonalna). V drugi problemski nalogi smo analizirali vpliv metod za krčenje števila razsežnosti na uvrščanje. Podrobno smo proučili vpliv analize glavnih komponent in metode delnih najmanjših kvadratov na kakovost uvrščanja. V tretjem sklopu smo se ukvarjali s proučevanjem vpliva diskretizacije neodvisnih spremenljivk na uvrščanje. V analizo smo vključili nekatere najpogosteje uporabljene algoritme diskretizacije, kot so metode enake širine intervalov, enake zastopanosti intervalov, 1R, MDLP in ChiMerge. Eksperimente smo izvedli nad 37 realnimi DNA-podatkovji. Vpliv metode uvrščanja in izbire spremenljivk smo ovrednotili tudi nad sintetičnimi podatki. Izbor parametrov uvrščanja in ovrednotenje kakovosti uvrščanja smo opravili po shemi prečnega preverjanja. Kakovost smo izrazili s štirimi merami: točnostjo uvrščanja, občutljivostjo, specifičnostjo in ploščino pod ROC-krivuljo. Pri uvrščanju realnih mikromrežnih podatkovij se najbolje odreže logistična regresija s kaznijo, najslabše pa nevronske mreže. Nad sintetičnimi podatkovji po kakovosti izstopa metoda podpornih vektorjev. Med metodama krčenja podatkovne matrike glede na kakovost uvrščanja ni statistično značilnih razlik (z izjemo ploščine pod ROC-krivuljo). Med metodami diskretizacije se glede na uvrščanje najbolje odrežeta metodi MDLP in ChiMerge. Po našem védenju in dostopni empirični evidenci gre za prvo raziskavo na tako velikem številu mikromrežnih podatkovij. Najdeno v: ključnih besedah Ključne besede: računska statistika, biostatistika, bioinformatika, strojno učenje, analiza DNA-mikromrež, uvrščanje podatkov, diskretizacija spremenljivk Objavljeno: 21.08.2018; Ogledov: 2621; Prenosov: 139
Celotno besedilo (2,87 MB) |
2. Primerjalna analiza Evklidske in Poincaréjeve metrike v algoritmih strojnega učenjaAlenka Trpin, 2018 Opis: Živimo v času, ko si življenja brez računalnikov ne predstavljamo. Množična uporaba tako imenovane informacijsko komunikacijske tehnologije je proizvedla velike količine podatkov, ki jih sami ne moremo interpretirati in uporabiti. Z orodji podatkovnega rudarjenja in strojnega učenja se velike množice podatkov lahko obdelajo in uporabijo za napovedovanje in klasifikacijo. Eno od orodij za tako obdelavo podatkov je WEKA. Naloga temelji na osnovnem klasifikacijskem agoritem k najbližjih sosedov. V različnih panogah (gospodarstvo, zdravstvo, vojska...) se vedno bolj uporablja in shranjuje podatkovne baze raznovrstnih slik oziroma fotografij. Pri prepoznavanju podobosti med dvema fotografijama je pomembno, da algoritem prepozna določene vzorce. Prepoznavanje temelji
na metriki. V ta namen je v orodje WEKA implementiran algoritem, ki temelji na Poincaréjevi metriki. Testiran je na podatkovni množici fotografij. Za namen primerjave je bil uporabljen algoritmom, ki temelji na evklidski metriki. Najdeno v: ključnih besedah Ključne besede: podatkovno rudarjenje, strojno učenje, Poincaréjeva metrika, WEKA, k najbližjih sosedov, segmentacija Objavljeno: 30.11.2018; Ogledov: 3352; Prenosov: 145
Celotno besedilo (1,07 MB) |
3. Izdelava aplikacije za ocenjevanje vrednosti rabljenih vozilMatic Lukas, 2019 Opis: Nakup ali prodaja rabljenega vozila lahko predstavlja za osebo brez tovrstnega znanja veliko težavo in dolgotrajen proces. Na slovenskih spletnih oglasnikih je veliko različnih oglasov, iz katerih je težko razbrati objektivne vrednosti vozil. Iz tega razloga smo izdelali aplikacijo, ki uporabnikom omogoča hitro in enostavno ocenjevanje različnih vozil na slovenskem trgu. Nekaj tovrstnih aplikacij za slovenski trg sicer že obstaja, so pa večinoma plačljive ali nezanesljive. V diplomski nalogi so predstavljene tehnologije za izdelavo aplikacije: PHP, Javascript in Bootstrap, metode pridobivanja ocenitev s pomočjo strojnega učenja ter razvojno okolje XAMPP. Natančno je opisan postopek razvoja aplikacije, njene zahteve in funkcionalnosti. Najdeno v: ključnih besedah Ključne besede: PHP, Javascript, PHPML, spletna aplikacija, strojno učenje, predvidevanje vrednosti Objavljeno: 25.11.2019; Ogledov: 2636; Prenosov: 179
Celotno besedilo (2,35 MB) |
4. |
5. |