Repozitorij samostojnih visokošolskih in višješolskih izobraževalnih organizacij

Izpis gradiva
A+ | A- | Pomoč | SLO | ENG

Naslov:Določanje ključnih besed in tematik besedil : magistrska naloga
Avtorji:ID Robida, Nika (Avtor)
ID Lužar, Borut (Mentor) Več o mentorju... Novo okno
Datoteke:.pdf MAG_2024_Nika_Robida.pdf (3,47 MB)
MD5: 791CA3DAA8AFCD0ADA8BB4BEB9DF4D8D
 
Jezik:Slovenski jezik
Vrsta gradiva:Magistrsko delo/naloga
Tipologija:2.09 - Magistrsko delo
Organizacija:FIŠ - Fakulteta za informacijske študije v Novem mestu
Opis:Z vedno večjo količino besedilnih vsebin postajajo učinkovita obdelava, analiza in razumevanje teh besedil ključni za številne naloge, vključno z razvrščanjem besedil v kategorije, izboljšanjem iskalnih algoritmov, generiranjem povzetkov ter spremljanjem in analizo trendov. Poseben izziv predstavlja analiza kratkih in neformalnih besedil, kot so objave na družbenih omrežjih. Naša raziskava se osredotoča na dve ključni področji: ekstrakcijo ključnih besed in določanje tematik besedil. Za ekstrakcijo ključnih besed smo implementirali in analizirali štiri algoritme: RAKE, TextRank, YAKE in KeyBERT, za določanje tematik besedil pa smo preučili algoritme: LDA, prodLDA, NMF in BERTopic. Cilj naše raziskave je oceniti učinkovitost in zanesljivost teh algoritmov ter izbrati najprimernejšega za specifične potrebe, s posebnim poudarkom na boljši analizi in razumevanju kratkih, neformalnih besedil. Kot rezultat med drugim potrdimo, da se učinkovitost algoritmov spreminja glede na vrsto besedila.
Ključne besede:ekstrakcija ključnih besed, določanje tematik, koherenca, Twitter, predpriprava besedil
Kraj izida:Novo mesto
Kraj izvedbe:Novo mesto
Založnik:N. Robida
Leto izida:2024
Leto izvedbe:2024
Št. strani:XVII, 127 str.
PID:20.500.12556/ReVIS-11070 Novo okno
UDK:004.93(043.2)
COBISS.SI-ID:215810819 Novo okno
Opomba:Na ov.: Magistrska naloga : študijskega programa druge stopnje;
Datum objave v ReVIS:03.12.2024
Število ogledov:30
Število prenosov:0
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
  
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Licence

Licenca:CC BY-NC-ND 4.0, Creative Commons Priznanje avtorstva-Nekomercialno-Brez predelav 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-nc-nd/4.0/deed.sl
Opis:Najbolj omejujoča licenca Creative Commons. Uporabniki lahko prenesejo in delijo delo v nekomercialne namene in ga ne smejo uporabiti za nobene druge namene.

Sekundarni jezik

Jezik:Angleški jezik
Opis:With the increasing amount of textual content, effective processing, analysis, and understanding of texts are becoming crucial for various tasks, including text classification, improving search algorithms, generating summaries, and monitoring and analyzing trends. A particular challenge lies in the analysis of short and informal texts, such as social media posts. Our research focuses on two key areas: keyword extraction and topic modeling. For keyword extraction, we implemented and analyzed four algorithms: RAKE, TextRank, YAKE, and KeyBERT. For topic modeling, we studied the algorithms LDA, prodLDA, NMF, and BERTopic. The goal of our research is to evaluate the effectiveness and reliability of these algorithms and select the most suitable one for specific needs, with a particular emphasis on better analysis and understanding of short, informal texts. Among other findings, we confirm that efficiency of algorithms varies depending on the type of text.
Ključne besede:keyword extraction, topic modeling, coherence, Twitter, text preprocessing


Nazaj