Primena velikih jezičkih modela u srpskoj opisnoj leksikografiji – studija slučaja
Creators
- 1. Institut za srpski jezik Srpske akademije nauka i umetnosti
- 2. University of Belgrade, Faculty of Mining and Geology
Description
Veliki jezički modeli (Large Language Models, LLMs) imaju primenu u raznim oblastima primenjene lingvistike, a važna oblast primenjene lingvistike je leksikografija, koja je tradicionalno smatrana akademskim umećem ili veštinom. Međutim, modernizacija i automatizovanje leksikografije doveli su do revolucionarnih promena u njoj. Te promene pružile su leksikografima novi ugao gledanja na svoje zadatke i dovele do nastanka novog leksikografskog modela, poznatog kao leksikografija naknadnog redigovanja (post-editing lexicography). U ovom modelu uloga leksikografa usmerena je na redigovanje nacrta automatski generisanog rečnika (Randel 2024).
Pojava velikih jezičkih modela, uključujući ChatGPT, može dodatno da unapredi izradu rečnika. Otkako je lansiran u novembru 2022, brojni radovi bavili su se istraživanjem mogućnosti upotrebe LLM u izradi rečnika. Neki autori izrazili su optimizam, smatrajući da bi ta pojava mogla da označi „kraj leksikografije“ (de Šriver, DŽof 2023), dok su neki pre skeptični (Randel 2023). To mišljenje zasnovano je na nizu eksperimenata u kojima je ChatGPT korišćen za kreiranje elemenata rečničkog članka ili celih članaka za jednojezični rečnik engleskog jezika.
U ovom radu predstavićemo tri eksperimenta sprovedena na malom skupu podataka s ciljem da se proceni korisnost upotrebe VJM u zadacima u srpskoj leksikografiji, naime u izdvajanju značenja višeznačnih leksema, pisanju definicija i generisanju ilustrativnih primera. Ukazaćemo na izazove i probleme na koje smo nailazili s dva različita modela, GPT-4 i Geminijem, i predstaviti diskusiju o razlikama u njihovim performansama zasnovanim na datim upitima.
Nalazi dobijeni iz sličnih ekspreimenata vršenih za engleski pokazuju da je ChatGPT imao problema sa izdvajanjem značenja i generisanjem ilustrativnih primera (morali su da budu potpuno zamenjeni, odnosno nisu bili upotrebljivi). Ipak, definicije koje je Chat generisao bile su ocenjene „kao dobro napisane i razumljive“ (Randel 2023: 15). Iako je jasno da su modeli bolje prilagođeni za engleski jezik i da na tom jeziku pružaju mnogo bolje rezultate, procena njihovih performansi za jezik koji nema dovoljnu tehnološku podršku, kao što je srpski, predstavlja dovoljan izazov.
Veliki jezički modeli, leksikografija, leksikgrafija naknadnog redigovanja, izdvajanje značenja, pisanje definicija, generisanje ilustrativnih primera, srpski jezik.
Files
Files
(2.3 MB)
| Name | Size | Download all |
|---|---|---|
|
md5:4cd33efd17c31701d2eb26d908926f34
|
2.3 MB | Download |