Odgovori na jezikovna vprašanja


ŠUSS 4.3, september 2007

Najpogostejše besede v slovenščini

Ključne besede: slovenščina, najpogostejše besede

URL:[http://www2.arnes.si/~lmarus/suss/arhiv/suss-arhiv-000437.html]

Franc Marušič

Zanima me, ali obstaja seznam besed, ki se v slovenskem jeziku pojavljajo najpogosteje. Če seznam obstaja, me zanima, kje ga je mogoče dobiti.

Takšnega seznama sicer ne poznamo, a ga ne bi smelo biti prav težko narediti. Z malo igranja s korpusi (zbirko besedil) bi kak približek tega, kar iščete, lahko naredili kar hitro.

Svetujem vam obisk spletnega korpusa Nova Beseda na naslovu http://bos.zrc-sazu.si/s_beseda.html. Tam lahko z ukazom 'fr>100000' najdete vse besede, ki imajo v omenjenem korpusu več kot 100 tisoč pojavitev. Takih besed je 114, torej boste med njimi lahko dobili tudi prvih sto najpogostejših. Dodati velja, da so med njimi večinoma kratke besede, kot so na primer pomožni glagoli ('je', 'bi' ...), osebni in drugi zaimki ('ga', 'ta' ...) ter razni predlogi ('in', 'v' ...) in vezniki ('in', 'ki' ...), vas pa morda zanima pogostost nefunkcionalnih (neslovničnih oz. polnopomenskih) besed. Za takšno iskanje je Nova beseda rahlo neuporabna saj takega iskanja ne omogoča. Obenem pa je omenjeni korpus tudi neuravnotežen, saj 75% njegovega besedila predstavljajo članki časopisa Delo. Z iskanjem po Novi besedi boste torej dejansko dobili le najpogostejše besede v časniku delu oz. novicah, ne pa najpogostejše besede v slovenščini. Tri, ki sem jih opazil in se zdijo dokaj tipične besede iz dnevnega časopisja, so 'predsednik', 'danes' ter 'Slovenije' (Nova beseda bo isto besedo v različnih sklonih tretirala kot dve različni besedi in je torej tudi v tem pogledu neidealna). Ker so slovnične besde po večini kratke, se jim lahko delno umaknete, če v iskalni niz dodate še zahtevo po dolžini besede, recimo, da iščete vse besede, ki se pojavljajo več kot 80000 krat in so daljše od 5 črk. Niz 'fr>80000 in do>4' da 39 zadetkov, med katerimi so seveda še vedno nekatere slovnične besede tipa 'ampak', 'kakor' itd. vendar jih je seveda precej manj. Druga pomankljivost takšnega iskanja je, da boste izgubili kakšno polnopomensko besedo, ki je krajša, recimo 'delo', 'dela', 'leto' in podobno.

Če vas vseeno zanima pogostost slovarskih (polnopomenskih) besed ne glede na sklonsko ali spregatveno končnico, bi si veljalo pogledati korpus FIDA (www.fida.net oz www.fidaplus.net), ki je dvakrat večji od Nove besede in tudi označen (besede imajo določen sklon itd.), ne vem pa če omogoča iskanje po frekvenci. Kakorkoli že, omejen dostop je dovoljen tudi gostom in morda si boste s Fido lahko kaj pomagali.

Po drugi strani je vprašanje o najpogostejših (slovarskih) besedah nujno vezano na tip oz. zvrst slovenščine, tako da tudi uravnotežen korpus problema ne bo rešil popolnoma, saj je problem predvsem v tem, da je na tak način rahlo brezpredmetno govoriti o najpogostejših besedah. Lahko si mislite, da je najpogostejša beseda kakega avtomehanika verjetno 'šraufciger', kakega pravnika 'spis' (ali 'postopek'/'pravica' ...), šprotnika 'trening' (ali pa 'tekma'/'utrujen' ...), novinarja črne kronike 'ukrasti' in tako naprej, še tako uravnotežen korpus pa bo primerjal le pogostost pisanih besedil (načeloma obstajajo tudi korpusi govorjenega jezika, a kolikor vem Fidina slovenska verzija še ni delujoča).

Za konec pa še bolj teoretičen odgovor. Najpogostejše besede so seveda slovnične oz. nepregibne besede, se pravi besede kot so zaimki, vezniki, predlogi itd. Ne glede na samostalnik (ali govorimo o izvijaču ali pa o knjigah) in glagol bomo za pretekli čas vedno uporabili pomožni glagol (eno od različic glagola 'biti'). Ravnotako bomo ne glede na samostalnik oz. ime v nadaljevanju stavka za poimenovanje prvo ali prejomenjenega osebka ali predmeta uporabili zaimek (osebni ali kazalni ...). Enako velja za veznike in predloge. Vse te besede so nujne zaradi slovnice ne glede na zvrst ali tip slovenščine in ne glede na to, kaj hočemo s stavkom povedati. Zato je seveda logično, da so ravno te besede najpogostejše.

(april 2006)


© 1998-2004, ŠUSS