ŠUSS 2.3, september 2005

Statistika za slovenski 'Scrabble'

Ključne besede: statistika črk, pogostost črk, povprečna dolžina besed, pogostost dolžine besed, scrabble, slovenščina

URL:[http://www2.arnes.si/~lmarus/suss/arhiv/suss-arhiv-000361.html]

Franc Marušič in Rok Žaucer

Narediti želim svojo ploščo za igro "scrabble", zato me zanima, kako so procentualno v slovenščini zastopane posamezne črke (zaradi ustreznega točkovanja)

Prvič: na kako tako statistiko v svojih jeziko(slo)vnih branjih še nisem naletel.

Drugič: najlažji pristop je zanašanje na delo drugih :) Scrabble je bil vsaj v eni izvedbi za slovenščino že prirejen, igra se je imenovala Šopi. Kje se jo dobi, če se jo sploh še, ne vem. Ne vem tudi, če je bila za slovenščino dejansko kakorkoli prirejena ali je bilo vse skupaj bolj na horuk priredba, torej bolj ali manj zgolj prevod pravil.

Tretjič: kar se statistike tiče, mi pridejo na misel vsaj trije možni pristopi. En je pogostost črk na osnovi slovarja, recimo Slovarja slovenskega knjižnega jezika. Ta slovar obstaja v elektronski obliki, cede si lahko sposodite celo v Delavski knjižnici. Elektronski SSKJ ima možnost iskanja po posameznih znakih (črkah), tako da lahko v polje iskano geslo vnesete recimo *a* in dobili boste vsa gesla, kjer se pojavlja črka a. Se je pa pri tem treba zavedati, da SSKJ (sicer tako kot katerikoli drug slovar) določenih besed ne vsebuje. Kot prvo to pomeni, da besed, ki se tam ne pojavljajo, recimo zelo slengovskih ali strokovnih besed, ne upoštevate. Problem bi nastal tudi z besedami, ki imajo v sebi po več enakih črk, saj bi slovar vse te množične pojavitve štel le kot eno besedo, saj je to le eno geslo, gesel, pa iskalec v SSKJ ne ponavlja, saj ni bil izdelan za namen, ki ga opisujem. Ta pomankjivost je verjetno še najpomembnejša.

Kot drugo pa bi tako dobili pogostost črk v SSKJ ne pa v slovenskem jeziku. Merili bi pogostost črk v različnih besedah, saj bi upoštevali le slovar, kjer ima vsaka geselska beseda enako težo, vemo pa, da so v jeziku posamezne besede veliko pogosteje zastopane kot druge. Zato bi bila druga možnost, da vzamete korpus besedil in preštejete pojavitve posamezne besede v zajetih besedilih. Seveda je izbor besedil, kot vsak izbor, spet izločevalna zadeva. Prav dosti korpusov slovenskih besedil ni. Na naslovu http://www.fida.net najdete komercialen korpus FIDA. ZRC-SAZU ureja Novo besedo (http://bos.zrc-sazu.si/s_beseda.html), ki je javno dostopna in torej verjetno za vas bolj uporabna. Mislim, da je nekje na straneh Inštituta Jožef Stefan še en javno dostopen korpus, vendar se mi zdi, da česa takega ne omogoča. Za osebno rabo pa lahko naredite tudi to, da si recimo iz vseh svojih elektronskih besedil ali pa z interneta z ukazoma 'kopiraj' in 'prilepi' zberete čimveč besedil in potem z ukazom 'najdi' preštejete pojavitve posamezne črke.

~~~~~~~~~~

Prejeli ste že odgovor z napotki, tule pa vam pošiljam tudi bolj konkreten odgovor na vaše vprašanje. Ob branju vprašanja sem se namreč spomnil, da sem nekaj podobnega enkrat že računal.

Spodaj so dodane štiri statistike. Prva je tista, ki zanima tudi vas, namreč procentualna razporeditev črk po slovenskih besedah. Ker igra Scrabble ni povezana z besedilom, je pomembna le statistika različnih besed. Seveda je bil nabor besed precej majhnen glede na nabor, zajet v SSKJ, vendar je zelo verjetno vsaj delno reprezentativen.

Za zares natančno statistiko bi bilo najboljše v roke vzeti elektronsko verzijo SSKJ ter iz nje prekopirati gesla ter statistiko iz datoteke opraviti še enkrat.

Druga statistika je statistika črk v besedilu, torej upostevajoč vse ponavljajoče se besede.

Tretja je statistika dolžine besed v besedilu (upoštevajoč vse ponavljajoče se besede), četrta pa statistika dolžine različnih besed, zajetih v izbrani datoteki. Zadnja bi lahko bila zanimiva zaradi drugačnega točkovanja dolžine besed.

Seveda pa je morda še vedno najlažje, če si poslovenjeno igrico Scrabble kar kupite.

Pogostost posameznih črk, upoštevajoč le različne besedne oblike (v %)
Vseh črk: 67914, različnih črk: 25
A - 10.90
E - 9.63
I - 9.20
O - 8.51
L - 6.90
R - 5.92
N - 5.60
P - 4.31
T - 4.24
S - 4.10
V - 3.67
J - 3.62
K - 3.59
M - 3.05
D - 2.74
Z - 2.07
U - 2.06
Č - 2.01
G - 1.74
B - 1.64
H - 1.34
Š - 1.29
C - 0.93
Ž - 0.83
F - 0.11

Pogostost posameznih črk v celotnem besedilu (v %):
Vseh črk: 233363, različnih črk: 25
E - 11.06
A - 11.02
I - 8.80
O - 8.63
N - 5.82
L - 5.81
R - 5.26
J - 4.99
S - 4.89
K - 4.36
T - 3.91
V - 3.74
P - 3.49
D - 3.27
M - 3.05
Z - 1.90
B - 1.76
Č - 1.67
U - 1.53
G - 1.51
Š - 1.08
H - 0.97
C - 0.75
Ž - 0.65
F - 0.05

Pogostost posameznih dolžin besed v celotnem besedilu, upoštevajoč ponavljajoče se besede (od enočrkovnih do 19 črkovnih)
Vseh besed: 53260
2 - 30.4
5 - 15.2
4 - 11.4
6 - 10.4
3 - 8.4
7 - 7.2
8 - 5.4
9 - 3.3
1 - 3.2
10 - 1.4
11 - 0.7
12 - 0.3
13 - 0.1
15 - 0.03
14 - 0.02
16 - 0.01
17 - 0.0
19 - 0.0

Pogostost posamezne dolžine različnih besed (od enočrkovnih do 19 črkovnih)
Vseh različnih besed: 9862
6 - 18.82
7 - 18.03
8 - 16.04
5 - 15.45
9 - 10.22
4 - 8.03
10 - 5.84
11 - 2.87
3 - 2.40
12 - 0.98
2 - 0.53
13 - 0.42
14 - 0.12
1 - 0.08
15 - 0.08
17 - 0.04
16 - 0.03
19 - 0.01