JOTA
 Jezikovnotehnološki abonma



Program


Datum
Predavanje
četrtek, 18.11.2004 ob 18.00
Gaël Harry Dias (Univerza Beira Interior, Covilha, Portugalska):
Topic Segmentation Using Statistical Measures     povzetek            prezentacija
torek, 14.12.2004 ob 18.00
Marko Tadić (Oddelek za jezikoslovje, Filozofska fakulteta Univerze v Zagrebu):
Jezične tehnologije i hrvatski jezik    povzetek             prezentacija
torek, 4.1.2005 ob 18.00
Jure Leskovec (IJS in CMU):
Text Summarization        povzetek          prezentacija
četrtek, 24.2.2005 ob 18.00
Zdravko Kačič (Laboratorij za digitalno procesiranje signalov, Univerza v Mariboru):
Govorne tehnologije v telekomunikacijah     povzetek           prezentacija
torek, 15.3.2005 ob 18.00
Jana Zemljarič Miklavčič (Center za slovenščino, Filozofska fakulteta Univerze v Ljubljani):
Korpus govorjene slovenščine      povzetek                    prezentacija
torek, 19.4.2005, ob 18.00
Jernej Vičič (Univerza na Primorskem, Pedagoška fakulteta):
Uvod v strojno prevajanje in statistično strojno prevajanje          povzetek  


Jota se deli v prostorih Centra za slovenščino, Univerza v Ljubljani, Kongresni trg 12, drugo nadstropje.

Niz jezikovnotehnoloških predavanj organizira jezikovnotehnološka sekcija Filozofske fakultete Univerze v Ljubljani, programski koordinator: spela.vintar@guest.arnes.si.
Joto podpira Slovensko društvo za jezikovne tehnologije.

slastna jota

G.H.Dias
Topic Segmentation
Abstract
 In this presentation, after a review of the state of the art of Topic Segmentation Techniques, we will present an innovative topic segmentation system based on a new informative similarity measure that takes into account word co-occurrence in order to avoid the accessibility to existing linguistic resources such as electronic dictionaries or lexico-semantic databases such as thesauri or ontology. Topic Segmentation is the task of breaking documents into topically coherent multi-paragraph subparts. Topic Segmentation has extensively been used in Information Retrieval and Text Summarization. In particular, our architecture proposes a language-independent Topic Segmentation system that solves three main problems evidenced by previous research: systems based uniquely on lexical repetition that show reliability problems, systems based on lexical cohesion using existing linguistic resources that are usually available only for dominating languages and as a consequence do not apply to less favored languages and finally systems that need previously existing harvesting training data.

Marko Tadić
Jezične tehnologije i hrvatski jezik
Sažetak
Izložit će se kratak i pregledan sadržaj knjige "Jezične tehnologije i hrvatski jezik". Ideja je knjige bila problematizirati ulogu jezičnih tehnologija u društvu, njihovo stvaranje, izgradnju i potporu te dati kratak pregled do tada postignutih rezultata tj. primjena JT na hrvatski jezik. Dat će se pregled trenutačnoga stanja jezičnih tehnologija za hrvatski jezik tj. ukratko će se izložiti dosezi nekih završenih i postojećih projekata te osvrnuti na planirane projekte.

Jure Leskovec
Učenje povzemanja besedil s pretvorbo v semantično mrežo
Povzetek
Pri avtomatski izdelavi povzetkov iz besedil (sumarizaciji) želimo iz vhodnega besedila pridobiti krajše besedilo, ki bi pa ohranilo čim več pomembne informacije iz vhodnega besedila. Na trgu je trenutno več produktov za sumarizacijo, ki pa vsi delujejo na osnovi rangiranja in selekcije stavkov iz osnovnega besedila - povzetek je torej predstavljen kot množica izbranih stavkov iz originalnega besedila. V našem pristopu smo ubrali drugačno pot. Dokument smo s pomočjo kompleksne lingvistične analize predelali v semantično mrežo (sestavljeno iz relacij tipa osebek-povedek-predmet), ki skuša "razumeti" besedilo na globjem nivoju. Na taki "semantični" predstavitvi dokumentov smo uporabili metode strojnega učenja za modeliranje postopka, ki ga ljudje uporabljajo za izdelavo povzetkov. Rezultati so se izkazali kot zelo dobri - z modelom se zelo približamo ročno narejenim povzetkom besedil.
Zdravko Kačič
Govorne tehnologije v telekomunikacijah
Povzetek
Uporaba govornih tehnologij v telekomunikacijskih sistemih bo omogočila razvoj telekomunikacijskih storitev z visoko stopnjo dodane vrednosti. To bo mogoče le ob pogoju, da bodo vgrajeni sistemi avtomatskega razpoznavanja govora zagotavljali dovolj veliko uspešnost razpoznavanja govora in sistemi sinteze govora sintezo razumljivega in naravnega govora. Predstavljeni bodo kriteriji uporabe govorne komunikacije v govorno vodenih storitvah, osnovne komponente sistemov avtomatskega razpoznavanja in sinteze govora, kratek pregled pomembnejših področij uporabe govornih tehnologij v telekomunikacijah ter smeri razvoja govornih tehnologij v okviru multimodalnih komunikacij. Ker so sodobni sistemi avtomatskega razpoznavanja govora zasnovani na statističnih postopkih, je pri zagotavljanju visoke uspešnosti razpoznavanja govora bistvenega pomena razpoložljivost ustreznih jezikovnih virov. Podan bo pregled pisnih in govorjenih jezikovnih virov za slovenski jezik, ki jih je za potrebe razvoja sistemov govornih tehnologij razvila oziroma jih razvija raziskovalna skupina na FERI (govorjeni viri: SNABI, SpeechDat II, Polidat, Broadcast News SI, Interface (emocionalni govor), Platos (korpus za sintezo), Speco (otroški govor), TURDIS (govorni korpus spontanega govora); pisni viri: besedilna korpusa Večer in BN SI iNEWS, fonetični in oblikoslovni slovarji Onomastica, SIflex in SImlex ter LC-STAR).


Jana Zemljarič Miklavčič
Korpus govorjene slovenščine 

Povzetek
Predstavljen bo prvi delujoči govorni korpus spontanega govora slovenskega jezika. Za pilotski korpus so bili digitalni posnetki transkribirani po načelih razširjene ortografske transkripcije, nato pa je bil korpus označen po priporočilih TEI, prilagojenih za slovenščino. Korpus je dostopen znotraj korpusne mreže na Univerzi v Bergnu, kjer je tudi nastal, posamezni transkribirani izseki pa so povezani z ustreznimi zvočnimi signali, tudi znotraj konkordančnika. Pilotski korpus z izdelanim transkripcijskim standardom in naborom kriterijev za zajem besedil lahko predstavlja izhodišče za gradnjo govorne komponente referenčnega korpusa za slovenski jezik. Videli bomo, kakšne so možnosti uporabe tako zgrajenega in označenega korpusa, poleg tega pa bomo z rezultati iskanja že lahko nakazali nekatere specifične lastnosti govorjene slovenščine. 

Jernej Vičič
Uvod v strojno prevajanje in statistično strojno prevajanje
Povzetek
Kaj je strojno prevajanje? Strojno prevajanje (Machine translation) je proces, ki uporablja računalniško programsko opremo za prevajanje besedil iz enega naravnega jezika v drugi. Predstavljene bodo značilnosti najpomembnejših področij te zanimive in hitro razvijajoče se veje. Posebej bo izpostavljeno statistično strojno prevajanje. V zaključku bo prikazan prevajalni sistem "Menola", ki predstavlja prvi poskus uporabe opisanih metod na nam bližjih jezikovnih parih. Sistem je prvenstveno namenjen preizkušanju novih idej, iskanju napak ter tudi zabavi ob uspešnih in manj uspešnih prevodih.