Estonian stemming algorithm

Links to resources

Here is a sample of Estonian vocabulary, with the stemmed forms that will be generated by this algorithm:

word

stem

word

stem

raamat
raamatu
raamatut
raamatule
raamatud
raamatute
raamatuid
raamatutele
raamatutestki
hele
heleda
heledat
heledale
heledad
heledate
heledaid
heledatele
heledam
heledama
heledamat
heledamad
heledamate
heledamaid
heledamatelegi
heledaim
heledaima
heledaimat
heledaimale
heledaimad
heledaimate
heledaimaid
heledaimatelt
hobune
hobuse
hobust
hobusele
hobused
hobuste
hobuseid
hobustele

⇒

raama
raama
raama
raama
raama
raama
raama
raama
raama
hele
hele
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
heleda
hobune
hobuse
hobu
hobuse
hobuse
hobus
hobuse
hobus

hüpata
hüppa
hüppaksin
hüppaksid
hüppaks
hüppaksime
hüppaksite
hüppan
hüppad
hüppab
hüppame
hüppate
hüppavad
hüppasin
hüppasid
hüppas
hüppasime
hüppasite
hüpanuksite
hüpatakse
hüpati
hüpanud
hüpanutest
hüpates
hüppavat
hüppavatele
hüppamata
hüppamast
hüljes
hülge
hüljest
hülgesse
hüljeste
hülgeid
hüljestesse
hülgeisse
ohutule
ohutud
ohutuid
ohututele

⇒

hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpati
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hüpa
hülje
hülge
hülje
hülge
hüljes
hülge
hüljes
hülge
ohu
ohu
ohu
ohu

This algorithm is written in collaboration with Estonian text analytics enterprise Texta.

Letters in Estonian include the following accented forms,

ä ö õ ü š ž

The following letters are vowels (V1):

a e i o u õ ä ö ü

RV is defined as one of the following:

a e i u o '

KI is defined as one of the following (letters possible before -ki emphasis):

k p t g b d s h f š z ž

GI is defined as one of the following (letters possible before -gi emphasis):

c j l m n q r v w x a e i o u õ ä ö ü

R1 in this algorithm is set up by the following steps:

If the word contains an apostrophe as the third or later character, then R1 is set to start after the first such apostrophe.
Otherwise, R1 is set to start after the first consonant preceded by a vowel (laul[nud], mõt[teid], kar[tuleid], saab[as]). If there’s no such region, then R1 is empty (laul[Ø], saun[Ø]).

Limitations in steps (such as "if preceded by RV") are not restricted to the R1 region.

LONGV is defined as one of the following:

aa ee ii oo uu ää öö üü õõ

Do step 0. If nothing was changed in step 0, continue with the steps, otherwise stop. Do step 1 and step 2. If nothing was changed in step 2, do steps 3, 4, 5, 6, 7, 8 and 9. If something was changed in step 2, do step 9.

Step 0: verb_exceptions

Search for some frequent irregular short verbs which wouldn’t have been found otherwise and give them a chosen stem.

joon jood joob joote joome joovad: replace by joo
jõin jõid jõi jõime jõite: replace by joo
joomata juuakse joodakse juua jooma: replace by joo
saan saad saab saate saame saavad: replace by saa
saaksin saaksid saaks saaksite saaksime: replace by saa
sain said sai saite saime: replace by saa
saamata saadakse saadi saama saada: replace by saa
viin viid viib viite viime viivad: replace by viima
viiksin viiksid viiks viiksite viiksime: replace by viima
viisin viisite viisime: replace by viima
viimata viiakse viidi viima viia: replace by viima
keen keeb keed kees keeme keete keevad: replace by keesi
keeksin keeks keeksid keeksime keeksite: replace by keesi
keemata keema keeta keedakse: replace by keesi
löön lööd lööb lööme lööte löövad: replace by löö
lööksin lööksid lööks lööksime lööksite: replace by löö
löömata lüüakse löödakse löödi lööma lüüa: replace by löö
lõin lõid lõi lõime lõite: replace by lõi
loon lood loob loome loote loovad: replace by loo
looksin looksid looks looksime looksite: replace by loo
loomata luuakse loodi luua looma: replace by loo
käin käib käid käis käime käite käivad: replace by käisi
käiksin käiks käiksid käiksime käiksite: replace by käisi
käimata käiakse käidi käia käima: replace by käisi
söön sööb sööd sööme sööte söövad: replace by söö
sööksin sööks sööksid sööksime sööksite: replace by söö
sõin sõi sõid sõime sõite: replace by söö
söömata süüakse söödakse söödi sööma süüa: replace by söö
toon tood toob toote toome toovad: replace by too
tooksin tooksid tooks tooksite tooksime: replace by too
tõin tõid tõi tõime tõite: replace by too
toomata tuuakse toodi tooma tuua: replace by too
võin võid võib võime võis võite võivad: replace by võisi
võiksin võiksid võiks võiksime võiksite: replace by võisi
võimata võidakse võidi võida võima: replace by võisi
jään jääd jääb jääme jääte jäävad: replace by jääma
jääksin jääksid jääks jääksime jääksite: replace by jääma
jäime jäite jäin jäid jäi: replace by jääma
jäämata jäädakse jääda jääma jäädi: replace by jääma
müün müüd müüb müüs müüme müüte müüvad: replace by müüsi
müüksin müüksid müüks müüksime müüksite: replace by müüsi
müümata müüakse müüdi müüa müüma: replace by müüsi
loeb loen loed loeme loete loevad: replace by luge
loeks loeksin loeksid loeksime loeksite: replace by luge
põen põeb põed põeme põete põevad: replace by põde
põeksin põeks põeksid põeksime põeksite: replace by põde
laon laob laod laome laote laovad: replace by ladu
laoksin laoks laoksid laoksime laoksite: replace by ladu
teeksin teeks teeksid teeksime teeksite: replace by tegi
teen teeb teed teeme teete teevad: replace by tegi
tegemata tehakse tehti tegema teha: replace by tegi
näen näeb näed näeme näete näevad: replace by nägi
näeksin näeks näeksid näeksime näeksite: replace by nägi
nägemata nähakse nähti näha nägema: replace by nägi

Step 1: emphasis