Tekstianalüüs

Eestikeelse teksti automaatne analüüs on mõnevõrra keerulisem kui näiteks ingliskeelse teksti automaattöötlus. Kui soovime teada saada, millised sõnad esinevad tekstis kõige sagedamini, peaksime selleks eelnevalt need sõnad viima nende algvormide kujule. Näiteks on arvuti jaoks erinevad sõnad poliitik, poliitikud, poliitikutega jne, kuid teksti sisu analüüsimiseks soovime reeglina teada ainult mitu korda esineb tekstis sõna poliitik, hoolimata selle vormist. Samuti ei ole meie jaoks enamasti oluline, kas see sõna algab suure (lause alguses) või väikse tähega, välja arvatud loomulikult juhul, kui tegemist on pärisnimega.

Selle rakendusega saad teha kahte asja. Lemmatiseerimine ehk tekstisõnade algvormi kujule muutmise funktsioon teeb just seda: muudab sisestatud teksti kõik sõnad nende sõnade algvormideks. Lisaks tekstikastile võib oma teksti esitada ka tavalise tekstifailina ja niimoodi saad ka väljundiks sama teksti, kus kõik sõnad on nende sõnaraamatu kujul.

Selle rakenduse teine funktsioon, morfoloogiline analüüs lisab igale tekstisõnale lisaks tema algvormile ka selle sõna vormianalüüsi: sõnaliigi, käände või pöörde, arvu jne. Ka vormianalüüsiks on võimalik sisestada teksti oma failist ning väljundi saab csv-failina, kus igale tekstisõnale on lisatud selle sõna kõik võimalikud algvormid ja vormianalüüsid. Sõnad, algvormid, sõnaliigid ja analüüsid on üksteisest eraldatud komaga.

Tekstianalüüsi rakenduse leiad siit.

Üks näide:

Jaga seda lehekülge