Kielentunnistus

Wikipediasta
Siirry navigaatioon Siirry hakuun

Kieliteknologiassa kielentunnistus tarkoittaa tekstin tai puheen kielen automaattista tunnistamista näytteen perusteella. Myös puhujan tai kirjoittajan murteen, yhteiskunnallisen aseman tai äidinkielen päättelemisen voidaan katsoa kuuluvan kielentunnistukseen. Kielentunnistusta on käytetty esimerkiksi tekstinkäsittely- ja tiedonhakuohjelmissa sekä puheentunnistussovelluksissa.

Kirjoitetun kielen tunnistaminen

[muokkaa | muokkaa wikitekstiä]

Kirjoitetun kielen tunnistaminen voi perustua esimerkiksi näytetekstin sisältämien n-grammien (osamerkkijonojen) frekvenssien laskemiseen. Kielentunnistusohjelmaan on etukäteen syötetty tunnistettavien kielten tyypilliset n-grammijakaumat, joihin näytteen jakaumaa verrataan. Menetelmää voidaan täydentää etsimällä tekstistä eri kielille tyypillisiä pikkusanoja: esimerkiksi sana och esiintyy usein ruotsinkielisissä teksteissä.

Kielentunnistusohjelmat toimivat yleensä varsin hyvin, jos näyte on riittävän pitkä. Vaikeuksia niille tuottavat läheiset sukukielet (esimerkiksi tanska ja kirjanorja) ja paljon vieraskielisiä erisnimiä sisältävät tekstit.

Aiheesta muualla

[muokkaa | muokkaa wikitekstiä]
Tämä kieliin tai kielitieteeseen liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.