Kielimalli

Wikipediasta
Siirry navigaatioon Siirry hakuun

Tilastollinen kielimalli on sanajonon sanojen todennäköisyysjakauma tai sellainen todennäköisyysfunktio, joka tuottaa jakauman. Jos sanajonossa, esimerkiksi lauseessa, on sanaa, antaa kielimalli koko sanajonolle todennäköisyyden . Kielimalli voidaan määritellä myös sanan osille, kuten morfeemeille.

Todennäköisyyksien avulla kielimallit osaavat muun muassa ennustaa, miten jonkin lauseen tulisi jatkua, vastata kysymyksiin, tai muodostaa kehotteen avulla pitkiäkin tekstejä kuten keskusteluja, runoja, koodeja tai artikkeleita.[1] Ensimmäiset kielimallit (tilastollinen kielimalli, engl. Statistical Language Model, SLM) esiteltiin 1980-luvulla ja ne saivat alkunsa puheentunnistuksesta. Varhaiset kielimallit eivät sisältäneet tietoa kielen mallinnuksesta.[2]

Kielimallin perustana käytetään olemassaolevaa tekstiaineistoa eli korpusta, jonka avulla malli opetetaan. Aineisto voi olla peräisin kirjoista, sanomalehdistä, tv-ohjelmien transskripteistä tai vaikka internetistä. Mitä suurempi opetusaineisto, sitä parempi yleensä mallin ennustuskyky. Suurten opetusmateriaalien vuoksi mallit saattavat joskus oppia niistä myös ei-haluttuja asioita, kuten ennakkoasenteita.[1]

Kielimalleja voidaan käyttää erilaisissa tietokonelingvistiikan sovelluksissa, kuten puheentunnistuksessa, konekääntämisessä, luonnollisen kielen tuottamisessa, kielen jäsentämisessä, tekstintunnistuksessa tai tiedonhaussa.

Kielimallien tyyppejä

[muokkaa | muokkaa wikitekstiä]

Tyyppejä:[3]

  • 1-grammi-malli eli unigram-malli: saneen todennäköisyys ei riipu muista saneista
  • 2-grammi-malli: vain edellinen sane määrittää seuraavan saneen todennäköisyyden
  • n-grammi-malli: ottaa huomioon n − 1 edellistä sanetta
  • neuroverkkokielimallit
  • ehdollistettu kielimalli: ottaa kehotteen lisäksi huomioon kontekstivektorin
  • Transformer, jonka kehitti Google vuonna 2017[4]

Usein kielimallit käyttävät liukulukuja, mutta tutkijat ovat ehdottaneet yksinkertaistamista kolmiarvoisiin (-1, 0, 1) lukuihin, jolloin laskutoimitukset ovat yksinkertaisempia. Tutkijoiden mukaan kolmiarvoiset luvut ja tarkoitukseen tehdyt FPGA-piirit mahdollistavat virrankäytön ja muistitarpeen pienentämisen.[5][6]

Kielimallit jakavat tekstin tokeneihin, jotka voivat esittää lyhyttä sanaa tai osia pidemmästä sanasta. ChatGPT:n julkaisuhetkellä se kykeni muistamaan 8 192 tokenia, mutta kahdessa vuodessa sen jälkeen GPT-4o kykenee 128 tuhanteen tokeniin, Claude 3.5 Sonnet kykenee 200 tuhanteen tokeniin ja Gemini 1.5 Pro kykenee kahteen miljoonaan tokeniin. Kielimallien toimintaa täydennetään RAG-menetelmällä (retrieval-augmented generation), jossa käyttäjän kyselyyn vastataan hakemalla dokumenteista tietoa täydennykseksi.[7]

Parametrien määrät ovat kasvaneet merkittävästi: vuonna 2018 Googlen BERT-malli käytti 110–340 miljoonaa parametria, vuonna 2022 Googlen esittämä PaLM käytti 540 miljardia parametria, ja vuonna 2023 julkaistun GPT-4:n arvioitiin käyttävän triljoonaa parametria.[8][9] Parametrimäärän kasvu 1,3 miljardista parametrista kuuteen miljardiin parametriin kasvattaa datamäärää 4,6 kertaisesti, mutta tarvittava koulutusaika voi kasvaa 20-kertaisesti.[10]

Joitain kuuluisia kielimalleja

[muokkaa | muokkaa wikitekstiä]
  • BERT: Bidirectional Encoder Representations from Transformers (BERT)
    • Googlen vuonna 2018 julkaisema ensimmäinen transformer-perustainen kielimalli

Suomen kielen kielimalleja

[muokkaa | muokkaa wikitekstiä]

Joitakin avoimesti saatavia työkaluja kielimallien suorittamiseen ovat Ollama, LM Suite ja Llama.cpp.[20][21]

  1. a b Tekoälyn uudet kielimallit hämmästyttävät | Vaasan yliopisto www.uwasa.fi. 20.9.2021. Viitattu 17.2.2023.
  2. Rosenfeld, Roni: Two Decades of Statistical Language Modeling: Where Do We Go From Here? 2018. Carnegie Mellon University. Journal contribution.. doi:10.1184/R1/6611138.v1 (englanniksi)
  3. Hauhio, Iikka: Kielimallien luovuuden kriteerit, s. 10-11. Helsingin yliopisto, 2022. Teoksen verkkoversio.
  4. https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html
  5. Benj Edwards: Researchers upend AI status quo by eliminating matrix multiplication in LLMs arstechnica.com. 26.6.2024. Viitattu 27.6.2024. (englanniksi)
  6. Scalable MatMul-free Language Modeling arxiv.org. kesäkuu 2024. doi:10.48550/arXiv.2406.02528 Viitattu 27.6.2024. (englanniksi)
  7. Timothy B. Lee: Why AI language models choke on too much text arstechnica.com. 20.12.2024. Viitattu 20.12.2024. (englanniksi)
  8. Timothy Prickett Morgan: The Balancing Act Of Training Generative AI nextplatform.com. 17.7.2023. Viitattu 20.12.2024. (englanniksi)
  9. PaLM: Scaling Language Modeling with Pathways arxiv.org. 5.4.2022. arXiv:2204.02311 Viitattu 20.12.2024. (englanniksi)
  10. Timothy Prickett Morgan: Counting The Cost Of Training Large Language Models nextplatform.com. 1.12.2022. Viitattu 20.12.2024. (englanniksi)
  11. ChatGPT: Optimizing Language Models for Dialogue openai.com. 30.11.2022. Viitattu 5.12.2022. (englanti)
  12. https://blogs.bing.com/search/march_2023/Confirmed-the-new-Bing-runs-on-OpenAI%E2%80%99s-GPT-4
  13. https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
  14. James Vincent: Meta’s powerful AI language model has leaked online — what happens now? theverge.com. 8.3.2023. Viitattu 20.12.2024. (englanniksi)
  15. https://blog.google/technology/ai/lamda/
  16. Samuel Axon: Google Translate just nearly doubled its number of supported languages arstechnica.com. 27.6.2024. Viitattu 27.6.2024. (englanniksi)
  17. Kotimaiseen kielimalliin tarvittiin miljardeja sanoja – nyt tekoäly osaa kirjoittaa vaikka satuja suomeksi Yle Uutiset. 20.12.2021. Viitattu 17.2.2023.
  18. TurkuNLP/FinBERT github.com. 28.1.2023. Viitattu 17.2.2023.
  19. TurkuNLP turkunlp.org. Viitattu 20.2.2023.
  20. Tobias Mann: How to run an LLM on your PC, not in the cloud, in less than 10 minutes theregister.com. 17.3.2024. Viitattu 30.6.2024. (englanniksi)
  21. Sharon Machlis: 5 easy ways to run an LLM locally infoworld.com. 25.4.2024. Viitattu 30.6.2024. (englanniksi)

Kirjallisuutta

[muokkaa | muokkaa wikitekstiä]
  • Lindroos, Jari & Poso, Venla & Toivanen, Ida: ”Uhka vai mahdollisuus? Transformer-mallit tekstin käsittelyssä”. Teoksessa Haapaniemi, Riku & Ivaska, Laura & Katajamäki, Sakari (toim.): Tekstit ympärillämme: Kirjoituksia tekstikäsityksistä ja -käytänteistä, s. 201–208. Tampere: Tampereen yliopisto, 2024. ISBN 978-952-03-3465-9 Vapaasti luettavissa