LLaMA
LLaMA (Large Language Model Meta AI) on Meta Platformsin (ent. Facebook) Meta AI -tutkimusryhmän kielimalli, joka julkaistiin 24. helmikuuta 2023.
Tutkijoiden mukaan LLaMA päihittää OpenAI:n GPT-3-mallin ja on vertailukelpoinen kehittyneimpien Chinchilla-70B ja PaLM-540B-mallien kanssa. Meta julkaisee kaikki mallinsa tiedeyhteisön käytettäväksi.[1] LLaMAsta julkaistiin versiot 7B, 13B, 33B ja 65B parametrin koossa.[2] Täysi 65B parametrin malli vaatii 130 GB muistia.[3]
LLaMA:sta ei sen julkaisussa julkaistu yleisön käytettävää chatbotia tai vastaavaa ohjelmaa. Viikon kuluessa julkaisusta LLaMa oli vuotanut 4chanille ja Bittorrentilla ladattavaksi.[4]
10. maaliskuuta 2023 bulgarialainen Georgi Gerganov julkaisi "llama.cpp" -ohjelman[5], jolla kielimallia voi ajaa 64-bittisellä ARM-Mac-läppärillä. Pian se saatiin toimimaan myös Windowsissa, ARM/Linux-alustalla ja Pixel 6 -kännykässä.[6] Muistin säästämiseksi kielimallin käyttämän neuroverkon painot on kvantisoitava uudelleen. Alkuperäisessä aineistoissa verkon painot on tallennettu 16-bitin tarkkuudella FP16-muodossa. Uudelleenkvantisointi neljän bitin tarkkuuteen säästää huomattavasti tietokoneen muistia, mutta ei heikennä merkittävästi neuroverkon toimintaa. [7][8]
Stanfordin yliopiston AI-tutkijat kehittivät LLaMA 7B -mallia hienosäätämällä Hugging Facen aineistolla Alpaca-kielimallin. Alpaca kärsii pienestä mallistaan johtuen hallusinoinnista eikä tuloksia ole asianmukaisesti sensuroitu ja se otettiin pian pois koekäytöstä.[9][10][11] IBM:n tutkijoiden julkaisema versio on nimeltään Dromedary.[12]
LLaMan koulutukseen käytetty data on kerätty avoimista lähteistä. RedPajama-projekti pyrkii kokoamaan kielimallin uudelleen käyttäen samaa dataa koulutukseen. Tarkoituksena on luoda "avoimen lähdekoodin" kielimalli, jota voisi vapaasti käyttää eri tarkoituksiin.[13][14]
Meta julkaisi LLaMa 2:n 18. heinäkuuta 2023. Uusi malli on käytettävissä 7B, 13B ja 30B parametrin koossa. Sen koulutukseen on käytetty 40% enemmän materiaalia. Malli on saatavissa ilmaiseksi tutkimus- ja kaupallisen käyttöön. Kuitenkin malli vaatii erillisen lisenssin merkittävää käyttöä varten, eikä sitä saa käyttää uusien mallien kouluttamiseen. Meta aikoo tarjota mallia Microsoft Azure ja Amazonin AWS-pilvissä.[15][16] Lisäksi Qualcomm ja Meta aikovat tarjota teknologiaa matkapuhelimilla ja PC:llä ajattavaksi vuodesta 2024 lähtien.[17]
Elokuussa 2023 Meta julkaisi Code Llama -mallin, joka on optimoitu ohjelmointitehtävien ratkaisuun ja osaa tuottaa ohjelmakoodia luonnollisen kielen kehotteiden perusteella.[18]
Lähteet
[muokkaa | muokkaa wikitekstiä]- ↑ Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample: LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971 [cs], 27.2.2023. Artikkelin verkkoversio.
- ↑ https://thenewstack.io/why-open-source-developers-are-using-llama-metas-ai-model/
- ↑ https://github.com/IBM/Dromedary/tree/main/inference
- ↑ James Vincent: Meta’s powerful AI language model has leaked online — what happens now? The Verge. 8.3.2023. Viitattu 24.3.2023. (englanti)
- ↑ Georgi Gerganov: llama.cpp github.com. 1.5.2023. Viitattu 1.5.2023.
- ↑ Benj Edwards: You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi Ars Technica. 13.3.2023. Viitattu 24.3.2023. (englanti)
- ↑ Simon Willison: The Stable Diffusion moment for Large Language Models simonw.substack.com. Viitattu 24.3.2023. (englanniksi)
- ↑ LLaMA Int8 4bit ChatBot Guide v2 rentry.co. Viitattu 24.3.2023.
- ↑ Stanford CRFM crfm.stanford.edu. Viitattu 1.5.2023.
- ↑ Stanford researchers make a new ChatGPT with less than $600 stanforddaily.com. 2.4.2023. Viitattu 1.5.2023. (englanti)
- ↑ Katyanna Quach: Stanford takes costly, risky Alpaca AI model offline www.theregister.com. Viitattu 1.5.2023. (englanniksi)
- ↑ IBM/Dromedary github.com. 10.3.2024. Viitattu 10.3.2024.
- ↑ RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens www.together.ai. Viitattu 10.3.2024. (englanniksi)
- ↑ deep: Open-Source Community Releases RedPajama-INCITE AI Models, Surpassing Leading Benchmarks | Deepleaps deepleaps.com. 6.5.2023. Viitattu 10.3.2024. (englanti)
- ↑ Katyanna Quach: Meta launches Llama 2 models supporting some commercial use www.theregister.com. Viitattu 10.3.2024. (englanniksi)
- ↑ Meta and Microsoft Introduce the Next Generation of Llama Meta. 18.7.2023. Viitattu 10.3.2024. (englanti)
- ↑ Qualcomm Works with Meta to Enable On-device AI Applications Using Llama 2 www.qualcomm.com. Viitattu 10.3.2024. (englanniksi)
- ↑ Introducing Code Llama, a state-of-the-art large language model for coding ai.meta.com. Viitattu 10.3.2024. (englanniksi)
Aiheesta muualla
[muokkaa | muokkaa wikitekstiä]- alpaca-7b-native-enhanced, täysi Alpaca-7b kielimalli ladattavana Hugging Facen palvelimella
- Alpaca Electron -ohjelma valmiiksi käännettynä sen käyttämiseen