LLaMA

LLaMA (Large Language Model Meta AI) on Meta Platformsin (ent. Facebook) Meta AI -tutkimusryhmän kielimalli, joka julkaistiin 24. helmikuuta 2023.

Tutkijoiden mukaan LLaMA päihittää OpenAI:n GPT-3-mallin ja on vertailukelpoinen kehittyneimpien Chinchilla-70B ja PaLM-540B-mallien kanssa. Meta julkaisee kaikki mallinsa tiedeyhteisön käytettäväksi.^[1] LLaMAsta julkaistiin versiot 7B, 13B, 33B ja 65B parametrin koossa.^[2] Täysi 65B parametrin malli vaatii 130 GB muistia.^[3]

LLaMA:sta ei sen julkaisussa julkaistu yleisön käytettävää chatbotia tai vastaavaa ohjelmaa. Viikon kuluessa julkaisusta LLaMa oli vuotanut 4chanille ja Bittorrentilla ladattavaksi.^[4]

10. maaliskuuta 2023 bulgarialainen Georgi Gerganov julkaisi "llama.cpp" -ohjelman^[5], jolla kielimallia voi ajaa 64-bittisellä ARM-Mac-läppärillä. Pian se saatiin toimimaan myös Windowsissa, ARM/Linux-alustalla ja Pixel 6 -kännykässä.^[6] Muistin säästämiseksi kielimallin käyttämän neuroverkon painot on kvantisoitava uudelleen. Alkuperäisessä aineistoissa verkon painot on tallennettu 16-bitin tarkkuudella FP16-muodossa. Uudelleenkvantisointi neljän bitin tarkkuuteen säästää huomattavasti tietokoneen muistia, mutta ei heikennä merkittävästi neuroverkon toimintaa. ^[7]^[8]

Stanfordin yliopiston AI-tutkijat kehittivät LLaMA 7B -mallia hienosäätämällä Hugging Facen aineistolla Alpaca-kielimallin. Alpaca kärsii pienestä mallistaan johtuen hallusinoinnista eikä tuloksia ole asianmukaisesti sensuroitu ja se otettiin pian pois koekäytöstä.^[9]^[10]^[11] IBM:n tutkijoiden julkaisema versio on nimeltään Dromedary.^[12]

LLaMan koulutukseen käytetty data on kerätty avoimista lähteistä. RedPajama-projekti pyrkii kokoamaan kielimallin uudelleen käyttäen samaa dataa koulutukseen. Tarkoituksena on luoda "avoimen lähdekoodin" kielimalli, jota voisi vapaasti käyttää eri tarkoituksiin.^[13]^[14]

Meta julkaisi LLaMa 2:n 18. heinäkuuta 2023. Uusi malli on käytettävissä 7B, 13B ja 30B parametrin koossa. Sen koulutukseen on käytetty 40% enemmän materiaalia. Malli on saatavissa ilmaiseksi tutkimus- ja kaupallisen käyttöön. Kuitenkin malli vaatii erillisen lisenssin merkittävää käyttöä varten, eikä sitä saa käyttää uusien mallien kouluttamiseen. Meta aikoo tarjota mallia Microsoft Azure ja Amazonin AWS-pilvissä.^[15]^[16] Lisäksi Qualcomm ja Meta aikovat tarjota teknologiaa matkapuhelimilla ja PC:llä ajattavaksi vuodesta 2024 lähtien.^[17]

Elokuussa 2023 Meta julkaisi Code Llama -mallin, joka on optimoitu ohjelmointitehtävien ratkaisuun ja osaa tuottaa ohjelmakoodia luonnollisen kielen kehotteiden perusteella.^[18]

Lähteet

↑ Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample: LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971 [cs], 27.2.2023. Artikkelin verkkoversio.
↑ https://thenewstack.io/why-open-source-developers-are-using-llama-metas-ai-model/
↑ https://github.com/IBM/Dromedary/tree/main/inference
↑ James Vincent: Meta’s powerful AI language model has leaked online — what happens now? The Verge. 8.3.2023. Viitattu 24.3.2023. (englanti)
↑ Georgi Gerganov: llama.cpp github.com. 1.5.2023. Viitattu 1.5.2023.
↑ Benj Edwards: You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi Ars Technica. 13.3.2023. Viitattu 24.3.2023. (englanti)
↑ Simon Willison: The Stable Diffusion moment for Large Language Models simonw.substack.com. Viitattu 24.3.2023. (englanniksi)
↑ LLaMA Int8 4bit ChatBot Guide v2 rentry.co. Viitattu 24.3.2023.
↑ Stanford CRFM crfm.stanford.edu. Viitattu 1.5.2023.
↑ Stanford researchers make a new ChatGPT with less than $600 stanforddaily.com. 2.4.2023. Viitattu 1.5.2023. (englanti)
↑ Katyanna Quach: Stanford takes costly, risky Alpaca AI model offline www.theregister.com. Viitattu 1.5.2023. (englanniksi)
↑ IBM/Dromedary github.com. 10.3.2024. Viitattu 10.3.2024.
↑ RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens www.together.ai. Viitattu 10.3.2024. (englanniksi)
↑ deep: Open-Source Community Releases RedPajama-INCITE AI Models, Surpassing Leading Benchmarks | Deepleaps deepleaps.com. 6.5.2023. Viitattu 10.3.2024. (englanti)
↑ Katyanna Quach: Meta launches Llama 2 models supporting some commercial use www.theregister.com. Viitattu 10.3.2024. (englanniksi)
↑ Meta and Microsoft Introduce the Next Generation of Llama Meta. 18.7.2023. Viitattu 10.3.2024. (englanti)
↑ Qualcomm Works with Meta to Enable On-device AI Applications Using Llama 2 www.qualcomm.com. Viitattu 10.3.2024. (englanniksi)
↑ Introducing Code Llama, a state-of-the-art large language model for coding ai.meta.com. Viitattu 10.3.2024. (englanniksi)

Aiheesta muualla

alpaca-7b-native-enhanced, täysi Alpaca-7b kielimalli ladattavana Hugging Facen palvelimella
Alpaca Electron -ohjelma valmiiksi käännettynä sen käyttämiseen

[1] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample: LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971 [cs], 27.2.2023. Artikkelin verkkoversio.

[2] ttps://thenewstack.io/why-open-source-developers-are-using-llama-metas-ai-model/

[3] ttps://github.com/IBM/Dromedary/tree/main/inference

[4] James Vincent: Meta’s powerful AI language model has leaked online — what happens now? The Verge. 8.3.2023. Viitattu 24.3.2023. (englanti)

[5] Georgi Gerganov: llama.cpp github.com. 1.5.2023. Viitattu 1.5.2023.

[6] Benj Edwards: You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi Ars Technica. 13.3.2023. Viitattu 24.3.2023. (englanti)

[7] Simon Willison: The Stable Diffusion moment for Large Language Models simonw.substack.com. Viitattu 24.3.2023. (englanniksi)

[8] LLaMA Int8 4bit ChatBot Guide v2 rentry.co. Viitattu 24.3.2023.

[9] Stanford CRFM crfm.stanford.edu. Viitattu 1.5.2023.

[10] Stanford researchers make a new ChatGPT with less than $600 stanforddaily.com. 2.4.2023. Viitattu 1.5.2023. (englanti)

[11] Katyanna Quach: Stanford takes costly, risky Alpaca AI model offline www.theregister.com. Viitattu 1.5.2023. (englanniksi)

[12] IBM/Dromedary github.com. 10.3.2024. Viitattu 10.3.2024.

[13] RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens www.together.ai. Viitattu 10.3.2024. (englanniksi)

[14] : Open-Source Community Releases RedPajama-INCITE AI Models, Surpassing Leading Benchmarks | Deepleaps deepleaps.com. 6.5.2023. Viitattu 10.3.2024. (englanti)

[15] Katyanna Quach: Meta launches Llama 2 models supporting some commercial use www.theregister.com. Viitattu 10.3.2024. (englanniksi)

[16] Meta and Microsoft Introduce the Next Generation of Llama Meta. 18.7.2023. Viitattu 10.3.2024. (englanti)

[17] Qualcomm Works with Meta to Enable On-device AI Applications Using Llama 2 www.qualcomm.com. Viitattu 10.3.2024. (englanniksi)

[18] Introducing Code Llama, a state-of-the-art large language model for coding ai.meta.com. Viitattu 10.3.2024. (englanniksi)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

LLaMA

Lähteet

Aiheesta muualla

Navigointivalikko

Haku