GPT (kielimalliperhe)
GPT (lyhenne sanoista Generative pre-trained transformer) on OpenAI:n kehittämä kielimallien perhe, jotka on koulutettu suurilla tekstikorpuksilla siten, että ne voivat luoda ihmismäistä tekstiä. Mallit on kehitetty käyttäen transformer-arkkitehtuuria. Niitä voidaan hienosäätää erilaisiin luonnollisen kielenkäsittelyn tehtäviin, kuten tekstin luomiseen, käännöksiin ja tekstinluokitteluun. Nimen "pre-training"-osio (suom. esikoulutus) viittaa mallien kehityksen alussa tapahtuvaan koulutusprosessiin suurella tekstikorpuksella, jossa malli oppii ennustamaan seuraavan sanan tekstikatkelmassa. Tämä antaa vankan pohjan mallille toimia hyvin erilaisten tehtävien parissa, joissa on rajalliset määrät tehtäväkohtaista dataa.
Luettelo tuotteista
[muokkaa | muokkaa wikitekstiä]OpenAI julkaisi 11. kesäkuuta 2018 raportin "Improving Language Understanding by Generative Pre-Training", jossa he esittelivät GPT:n.[1] Tuolloin parhaiten suoriutuvat neuroverkkoja käyttävät luonnolliset kielenkäsittelymallit nojasivat enimmäkseen ohjattuun oppimiseen suurista määristä manuaalisesti merkittyä dataa. Tämä riippuvuus ohjattuun oppimiseen rajoitti niiden käyttöä huonosti annotoiduissa tietojoukoissa, ja teki erittäin suurten mallien kouluttamisen kalliiksi ja aikaa vieväksi.[1][2] Monet kielet, kuten swahili tai haitinkreoli, ovat vaikeita kääntää ja tulkita tällaisten mallien avulla johtuen saatavilla olevan tekstin puutteesta korpuksen rakentamiseen.[2] Sen sijaan GPT:n puolivalvottu lähestymistapa sisälsi kaksi vaihetta: valvomattoman generatiivisen esikoulutusvaiheen, jossa kielen mallinnustavoitetta käytettiin alkuparametrien asettamiseen, ja valvotun erottelevan hienosäätövaiheen, jossa näitä parametreja mukautettiin kohdetehtävään.[1]
Käyttötarkoitus | Parametrien määrä | Koulutusdata | Julkaisupäivä | |
---|---|---|---|---|
GPT-1 | Yleinen | 117 miljoonaa | BookCorpus : 4,5 Gt tekstiä 7000 julkaisemattomasta kirjasta. | 11. kesäkuuta 2018 [3] |
GPT-2 | Yleinen | 1,5 miljardia | WebText: 40 Gt tekstiä, kahdeksan miljoonaa asiakirjaa, 45 miljoonalta Redditissä positiivisesti äänestettyä verkkosivua. | 14. helmikuuta 2019 |
GPT-3 | Yleinen | 175 miljardia | 570 Gt selkeää tekstiä, 0,4 biljoonaa tokenia. Enimmäkseen CommonCrawl, WebText, englanninkielinen Wikipedia ja kaksi kirjakokoelmaa (Kirjat1 ja Kirjat2). | 11. kesäkuuta 2020 [4] |
InstructGPT | Keskustelu | 175 miljardia [5] | ? | 4. maaliskuuta 2022 |
ProtGPT2 | Proteiinisekvenssit [6] | 738 miljoonaa | Proteiinisekvenssit UniRef50:stä (yhteensä 44,88 miljoonaa, kun validointiin oli käytetty 10 %) | 27. heinäkuuta 2022 |
BioGPT | Biolääketiede[7] [8] | 347 miljoonaa | PubMed (yhteensä 1,5 miljoonaa) | 24. syyskuuta 2022 |
GPT-3.5 | Dialogi | ? | ? | 30. marraskuuta 2022 |
GPT-4 | Yleinen | ? | ? | 14. maaliskuuta. 2023 |
Katso myös
[muokkaa | muokkaa wikitekstiä]Lähteet
[muokkaa | muokkaa wikitekstiä]- ↑ a b c Radford: Improving Language Understanding by Generative Pre-Training 11 June 2018. OpenAI. Arkistoitu 26 January 2021. Viitattu 23 January 2021.
- ↑ a b Tsvetkov: Opportunities and Challenges in Working with Low-Resource Languages 22 June 2017. Carnegie Mellon University. Arkistoitu 31 March 2020. Viitattu 23 January 2021.
- ↑ Improving language understanding with unsupervised learning openai.com. Viitattu 18.3.2023. (englanti)
- ↑ Language models are few-shot learners openai.com. Viitattu 21.3.2023. (englanti)
- ↑ Arxiv, 2022. Artikkelin verkkoversio.
- ↑ Nature Communications, 2022. PubMed:35896542 doi:10.1038/s41467-022-32007-7 Bibcode:2022NatCo..13.4348F
- ↑ Oxford Academic, 2022. PubMed:36156661 doi:10.1093/bib/bbac409 Artikkelin verkkoversio.
- ↑ Matthias Bastian: BioGPT is a Microsoft language model trained for biomedical tasks The Decoder. 29.1.2023.