Unicode

Wikipediasta
(Ohjattu sivulta Utf8)
Siirry navigaatioon Siirry hakuun

Unicode on tietokonejärjestelmiä varten kehitetty merkistöstandardi ja käytännössä sama kuin yleismaailmallisen merkistön (engl. Universal Character Set, UCS) määrittävä kansainvälinen standardi ISO/IEC 10646. Unicode määrittää yksilöivän koodiarvon yli 100 000 kirjoitusmerkille.

Maailmassa puhutaan tuhansia kieliä, jotka käyttävät kymmeniä erilaisia kirjoitusjärjestelmiä, ja kunkin kielen kirjoittamiseen tarvitaan sille ominainen merkkivalikoima. Useimmissa vanhemmissa tietokonemerkistöissä, kuten 7-bittisessä ASCIIssa ja 8-bittisessä ISO Latin 1:ssä, on tilaa enintään 128:lle tai 256:lle erilaiselle merkille, joten yhteen merkistöön eivät mahdu edes kaikkien Euroopan unionin virallisten kielten kirjoitusmerkit, puhumattakaan esimerkiksi kiinalaisista ja japanilaisista merkeistä. Unicode sen sijaan käyttää useampia tavuja (enemmän bittejä), mikä mahdollistaa huomattavasti enemmän merkkipaikkoja. Siten Unicodessa on enemmän tilaa kaikille maailman kielten käyttämille merkeille sekä erinäisille teknisille kontrolli- ja erityiskoodeille. Lisäksi tuettuna on joukko erilaisia emoji-merkkejä.

Unicode-merkkeihin voidaan viitata yksitarkoitteisilla merkkikoodeilla eli tunnuksilla. Tunnus kirjoitetaan tyypillisesti muodossa U+xxxx, jossa etuliite U+ viittaa Unicode-standardiin ja xxxx on numeroista 0–9 sekä kirjaimin esitettävistä numeroista A–F koostuva heksadesimaaliluku. Esimerkiksi suuraakkosen Y tunnus on U+0059, ja suuraakkosen Z tunnus on U+005A. Tunnuksen koodiarvo voidaan esittää myös tavallisena desimaalilukuna (esimerkiksi heksadesimaaliluku 59 vastaa desimaalilukua 89, ja 5A puolestaan vastaa desimaalilukua 90), mutta yleensä suositaan heksadesimaalista muotoilua. Heksadesimaalinen Unicode-tunnus esitetään vähintään nelinumeroisena, mutta tarvittaessa se voi koostua viidestä tai jopa kuudesta numerosta.

Ajatus yleismaailmallisesta ja mahdollisimman kattavasta merkistöstä alkoi itää 1980-luvulla useallakin taholla. Vuonna 1984 kansainväliset standardointijärjestöt ISO ja IEC perustivat yhdessä työryhmän valmistelemaan tällaista merkistöä, joka sai nimekseen ISO/IEC 10646. Ohjelmistoteollisuuden edustajat puolestaan perustivat samaan perustavoitteeseen pyrkivän intressiryhmän The Unicode Consortium vuonna 1990.

Aikaisempiin merkistöihin kuuluu Xerox Character Code Standard (XCCS), jonka kokemuksista kiinteäkokoinen suunnitelma on toivottava muuttuvakokoisen sijaan.[1]

Unicode ja ISO/IEC 10646 ovat kehitetty erillisinä standardeina, mutta näistä vastaavat tahot työskentelevät läheisessä yhteistyössä ja pitävät ne yhdenmukaisena.[2] Unicode on saanut enemmän näkyvyyttä kuin ISO-standardi osin ilmeisesti siksi, että sanamainen nimi Unicode on helpommin muistettavissa ja käytettävissä kuin koodimainen numerosarja. Asiaan saattaa vaikuttaa myös se, että virallinen standardointityö mielletään jähmeäksi mutta teollisuuden edustaja Unicode dynaamiseksi.

Unicoden ensimmäinen versio suunniteltiin 16-bittiseksi, mikä mahdollisti 65 536 merkkipaikan koodiavaruuden. Unicoden versiosta 2.0 lähtien se ei ole ollut 16-bittinen.[3] Kun huomattiin ettei 16-bittinen koodaus riitä kaikkien maailman nykyisten ja historiallisten kirjoitusjärjestelmien tarpeisiin, Unicoden versioon 2.0 rakennettiin mekanismi, joka laajensi standardin 21-bittiseksi ja näin mahdollisti yli miljoonan merkkipaikan koodiavaruuden. Valtaosa näistä merkkipaikoista on yhä tyhjiä. Unicoden versio 3.0 määritti yksilöivän koodiarvon 49 194 merkille ja vuonna 2009 julkaistu versio 5.2 jo 107 361 merkille.

Unicodelle on erilaisia koodaustapoja, joita ovat UTF-8, UTF-16 ja UTF-32.[3] Nämä ovat yhdestä neljään 8-bittistä tavua, yksi tai kaksi 16-bittistä yksikköä tai yksi 32-bittinen yksikkö.[3] Koodauksen UCS-2 on korvannut UTF-16.[4] UTF-EBCDIC on EBCDIC-merkistön kanssa käytettävä muunnos.[5]

Unicode versiossa 14.0 on 144 697 merkkiä.[6] Versiossa 16.0 on 154 998 merkkiä. Mukana on seitsemän uutta modernia ja historiallista kirjoitusjärjestelmää.[7]

Unicoden rakenne

[muokkaa | muokkaa wikitekstiä]
Yleiskaavio Unicode-merkistön tasosta 0 eli moni­kielisestä perus­tasosta erivärisine lohko­ryhmineen. Mustat lohkot sisältävät latinalais­peräisten kirjoitus­järjestelmien merkkejä. Suurimmat ryhmät muodostuvat itäaasialaisten kielten punaisista ja korallin­värisistä lohkoista. (Kaavioon on myös merkitty neli­numeroisten heksadesimaali­tunnusten kaksi ensimmäistä numeroa; kukin numeropari edustaa 256:ta merkki­paikkaa ja vastaa siis laajuudeltaan kahdeksan­bittistä merkistöä.)

Unicoden merkkiavaruus jakautuu 17 tasoon (engl. plane). Jokainen taso koostuu 65 536 merkkipaikasta, joten kaikkiaan mahdollisia merkkipaikkoja on 1 114 112. Ensimmäinen taso tai oikeammin nollataso on monikielinen perustaso (engl. Basic Multilingual Plane, BMP), joka koostuu nelinumeroisella heksadesimaaliluvulla esitettävistä merkkipaikoista (U+0000...U+FFFF) ja sisältää lähes kaikki nykyään käytössä olevien kirjoitusjärjestelmien merkit. Ylemmistä tasoista käytössä on toistaiseksi vain pieni osa. Tasolle 1 (U+10000...U+1FFFF) on sijoitettu lähinnä historiallisten kirjoitusjärjestelmien merkkejä, ja taso 2 (U+20000...U+2FFFF) sisältää joissakin kiinan murteissa käytettäviä harvinaisia merkkejä. Tasot 3–13 (U+30000...U+DFFFF) ovat tyhjiä, mutta tasolla 14 (U+E0000...U+EFFFF) on eräitä ei-graafisia teknisiä erikoismerkkejä. Tasot 15 ja 16 (U+F0000...U+10FFFF) on varattu yksityiseen käyttöön; näille tasoille voi kuka tahansa lisätä epävirallisia merkkejä, mutta ne toimivat vain samaa määrittelyä noudattavissa tietokonejärjestelmissä.

Tasot on jaettu edelleen erikokoisiksi lohkoiksi, joista kuhunkin on koottu yhden kirjoitusjärjestelmän merkkejä. Yhden kielen tarvitsemat merkit voivat kuitenkin jakaantua useaan lohkoon, koska Unicoden rakenne on pyritty pitämään mahdollisimman yhteensopivana vanhempien merkistöstandardien kanssa ja merkkivalikoimaa on lisäksi laajennettu vaiheittain. Esimerkiksi suomen oikeinkirjoituksessa tarvittavat suur- ja pienaakkoset A/a–Z/z (samoin kuin numerot 0–9 ja tavallisimmat välimerkit) ovat latinalaisessa perusosassa (Basic Latin: U+0000...U+007F), joka vastaa ASCII-merkistöä, mutta Ä/ä ja Ö/ö ovat latinalaisen merkistön täydennysosassa (Latin 1 supplement: U+0080...U+00FF). Š/š ja Ž/ž puolestaan ovat laajennusosassa A (Latin Extended-A: U+0100...U+017F). Vastaavasti muille merkkijärjestelmille, kuten kreikkalaisille, kyrillisille ja arabialaisille kirjaimille, on nimetty omat lohkonsa, ja muita lohkoja on varattu ASCIIsta puuttuville välimerkeille sekä muun muassa matemaattisille ja kielitieteellisille erikoismerkeille.

Unicoden alkupää

[muokkaa | muokkaa wikitekstiä]
U+0000…U+007F latinalaiset perusaakkoset A–Z suur- ja pienaakkosina, numerot 0–9 ja tavallisimmat välimerkit
U+0080…U+00FF latinalaisten kirjainten täydennysosa (kuten esim. Å/å, Ä/ä ja Ö/ö)
U+0100…U+017F latinalaisen kirjaimiston laajennusosa A (kuten esim. Š/š ja Ž/ž)
U+0180…U+024F latinalaisen kirjaimiston laajennusosa B (kuten esim. Ə/ə)
U+0250…U+02AF ne IPA-merkit, jotka eivät ole latinalaisia perusaakkosia A–Z
U+02B0…U+02FF kirjaimet, joiden tarkoitus on muunnella edellistä kirjainta (esim. ʰ)
U+0300…U+036F tarkkeet, jotka yhdistyvät edelliseen merkkiin (esim. akuuttiaksentti, joka muuttaa a-kirjaimen á:ksi)
U+0370…U+03FF kreikkalaiset kirjaimet
U+0400…U+04FF kyrilliset peruskirjaimet
U+0500…U+052F kyrillisen kirjaimiston täydennysosa

Merkistökoodaukset

[muokkaa | muokkaa wikitekstiä]

Teknisesti Unicode-merkit voidaan koodata tiedostoihin eri tavoin. Unicode-standardin tukemat kolme koodaustapaa ovat UTF-8, UTF-16 ja UTF-32, joista kullakin on omat vahvuutensa.

UTF-8 on Unicoden vaihtelevanpituinen koodaustapa. Sen etuna on osittainen yhteensopivuus vanhempien järjestelmien kanssa, jotka käsittelevät merkkejä kahdeksanbittisinä tavuina eli oktetteina. UTF-8 on rakennettu siten, että ASCII-merkistöä vastaavat eli latinalaiseen perusosaan kuuluvat merkit (mm. kirjaimet Aa–Zz) koodautuvat täsmälleen samoin kuin ASCIIssa käyttäen tavusta vain seitsemää bittiä. Kahdeksas bitti (jonka avulla ASCIIta on vanhastaan voitu laajentaa muun muassa Latin 1 ‑merkistöksi) puolestaan määrittää, edustaako tavu tiettyä merkkiä sellaisenaan vai onko se jonkin monitavuisena koodautuvan merkin alkuosa. Näin ne merkit, jotka eivät sisälly ASCIIhin, voidaan koodata kahden tai useamman tavun jonoina.

Tunnuksen koodipaikasta riippuen yksi merkki vie tallennettuna tilaa yhdestä neljään tavua. Merkin vaatima tavumäärä riippuu koodipaikasta seuraavasti:

  • U+0000...U+007F: yksi tavu (latinalainen perusosa eli ASCII)
  • U+0080...U+07FF: kaksi tavua (mm. Latin 1 ja suuri osa muista eurooppalaisista sekä Lähi-idän merkistöistä)
  • U+0800...U+FFFF: kolme tavua (loput monikielisen perustason merkit)
  • U+10000...U+10FFFF: neljä tavua (muiden tasojen merkit)

Latin 1 ‑lohkoon sisältyvät merkit (mm. Å/å, Ä/ä ja Ö/ö) koodautuvat siis kaksitavuisina ja muut monikielisen perustason merkit kaksi- tai kolmitavuisina. Koska latinalaisilla kirjaimilla kirjoitettu teksti vie tallennustilaa enimmäkseen vain yhden tai välillä kaksi tavua merkkiä kohti, tiedostojen koko ei kasva merkittävästi isommaksi kuin 8-bittistä merkistöä käytettäessä. Sen sijaan kolmitavuisin merkein kirjoitettavien itäaasialaisten kielten näkökulmasta UTF‑8 voi vaikuttaa tuhlailevalta koodaustavalta.

Perinteisiin kahdeksanbittisiin merkistöihin verrattuna UTF-8:n etuna on, että se on helppo tunnistaa automaattisesti. Toisin kuin Itä-Aasiassa perinteisesti käytetty ISO 2022 ‑koodaus, UTF‑8 on lisäksi tilaton,selvennä joten osin turmeltuneen tiedoston datasta menetetään vain turmeltunut osa, ei koko loppua tekstiä.

UTF-8 -standardi kuvataan myös RFC-dokumentissa RFC 3629.

UTF-16:ssa yksittäinen merkki tallentuu aina vähintään tavuparina eli 16 bitin kokonaisuutena. Monikieliseen perustasoon sisältyvien merkkien (U+0000...U+FFFF) tallentamiseen riittää yksi tavupari, joten lähes kaikki nykyaikaisten kielten tarvitsemat merkit ovat koodattavissa kahdella tavulla. Tästä seuraa, että pääasiassa itäaasialaisia merkkejä sisältävät tiedostot vievät vähemmän tallennustilaa kuin UTF‑8:aa käytettäessä. Toisaalta sellaiset tiedostot, jotka pääosin koostuvat ASCII-merkeistä, vievät enemmän tallennustilaa kuin UTF‑8:aa käytettäessä.

Muilla kuin monikielisellä perustasolla sijaitsevien merkkien (U+10000...U+10FFFF) tallentamiseen tarvitaan kaksi tavuparia. Tällöin hyödynnetään monikieliseen perustasoon sisältyviä niin sanottuja sijaismerkkejä (engl. surrogate code points), joita on kaikkiaan 2048 jaettuina kahteen 1024 merkin ryhmään (high surrogates ja low surrogates). Niiden avulla muodostettavat yhdistelmät riittävät ylimpien 16 tason merkkien koodaamiseen (1024 × 1024 = 16 × 65 536 = 1 048 576).

UTF-16:sta on kolme versiota, joiden erot selittyvät tavujärjestyksen eroilla:

  1. UTF-16BE on big endian, jossa kukin tavupari alkaa enemmän merkitsevällä tavulla.
  2. UTF-16LE on little endian, jossa kukin tavupari alkaa vähemmän merkitsevällä tavulla.
  3. Kolmannessa vaihtoehdossa tavujärjestys on avoin, jolloin tekstin tulisi alkaa koodilla U+FEFF (engl. zero width no-break space tai epävirallisesti mutta osuvammin byte order mark eli BOM; kyseessä on vanhentunut sitovan tyhjeen merkki, jonka tehtävä Unicoden varhaisten versioiden mukaan oli automaattisen rivinvaihdon estäminen mutta jota nykyään käytetään ensisijaisesti tavujärjestyksen osoittimena). Tavujärjestykseltään käänteinen tunnus U+FFFE on pysyvästi määritelty niin sanotuksi epämerkiksi (engl. noncharacter). Jos siis aloitusmerkki näyttäisi olevan U+FFFE, joka on Unicodessa laiton, sen täytyy todellisuudessa olla U+FEFF, jonka vähemmän merkitsevä tavu (FF) on tallentunut ensin eli alempaan muistipaikkaan. Aloitusmerkin jälkeen muut merkit noudattavat samaa tavujärjestystä.[8]

Koodaustavoista suoraviivaisin on UTF-32. Siinä jokainen merkki tallentuu neljän tavun mittaisena eli kaikkiaan 32 bitin kokonaisuutena, mikä vaatii suhteellisen paljon tallennustilaa (koska 21-bittinen koodaus riittäisi kaikkien Unicode-merkkien yksilöimiseen, 32-bittistä koodausta käytettäessä on jokaisessa merkissä 11 ylimääräistä bittiä).

Kuten UTF-16:sta, myös UTF-32:sta on kolme versiota: UTF-32LE ja UTF-32BE sekä sellainen, jossa käytetään tavujärjestysmerkkiä.

  • UTF-7 (RFC 2152) on ehdotus Unicoden koodaamiseen 7-bittisten ASCII-merkistön merkkien avulla. Tarve koodaukselle on kuitenkin ollut vähäistä. UTF-7:n tuki on kielletty HTML5-standardissa ennakoimattoman käytöksen vuoksi.[9][10]
  • Punycode on RFC 3492:ssa määritelty koodaus Unicoden käytölle DNS-nimissä. Sitä käytetään mahdollistamaan ääkköset web-sivustojen nimissä.
  • UCS-2 standardi oli varhainen versio Unicodesta, joka oli rajoitettu 65 535 merkkiin, mutta tarve on tukea enemmän merkkejä. UTF-16 standardi on korvannut UCS-2:n.[4]

Unicoden käyttö

[muokkaa | muokkaa wikitekstiä]

UTF-8-koodaus on nykyään melko laajassa käytössä, koska se mahdollistaa erikielisten tekstielementtien esiintymisen samalla sivulla. Vuoden 2007 lopulla UTF-8 olikin noussut Googlen indeksoimien nettisivujen suosituimmaksi koodaustavaksi.[11] UTF-8 kehitettiin Plan 9-käyttöjärjestelmää varten.[12] Tammikuussa 2024 UTF-8 -merkistöä käytti 98,1% kaikista verkkosivustoista[13].

Ennen Unicoden yleistymistä useimmat käyttöjärjestelmät tallensivat tekstin käyttäen omia ratkaisujaan, jotka eivät olleet keskenään yhteensopivia. Useimmissa merkistöissä oli tilaa korkeintaan 256 eri merkille. Tämän vuoksi yhdellä merkistöllä kyettiin tavallisesti tukemaan vain rajallista määrää eri kieliä. Unicode-tuki sisällytettiin Windows NT:hen jo vuonna 1993, mutta Windowsin 9x-versiot tarvitsivat vielä erillisen Unicode-laajennusosan. Linux-jakelijoista Red Hat asetti UTF-8-koodauksen ensimmäisenä järjestelmän oletusarvoksi syyskuussa 2002.[14]

Uudemmat käyttöjärjestelmät yleensä sisältävät Unicode-tuen. Riippuen käyttöjärjestelmästä Unicode voi vaatia erikseen käyttöön ottamista esimerkiksi komentoriviympäristössä.

Mobiililaitteista Unicodea tukevat muun muassa Android, iOS ja Symbian-laitteet. Kun mobiililaitteista yhä suurempi osa on älypuhelimia, niihinkin on mahdollista sisäänrakentaa monikielinen tuki.

Käyttöjärjestelmän lisäksi tarvitaan Unicodelle tukia myös ohjelmointikielissä. Vanhastaan C ja C++ ovat tukeneet ainoastaan ASCII-merkistöä tai muutamia käyttöjärjestelmän omia koodisivuja, mutta viime vuosina uusimmat standardit ovat lisänneet myös monitavuiset merkistöt näihin kieliin. Java käyttää kaiken tekstin tallentamiseen sisäisesti pelkästään Unicodea.

  1. Early Years of Unicode unicode.org. Viitattu 27.12.2021. (englanniksi)
  2. Unicode and ISO 10646 unicode.org. Viitattu 31.12.2021. (englanniksi)
  3. a b c UTF-8, UTF-16, UTF-32 & BOM unicode.org. Viitattu 28.12.2021. (englanniksi)
  4. a b UCS-2 and its relationship to Unicode (UTF-16) ibm.com. Viitattu 28.12.2021. (englanniksi)
  5. UTF-EBCDIC unicode.org. 29.4.2001. Viitattu 28.12.2021. (englanniksi)
  6. Unicode 14.0.0 (DRAFT) unicode.org. Viitattu 19.8.2021. (englanniksi)
  7. Andrew Cunningham: Unicode 16.0 release with new emoji brings character count to 154,998 arstechnica.com. 12.9.2024. Viitattu 12.9.2024. (englanniksi)
  8. Unicode Character 'ZERO WIDTH NO-BREAK SPACE' (U+FEFF) FileFormat.Info. Viitattu 6.8.2010. (englanniksi)
  9. https://www.w3.org/TR/html51/syntax.html#character-encodings
  10. https://html.spec.whatwg.org/multipage/parsing.html#character-encodings
  11. Aleksi Moisio: ASCII on kuollut, eläköön Unicode! Digitoday. 6.5.2008. Viitattu 18.1.2012.
  12. Hudson, Andrew: Investigating the Plan 9 Operating System OS News. Viitattu 14.2.2017.
  13. Usage Statistics and Market Share of UTF-8 for Websites, January 2024 w3techs.com. Viitattu 7.1.2024.
  14. http://www.cl.cam.ac.uk/~mgk25/unicode.html#linux

Aiheesta muualla

[muokkaa | muokkaa wikitekstiä]