Sisältöpohjainen kuvatiedonhaku

Sisältöpohjainen kuvatiedonhaku (engl. content-based image retrieval, CBIR) tarkoittaa kuvatiedonhakua tietokannasta pohjautuen hakukohteen sisältöön, poiketen perinteisestä kuvailuun pohjautuvasta hakumetodista, sen tarkoituksena on tehostaa kuvamateriaalin hakemista tietokannoista eriävien tekniikkojen avulla. Sisältöpohjainen tiedonhaku keskittyy haussa analysoimaan sisällön ominaisuuksia, kuten väriä, muotoja, tekstuureja ym. jotka esiintyvät luontaisesti itse kuvassa. Normaaleihin hakumalleihin eroten sisältöpohjaisessa haussa ei keskitytä metadatan sisältöön, kuten avainsanoihin, tageihin ja kuvan kuvailuihin. On huomioimisen arvoista etteivät sisältöpohjaisen kuvatiedonhaun metodit rajoitu vain still-kuvien hakuun, vaan samojen metodien muunnelmat ovat käytettävissä myös videoidun materiaalin haussa.

Sisältöpohjaisen haun tarkoitus on helpottaa kuvatiedonhakua laajoissa tietokannoissa, sekä tehden siitä monimuotoisempaa, että alalleen spesifisempää. Sanahausta poiketen kuvatiedonhaussa voidaan käyttää hyödyksi mm. hakua kuvan avulla, hahmotelmista, taikka hakea samankaltaisuuksia omaavia teoksia. Tärkeä saavutettava etu sisältöön pohjautuvassa haussa on kuvien nimeämisen tarpeen poistuminen tarkan haun saamiseksi, jolloin automaattisesti indeksoitujenkin kuvien löytyminen tarkentuu.

Historia

Termin käyttöhistoria ajoitetaan vuoteen 1992, jolloin tämän ensimmäisen kerran mainitsi T. Kato, kuvaillessaan kokeellisia tutkimuksia automaattisesta kuvatiedonhausta, joka perustui värien ja muotojen tulkintaan. Myöhemmin termi on laajentunut kuvaamaan kuvatiedonhaun prosessia laajemmin, ja siihen on lisätty määritemällisesti uusia ulottuvuuksia toiminnan mahdollisuuksien kehittyessä.

Tutkimusalan nuori historia alkaa rinnakkain internetin yleistymisen kanssa, mutta laajempimuotoinen keksittyminen tutkimustyöhön on alkanut vasta 2000-luvun alussa ^[1]. Sovelluspohja hakukoneiden parissa on yhä rajattu.

Sisältöpohjaisen kuvatiedonhaun potentiaaliset käyttökohteet ja sovellukset

Lainvalvontaviranomaiset ylläpitävät tyypillisesti suurta arkistoa visuaalisesta todistusaineistosta, kuten aiempien epäiltyjen kasvokuvia, sormenjälkiä, renkaan kulutuspintoja ja kengänjälkiä. Rikosta tutkittaessa viranomaiset voivat vertailla rikospaikalta löytynyttä aineistoa arkistoissa oleviin. Automaattista sormenjälkivertailua on kehitetty 1980-luvulta lähtien ja ne ovat tällä hetkellä poliisivoimilla rutiinikäytössä ympäri maailmaa. ^[2] Sormenjälkihaku ei kuitenkaan aina toimi täydellisesti, mutta sillä voidaan karsia pois varmasti väärät vaihtoehdot.^[2] Kasvojen tunnistaminen on myös laajasti käytössä, mutta toimiakseen se vaatii kuvia joissa valaistus ja kasvojen asento ovat hyvin kontrolloituja.

Asevoimien käytössä olevia sovelluksia ovat esimerkiksi vihollisen lentokoneiden tunnistaminen tutkanäytöiltä. Asevoimien sovellukset ovat luultavasti parhaiten kehittyneitä, mutta vähiten tunnettuja.^[2]

Immateriaalioikeuksien valvonnassa CBIR on tärkeä väline. Esimerkiksi uutta tavaramerkkiä rekisteröitäessä täytyy varmistaa ettei samankaltaista tavaramerkkiä ole jo käytössä. Valokuvien luvatonta käyttöä internetissä voidaan myös valvoa CBIR-sovellusten avulla.^[2]

Lääketieteen kasvava riippuvuus diagnostiikkatekniikoista kuten radiologia ja tietokonetomografia on johtanut lääketieteellisten kuvien suureen kasvuun sairaaloissa. CBIR-sovelluksilla voidaan helpottaa diagnoosin tekemistä löytämällä aikaisempia samankaltaisia tapauksia.^[2]

Museot ja taidegalleriat toimivat visuaalisten objektien parissa. Kyky tunnistaa esineissä esiintyvä visuaalinen samankaltaisuus voi olla hyödyllistä tutkijalle, joka yrittää selvittää historiallisia jatkumoita ja vaikutteita. Taiteen ystävät voivat löytää helpommin teoksia omien mieltymyksiensä mukaan.^[2]>

Internetissä vapaasti käytettäviä sisältöpohjaisen kuvahaun järjestelmiä on esimerkiksi Retrievr, joka toimii Flickr-kuvatietokannan suosituimpien kuvien tietokannassa. Retrievr-sovellusta voi käyttää joko antamalla esimerkkikuva tai piirtämällä hahmotelma jonka pohjalta haku suoritetaan. Eremitaasin taidemuseon digitaalisesta tietokannasta voi käyttäjä hakea hahmotelman perusteella maalauksia.^[2]

Sisältöpohjaisen kuvatiedonhaun sovelluksien kolme tasoa

1. taso: Matalantason kuvaominaisuudet

CBIR-järjestelmät tyypillisesti indeksoivat kuvia matalantason kuvaominaisuuksilla, kuten väri, tekstuuri ja muoto. Nämä ominaisuudet eivät kuvaile semanttista sisältöä, mutta niistä on helppo muodostaa matemaattisia kaavoja, joita CBIR-järjestelmät käyttävät ha’uissaan. Matalantason kuvaominaisuuksien tunnistaminen on tärkeä tehtävä sisältöpohjaisessa kuvatiedonhaussa.^[3]

Väri

Väri on yksi yleisimmin käytetyistä matalantason kuvaominaisuuksista.^[3] Väriin pohjautuvassa järjestelmässä kuva analysoidaan ja siitä tuotetaan värihistogrammi (color histogram), joka osoittaa jokaisen värin osuuden kuvassa. Hakua tehdessä käyttäjä joko määrittelee mitä värejä hän haluaa etsiä tai antaa esimerkkikuvan josta muodostetaan värihistogrammi. Järjestelmä palauttaa ne kuvat joiden värihistogrammit täsmäävät parhaiten.^[4] Toinen tapa jolla väriä käytetään CBIR-järjestelmissä perustuu värien asetteluun (color layout). Tässä järjestelmä katsoo kuvat samankaltaisiksi, jos väri esiintyy vertailtavissa kuvissa suurin piirtein samalla kohdalla.^[5]

Tekstuuri

Tekstuuri on myös tärkeä matalantason kuvaominaisuus jolla viitataan objektin pinnan ominaisuuksiin ja sen suhteesta ympäristöön.^[3] Tekstuuri on erityisen tärkeä ominaisuus kun pyritään erottamaan kuvista samanvärisiä alueita, kuten taivas ja meri. Tekstuurin käyttö CBIR-järjestelmissä perustuu kuvan valittujen pikseleiden kirkkauden vertailuun, josta järjestelmä laskee arvoja kuten kontrasti, karkeus ja säännöllisyys. Tekstuuriin perustuva haku tapahtuu samaan tapaan kuin väriin perustuva haku. Käyttäjä antaa joko mallikuvan tai hahmottelee tekstuurin itse.^[4]

Muoto

Objektien tunnistaminen yksinomaan muodon perusteella on ihmiselle helppoa ja se tarjoaakin merkittävää informaatiota sisältöpohjaisessa kuvahaussa.^[3] Muotoa käytetään CBIR-järjestelmässä siten, että kaikki kuvan objektit tunnistetaan ja niiden muotoa kuvaavat piirteet huomiodaan. Muotoa kuvaavia piirteitä on kahta tyyppiä: globaaleja, kuten muotosuhde ja kehämäisyys tai lokaaleja, kuten perättäiset reunasegmentit.^[4]

2. taso: Semanttinen taso

Toisen tason järjestelmät toimivat myös semanttisella, käsitteiden, tasolla. Tämä tarkoittaa käytännössä sitä, että järjestelmä kykenee tunnistamaan kuvasta tiettyjä kohteita. Kuvista pystytään nykyisillä sovelluksilla poimimaan esimerkiksi ihmisiä, hevosia ja puita. Lisäksi on mahdollista tunnistaa tiettyjä ympäristöjä, kuten rantamaisema ^[5]

3. taso: Abstrakti taso

Kolmatta tasoa ei juurikaan ole vielä saavutettu. Kolmannen tason sovellukset kykenevät tunnistamaan abstrakteja seikkoja. Tällaisia hakuja olisi esimerkiksi ”etsi kuva asuinalueesta” Yksiä harvoja tutkimuksia tältä tasolta ovat tutkimukset värien alueelta, kuten yritys tunnistaa automaattisesti, sopivatko jotkut tietyt värit yhteen.^[5]

Sisältöpohjaisen haun ongelmia

Semanttinen kuilu

Semanttinen kuilu muodostuu siitä, että ”kuvasta saatava tieto ja tiedon tulkinta eivät kohtaa”^[6]. Sisältöpohjaisessa kuvatiedonhaussa tämä on ongelma, koska ihmiset ja tietokoneet tulkitsevat kuvia hyvin eri tavoin. Tietokone käsittelee kuvan matalan tason ominaisuuksia, kuten värejä jopa monin verroin tarkemmin kuin ihminen. Mutta jo värien muodostamien muotojen tulkinta on koneelle haastavampaa. Ihmisten havainnointiin taas kuuluu käsitteellistäminen. Ihminen ei näe kuvia värialuejoukkoina, vaan käsitteellistää kuvissa näkemänsä värialueet esineiksi, ihmisiksi, eläimiksi, maisemiksi, muodoiksi yms.. Semanttista kuilua ihmisen ja koneen välillä pahentaa myös se, että vaikka tietokone pystyisi tunnistamaan kaikki yksittäiset objektit kuvasta, voi kuvasta silti jäädä koneelta tasoja tavoittamatta.^[5]

Semanttista kuilua on pyritty kaventamaan kahdesta suunnasta. Matalammalta tasolta korkeammalla päin ongelmaa on pyritty ratkaisemaan käyttämällä erilaisia (automaattisia) annotointikeinoja. Ylhäältä alaspäin lähestyttäessä on pyritty rakentamaan ontologisia malleja, jotka ottavat käsitteiden väliset suhteet huomioon. Sisältöpohjaisessa kuvatiedonhaussa ontologisista malleista on tosin apua vasta kun kuva-analyysivälineet oppivat tunnistamaan kuvasta objekteja.^[5]

Sensorinen kuilu

”Sensorinen kuilu syntyy, kun tosimaailman objekti kuvataan johonkin toiseen ympäristöön, esimerkiksi valokuvaamalla. Valokuvatessa siirretään kolmiulotteisen maailman tilanne kaksiulotteiseksi, ja tässä siirtoprosessissa katoaa informaatiota. Tämän takia kuvasta ei pystytä välttämättä yhtä helposti kuin todellisessa tilanteessa sanomaan mitä se esittää.” ^[5]

Sisältöpohjainen videotiedonhaku

Sisältöpohjaiseen videotiedonhakuun kehitetyt sovellukset toimivat hyvin pitkälle samoin perusperiaattein kuin sisältöpohjaisen kuvatiedonhaun puolella.^[5] Fyysisellä tasolla videodata on kuitenkin pikselialueista koostuva ajallinen kuvasarja, johon yleensä myös yhdistyy ääniraita. Tämän vuoksi semanttisen sisällön etsiminen raa’asta videodatasta on todella vaikeaa, ja semanttinen kuilu kasvaa vielä isommaksi kuin sisältöpohjaisessa kuvatiedonhaussa.^[7]

Sisältöpohjaisen videotiedonhaun tutkimus ja sovellukset

Sisältöpohjaisen videotiedonhaun tutkimuksen saralla videon sisältöä on lähestytty eri tasoilla: raaka data, matalan tason visuaaliset sisällöt, sekä semanttinen sisältö. Raakaan videodataan voidaan lukea sisältyvän perus videoyksiköt yhdessä tavallisten video-ominaisuuksien, kuten formaatin ja kuvataajuuden kanssa. Alhaisen tason visuaaliselle sisällölle on tunnusomaista visuaaliset piirteet, kuten väri, muodot, tekstuurit yms. Semanttiseen sisältöön lasketaan korkean tason käsitteet kuten kohteet ja tapahtumat.^[7]

Laajoja tutkimuksia sisältöpohjaisessa videotiedonhaussa on kohdistettu juuri perustuen videon matalan tason visuaalisiin sisältöihin. Nämä lähestymiset ovat sisältäneet samantapaisia piirteitä kuin sisältöpohjainen kuvatiedonhaku, keskittyen samankaltaisuuden vertailuihin värijakaumissa, tekstuurissa ja muodoissa. Varhaisimmat videotiedonhakusovellukset muodostuivat jo olemassa olevista sisältöpohjaisista kuvatiedonhaun sovelluksista, ja niihin lisättiin vain toiminnallisuutta, joka mahdollisti videon segmentoinnin ja avain-freimien poiminnan. Tällaisia alhaisen tason visuaaliseen sisältöön perustuvia sovelluksia ei kuitenkaan ole koettu tarpeeksi tyydyttäviksi ratkaisemaan videotiedonhaun semanttisen tason haun ongelmia, koska video on media, joka koostuu kuvasarjoista jotka edetessään rakentavat oman semantiikan, eivätkä videodatasta löytyvät yksittäiset kuvat ehkä pysty edustamaan tätä kuvasarjasta syntynyttä semantiikkaa. Myös avain-freimien valitseminen videodatasta on haastava ongelma.^[7]

Monitasoinen videotiedonhaku

Viimeaikaiset sisältöpohjaisen videotiedonhaun tutkimukset ovat keskittyneet monitasoisiin tiedonhaun menetelmiin. Päälähestymistavat monitasoisessa videotiedonhaussa ovat videon systematisoiminen, sekä videon tiivistäminen.^[8]

Videon systematisointi

Videon systematisointi on prosessi, jolla yritetään taata nopea ja joustava keino videoiden selailuun ja videoista hakemiseen. Systematisoinnissa yhdistetään ja asemoidaan videon eri osat, ja jotta tehokas selailu ja haku onnistuisivat, on videodata representoitava monitasoisesti. Tyypillisesti järjestäminen toteutetaan hierarkkisella kaavalla, joka muodostuu neljästä tasosta: videoesitys, episodi, otto, kuvavirta. Tämän jaon kautta on mahdollista toteuttaa selailu ja haku. Systematisointi on prosessi, joka kulkee alhaalta ylös. Se alkaa alimmalta tasolta, kuvavirran tasolta, joka koostuu tietyn ajan mittaisesta kuvasarjasta. Alin taso vastaa siis alkuperäistä videodataa. Seuraava taso muodostuu otoista, eli tietystä määrästä kuvia, jotka on ajallisesti yhdistetty ja avaruudellisesti lähekkäin. Otot sisältävät jatkuvaa liikettä, ja useat otot yhdistyvät muodostaen episoditason. Episodi on semanttinen yksikkö, jolla kuvataan tekemistä tai tarinaa. Viimeinen taso eli videoesitys (esim. elokuva) rakentuu tietystä määrästä episodeja, joiden kautta rakentuu merkitsevä tarina. Videon systematisoinnissa haku voidaan kohdistaa joko ottojen, tai episodien tasolle käyttämällä erilaisia hakumenetelmiä, kuten kameran liikkeeseen perustuvaa tai kohteen liikevektoriin perustuvaa menetelmää.^[8]

Videon tiivistäminen

Videon tiivistäminen on systeemi, joka pyrkii tarjoamaan abstraktion ja kaappaamaan olennaisen aihepiirin monimutkaisesta videodatasta. Lukuisia tekniikoita, joita käytetään videon systematisointisovelluksissa (esim. ottojen havaitseminen, ottojen ryhmittäminen), voidaan hyödyntää myös videon tiivistämissovelluksissa. Näiden lisäksi kohteeseen perustuvaa lähestymistapaa voidaan hyödyntää tiivistämisessä.

Erottaakseen yksittäiset alueet videokuvassa, systeemi asemoi aluksi avaruudellis-ajalliset osat kuvasta. Tämän jälkeen analyysiin lisätään matalan tason tunnistavat toiminnot näistä alueista. Koska matalan tason tunnistusta ei tehdä suoraan yksittäisistä kuvista, semanttinen informaatio voidaan esittää selvästi näiden kohteiden piirteiden kautta. Tällaista videon tiivistämistekniikkaa on esim. hyödynnetty sovelluksissa, joiden avulla voidaan videoesityksestä etsiä ja tunnistaa tiettyjä siinä esiintyviä avainhahmoja.^[8]

Lähteet

Viitteet

↑ Content-Based Image Retrieval at the End of the Early Years 2010 ieeexplore.ieee.org. Viitattu 6.2.2012.
↑ ^a ^b ^c ^d ^e ^f ^g Kaakinen Antti väitöskirja jisc.ac.uk. Arkistoitu 5.2.2012. Viitattu 6.2.2012.
↑ ^a ^b ^c ^d http://www.sciencedirect.com/science/article/pii/S0920548910000322
↑ ^a ^b ^c http://www.jisc.ac.uk/uploaded_documents/jtap-039.doc (Arkistoitu – Internet Archive)
↑ ^a ^b ^c ^d ^e ^f ^g http://www.cs.uta.fi/research/thesis/masters/Kaakinen_Antti.pdf
↑ [Smeulders et al., 2000] Arnold W. M. Smeulders, Marcel Worring, Simone Santini, Amarnath Gupta and Ramesh Jain,Content‐Based Image Retrieval at the End of the Early Years, IEEE Transactions on Pattern Analysis and Machine Intelligence archive 22 12 (December 2000), 1349‐1380.
↑ ^a ^b ^c http://www.edbt2000.uni-konstanz.de/phd-workshop/papers/Petkovic.pdf (Arkistoitu – Internet Archive)
↑ ^a ^b ^c Zhang, Yu-Jin: Toward High-Level Visual Information Retrieval:Semantic-Based Visual Information Retrieval (United States of America, IRM Press, 2007)

[1] Content-Based Image Retrieval at the End of the Early Years 2010 ieeexplore.ieee.org. Viitattu 6.2.2012.

[jisc.ac.uk-2] ↑ ^a ^b ^c ^d ^e ^f ^g Kaakinen Antti väitöskirja jisc.ac.uk. Arkistoitu 5.2.2012. Viitattu 6.2.2012.

[sciencedirect.com-3] ttp://www.sciencedirect.com/science/article/pii/S0920548910000322

[ReferenceA-4] ttp://www.jisc.ac.uk/uploaded_documents/jtap-039.doc (Arkistoitu – Internet Archive)

[cs.uta.fi-5] ↑ ^a ^b ^c ^d ^e ^f ^g http://www.cs.uta.fi/research/thesis/masters/Kaakinen_Antti.pdf

[6] [Smeulders et al., 2000] Arnold W. M. Smeulders, Marcel Worring, Simone Santini, Amarnath Gupta and Ramesh Jain,Content‐Based Image Retrieval at the End of the Early Years, IEEE Transactions on Pattern Analysis and Machine Intelligence archive 22 12 (December 2000), 1349‐1380.

[edbt2000.uni-konstanz.de-7] ttp://www.edbt2000.uni-konstanz.de/phd-workshop/papers/Petkovic.pdf (Arkistoitu – Internet Archive)

[Zhang,_Yu-Jin_2007-8] Zhang, Yu-Jin: Toward High-Level Visual Information Retrieval:Semantic-Based Visual Information Retrieval (United States of America, IRM Press, 2007)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]