Keskustelu Wikipediasta:GLAM/Kuvien lataaminen
GLAM-aineiston lataaminen Commonsiin
[muokkaa wikitekstiä]Alla oleva keskustelu on siirretty tänne keskustelusivultani. Otsikko on vaihdettu samassa yhteydessä. ––Apalsola k • m 25. tammikuuta 2015 kello 15.06 (EET) –– (yksi kommentti lisätty) Apalsola k • m 25. tammikuuta 2015 kello 15.09 (EET)
Osaatkos luetella keitä kaikkia mahtaa olla fi-wikin käyttäjistä aktiivisina ja edistyneinä käyttäjinä commonsin puolella. Wikimedia Suomella on kaikenlaisia hankkeita liittyen esimerkiksi GLAM-aineistolatauksiin: Wikipedia:GLAM ja siellä on koottu listaa aineistoista, joita GLAM-organisaatiot ovat vapauttaneet ja julkaisseet muualla lisenseillä, jotka mahdollistavat lataamisen commonsiin: Wikipedia:GLAM/Avoimia aineistoja. Näihin liittyy paljon muun muassa tekniikkaa, käynnissä olevaa massalataushankkeiden ja metadatan selvittelyä, joiden parissa askaroi Wikimedia-Suomessa osa-aikaisena työntekijänä WMFI:n assistentti Ari Häyrinen, ja sitten tuossa projektisivulla esiteltyä hankentoimintaa, josta tietää Käyttäjä:Susannaanas. Tässä olisi tervetullutta muodostaa näihin hankkeisiin liittyen yhteyttä aktiivisiin suomalaisiin commons-käyttäjiin jolla commonsin puolelta kokemusta ja osaamista. Itse olen vain commonsin peruskäyttäjä enkä ole teknisesti edistynyt, enkä ole noissa varsinaisissa hankkeissa ainakaan vielä juuri ollut mukana, mutta meinasin nyt että näitä suuntia suomalaisen wikimedistiyhteisön sisässä voisi koettaa vähän kartoittaa esimerkiksi sen suhteen keitä tämänkaltaiset jutut kiinnostavat ja ketkä kaikki tuntevat hyvin commonsiin liittyviä kysymyksiä. --Urjanhai (keskustelu) 23. tammikuuta 2015 kello 00.30 (EET)
- Itse teen jonkin verran Commonsissa kuvien luokittelu- ym. työtä. Niinkään paljon ei ole tullut ladattua sinne kuvia.
- Ainakin seuraavat (oletettavasti suomalaiset) käyttäjät (aakkosjärjestyksessä) näyttävät olevan nykyisin aktiivisia Commonsissa: Estormiz, Kallerna, Kulmalukko, Makele-90, Motopark, Niera. Osa heistä lähinnä tallentaa kuvia, osa tekee myös muuta työtä, kuten luokittelua.
- Alla on muutama (nopeasti pähkäilty) ajatus, mitä tällaisessa projektissa kannattaisi ottaa huomioon:
- Jos siirrettävää aineistoa on paljon, se kannattaisi automatisoida mahdollisimman pitkälle jonkin botin avulla. Tietenkään ketään ei voi (eikä pidä) kieltää tallentamasta kuvia manuaalisesti, mutta lähtökohtaisesti minusta on järkevämpää käyttää tämäkin aika sellaiseen, mitä on hankalampi automatisoida (tästä lisää alempana).
- Lähdeaineistosta pitää pyrkiä siirtämään mahdollisimman tarkat kuvailu-, tekijä- ja lähdetiedot. Mahdollisuuksien mukaan näidenkin tietojen käsittelyä on automatisoitava niin pitkälle kuin mahdollista.
- Automaattisesti voi yrittää luokitella, mutta todennäköisesti se menee metsään. ;-)
- Parempi tapa onkin lisätä kuvat ensin johonkin työluokkaan, josta niitä sitten (noiden mahdollisimman tarkkojen kuvailutietojen avulla) on helpompi luokitella varsinaisiin luokkiin. Kuvat poistetaan työluokista sitä mukaan, kun ne on luokiteltu oikein, kuvailutiedoissa olevat virheet on korjattu yms.
- Ainakaan kuvia ei pidä oletusarvoisesti lisätä suuriin pääluokkiin, kuten Category:Finland tai Category:Helsinki.
- Kaikki kuvat on syytä luokitella (automaattisesti) myös lähteen mukaan ("Category:Files from ...", esim. Category:Files from the National Library of Finland). (Em. työluokka olisi sitten esim. "Category:Files from ...: maintenance", esim. Category:Files from the National Library of Finland: maintenance).
- Saksan valtionarkisto lahjoitti vuonna 2008 suuren määrän kuvia Commonsiin. Käsittääkseni tämä operaatio suoritettiin melkoisen järjestelmällisesti, joten siitä voi varmaan ottaa mallia (ks: Commons:Commons:Bundesarchiv ja esimerkki projektin kautta ladatusta kuvasta). Muitakin vastaavia projekteja on ollut. ––Apalsola k • m 23. tammikuuta 2015 kello 16.34 (EET)
- Kiitos. Luulen että tuossa tuli hyviä huomioita (Susanna ja Ari ehkä osaisivat kommentoida paremmin). Juuri noiden automaattisten latausten kanssa Ari Häyrinen on tuolla askaroinut, ja kokeiltavana on ollut kai jossain Hollannissa kehitetty GLAM Wiki Toolset -niminen työkalu, jolla juuri pyritään muun muassa metadatan automaattiseen siirtoon poimimalla GLAM-organisaation tarjoamasta tai tuottamasta metadatasta halutut kohdat ja näyttämällä työkalulle, mihin kohtaan nämä tiedot tulevat commonsin mallineissa. Edellytyksenä tallennukselle kai on, että GLAM-organisaatio on julkaissut sopivalla lisenssillä kuvat jossain, ja että on metadata, ja sitten joko organisaatio itse tai vapaaehtoiset voivat siitä ladata kuvia commonsiin juuri tuolla työkalulla. Ja nyt kai juuri tutkitaan, että sadaanko näitä massalatauksia aikaan vai tarjotaanko vaikka sitä odotellessa noita linkkejä niille jotka haluavat esim. artikkeleihin sijoittaa yksittäisiä kuvia. Noista juuri Ari Häyrinen ja Susanna Ånäs tietävät nykyisen vaiheen ja teknisen kaavailun. (Se taisi olla kai viimeksi joku sellainen, että jos GLAM-organisaatiot saavat kuvat nettiin ja metadatan, niin siitä commonistit voisivat tehdä massalatauksia GLAM Wiki toolsetillä. Tai jos GLAMeilla itse on jaksamista työkalun opetteluun, niin he voisivat halutessaan opiskella ja käyttää työkalua myös itse.) Tuo työluokkakonseptikin ehkä noissa on voinut vilahtaa, tai jos ei, niin ehkä se juuri ratkaisee joitain ongelmia (tunnen näitä hankkeita huonosti), alkuperäluokat luulen, että ovat konseptissa, ja ainakin mallineita.
- Wikidatan osaltahan Wikimedia Suomi on pitänyt tiistain klo 21 etherpad-istuntoa, jossa on pyöritelty wikidatan tekniikkaa. Jos tästä joku kiinnostuu niin voi katsoa, saisiko jotain tämänkin ympärille. Itse olen commons-käyttäjänä epätekninen, vaikka kyllä muuten wikipedian ulkopuolella jotain pelaan joidenkin tietokantojen kanssa ja olen harrastanut hiukan myös luokittelua. --Urjanhai (keskustelu) 23. tammikuuta 2015 kello 17.15 (EET)
- Luulen että erityisesti teknisesti orientoituneilla commonisteilla voisi riittää juttua noista systeemeistä, ja samoin arvokasta olisi, kellä vaan on kokemusta commonsin edistyneemmästä yhteisökulttturista. Itse olen vain tavallinen kuvien latailija ja luokittelija, mutta kiinnostunut kyllä juuri esim. metadatan sisällöstä siltä osin kuin hallitsen joidenkin aihealueiden substanssipuolta.--Urjanhai (keskustelu) 23. tammikuuta 2015 kello 17.37 (EET)
- Itse olen ollut kiinnostunut myös commonsin luokittelusta ja tehnytkin sitä joskus hiukan, ja miettinyt myös joitain aihepiirejä, jotka voisivat tarvita luokkia (tyyliin "perinnebiotoopit" = "traditional rural biotopes"?), mutta toisaalta juuri luokittelusta taitaa nyt kuulua uutisia, että wikidata olisi vähitellen jollain pidemmällä aikavälillä korvaamassa luokittelua, ja siksi wikidata vaikuttaa hyvin kiinnostavalta, mutta kun olen muokkaajana ei-tekninen, niin tämän kehityskulun hahmottaminen sujuu hitaasti. (Siitä ehkä voivat tietää jotain Käyttäjä:Zache ja Käyttäjä:Stryn). --Urjanhai (keskustelu) 23. tammikuuta 2015 kello 17.52 (EET)
- Kiitos hyvistä huomioista ja käytäntöehdotuksista. Aloitan artikkelin Wikipedia:GLAM/Kuvien lataaminen GLAM-sivujen alaisuuteen ja sitä voitaisiin kaikki yhdessä työstää. Nämä huomiot voisi ensi alkuun kirjoittaa sinne. Yritän ehtiä itsekin muokata artikkelia, vaikka lähiaikoina onkin aika kiire. --Susannaanas (keskustelu) 24. tammikuuta 2015 kello 12.27 (EET)
- Hyviä huomioita tosiaan. Kuten Urjanhai tuossa mainitsi, niin olen puuhaillut noiden massalatausten teknisen puolen kanssa. En ole itse wikipedisti enkä commonisti, joten olen yrittänyt päästä perille käytännöistä työn ohessa.
- Johtoajatuksena itsellä on ollut juurikin tuon metadatan laatu määrän kustannuksella. Olen ymmärtänyt niin, että tämä on se mitä Commons-yhteisökin haluaa.
- Kun nyt olen katsellut eri organisaatioiden metadataa, niin on tullut selväksi että pelkkä dumppaus Commonssiin ei toimi vaan se vaatii ihmiskättä. Automatisointi auttaa asiaa hieman mutta monesti automatisointi ei vaan onnistu. Esimerkiksi monissa valokuvissa on lueteltu kuvissa esiintyvät henkilöt kuvatekstissä mutta niitä on lähes mahdoton poimia sieltä automaattisesti Valokuvamallineen Depicted people -kenttään.
- Kyse onkin siitä, että missä vaiheessa tuo muokkaus tehdään. Perinteisesti tämä on jätetty yhteisön tehtäväksi Commonssin sisällä (ns. dumppaus). Mielestäni olisi kuitenkin kaikkien etu, jos tuo muokkaus tehtäisiin *ennen* latausta. Näin tehtynä muokkaus on a) nopeampaa koska muokkausta voidaan tehdä koko sarjalle kerralla ja b)muokkaustyökalu voidaan räätälöidä materiaalin metadatan muokaisiksi eli muokkaus on helpompaa ja ehkä myös hauskempaa.
- GLAMien massalatauksen tehtävät voisi jaotella kolmeen osaan:
- 1. aineiston saaminen ulos muokattavaan formaattiin (tekninen tehtävä)
- Ensimmäisessa vaiheessa puljataan OAI-MPH, XML, Duplin Core yms. maailmassa. Jos nämä ovat tuttuja ja jos osaa jonkin verran ohjelmointia, niin näitä pystyy tekemään. Ajatuksena tässä on luoda muokkauskäyttöliittymä aineistoon. Tätä olen itse tehnyt Flickr2GWToolsetin kanssa ja nyt Kansalliskirjaston aineistojen kanssa.
- 2. metadatan muokkaaminen (tiedollinen tehtävä)
- Toisessa vaiheessa muokataan lähdeaineiston metadata Commonssiin sopivaan muotoon käyttäen edellisen vaiheen tuotosta. Hyödynnetään siis mallineita ja tehdään linkityksiä Wikidataan. Tämä ei vaadi teknistä osaamista, vaan hieman Commonssin käytäntöjen tuntemista (instituutio ja Creator -mallineet, Wikidata-linkit). Sisältötietämys on tietysti suurta plussaa. Siksi tämä olisi se vaihe, jossa GLAM voisi olla mukana.
- 3. tekninen lataus (tekninen/hallinnollinen tehtävä)
- Kolmas vaihe on sitten varsinainen lataus. GWToolset on näillä näkymin siihen paras työkalu. Lataamiseen liittyy se, että lataajalle pitää olla käyttöoikeudet GWToolsettiin sekä se, että lähdemateriaalin verkko-osoite pitää saada GWToolsetin sallittujen domainien listalle. Tämä osa on siis lähinnä hallinnnollinen ja lievästi tekninen.
- GLAMien massalatauksen tehtävät voisi jaotella kolmeen osaan:
- Tehtävät vaativat siis erityyppistä osaamista. Henkilö, joka on kiinnostunut kartoista, olisi varmaan kiinnostunut karttojen metadatan parantamisesta mutta ei välttämättä innostu GWToolsetin käyttämisestä. Tekninen henkilö ei taas välttämättä innostu satojen karttojen metadatan tarkastamisesta ja muokkauksesta.
- Haasteena olisi luoda jonkinlainen enemmän vai vähemmän hallittu vuo, jossa esimerkiksi joku jonkin aineiston valmiiksi muokannut, on se sitten GLAM tai joku muu, voisi pyytää latausta GWToolsetillä.
- Kuulostaako tämä millään muotoa järkevältä/toteuttamiskelpoiselta? Artturimatias (keskustelu) 25. tammikuuta 2015 kello 14.48 (EET)
- Noin sivuhuomiona, olet varmasti nyt jo syyvällä sekä wikipediassa että commonsissa, että olet varmasti myös wikipedisti ja commonisti, se raja on varmaa jo noilla askareilla ylitetty.--Urjanhai (keskustelu) 25. tammikuuta 2015 kello 14.54 (EET)
- Jos ajattelee tavallisen, ei teknisen wikimedistin näkökulmasta, jollainen itse olen, niin moniakin voisi kiinnostaa tuo metadatan säätö, luokittelu ym. jos siinä vielä latausten jälkeen on säätämistä. Esim. itse hallitsen kartat hyvin ja tykkään luokittelusta, ja luokittelua, koordinaattien lisäämistä ym. harrastaa varmaan moni muukin. - Ja ehkä joitain tällaisia GLAMIt voisivat ottaa leipiinsäkin, jos kaikilla ei vapaa-aika riitä, tai ainakin neuvomaan. Ja teknisesti suuntautuneille taas sopisi tuo itse massalataus. Sisältö- ja substannssikiinnostukseni takia joissain aiheissa voisin olla kiinnostunut valmistelutryöstä, mutta en osaa sanoa, onnistuisiko teknisen osaamisen puolesta. Olen itse opettanut joitain "vaikeina" pidettyjä ohjelmia vasta-alkajille menestyksellä, mutta vastaavasti olen hidas ja ei-tekninen oppija ja lisäksi ainakin nyt aika on kortilla.--Urjanhai (keskustelu) 25. tammikuuta 2015 kello 15.05 (EET)
- Jotain tuollaista minäkin ajattelin ensimmäisessä kommentissani. Lähinnä ajattelin, että kuvia ei pidä ladata vain "hutaisten" niin, että alkuperäinen metadata ja lähdetiedot menetetään. En olettanutkaan, että homma voitaisiin viedä läpi täysin automatisoidusti. Tarkoitin vain, että kaikki sellainen, mikä voidaan automatisoida, kannattaa automatisoida. Mieleeni tulevia mahdollisia automatisointikohteita voisivat olla esimerkiksi:
- kuvan päivämäärän siirtäminen Commonsin Date-kenttään (samassa yhteydessä tietysti muunnos ISO 8601 -muotoon jne.)
- alkuperäisen kuvauksen siirtäminen (vrt. Bundesarchiv-projekti, jossa alkuperäinen kuvaus säilytetään aina sellaisenaan; tämän lisäksi voidaan sitten kirjoittaa normaalit descriptiont)
- lähdetieto (sisältäen mahdollisen sarja-/indeksinumeron alkuperäisessä kokoelmassa).
- Manuaalista työtä taas tarvittaneen ainakin seuraavissa:
- Kuvausten kääntäminen muille kielille.
- Luokittelu. Nykyisellään luokat ovat ehkä tärkein metadata Commonsissa. Toistaiseksi Wikidatasta on myös aika vähän hyötyä yksittäisen kuvan luokittelussa, joten sitä joutunee tekemään aika paljon käsin. (Tältä osin tilanne voi toki muuttua tulevaisuudessa.) On myös huomattava, että Commonsissa luokitteluperiaatteet poikkeavat jonkin verran siitä, mitä ne Wikipedian puolella ovat.
- Jäsentymättömän (koneellisesti vaikeasti tulkittavan) metadatan käsittely.
- Siitä olen samaa mieltä, että varmaan on järkevintä tehdä suuri osa em. työstä ennen latausta, jos/kun hyviä työkaluja on olemassa. ––Apalsola k • m 25. tammikuuta 2015 kello 15.47 (EET)
- Jotain tuollaista minäkin ajattelin ensimmäisessä kommentissani. Lähinnä ajattelin, että kuvia ei pidä ladata vain "hutaisten" niin, että alkuperäinen metadata ja lähdetiedot menetetään. En olettanutkaan, että homma voitaisiin viedä läpi täysin automatisoidusti. Tarkoitin vain, että kaikki sellainen, mikä voidaan automatisoida, kannattaa automatisoida. Mieleeni tulevia mahdollisia automatisointikohteita voisivat olla esimerkiksi:
- Nysse GLAM-wiki toolset on kumminkin nurin, ja talkoolaisia kaivataan vähän joka hommaan, kun 5.-8.2 2014 on tapahtuma Wikipedia:Wikiprojekti Wiki Loves Maps, johon pitäis ladata karttoja ja kuvia commonsiin. Käyttäjä:Susannaanas kertoo lisää.--Urjanhai (keskustelu) 26. tammikuuta 2015 kello 11.00 (EET)
- Teemme tuolle projektisivulle Wikipedia:Wikiprojekti Wiki Loves Maps tehtäviä, joissa voi auttaa. Toisaalta ne koskevat artikkeleita, toisaalta kuvien lataamista. Jopa tehtävien muotoilussa saa auttaa! --Susannaanas (keskustelu) 27. tammikuuta 2015 kello 17.16 (EET)