digitointiohjeet

26.1.2016 Suomen tiedekustantajien liiton digitointiohjeet.kulttuuriperintö kaapista digitaaliyhteiskuntaan

 

Kulttuuriperintö kaapista digitaaliyhteiskuntaan: yksinkertaiset digitointiohjeet

Versio 2.2 EP 25.2.2016

Vieläkö seurasi tai kustantamosi kulttuuriperintö köllöttää kaapissa, kirjahyllyssä tai jopa kosteassa varastossa? Kuinka digitoida ja säilyttää tieteelliset tuotokset, painetut kirjat tai lehdet? Digitoinnin voi tehdä pienelläkin budjetilla ja omalla työllä, kunhan vain on ohjeet.

Digitointia voidaan tehdä eri tavoin. On tärkeää digitoida tänään niin, että tehty työ on olemassa huomenna tai vaikka vuosikymmenten päästä. Pahimmissa digitointiskenaarioissa kauan sitten painetut teokset digitoidaan pikaisesti niin heikkolaatuisina, että niistä ei ole tulevaisuuden käyttöihin, tiedostosta on yksi kappale, joka tuhoutuu tai muokkautuu uudelleen, ja kaikki alkuperäiset paperikappaleet on tuhottu. Jotta tällainen tilanne voitaisiin välttää, on kiinnitettävä huomiota digitoinnin laatuun, arkistoitavan tiedostoversion luomiseen, digikappaleiden (monikossa) arkistoimiseen ja lopulta siihen, että myös alkuperäistä paperikappaletta on jäljellä kaksi eri paikoissa. Tässä ohjeistuksessa on hyödynnetty tuoreinta pitkäaikaissäilytyksen asiantuntemusta, mutta senkään mukaan alkuperäiskappaleita ei ole syytä heittää juhannuskokkoon.

Digitointia ennen on selvitettävä mm.:

  • tekijänoikeudet (tarvitaan omat ohjeet: yhteistyötä Kopioston kanssa?)
  • onko aineistoa tai sen osia jo valmiina digitaalisessa muodossa? Esim. taittoversio on parempi lähtökohta kuin painetun digitointi.
  • onko aineistoa useampi kappale? Jos uniikkikappale, kannattaa ottaa yhteyttä esimerkiksi Kansallisarkistoon, jossa kirjaskanneri): tämä on ohjeistus siihen, että käytetään syöttölaitteella varustettua skanneria (usein tulostin-skanneri), johon voi laittaa aineiston paksuina nippuina. Myös Kansalliskirjastolla: Digitointi- ja konservointikeskus voi tehdä sitä myös, aineistoa voidaan kokeilla koe-erällä ja erityisosaamisena on sekä laajat kokoelmat että hellävaraista käsittelyä vaativat aineistot.

On myös päätettävä:

  • mitkä ovat käytettävät metatiedot (tarvitaan omat ohjeet: asiasanojen kerääminen ja niiden päätyminen esim. Arto-tietokantaan auttaa tiedon löytämistä ja yhteistyö Kansalliskirjaston kanssa tässä on tärkeää, sillä he osaavat ohjeistaa ja auttaa)
  • tiedostomuoto, tiedostojen nimeäminen ja säilytys: jokaisesta digitoitavasta julkaisusta on syytä valmistaa mahdollisimman korkealaatuinen arkistokappale (PDF/A) ja nettikäyttöön optimoitu julkaisuversio
  • skannerin asetukset (huomaa, että OCR-luku eli tekstintunnistus vaatii yleensä 600 dpi)
  • missä ja miten aineisto säilytetään digi- ja paperimuodossa, joista digi-versiosta on aina sekä arkisto- että käyttöversio

Digitointi on yksinkertaista, kunhan tietää, mitä tekee. On huomioitava, että digitoinnissa tähdätään sekä digitoinnin aineiston käyttöön että digitoidun materiaalin pitkäaikaissäilytykseen: Käyttöversio ja pitkäaikaissäilytetty versio on talletettava eri paikkoihin. Ne voivat olla – joskus niiden tuleekin olla eri tiedostomuodossa.

Seuraavat kysymykset ovatkin, miten digitoinnin tuotos säilytetään ja miten sitä voidaan käyttää – niin että tekijänoikeuksia kunnioitetaan ja tuotos olisi mahdollisimman hyvin saavutettavissa nykyiselle ja seuraaville sukupolville. Samoin voisi kysyä: pitäisikö TKL:n tai TSV:n tarjota jäsenilleen sähköistä arkistoa tai varmistaa tieteen menneisyyden säilyminen tulevaisuudessa jollain tavalla? Mutta ensin digitoimaan!

 

Step-by-step digitointiohjeet Tiedekustantajien liitolle (2.1)

  1. Arvioidaan digitoitava aineisto:
    1. Luetteloi aineisto: teokset, sivumäärät, arkkikoot, kappalemäärät sisällysluettelot, tekijänoikeudet.
    2. Selvitä, onko aineistoa tai sen osia digitaalisessa muodossa (käsikirjoituksina, digikuvina tms. – jos ). Liitä tämä tieto luetteloon.
    3. Päätä digitointijärjestys perustuen tarpeeseen ja aineiston kuntoon.
    4. Kappaleiden määrä:
      • i. Onko aineistoa useita kappaleita? On: jatka tätä prosessia. Säilytä aina kaksi kappaletta paperisena.
      • ii. Onko aineisto ainoa, säilytettävä kappale? Jos on, ota yhteyttä Kansalliskirjastoon, jos ei, jatka tästä.
    5. Päätä käytettävät metatiedot (tämä kannattaisi tehdä yhdessä muiden kanssa):
      • i. Valitse standardi.
      • ii. Päätä, mitkä metatietokentät ovat pakollisia (lisäohjeistus – konsultoidaan Kansalliskirjastoa).
    6. Kuka tekee?
      1. Joku muu: etsi tekijä, joka voi digitoida aineiston arkkeina (skanner-tulostimella, johon aineiston voi syöttää nippuna), ja anna hänelle tämä ohjeistus.
      2. Me itse: jatka tästä:
    7. Jos b, niin valitaan tiedostomuodot, ohjeena esim. http://www.kdk.fi/images/tiedostot/KDK-PAS-tiedostomuodot-v1.3.pdf.
      1. Huom: Jos tahdotaan samalla tallettaa taittoversioita, tekstiin liittyvää kirjeenvaihtoa, vastaanottoa tai muuta tutkijasukupolvien ja lukijoiden käyttöön, voisi käyttää PDF/A-3 -muotoa, joka kerää sisäänsä kaikki dokumentit. Ks. http://www.digitalpreservation.gov/formats/fdd/fdd000360.shtml
    8. Päätetään tiedostojen nimeämiskäytäntö. Tässä pitää olla luettavissa tiedot, esim: FA_201004_1237-2196_002 (Faili-niminen lehti, vuoden 2010 numero 4 ISSN-numero ja mahdollinen sivunumero).
    9. Leikataan tai avataan kirjat tai lehdet arkeiksi (niskat pois tai aukaistaan stiftit/nidokset). Huomaa, että nidotun lehden tekeminen arkkeina rikkoo lehden rakenteen ja artikkelit on koottava uudestaan. Nidottu lehtikin on helpointa käsitellä leikattuna – ellei esim. arkin keskiaukeamalla ole aineistoa, joka menee yli sivumarginaalin!
    10. Halutaanko artikkelit erikseen nyt vai käsittelyprosessissa myöhemmin? Jos halutaan nyt, artikkelit on skannattava erikseen ja tarvittavat sivut (alku/loppu samalla sivulla) kopioitava molempiin tiedostoihin. Voidaan toteuttaa jälkikäteen esim. Acrobatilla.
    11. Luo jokaiselle lehdelle/kirjalle/kirjan osalle/artikkelille kansilehti, niin näet, mistä kukin teos alkaa/loppuu (kun erotat niitä toisistaan tiedostoihin). Jos voit, tee sivulle viivakoodi.
    12. Aseta sopivissa nipuissa syöttölaitteella varustettuun skanneriin. Yli 100 sivua voi olla hankala käsitellä yhtenä suurena skannattuna tiedostona.
    13. Skannerin asetukset:
      1. 600 dpi minimi (OCR-luku edellyttää, materiaalista riippuen voisi riittää 300 dpi),
      2. värit: jos vain mustavalkoiset useimmiten parasta harmaasävyisinä, joskus parempi tulos 1-bittinen (M/V), mutta jos kuvia ja merkintöjä tai grafiikkaa, harmaasävyskannaus on pakollista; jos värit tai säilytettäviä värillisiä merkintöjä, valitse värillinen. Usein valittavissa myös tekstiä parantava skannausohjelma ja erillinen värivalokuville ja värillisille dokumenteille.
      3. sivukoko sellainen, että koko sivu marginaaleineen mahtuu
      4. skannausmuoto: PDF 1.7 (ISO 32000) ei PDF/A (ks. 14. b).
      5. OCR luku tässä vaiheessa, jos skannaus/PDF-tuotanto-ohjelma voi tehdä luotettavasti. Voidaan tehdä myös myöhemmin (ks. 12)
    14. Laaduntarkastus: selaa kaikki sivut tiedostossa. PDF-työkalulla, kuten Acrobat, voit jakaa skannatun tiedoston osiksi nyt tai myöhemmin (ks. 13).
    15. Tekstintunnistus: Jos ei tätä jo tehty, skannattu kuva on muutettava haettavaksi tekstiksi. OCR-luetun tekstin tulee olla osa PDF:ää, jotta PDF:ään voidaan tehdä hakuja. Esim: ABBYY Reader, asennetaan yleensä palvelimelle (http://abbyy-finereader.soft112.com/). Voisi hankkia yhteiskäyttöön. Voi olla, että myös avoimen lähdekoodin tuotteita on kehitetty.
    16. Jaa skannattu tiedosto mieluiten artikkeleihin tai osiin/lukuihin. (Huom. voi helpottaa myös silloin, kun osaan aineistosta on saatu tekijänoikeudet ja osaan ei.)
    17. Tee käyttö- ja arkistokopiot:
      1. Pienennä/optimoi PDF-tiedosto käyttöä varten.
      2. Tallenna skannattu tiedosto ja tee siitä arkistokappale: PDF/A-1b tai myöhempi. (Jos on tallenna myös PDF/A-3-tiedostot, ks. yllä.)
    18. Talleta arkistokappale ainakin kahteen eri rakennukseen skannattuna ja arkistoversiona (ks. muista, että kaksi painettua arkistokappaletta tarvitaan, ks. 1.d.ii).
    19. Hajauta tallennus toisiin järjestelmiin, esim. kumppaniorganisaatioon ja kahteen pilvipalveluun. Aineisto kannattaa säilyttää sähköisesti pilvissä ja useammilla kiintolevyllä – tai mielellään LTO-nauhalla. (Jos käytettävissä LTO-nauha, käytä sitä kahtena kappaleena, joista toinen on WORM.) Pitkäaikaissäilytystä ei edistä arkistokappaleen polttaminen DVD:lle tai CD:lle ja sen laittaminen alkuperäiskappaleiden viereen hyllyyn muovikuoressa.
    20. Sähköinen arkisto: Jos mahdollista, käytä luotettavaa sähköistä arkistoa, jossa aineiston tilaa seurataan ja joka voi tarvittaessa tehdä migraation nykyisistä tiedostoformaateista tuleviin formaatteihin. Perustakaa tai liittykää yhteenliittymään, joka huolehtii pitkäaikaissäilyttämisestä. Arkistoaineistossa mahdollisia arkistoja ovat esim. yksityiset keskusarkistot, Yhteiskunnallinen tietoarkisto. Järjestöarkistopalvelua suunnitellaan Mikkelin ammattikorkeakoulussa, jossa tehty pilottiprojekti 2015.
    21. Pohditaan, miten arkistojen aarteet tehdään saavutettaviksi ja saadaan käyttöön.

 

Ohjeet laativat digitoinnin ja pitkäaikaissäilytyksen asiantuntija Osmo Palonen ja tutkija Emilia Palonen, 22.-6.5.2015. Lisätiedot: Emilia Palonen, epalonen@gmail.com, 040-5077198. Ohjeita on kommentoitu Tiedekustantajien liiton hallituksessa. Ja versiota 2.1 TSV:n ja Tiedekustantajien liiton järjestämässä tilaisuudessa 26.1.2016. Ja toivottavasti edelleen täällä verkossa.