iRODS (OR2009 5/10)

Konferenssissa esiteltiin aDORe djatokan rinnalla Integrated Rule-Oriented Data System eli tuttavallisemmin iRODS. IRODS on jatkoa Data Intensive Cyber Environments –ryhmän kehittämälle SRB:lle (Storage Resource Broker), joka sai huomiota suuria datamääriä käsittelevien organisaatioiden keskuudessa 1990-luvun lopulla. iRODS on ns. väliohjelmisto (engl. middleware), joka tarjoaa yhden liittymän useaan datavarastoon, minkä vuoksi sen avulla suuri datamäärä voidaan hajauttaa useaan varastoon ja hallita yhdestä paikasta. Tällainen datavarasto voi olla arkisto tai mikä tahansa muu digitaalinen aineiston lähde (esim. verkko, tietokanta tai tiedostojärjestelmä). Sitä voi käyttää myös ohjelmistona digitaaliarkistolle.irodsIRODS koostuu yllä olevan kuvion mukaisesti kolmesta osasta, datapalvelimesta, sääntökoneistosta ja metadataluettelosta. Kiinnostavin on järjestelmän ydin, iRODS Rule Engine. Tämä sääntökoneisto tulkitsee sille laadittuja sääntöjä, joiden perusteella se valitsee ehtojen mukaiset toiminnot suoritettavaksi. IRODS:ia voisi luonnehtia myös eräänlaiseksi datan tai digitaalisen aineiston automaattiseen hallinnointiin tarkoitetuksi, ohjelmoitavaksi sääntöjärjestelmäksi.

  • Säännöt voivat olla esimerkiksi seuraavanlaisia:
  • Pikkukuvien tekeminen kuvista, kun ne ladataan kokoelmaan
  • Tiedoston replikointi kolmeen eri arkistoon, kun se ladataan kokoelmaan
  • Ajoittainen tiedostojen eheyden tarkistus ja mahdollinen eheyden korjaus tietylle kokoelmalle
  • Käyttäjän pääsyn salliminen tiettyyn kokoelmaan vain siinä tapauksessa, että hän on kirjautunut sisään järjestelmään

Säännöt muodostuvat kolmesta tekijästä: ehdosta, mikropalveluista tai muista säännöistä, jotka suoritetaan ehdon ollessa voimassa ja mikropalveluista tai säännöistä, jotka suoritetaan jos sääntöjä tai mikropalveluita suoritettaessa ilmenee virheitä. Ehdot voivat koskea mitä vain, kuten tiettyä kokoelmaa, tiedostoa, tiedostotyyppiä, käyttäjäryhmää tai vaikkapa toimenpiteessä kulunutta aikaa. Suoritettavat mikropalvelut ovat samanlaisia kuin ne, joista kerrottiin Kunzen ja Abramsin esityksissä (ks. OR2009 3/10). Säännöt voivat koskea koko järjestelmää, esim. käyttöoikeuksia, käsittelyhistoriaa, käyttäjän tunnistautumista, aineistojen kuvailutietovaatimuksia, mutta toisaalta ne voivat olla rajattuja johonkin toimintoon, esim. aineiston syöttöön tai käyttöön tai vaikkapa niinkin yksityiskohtaiseen toimintoon kuin metadatan erottamiseen aineistosta. Säännöt voidaan suorittaa saman tien, tietyn väliajoin, pyynnöstä tai siirtää suoritettavaksi myöhemmin.

IRODS mahdollistaa periaatteessa arkiston toimintojen entistä kattavamman automatisoinnin verrattuna perinteisiin digitaaliarkistoihin. Järjestelmälle voidaan kehittäjien mukaan laatia sääntöjä, jotka ”automatisoivat hallinnollisia toimintoja” tai ”vahvistavat arkiston hallinnoimisperiaatteita”. Konkreettisia esimerkkejä siitä, millaisia tällaiset säännöt voisivat olla, en nähnyt, mutta sääntöjen formulointi yksinkertaisille, edellisten esimerkkien tapaisille operaatioille lienee vaivatonta. Periaatteessa iRODS:n mahdollisuudet voivat silti olla hyvinkin suuret ottaen huomioon järjestelmän periaatteen abstraktiuden.

Konferenssissa esiteltiin yksi iRODS-toteutus, jossa iRODS oli yhdistetty Fedoraan. IRODS:ia käytettiin Fedoran pohjalla tiedostojen hallintaan ja Fedoraa metadatan ja digitaalisten objektien hallintaan. Yhdistelmällä saavutetaan se etu, että Fedora-arkiston sisältö voidaan hajauttaa ja tallentaa turvallisesti useisiin erillisiin iRODS-varastoihin, jotka voivat sijaita maantieteellisesti eri paikoissa. Varastoihin on laadittu sääntöjoukot, jolla datan eheystarkistukset ja replikointi voidaan suorittaa tehokkaasti. Toteutus on erinomainen tilanteessa, jossa säilytettävän materiaalin lukumäärä nousee satoihin miljooniin tiedostoihin ja koko petatavuihin.

IRODS:n ovat ottaneet käyttöön NASA suuren datamääränsä hallintaan, mutta myös yllättäen Ranskan kansalliskirjasto ja Australian tutkimusdataa eri tieteenalojen välillä tarjoava Australian Research Collaboration Service (ARCS). Ranskan kansalliskirjastossa iRODS:ia käytetään säätelemään aineiston syöttöä, siihen liittyviä tarkistustoimenpiteitä ja aineiston käyttöä.