Vuoden 2014 Suomi-keräyksessä eli suomalaisten verkkosivujen haravoinnissa verkkoarkistoon tuuletettiin tuttuja arkistointikäytäntöjä. Aiemmilta vuosilta tutun Viestintäviraston tarjoaman fi-domainien listan lisäksi haravoinnissa hyödynnettiin Makupaloja, Alexan tuottamaa Suomesta vierailtujen suosituimpien www-sivujen listaa sekä Vapaakappaletoimiston laatimaa valtionhallinnon tahojen verkkosivujen listausta. Fi-domain-osoitteet jaettiin näiden uusien apulistojen perusteella kattavammin talteen poimittavien ja kevyemmin haravoitavien listoiksi.
Category Archives: Verkkoarkisto
Uutisia digitaalisia, vanhoja ja uusia – IFLAn sanomalehtijaoston kokous Genevessä
IFLAn sanomalehtijaoston pre-konferenssi Digital Transformation and the Changing role of News Media in the 21th Century järjestettiin 13.-14.8. Genevessä ITU:n eli Kansainvälisen televiestintäliiton tiloissa. ITU on YK:n alainen televiestintäverkkoja ja -palveluja kansainvälisesti koordinoiva järjestö ja sijaitsee samoilla nurkilla kuin monet muutkin YK:n järjestöt, kuten WTO, WHO ja ILO.
Kaksipäiväinen konferenssi keskittyi etupäässä sanomalehtien digitointiin ja tekstintunnistuksella saatavan datan käsittelyongelmiin. Toki käsiteltiin myös elektronisessa muodossa syntyneiden uutisten säilyttämistä sekä digitoinnilla louhittavan datan käyttömahdollisuuksia, mutta useat aiheet liittyivät siihen miten yleensä saada hyvälaatuista tekstiä eritasoisista alkuperäislähteistä. Myös suomen kielen erikoinen luonne tuli käsitellyksi.
Kokemuksia Saksan kansalliskirjaston e-vapaakappaletoiminnasta
Kansalliskirjaston kolmihenkinen delegaatio kävi toukokuun lopussa Deutsche Nationalbibliothekin vieraana Frankfurtissa tutustumassa sikäläiseen vapaakappaletoimintaan, erityisesti elektronisten vapaakappaleiden, verkkoarkistoinnin ja pitkäaikaissäilytyksen näkökulmasta.
Halusimme kuulla Saksan kansalliskirjaston kokemuksia verkkoaineistoon liittyvistä kysymyksistä mahdollisimman monipuolisesti. Ajatuksena oli, että voisimme kenties oppia jotakin uutta ja samalla saisimme hyvän vertailukohdan omalle toiminnallemme.
Muistoja IIPC:stä
Tämä on vain pieni linkkilista IIPC:ssä mainituista asioista.
Twitter: #iipc13
- http://www.webarchive.org.uk/aadda-discovery/ Analytical Access to the Dark Domain Archive (1996-2010)
- http://home.us.archive.org/~vinay/wide/wide-00002.html Tilastokäyriä verkkoharavoinnista.
- http://webatlas.fr/wp/navicrawler/ NaviCrawler – työkalu manuaaliseen verkkoharavointiin.
- http://phantomjs.org/ PhantomJS
- http://htmlunit.sourceforge.net/ HTMLUnit
- http://archivesocial.com/ Sosiaalista mediaa arkistoiva firma
- http://docs.seleniumhq.org/ Selenium – selaimen automatisointi
- https://code.google.com/p/bite-project/ Google Bite – “test web from the web”
- http://camstudio.org/ Ruudunkaappausta
- http://hadoop.apache.org/ Apache Hadoop
- http://pig.apache.org/ Apache Pig – suurten datasettien analysointityökalu
- http://aaron-dev.us.archive.org/ Vanhan hyvän ajan web
Onko siellä sosiaalisessa mediassa tullut kommentteja, Maire?
“Automaattinen näytönkaappaus televisiolähetyksen ja sosiaalisen median vuorovaikutuksen tutkimuksessa.” Tällä otsikolla Ditte Laursen ja Bjarne Andersen kertoivat viestimien välisen vuorovaikutuksen tutkmuksesta, erityisesti Danmarks Voicen suoran tv-lähetyksen ja somen suhteesta. Yhä useammin katsojat käyttävät kahta näyttöä yhtaikaa, siis katsovat tv:tä yhdestä laitteesta ja seuraavat oheisfoorumeita toisella. Yhteen ohjelmaan liittyy siis viisi mediavirtaa: tv-ohjelma; sen Facebook-seinä ja Facebook-chatti; tv-ohjelman www-sivut sekä tuotantoyhtiön www-etusivu, jonne ohelmasta nostetaan uutisia. Continue reading
Verkkoarkistot tutkijan lähdeaineistona
International Internet preservation Consortiumin General Assembly jatkuu Ljubljanassa seminaaripäivällä, jossa kuullaan erityisesti verkkoarkistojen tutkimuskäyttöä valaisevia esityksiä. Tässä nopeita vaikutelmia esityksistä. Continue reading
Verkkoharavointi: koetamme pysyä kehityksen perässä
International Internet Preservation Consortium (IIPC) pitää parhaillaan kokousta ja konferenssia Ljubljanassa.
IIPC:ssä on tällä hetkellä 44 jäsentä: kansalliskirjastojen lisäksi mukana on muita kirjastoja ja arkistoja sekä jokunen järjestelmän- ja palvelunarjoaja. Kansalliskirjasto on ollut järjestössä mukana aivan alusta asti – tänä vuonna vietetään 10-vuotisjuhlia. Pohjoismainen yhteistyö tosin alkoi vielä aikaisemmin.
Ljubljanan kokous on alkanut positiivisen kriittisyyden merkeissä. Toiminnassa on selkeästi kehittämistarvetta, ja ongelmista on puhuttu avoimesti ja onneksi oikein hyvässä hengessä. Continue reading
Verkkoarkistot hyötykäyttöön
Kansalliskirjasto on jo usean vuoden ajan kerännyt talteen suomalaisia verkkoaineistoja. Monet muut kansalliskirjastot – mutta eivät suinkaan kaikki – toimivat samoin. Siellä, missä tekijänoikeuslainsäädäntö, erityisesti fair use -ajattelu sen sallii, myös muut organisaatiot arkistoivat verkkosisältöjä eri tarkoituksiin. Kansainvälisen yhteistyön foorumi on International Internet Preservation Consortium IIPC, jonka yleiskokous on parhaillaan menossa Kongressin kirjastossa Washingtonissa. Ensimmäisenä päivänä pidettiin seminaari, jossa esiteltiin verkkoarkistojen erilaisia käyttötapoja. Continue reading
Nettiä pelastamassa (2): mitä tutkijat toivovat verkkoarkistoilta
IIPC:n General Assembly jatkui sessiolla, jossa käsiteltiin verkkoarkistojen tutkimuskäyttöä.
Sosiaalitieteilijät tutkivat ihmisiä, eivät webisivuja
Oxford Internet Institute tutkii Internetiä yhteiskunnallisena ilmiönä, sen muuttumista ja sen erilaisia rooleja.
Eric Meyer, Arthur Thoms ja Ralph Schroeder Oxford Internet Institutesta esittelivät ajatuksiaan siitä, miten nettiarkistoinnin tulisi tapahtua ollakseen mielekästä yleensä ja tutkijoiden kannalta erityisesti. Oxford Internet Institute tutkii Internetiä yhteiskunnallisena ilmiönä, sen muuttumista ja sen erilaisia rooleja. Continue reading
Nettiä pelastamassa (1): katsauksia nettiarkistointiin maailmalla
IIPC eli International Internet Preservation Consortium on yhteenliittymä, joka edistää Internetin sisältöjen tateen keräämistä ja säilyttämistä. Jäseninä on paljon kansalliskirjastoja – Suomen muiden muassa – mutta myös muita organisaatioita, joiden joukossa kenites merkittävin on the Internet Archive.
IIPC:n vuosikokous eli General Assembly järjestetään tänä vuonna Haagissa, Alankomaiden kuninkaallisessa kirjastossa.
Kokouksen ensimmäinen päivä koostui ennen kaikkea esimerkeistä erilaisista verkkoarkistoista, niiden sisällöistä ja keruutavoista. Tässä joitakin merkintöjä: Continue reading