Tag Archives: data

27. NORDUnet konferenssi Oslossa 18.-20.9.2012

Høgskolen i Oslo

Konferenssipaikka

Vaikka Tiken matkaraportti on julkaistu Tietosetissä, pistän tähän omimista muistiinpanoista tehdyn laajemman tekstin tänne. Samalla poistin näkyvistä aiemmat sekavat muistiinpanot. Toivottavasti tästä saa vähän paremmin selvää.

Konferenssi oli siis 27. NORDUnetin konferenssi Oslossa 18.-20.9.2012. NORDUnet (http://www.nordu.net) on pohjoismainen tutkimuksen ja koulutuksen infrastruktuuri, joka ylläpitää myös pohjoismaista verkkoa.

Sen jäseninä on 5 pohjoismaista NREN:ä Islannista (RHnet), Norjasta (Uninett), Ruotsista (SUNET), Suomesta (Funet) ja Tanskasta (Forskningsnettet).

Avaussessio

HIOA:n (Høgskolen i Oslo og Akershus) varajohtajan avajaissanat hän itse tiivisti otsikon Strategic Campus Development Summary alle neljällä avainsanalla: Mobility, Collaboration, Flexibility, User Driven.

Roshene McCool puhui aiheesta “The Square Kilometre Array – The world’s largest radio telescope”. SKA (http://www.skatelescope.org/) on radioastronomiaan keskittyvä globaali projekti, ollut käynnissä vuodesta 2006. Tavoitteena on toteuttaa SKA kahdessa vaiheessa vuoteen 2024 mennessä. Observatorioiden sijainnit ovat Australiassa ja Etelä-Afrikassa. Näiden kahden paikan täytyy pelata yhteen myös tietoverkkojen tasolla ja dataa syntyy valtavasti.

Vaiheessa 1 on 250 lautasantennia. Ne sijoittuvat 100 km säteeltään olevan ympyrän alueella. Vaiheessa 2 antenneja on arviolta 3000. Verkko, jolla näitä ohjataan ja dataa kerätään täytyy siis rakentaa aavikolle. Tekeillä oleva teleskooppi ei toimi ilman optisiin kuituihin perustuvaa verkkoa. Laskentamäärät exaflopseja ja tallennettava datamäärä petatavuja.

NORDUnetin CEO René Buch kuvaili tulevia haasteita vuoteen 2020 lähinnä NRENien näkökulmasta. Tällainen NREN (National Research and Education Network) on Suomessa CSC (http://www.csc.fi). Buchin mukaan tutkimus ja opetus ovat muutoksessa ja korkea-asteen opinahjot, varsinkin Euroopassa, aliarvioivat ICT:n vaikutusta koulutukseen. Samaan aikaan opettajat ja opiskelijat kuitenkin adaptoivat uusia tietämyksen jakamisen menetelmiä. Korkeakouluopetus tulee yhä digitaalisemmaksi ja on jatkuvasti enemmän online. Tutkimus on samanlaisessa muutoksessa ja datan määrä kasvaa.

The Data Deluge 1

Sessiossa Bergenin yliopiston professori Koenraad De Smedt kertoi CLARIN-projektista, jossa kielitietelijät pyrkivät puruteumaan sotkuiseen ja vähemmän sturukturoituun dataan. Ja kieleen perustuvaa dataahan joka päivä syntyy valtavia määriä, sillä suuri osa ihmisen kommunikaatiosta perustuu kieleen. EU-rahoitteinen CLARIN-hanke (http://www.clarin.eu/) hallinnoi kielidataa ja palvelee ensisijassa humanistisia tieteitä ja erityisesti kielitieteitä. Suomesta hankkeessa on mukana HY:n nykykielten laitos ja tietotekniikkakeskus osallistuu erääseen pilottiin tukemalla federoitua eduGAIN-autentikointia.

Samassa sessiossa JIVE:n ( http://www.jive.nl/) johtaja Huib van Langevelde jatkoi taivaalle kurkottamista kertomalla millaisia datamääriä radiastronomit saavat aikaiseksi Very Long Baseline Interferometry (VLBI) -tekniikalla. Dataa liikkuu tulevaisuudessa tälläkin alueella enemmän, sillä esim. käytettävät kaistanleveydet ovat kasvussa ja kuvadatan määrä kasvaa kertaluokilla. uusi projekti tällä alueella on jo tekeillä: NEXPReS (http://www.nexpres.eu/). Suomesta näissä kuvioissa on mukana Metsähovin radio-observatorio.

The Data Deluge 2

Tanskan teknillisen yliopiston professori Søren Brunak puhui biologisen datan käsittelyyn liittyvistä työkaluista ja infrastruktuurista ELIXIR-hankkeessa (http://www.elixir-europe.org/). Tietoverkot ja kaistanleveydet eivät ole tavanneet näytellä sen suurempaa roolia biologiassa, mutta tämä on nyt muuttumassa. Bioinformatiikan rooli on kasvamassa ja se on keskeinen osa nykyaikaista biologiaa. Brunak kertoi erääksi haasteeksi sen, että vaikka tietokoneiden nopeus ja tallennuskapasiteetti tuplaantuu 18 kuukaudessa, DNA:n sekvenssidatan määrä tuplaantuu 6-8 kuukaudessa. Näin ollut viimeiset 3 vuotta ja kehitys näyttää jatkuvan ainakin tämän vuosikymmenen. Tällä sektorilla Datan määrä siis kasvaa rajusti lähivuosina, sillä datatyyppejä on runsaasti, datasettejä konvertoidaan yksilöllisiksi tiedoiksi ja tutkijayhteisö on varsin iso. Brunakin mukaan nk. open access on tällä tutkimuksen sektorilla tärkeä periaate.

CSC:n Ari Lukkarinen kertoi suuresta ja paikoin kaoottisesta datasta esitellessään EUDAT-hanketta (http://www.eudat.eu/). Lukkarisen mukaan tutkimusdatan määrä kasvaa voimakkaasti mm. mittaustekniikan parantuessa, prosessorien halvetessa ja analogisen konvertoinnin digitaaliseksi lisääntyessä. Lukkarinen muistutti siitä, että vaikka dataa tuleekin lisää, se menettää herkästi merkityksensä, jos siitä ei huolehdita kunnolla. EUDAT on luotu taklaamaan tätä haastetta,.

Norjalaisen UNINETTin Otto J Wittner kertoi luentojen videointisysteemistä. Luentoja taltioitaessa on syytä’ huomioida useampi tietolähde kerralla eli esimerkiksi salikamera, tietokone, jonkun palvelun tietokanta, luennolla käytetyt videopalvelut tai portaalit ja niin edelleen. Wittnerin mukaan luentojen taltioimisen määrä kasvaa kovaa vauhtia. Hän kertoi, että myös heillä on käytetty avoimen lähdekoodin Matterhorn- ja OpenCast-tuotteita. Jatkossa Norjassa aiotaan kokeilla esimerkiksi speech-to-text -teknologiaa.

Data Sharing Strategies

Hollantilaisen SURFnetin Alf Moenson puhui tietoturvasta hollantilaisissa yliopistoissa. Valtakunnallinen analyysi paljasti, että hollantilaiset yliopistot ovat hyvin vahoja fyysisessa tietoturvassa, mutta hyvin heikkoja toiminnan jatkuvuuden varmistamisessa ja turvallisuustietoisuudessa. Hollannissa on suomalaista CSC:tä vastaavan SURFnetin yhteyteen perustettu SURFAudit, joka on sikäläisen korkeakoulumaailman tietoturvaa ohjaava toiminto.

Ruotsin opetus- ja tutkimusministeriön Eva Stensköld puhui tutkimuksesta, avoimesta datasta ja sen saatavuudesta. Hän viittasi siihen, että periaate, jonka mukaan “julkisilla varoilla tuotetut aineistot pitäisi olla vapaasti saatavilla”, pitäisi olla helppo toteutta, vaan ei näytä olevan. Ongelmia tulee esimerkiksi lehtien julkaisupolitiikasta tai kaupallisten toimijoiden taloudellisista intresseistä. Tutkijayhteisöissä onkin ilmaantunut protestointia julkaisupolitiikkoja kohtaan (http://thecostofknowledge.com/). Tutkimusinstituutiot Ruotsissa ovat allekirjoittaneet Berliinin julistuksen: http://oa.mpg.de/berlin-prozess/berliner-erklarung/.

Stensköld kertoi Ruotsin valtion open access -politiikan uusista hankkeista, missä yhteydessä hän totesi Suomen pärjäävän tällä sektorilla hyvin toisin kuin Ruotsi. Suomessahan julkisia aineistoja on avattu konkreettisesti.

Keskiviikon plenary

Australialainen Geoff Huston puhui varsin elähdyttävästi ja valaisevilla esimerkeillä aiheesta One Protocol Good, Two Protocols ?

Aihe kosketti siis sitä, että olemme käyttäneet internetiä pitkään yhdellä protokollalla. Nyt se on muuttumassa, koska IPv4-numerot ovat loppumassa ja olemme ottamassa IPv6:sta käyttöön. Vaikka siirtymä uuteen versioon on ajankohtainen, maailma toimii kuitenkin vielä IPv6:lla.

On jo pitkään tiedetty, että näin käy. Nyt se on toteutumassa ja on aika siirtyä IPv6:een. Maailma kuitenkin toimii vielä IPv4:llä. Huston pohti esimerkein sitä mitä TCP-klientti tekee kahden pinon ympäristössä? Ja onko se hyvä asia.

Tavallisessa TCP-maailmassa vaihdetaan SYN/ACK-paketteja. Jos kaikki ei menekään kuten on ajateltu ja vastausta ei tulekaan, TCP yrttää lähettää uudelleen ja uudelleen. Esim. Windows yrittää 3 kertaa ja 19 sekuntia. FreeBSD 11 SYN-pakettia ja 75 sekuntia ennen kuin luovuttaa. Linux 189 sekuntia ja 6 SYN-pakettia. Aikaa siis kuluu siihen, että viestejä lähetellään yhä uudestaan ja uudestaan.

Miksi järjestelmät ovat hitaita reagoimaan virheisiin? Vanhaa tekniikkaa? Ei oikein muutakaan mahdollisuutta. Entäpä, jos olisikin Plan B? Kahden pinon TCP?

Voidaan suosia IPv6:n käyttöä (preferences) ja saada parempaa liikennettä. Se ei välttämättä aina onnistu. Voi aina palata takaisin IPv4:ään, mutta jälleen menee minuutteja ennen kuin systeemi pystyy tekemään päätöksiä.

Tunnelointi on Hustonin mukaan huonoin asia, minkä voi tehdä. Kyse tunneloinnissa on siis siitä, että käytetään IPv6:sta IPv4:n yli. Tilanne ei muutu sen kummemmaksi eli aikaa kuluu virheiden selvittelemisessä. Hustonin mukaan tarvitsemme parempia virheitä – We need better failures! Hän ihmetteli sitä, että pikosekuntien ja terabittien tietoverkkojen maailmassa me toteutamme strategiaa, joka käytännössä toimii minuuteissa.

Jos valitaan rinnakkainen strategia eli käytetää sekä IPv4:ää että IPv6 – eli multi-addressingia – asiat saattavat mennä vain pahemmaksi, kun jokaista osoitetta varten joudutaan odottelemaan kymmeniä sekunteja.

Hustonin esittelemien testien perusteella parhaat tulokset saadaan, kun käytetään IPv6:sta unicastina.

Lyhyesti sanottuna, jos käyttää natiivia IPv6:sta, se on yhtä nopea kuin IPv4. Jos tunneloi tms. tilanne voi mennä huonommaksi. Onko IPv6 sitten yhtä robusti kuin IPv4? Hustonin mukaan ei. Noin 2 % IPv6 yhteysyrityksistä kokee virheitä.

Session toinen puhuja, ICANN’s Root Server Systems Advisory Committeen jäsen ja vanhempi järjestelmäasiantuntija Lars-Johan Liman puhui siitä mitä “infrastruktuuri” tarkoittaa. Hänen pointtinsa oli se, että internetin merkitys infrastruktuurina ei ole itsestään selvä ja jotkut kenties hyötyisivät siitä, että asia ei olisi niin. Jos internet ajateltaisiinkin palveluna eikä infrastruktuurina, se vaikuttaisi kontrolliin eli siihen kuka saa päättää mistäkin. Hänen mukaansa internet toimii innovatiivisena yhteistyön alustana niin kauan kuin ihmiset voivat käyttää sitä kuten infrastruktuuria eli esimerkiksi nojaten sen avoimuuteen.

Campus Issues 1

Norjalaisen UNINETTin CTO Ingrid Melve kertoi videoiden käytöstä osana eCampus-konseptia. Pointtina on se, että videoiden määrä internetliikenteestä on kasvanut muuta liikennettä voimakkaammin ja kasvaa edelleen. Tätä tukee myös Ciscon arviot asiasta. Esityksen perusteella videopalvelut ovat yksi keskeinen osa kokonaisuutta, jossa oppimista voidaan tehdä useampaa aistia hyödyntäen ja 24/7-tyylillä. Opiskelijat kun käyttävät palveluita hyvinkin erilaisina kellonaikoina.

Melven kanssa samassa sessiossa puhui UNINETTin Jan Meijer erilaisista kommunikaatioteknologioista kuten Adobe Connectista, Lyncistä, SIP:stä, H323:sta jne. Hänen viestinsä erilaisista välineistä oli se, että niillä ei ole väliä niin kauan kuin ne työkalut ovat olemassa. Ihmiset myös muuttavat tapaansa tehdä töitä työvälineiden mukaan. Toisaalta hänen mukaansa ei ole olemassa yksittäistä sovellusta, joka ratkaisisi kaiken. Ei ainakaan vielä, ehkä muutaman vuoden päästä. Joka tapauksessa tulevaisuus näyttää olevan näiltä osin jossain määin hämärän peitossa. Yksi mielenkiintoinen avoimen koodin projekti on WebRTC: http://www.webrtc.org/

Identity

Brittiläisen Janetin Josh Howlett puhui luottamusverkostoista sekä siitä mitä niiden rakentamisessa on hyvä huomioida. Luotetun tiedon ja ehdotuksen välillä on epäuskon kuilu, joka pitäisi ylittää ja se on aina jollain tavalla riski. Orgasnisaatiot haluavat vähentää teknologioita, mutta samaan aikaan pitäisi tukea laajaa joukkoa erilaisia politiikkavaatimuksia. Yksi koko sopii kaikille -ratkaisua ei tähän ole. Samaa pulmaa ilmentää se, että organisaatiot ovat edelleen hierarkisia, mutta tämä hierarkia on tulossa käyttäjille yhä yhdentekevämmäksi. Tätä haastetta Janet on ratkaisemalla rakentamalla Moonshotin: https://community.ja.net/groups/moonshot. Sen pitäisi olla ensi vuoden alusta julkisessa beta-vaiheessa.

Session toinen puhuja oli SURFnetin Maarten Kremers ja hän puhui VOOT:n käytöstä tutkijoiden virtuaalisten organisaatioiden tukena. VOOT (Virtual Organization Orthogonal Technology, http://openvoot.org/voot-2.0.html) on keskitetty palvelu, jossa käyttäjiä voidaan liittää ryhmiin ja ottaa heidät sieltä pois. Näin vältetään se, että kun käyttäjiä menee ja tulee, niin heidät pitäisi poistaa jokaisesta ryhmätyövälineestä erikseen. VOOT-ryhmät ovat riippumattomia identiteettifederaatioista ja voidaan siten ottaa käyttöön organisaatiorajojen ylitse.

Session päätteeksi Uumajan yliopiston IT-arkkitehti Roland Hedberg ja UNINETTin tutkija Andreas Åkre Solberg puhuivat OpenID Connectista, joka on OpenID:n uusi versio. Tässä versiossa rakennetaan autentikointi ja sessionhallinta OAuth 2.0:n päälle ja tästä voi olla merkittävää hyötyä tulevaisuudessa federoitujen palveluiden toteuttamiselle. Hedberg on yhdessä Solbergin kanssa totettaneet automatisoiden testaus- ja verifiointi-infrastruktuurin OpenID Connect-toteutusten laadun selvittämiseksi: https://fed-lab.org/

Lightning Talkeista voi lisäksi nostaa esiin parit linkkivinkit:

Green IT

KAIST:n, Tsinghuan ja Keion yliopistojen professori Kilnam Chon totesi, että internetin käyttäjämäärät kasvavat kovaa vauhtia ja vuonna 2020 rikotaan 5 miljardin raja. Hänen mukaansa keskeinen kysymys on se, kuinka uudet ja nykyiset käyttäjät saavat verkon käyttöönsä ekologisesti kestävällä tavalla ja tavalla, jolla suojellaan ja rikastetaan paikallisia kulttuureja. Hänen pointtinsa on siinä miten internetin käyttäjien toimintamallit saadaan toimimaan enemmänkin kesätävällä tavalla ja miten ilmastonmuutos todellisuudesssa huomioidaan. Paikallinen kulttuuri on olennaista ja se voi tosiaankin vaatia sitä, että luovutaan liiketoimintavetoisesta kehittämisestä koska internet on keskeinen sosiaalinen infrastruktuuri. Jos tähän edelliseen ei usko niitä, niin Chon totesi myös datan, koulutuksen ja tutkimuksen avoimuuden olevan tärkeitä ekologisen internetin osia, jotka muutoksen saavat liikkeelle.

Session toisessa esityksessä irlantilaisen HEAnetin projektipäällikkö Andrew Mackarel kertoi GÉANTin parhaista käytännöistä vihreän IT:n saralla. GÉANT on julkaissut aiheesta julkaisun “DN 3.5.3 Study of Environmental Impact” (http://www.geant.net/Media_Centre/Media_Library/Pages/Deliverables.aspx). Mackarel korosti sitä, että pitää asettaa tavoitteita ja tarvitaan evaluaatioita ja auditointeja jotta asiat etenevät. IT:n vihreydessä on tyypillisesti kysymys energian käytön tehokkuudesta ja sille on olemassa mittarinsa eli PUE (Power Usage Effectiveness). Käytännön toimissa ei sinänsä ollut mitään uutta, palvelinten määrää on syytä vähentää virtualisoimalla ja yksittäisten palvelinten käyttöastetta nostamalla, lisäämällä videokonferenssien käyttöä, huomioimalla ympäristötekijät julkisissa hankinnoissa jne. Mackarel kehotti myös harkitsemaan NaaSia eli network as a service-konseptia tällainen on esimerkiksi OpenNaaS (http://www.opennaas.org)

Päätössessio

Yhdysvaltalaisen ESnetin Gregory Bell puhui aiheesta Network as Instrument: the View from Berkeley.

Energy Science Network – ESnet – pyörittää maailman suurina kokoelmaa tieteellisiä tutkimusyksiköitä (32 kappaletta). Sen piiriin kuuluu supertietokoneita, kiihdyttuimiä, röntgen- ja neutronilähteitä, elektronimikroskooppeja, sekvenssereitä ja niin edelleen. Organisaation piiristä on tullut yli 100 nobelia.

Berkeleyn tutkimuskulttuurin ominaispiirteisiin kuuluvat isot tiimit, isot kysymykset ja globaali vaikutus.

Tietoiikenteen kasvu on ollut käytännössä ekspotentiaalista (kts. slaidi nro 11 Unrelenting Growth in Traffic for >20 Years, sladit läytyvät myös em. linkin takaa: http://goo.gl/FlK35).

Hänen mukaansa menneessä ajattelutavassa on ajateltu tietoverkko infrastruktuurina ja tulevaisuudessa se pitää nähdä instrumenttina. Kuten Roshene McCool aiemmin totesi “tietoverkot ovat teleskoopin sydämessä”.

Bell totesi, että kun puhutaan globaaleista tutkimus- ja koulutusverkoista kaupalliset toimijat eivät aina halua tai pysty toimittamaan tarvittavia yhteyksiä. Toisaalta kyse on määrästä ja toisaalta laadusta.

Hänen mukaansa tämän pitäisi olle tietoliikenteen kultakautta, jos pystymme tekemään instrumentin laajemmin hyödylliseksi.

Voivatko kaikki tutkimusyhteisöt käyttää globaalia instrumenttia tehokkaasti hyväksi? Eipä aina. Bell kuvaili esimerkkiä ilmastotutkimukseen liittyneestä ehdotuksesta, jossa haluttiin tehdä 400 miljoonaa CPU-tuntia laskentaa. CPU ei ole tässä ongelma, mutta siirtäminen tuli pullonkaulaksi.

 

Lopuksi

Konferensissa 220 osallistujaa, 33 maasta. 27 maasta katsottiin videoita. Konferenssin aikaan yli 600 eri laitetta kiinni verkossa. 35 % näistä käytti IPv6-osoitteita.

Seuraava NORDUnetin konferenssi järjestetään vuonna syyskuun lopussa 2014 Ruotsissa.