Valtiotieteellisen tiedekunnan tekstintunnistus -verkkopalvelu
Huom. Palvelu käytössä vain yliopiston verkossa, ja vain valtiotieteellisen tiedekunnan käyttäjille
Valmiiden töiden haku
Töiden jättö tiedostona
Töiden lähettäminen sähköpostitse
ocr@sahara.it.helsinki.fi. Viestin otsikon ensimmäinen sana toimii hakutunnuksena jolla voit hakea valmiin työn.
Ohjeet
Seitsemässä tiedekunnan kopiokoneessa on nyt sähköpostiskannaus ja
yhteys tiedekunnan ocr-palvelimeen. (u37 alakerran värikopiokone,
kanslian värikone, vol värikone, kmi, comm ja kfil, sekä kirjaston
pohjakerroksen läntinen kopiokone).
Systeemin tarkoitus on saada kopiokoneelta teksti teksturiin
muokattavaksi, esim. tutkija voi ottaa lähteitään etsittäväksi
leikkaa-liimattavaksi omiin juttuihin.Skannaus on ilmaista (tai
tiedekunta maksaa palvelusta kuukausimaksua yliopistopainolle,
kopioiden määrä ei siihen vaikuta), kopiokorttia ei tarvitse höylätä.
Toivoisin kommentteja näistä ohjeista osoitteeseen timo piste harmo miuku helsinki piste fi
niin parannetaan ohjeita, ja tarvittaessa
osataan virittää koneiden asetuksia.
Värikoneet (7000-mallit)
U37 alakerran käytävä, valtio-oppi ja tiedekunnan kanslia
- Valitaan kaikista toiminnoista sähköposti.
- Valitaan vastaanottaja, osoitekirjasta yleinen osoitekirja, sieltä
ocr (voidaan myös kirjoittaa koko
osoite: ocr@sahara.it.helsinki.fi). Painetaan Lisää , sitten valmis - Muokataan viestin aihetta eli otsikkoa. Yksi sana ilman
erikoismerkkejä, joka toimii jonkinlaisena salasanana. Se painetaan
mieleen. - Muut asetukset (kaksipuolisuus, paperin koko jne) ovat aika
siististi näkyvillä jos niihin täytyy puuttua (pitäisi mennä aika
hyvin ilman muutoksiakin. Paperin kooksi kannattaa valita A3 jos
joutuu jotain valitsemaan) - Laitetaan kopiotava koneeseen (syöttölaite tai kopiointitaso –
kopiointasoa käyettäessä kantta ei kannata sulkea).
Painetaan kopiontinappulaa
Mustavalkokoneet (5000-mallit)
U35 kirjasto graduhuone, Kehitysmaatutkimus, käytännöllinen filosofia, viestintä
- Toiminnot -> sähköposti
- etsistään osoitteistosta ocr. Luultavasti pitää valita ensin
painaa “vaihda osoitekirjaa” (niitä on kaksi, toisessa osoitetta ei
vielä ole). Tai kirjoitetaan koko osoite
ocr@sahara.it.helsinki.fi - Vaihdetaan viestin otsikko / aihe yhdeksi (sala)sanaksi joka
painetaan mieleen - Laitetaan kopiotava koneeseen (syöttölaite tai kopiointitaso)
Painetaan kopiointinäppäintä. - Jos kone urputtaa esim. paperikoosta, katsotaan löytyikö
“asetukset” näppäinten takaa apuja.
Omien töiden jättäminen
Järjestelmä ymmärtää ainakin tiff-, pdf- ja jpg-muotoisia tiedostoja. Näistä jpg lienee yleensä huono. Pdf:en osalta lue alta niitöä koskeva huomautus.
Kuvien olisi hyvä olla vähintään 300 dpi tarkkuudeltaan. Hyvälaatuisella digikameralla otettuja kuvia kirjan sivuista voi yrittää tunnistaa. Kameran tulisi olla takkuudeltaa 5 megapikseliä tai enemmän, tarvitaan jalusta tai hyvin vakaa käsi, salamavalo voi parantaa tulosta, mutta yleensä sen tulisi olla vähätehoinen (joissain kameroissa teho on valittavissa
Valmiiden töiden hakeminen
Kun työ on kopioitu, mennään omalle koneelle (ei kannata juosta, työn
käsittely kestää yleensä joitain minuutteja, kokonaisen kirjan
käsittely varmaan kymmeniä minuutteja)
Krjoitetaan selaimen osoiteriville www.valt.helsinki.fi/ocr
Kirjoitaan kopiokoneelle annettu viestin otsikko ,”aihe”,
tekstikenttään ja painetaan submit.
Jos työ on valmis, listaan pitäisi tulla useampia versioita: RTF on
teksturiin siirtyvä versio, Tiff (taitaa vielä olla otsikolla
“unknown”) on kuva, Pdf on kuvan ja tekstin yhdistelmä (näyttää
kuvan tekstistä, mutta copypastella sieltä saa tekstiä ulos, ja haku
toimii kuten tekstissä). Jos lista on tyhjä, odotellaan ja koitetaan
parin minuutin päästä uudestaan reloadilla.
PDF-tiedostot
Pdf-tiedostoja on erityyppisiä. Yleisimmin pdf on tekstiä, sitä ei ole mieltä syöttää tunnistukseen. Pdf voi olla myös kuva (tunnistaa siitä että hiirellä maalattaessa valikoituu suorakaiteita, ei tekstin rivityksen mukaisia alueita). Ns. searchable pdf sisältää saman tekstin sekä kuvana että tekstinä. Ruudulla näkyy kuva, mutta alla olevaa tekstiä voi maalata, kopioda ja liimata muihin ohjelmiin. Searchable pdf:ää voinee (ei ole kokeiltu) syöttää ocr-palveluun (tarpeen vain mikäli kuvan alla oleva tekstiversio on hyvin huono ja halutaan kokeilla onnistusiko abbyy-palvelin tunnistamisessa paremmin).
Tulostiedostona seachable pdf voi olla hyödyllinen jos tekstiä ei ehditä oikolukea ja sen suuri koko ei haittaa (esim. zotero-tietokantaan ei kannata noin isoja tiedostoja liittää, ja verkossa imuroitavinakin voivat olla ikäviä)
Tuloslistaukssa
on aina mukana vähintään yksi pdf-tiedosto, searchable -muotoinen. Jos lähdetiedostokin oli pdf:ää, niin pdf:iä on kaksi, niistä pitää vain kokeilla kumpi on lähdetiedosto, kumpi tunnistettu seachable-muotoinen.
Tekijänoikeuskysymyksistä
Tänne tulee ohjeita myöhemmin, ja koitamme tarkastutttaa tekstin lakimiehillä.
Toistaiseksi muistutamme vain että tekijänoikeuskysymyksiä pitää kopionnissa miettiä, varsinkin jos aiotte antaa tiedostoja muille.
Luonnosta: Tutkimuskäyttöön saa tehdä digitaalisia kopioita myös tekijänoikeuksiltaan suojatuista teksteistä. Niitä saa levittää esim. läheisille kolleegoille (tämä oli puhelimitse saatu tulkinta kopioston juristilta. Laissa puhuttaneen perheenjäsenista yms.).(päälleviivaus koska tekstiä ei ole tarkistettu juristille). Opettaja ei saa levittää opiskelijoilleen, ja verkkoon ei tietenkään saa laittaa yleiseen jakeluun.
Palaute
Laittakaa tietoja tunnistukseen liittyvistä ongelmista mieluusti
timo . harmo miuku helsinki . fi, voin ehkä säätää asetuksia kun kuulen ongelmista. Pieniä
virheitä tulee aina, mutta systeemin käyttämä abbyy recognition
serverin pitäisi olla aika hyvä tekstin tunnistaja.