Ocr

Valtiotieteellisen tiedekunnan tekstintunnistus -verkkopalvelu

Huom. Palvelu käytössä vain yliopiston verkossa, ja vain valtiotieteellisen tiedekunnan käyttäjille

Valmiiden töiden haku


Anna sana jonka annoit kopiokoneella sähköpostin otsikoksi (toivottavasti ei kovin salainen –
järjestelmä on turvaton eikä tässä tule käyttää “oikeita” salasanoja)




Töiden jättö tiedostona

Käytä tätä jos sinulla on koneellasi esimerkiksi omalla skannerilla tuotettuja, tai verkosta löytyneitä kuvatiedostoja jotka haluat muuttaa tekstiksi. Järjestelmä ymmärtää ainakin tiff-, pdf-kuva- ja jpg-muotoisia tiedostoja.


Anna “salasana” työllesi (toivottavasti ei kovin salainen –
järjestelmä on turvaton eikä tässä tule käyttää “oikeita” salasanoja)

Salasana
Tiedosto

Huom.
Tiedoston nimessä ei saa olla ääkkösiä tai välilyöntejä tms. erikoismerkkejä

Älä hätäile. Ohjelmassa on vika josta seuraa että tiedoston haku ei onnistu jos sitä yrittää liian pian.
Silloin haku ei onnistu seuraavallakaan yrittämällä vaan selaimet näyttävät hämääntyvän tuosta. (vika korjataan vielä,
toistaiseksi pikakorjauksena siis parin minuutin odottelu ennen hakua)


Töiden lähettäminen sähköpostitse

Voit lähettää kuvatiedostoja sähkäöpostin liitetiedostoina osoitteeseen
ocr@sahara.it.helsinki.fi. Viestin otsikon ensimmäinen sana toimii hakutunnuksena jolla voit hakea valmiin työn.

Ohjeet

Seitsemässä tiedekunnan kopiokoneessa on nyt sähköpostiskannaus ja
yhteys tiedekunnan ocr-palvelimeen. (u37 alakerran värikopiokone,
kanslian värikone, vol värikone, kmi, comm ja kfil, sekä kirjaston
pohjakerroksen läntinen kopiokone).

Systeemin tarkoitus on saada kopiokoneelta teksti teksturiin
muokattavaksi, esim. tutkija voi ottaa lähteitään etsittäväksi
leikkaa-liimattavaksi omiin juttuihin.Skannaus on ilmaista (tai
tiedekunta maksaa palvelusta kuukausimaksua yliopistopainolle,
kopioiden määrä ei siihen vaikuta), kopiokorttia ei tarvitse höylätä.

Toivoisin kommentteja näistä ohjeista osoitteeseen timo piste harmo miuku helsinki piste fi
niin parannetaan ohjeita, ja tarvittaessa
osataan virittää koneiden asetuksia.

Värikoneet (7000-mallit)

U37 alakerran käytävä, valtio-oppi ja tiedekunnan kanslia

  • Valitaan kaikista toiminnoista sähköposti.
  • Valitaan vastaanottaja, osoitekirjasta yleinen osoitekirja, sieltä
    ocr (voidaan myös kirjoittaa koko
    osoite: ocr@sahara.it.helsinki.fi). Painetaan Lisää , sitten valmis
  • Muokataan viestin aihetta eli otsikkoa. Yksi sana ilman
    erikoismerkkejä, joka toimii jonkinlaisena salasanana. Se painetaan
    mieleen.
  • Muut asetukset (kaksipuolisuus, paperin koko jne) ovat aika
    siististi näkyvillä jos niihin täytyy puuttua (pitäisi mennä aika
    hyvin ilman muutoksiakin. Paperin kooksi kannattaa valita A3 jos
    joutuu jotain valitsemaan)
  • Laitetaan kopiotava koneeseen (syöttölaite tai kopiointitaso –
    kopiointasoa käyettäessä kantta ei kannata sulkea).
    Painetaan kopiontinappulaa

Mustavalkokoneet (5000-mallit)

U35 kirjasto graduhuone, Kehitysmaatutkimus, käytännöllinen filosofia, viestintä

  • Toiminnot -> sähköposti
  • etsistään osoitteistosta ocr. Luultavasti pitää valita ensin
    painaa “vaihda osoitekirjaa” (niitä on kaksi, toisessa osoitetta ei
    vielä ole). Tai kirjoitetaan koko osoite
    ocr@sahara.it.helsinki.fi
  • Vaihdetaan viestin otsikko / aihe yhdeksi (sala)sanaksi joka
    painetaan mieleen
  • Laitetaan kopiotava koneeseen (syöttölaite tai kopiointitaso)
    Painetaan kopiointinäppäintä.
  • Jos kone urputtaa esim. paperikoosta, katsotaan löytyikö
    “asetukset” näppäinten takaa apuja.

Omien töiden jättäminen

Järjestelmä ymmärtää ainakin tiff-, pdf- ja jpg-muotoisia tiedostoja. Näistä jpg lienee yleensä huono. Pdf:en osalta lue alta niitöä koskeva huomautus.

Kuvien olisi hyvä olla vähintään 300 dpi tarkkuudeltaan. Hyvälaatuisella digikameralla otettuja kuvia kirjan sivuista voi yrittää tunnistaa. Kameran tulisi olla takkuudeltaa 5 megapikseliä tai enemmän, tarvitaan jalusta tai hyvin vakaa käsi, salamavalo voi parantaa tulosta, mutta yleensä sen tulisi olla vähätehoinen (joissain kameroissa teho on valittavissa

Valmiiden töiden hakeminen

Kun työ on kopioitu, mennään omalle koneelle (ei kannata juosta, työn
käsittely kestää yleensä joitain minuutteja, kokonaisen kirjan
käsittely varmaan kymmeniä minuutteja)

Krjoitetaan selaimen osoiteriville www.valt.helsinki.fi/ocr
Kirjoitaan kopiokoneelle annettu viestin otsikko ,”aihe”,
tekstikenttään ja painetaan submit.

Jos työ on valmis, listaan pitäisi tulla useampia versioita: RTF on
teksturiin siirtyvä versio, Tiff (taitaa vielä olla otsikolla
“unknown”) on kuva, Pdf on kuvan ja tekstin yhdistelmä (näyttää
kuvan tekstistä, mutta copypastella sieltä saa tekstiä ulos, ja haku
toimii kuten tekstissä). Jos lista on tyhjä, odotellaan ja koitetaan
parin minuutin päästä uudestaan reloadilla.

PDF-tiedostot

Pdf-tiedostoja on erityyppisiä. Yleisimmin pdf on tekstiä, sitä ei ole mieltä syöttää tunnistukseen. Pdf voi olla myös kuva (tunnistaa siitä että hiirellä maalattaessa valikoituu suorakaiteita, ei tekstin rivityksen mukaisia alueita). Ns. searchable pdf sisältää saman tekstin sekä kuvana että tekstinä. Ruudulla näkyy kuva, mutta alla olevaa tekstiä voi maalata, kopioda ja liimata muihin ohjelmiin. Searchable pdf:ää voinee (ei ole kokeiltu) syöttää ocr-palveluun (tarpeen vain mikäli kuvan alla oleva tekstiversio on hyvin huono ja halutaan kokeilla onnistusiko abbyy-palvelin tunnistamisessa paremmin).

Tulostiedostona seachable pdf voi olla hyödyllinen jos tekstiä ei ehditä oikolukea ja sen suuri koko ei haittaa (esim. zotero-tietokantaan ei kannata noin isoja tiedostoja liittää, ja verkossa imuroitavinakin voivat olla ikäviä)

Tuloslistaukssa
on aina mukana vähintään yksi pdf-tiedosto, searchable -muotoinen. Jos lähdetiedostokin oli pdf:ää, niin pdf:iä on kaksi, niistä pitää vain kokeilla kumpi on lähdetiedosto, kumpi tunnistettu seachable-muotoinen.

Tekijänoikeuskysymyksistä

Tänne tulee ohjeita myöhemmin, ja koitamme tarkastutttaa tekstin lakimiehillä.
Toistaiseksi muistutamme vain että tekijänoikeuskysymyksiä pitää kopionnissa miettiä, varsinkin jos aiotte antaa tiedostoja muille.

Luonnosta: Tutkimuskäyttöön saa tehdä digitaalisia kopioita myös tekijänoikeuksiltaan suojatuista teksteistä. Niitä saa levittää esim. läheisille kolleegoille (tämä oli puhelimitse saatu tulkinta kopioston juristilta. Laissa puhuttaneen perheenjäsenista yms.).(päälleviivaus koska tekstiä ei ole tarkistettu juristille). Opettaja ei saa levittää opiskelijoilleen, ja verkkoon ei tietenkään saa laittaa yleiseen jakeluun.

Palaute

Laittakaa tietoja tunnistukseen liittyvistä ongelmista mieluusti
timo . harmo miuku helsinki . fi, voin ehkä säätää asetuksia kun kuulen ongelmista. Pieniä
virheitä tulee aina, mutta systeemin käyttämä abbyy recognition
serverin pitäisi olla aika hyvä tekstin tunnistaja.

Leave a Reply