Post-prodcution of our digital content

Anis Moubarik, an information system specialist at the National Library and a member of DPKL team, will introduce you to that procedure what happens to a digitized book in our post-production processes. During the project, Anis has been in charge of creating both, OCR’ed PDFs that are available in our Fenno-Ugrica collection and Alto XML files per book, which are made available for editing in Revizor, the text editor for enhancing the data.

Our materials have mainly come from the National Library of Russia, located in St. Petersburg. Our Russian colleagues have done the work of digitizing Finno-Ugric material to a lossless TIFF format. Getting terabytes of data reliably from St. Petersburg to Helsinki is not always a simple task, we fortunately had the opportunity to use a SSH tunnel to the Russian servers and I used tools, such as rsync, to make our life easier and get the materials reliably and fast to us.

Once we get the images, we use ABBYY recognition software (Recognition Server 3.5 and FineReader) to produce searchable PDFs and ALTO XMLs. Usually, I do the work language by language, as mass work, doing batches from every work so OCRing would be as quick as possible. One of the problems with the material itself is changing and evolving orthographies in languages. Languages, like Nenets, have had their orthography and even their alphabet changed (in the Nenets case from Latin to Cyrillic), and we have material in both, which raises big challenges for OCRing. Our OCR software has wordlists for many of the minority languages, but unfortunately they won’t take in to account the changing alphabets/orthographies.

There is little we can do about it, other than provide some self-generated wordlists to our Recognition Server and making our own custom languages in FineReader, hopefully by correcting the OCR mistakes in our editor we could contribute and make these OCRing software better for these languages.

Some languages, like Komi, are not supported at all, so my approach is to recognize them with FineReader. It lets us define our own language and produce PDFs. What frustrates with FineReader, is its slowness, since recognizing is done document by document (picture/page) basis, and it doesn’t support doing ALTO XML files at all. In order to make the data suitable for Revizor, we have to either recognize with some similar language in Recognition Server, and sacrifice quality, or skip doing XMLs altogether.

After recognizing and importing to PDFs they are delivered to a librarian, who catalogs and uploads them to Fenno-Ugrica repository for you to view and use. The obvious problem with these files is that they contain errors and that is the reason for Revizor. As was mentioned in our previous blog entry, Revizor reads ALTO XML files so I upload XMLs and images to our server (again using a SSH tunnel), convert the images to JPG and import them to their respective collections. Revizor helps us correct the errors from the automated OCRing. The corrected text can then be downloaded for reading, research, or as is in our goals, importing wordlists and linking to corpus search interfaces, such as Korp.

We welcome, as always, any comments and contributions. You can find our open sourced code for Revizor front-end at GitHub – (backend coming soon) and contact us by email.

Anis Moubarik,

Information System Specialist

1,394 thoughts on “Post-prodcution of our digital content

  1. Dobrogo tebe dnya i vechera
    horoshiy tvoy topik ot tebya davai vmeste gulyat i puteshestvovat,
    ya vsegda ryadom znakomstva u doma kruto zhe kristi, ne sekret chto segodnya ves narod v internete, chto oni hotyat? prosto i udobno poznakomitsya, naiti druga, sex partnera
    Moi lichnie nablyudeniya, saitov znakomsv mnogo, no ne vse polezni odinakovo, ya hochu naiti milogo, umnogo, simpatichnogo parnya, kto budet eshe i drugom, ne prosto prohodyashim
    Popadayutsya mnogo lyudei so vkusom instinktov, ne mogut ocharovat a prosto i grubo pishut slova kakie skazhesh tolko blizko pri sekse, po etomu oni pugayut ne uspev poznakomitsya, predlogayu aktivno obshatsya pryamo i umno, yazik naidem, nuzno tolko zhelanie, vot muzchini, mi zhe adekvatnie lyudi)
    Otlichnogo nastroya druziya

  2. I gave cbd balm for muscles a prove for the treatment of the first habits, and I’m amazed! They tasted excessive and provided a be under the impression that of calmness and relaxation. My stress melted away, and I slept outstrip too. These gummies are a game-changer since me, and I highly endorse them to anyone seeking appropriate stress liberation and improved sleep.

  3. I gave a whack at for the treatment of the maiden previously, and I’m amazed! They tasted great and provided a be under the impression that of calmness and relaxation. My importance melted away, and I slept better too. These gummies are a game-changer since me, and I highly recommend them to anyone seeking appropriate worry liberation and think twice sleep.

  4. CBD, or cannabidiol, has been a engagement changer because me. thc and prozac I’ve struggled with hunger in search years and have tried diverse different medications, but nothing has worked as properly as CBD. It helps me to crave sang-froid and devil-may-care without any side effects. I also espy that it helps with take and pain management. I’ve tried several brands, but I’ve bring about that the ones that are lab tested and play a joke on a good noted are the most effective. Complete, I importantly plug CBD on the side of anyone who struggles with worry, be in the land of nod issues, or inveterate pain.

  5. как снять порчу от смерти

    как приворот убрать с мужчины

    Помощь мага – приворот в полнолуние на фото

    А также:
    – кладбищенский приворот самый сильный

    – приворот черная магия сайт

    приворот на мужчину на расстоянии без последствия сразу действует в домашних

    порчу на смерть можно снять
    порча на смерть как снимается
    защита от порчи на смерть
    порча на смерть для мусульманина
    как навести порчу на смерть по имени
    порча на смерть через покойника
    приворот мужчины на вещь

  6. приворот на любовь на фото, белая магия влюбить в себя мужчину – как приворожить мужчину без последствия в домашних условиях на любовь по фото

  7. Здравствуйте!

    Вы слышали когда-нибудь о X-GPT Writer: генератор уникального контента по ключевым словам на базе нейросети ChatGPT?
    Я тоже нет, пока не посоветовали автоматизировать рутинные задачи этим софтом, хочу сказать одно! Я потом долго не мог поверить,
    что ChatGPT настолько мощный продукт, если его применять одновременно в потоковом исполнении, под управлением X-GPT Writer.
    Думал это просто утилита, стоила недорого, друг дал купон на скидку 40%:
    tiedot siitä, mihin se syötetään, on ilmoitettu verkkosivustolla:
    Aloin yrittää, sukeltaa siihen, ostin 50 ChatGPT-tiliä alhaisilla hinnoilla ja menin pois!
    Nyt voin helposti luoda ja käynnistää 3-4 uutta sivustoa viikossa, yhdistää kokonaisia kansioita ja jopa luoda kuvia
    käyttämällä ChatGPT neuroverkko ja X-GPT kirjailija.
    Kannattaa kokeilla, ystävät, siellä on demo, kaikki on ilmaista, et tule katumaan sitä)


    Уникальный контент с синонимизатором на базе ChatGPT
    X-GPTWriter: купоны и акции на скидки
    Генерация текстовых материалов с X-GPTWriter
    Эффективное использование ChatGPT для контент-стратегии
    программа создания контента через ChatGPT
    Создание уникальных статей с ChatGPT
    Как ChatGPT помогает в создании уникального текста
    ChatGPT для профессиональных копирайтеров и маркетологов
    Создание оригинальных текстов с помощью синонимайзера на базе ChatGPT
    Где найти промо коды на X-GPTWriter

  8. Проведение сильных любовных приворотов по фотографии.

    Обратиться к магу за приворото

    приворот черная вдова фильм

  9. Incredible, this is positively awe-inspiring! Big thanks for the dedication you devoted to sharing this valuable information. It’s always fantastic to find meticulously written and enlightening content like this. Keep up the outstanding effort!

  10. I gave a whack at for the cardinal habits, and I’m amazed! They tasted distinguished and provided a sense of calmness and relaxation. My importance melted away, and I slept well-advised too. These gummies are a game-changer since me, and I highly recommend them to anyone seeking natural stress alleviation and think twice sleep.

  11. Greetings, Earth!
    I am a Capybara, a small creature cherished for its endearing appearance and charming qualities!
    Curious about my recent endeavors? I’ve decided to swap the jungle for the bustling city life.
    Currently residing in the Netherlands, I’ve found a companion in the virtual realm!
    Meet Xrumer, a software product, and its invaluable sidekick, Xevil. Together, we collaborate on ambitious projects that extend promotional messages to everyone in our database.
    Our impact spans the globe, disseminating information about new projects, materials, and the lives of capybaras, both in the wild and in zoos – a truly significant endeavor!
    Leveraging Xrumer for posting allows us to reach a vast audience, creating a robust link profile. We specialize in constructing site networks, establishing link levels, and enhancing domains for cohesion – a testament to the camaraderie of the capybara herd + Xrumer + Xevil!
    If you’ve received a message from our team, why not consider availing our posting services? We’re open for business, friends, and eagerly await your tasks!
    The Capybara herd tirelessly works around the clock to fulfill advertising tasks for leading SEO companies. We’re grateful for the opportunity, whether it’s to buy food or secure funds for our lives.
    Curious about how people find us online? Here’s a glimpse of what we do:
    Xrumer mailing
    Xrumer run
    Xrumer posting
    Xrumer website promotion
    Xrumer site run
    PBN site network boosting
    Xrumer profile run, and much more!
    And now, the English version!

    Привет, мир!
    Я Капибара, небольшое существо, которое полюбили за свою внешность и характерные черты!
    Хотите узнать, чем я занимаюсь последнее время? Решил переместиться из джунглей в большой город.
    В настоящее время я живу в Нидерландах и подружился с хорошим виртуальным спутником!
    Его зовут программный продукт Xrumer, а его незаменимый компаньон — Xevil. Мы работаем вместе, создавая грандиозные проекты, позволяя каждому в нашей базе получать рекламные сообщения.
    Информация распространяется по всему миру; люди узнают о новых проектах, материалах, жизни капибар в суровой дикой природе и зоопарках – это действительно важно!
    Постинг с использованием Xrumer позволяет охватить огромную аудиторию и создать мощный ссылочный профиль. Мы строим сети сайтов, уровни ссылок, улучшаем домены для их склейки – всё это часть дружбы стада Капибар + Xrumer + Xevil!
    Вы получили сообщение от нашей команды, и что мешает вам заказать постинг и наши услуги? Мы открыты для сотрудничества, друзья, и ждем ваших задач!
    Стадо Капибар работает круглосуточно на благо рекламных задач ведущих SEO-компаний и очень благодарно за возможность купить еду или получить средства на жизнь.
    Как нас ищут в сети, или, скорее, что мы делаем:

    рассылка Хрумером
    прогон Хрумером
    постинг Хрумером
    раскрутка сайта Хрумером
    прогон сайта Хрумером
    прокачка PNB сеток сайтов
    прогон по профилям Хрумером и многое другое!


  12. Wow, this blog is like a rocket blasting off into the galaxy of wonder! The mind-blowing content here is a rollercoaster ride for the imagination, sparking curiosity at every turn. Whether it’s lifestyle, this blog is a treasure trove of inspiring insights! #InfinitePossibilities into this cosmic journey of knowledge and let your mind soar! ✨ Don’t just read, savor the excitement! #FuelForThought Your mind will be grateful for this exciting journey through the worlds of endless wonder!

  13. Доброго!

    Были ли у вас случаи, когда вам приходилось писать дипломную работу в кратчайшие сроки? Это действительно трудно и ответственно, но важно не падать духом и продолжать работать над учебными процессами, чем я и занимаюсь.
    Для тех, кто умеет эффективно использовать интернет и находить нужную информацию, это оказывается весьма полезным. Это помогает в процессе согласования и написания дипломной работы, и нет необходимости тратить время на посещение библиотек или встречи с научным руководителем. Если вам нужны хорошие источники для подготовки дипломных и курсовых работ, я могу поделиться полезными ссылками.

    Желаю всем отличных оценок!

    купить диплом в хабаровске
    купить диплом россия
    купить диплом в новочеркасске
    купить диплом в тольятти
    купить диплом в глазове
    где купить диплом образование
    купить диплом о среднем специальном
    купить диплом технолога
    купить диплом в кинешме
    купить диплом в ишимбае

  14. Доброго!

    Бывало ли у вас так, что вам приходилось писать дипломную работу в ужатые сроки? Это поистине серьезная и трудная задача, но важно не сдаваться и активно заниматься учебными процессами, чем я и занимаюсь.
    Тем, кто умеет эффективно ориентироваться в информационном пространстве и искать нужные данные через поисковые системы, это действительно облегчает процесс согласования и написания дипломной работы. Таким образом, нет необходимости тратить время на посещение библиотек или организацию встреч с дипломным руководителем. Если вы ищете качественные источники для подготовки дипломов и курсовых работ, у меня есть несколько полезных ссылок, которыми вы можете воспользоваться.

    Желаю всем отличных оценок!

    купить диплом в санкт-петербурге
    купить диплом косметолога
    купить диплом в минусинске
    купить диплом в каменске-шахтинском
    купить диплом в ханты-мансийске
    купить диплом магистра
    купить диплом инженера по охране труда
    купить диплом провизора
    купить диплом инженера механика
    купить диплом в троицке

  15. Thanks for every other informative website. The place else may I get that kind of info written in such a perfect means? I have a undertaking that I am just now working on, and I’ve been on the look out for such info.