Menu
Tekstherkenning van handgeschreven bronnen
Digitalisering
donderdag 12 september 2024
Geschreven door: Jeroen Buysse

Iedereen heeft wel al eens gehoord van OCR, voluit optical character recognition, waarbij gedrukte tekst uit een afbeelding wordt herkend en omgezet naar bewerkbare tekst. De herkende tekst wordt daarna gekoppeld aan de oorspronkelijke afbeelding waardoor die volledig doorzoekbaar wordt. Een mooi voorbeeld is de collectie kranten en tijdschriften die op de website van Liberas worden aangeboden. Na het ingeven van een zoekterm verschijnt een overzicht met de pagina’s waarop deze zoekterm voorkomt. De zoekterm wordt daarbij duidelijk opgelicht in een gele kleur. HTR, voluit handwritten text recognition, doet ongeveer hetzelfde maar dan voor handgeschreven bronnen. Deze functionaliteit is sinds kort beschikbaar op de website van Liberas.

Transkribus

Transkribus is een innovatieve applicatie voor automatische tekstherkenning, met een sterke focus op Handwritten Text Recognition (HTR). Handgeschreven (maar ook getypte) teksten worden omgezet in digitale, doorzoekbare tekst via machine learning en artificiële intelligentie. Transkribus begon als een Europees project. Het was oorspronkelijk ontwikkeld als onderdeel van het “Transcriptorium” project, dat werd gefinancierd door de Europese Unie. Dit project had als doel om technologieën te ontwikkelen voor het automatisch herkennen en transcriberen van historische handschriften. Gebruikers hadden onder meer de mogelijkheid om eigen HTR-modellen trainen voor specifieke soorten handschriften, wat de nauwkeurigheid verhoogt.

Transkribus heeft sindsdien veel vooruitgang geboekt en is nu georganiseerd als een coöperatie, de READ-COOP SCE (Societas Cooperativa Europaea), waardoor het eigendom is van zijn gebruikers, waaronder onderzoekers, archieven en bibliotheken. Deze structuur bevordert samenwerking en kennisdeling, wat leidt tot verbeterde technologieën en diensten. Het coöperatieve model zorgt voor duurzaamheid en financiële transparantie van middelen, terwijl het ook de lange termijn ondersteuning en voortdurende innovatie garandeert. De procedure is nu opgestart waarbij Liberas in de coöperatieve stapt.

Link tussen Atlantis en Transkribus

DEVENTit speelde met het idee om hun collectiebeheersoftware Atlantis te koppelen met Transkribus en contacteerde Liberas om mee in een pilootproject te stappen. Een procedure werd uitgewerkt en in de Atlantisomgeving van Liberas geïmplementeerd. Een medewerker kan nu afbeeldingen van handgeschreven bronnen die hij wenst te laten transkriberen, verzamelen in een werkset en die werkset met één enkele actie doorsturen naar Transkribus. De software verwerkt daarop de afbeeldingen en stuurt deze de volgende dag terug naar Atlantis, samen met een bestand met de tekstherkenning. De afbeeldingen zijn daarna meteen doorzoekbaar en de herkende tekst kan in de publieksomgeving ook getoond worden. Dit proces verloopt volledig automatisch.

Deze procedure werd de voorbije weken getest en is nu in productie geplaatst. Aan deze brief is bijvoorbeeld reeds tekstherkenning toegevoegd. Als je in de viewer onderaan links op de “T” klikt, verschijnt de transcriptie over de afbeelding. De kleur van de transcriptie kan aangepast worden naargelang de kleur van het briefpapier, net als de lettergrootte. Ook de helderheid van de transcriptie t.o.v. de brief kan via een slider aangepast worden.

In het najaar wordt de briefwisseling van het Willemsfonds die in het verleden gedigitaliseerd werd, voor de jaren 1862 tot 1880 op dezelfde manier getranscribeerd. De briefwisseling zal dan volledig doorzoekbaar zijn en beter leesbaar voor gebruikers die niet vertrouwd zijn met oude handschriften. Historische teksten worden zo een pak toegankelijker voor een breder publiek.