Menu

Voortzetting geslaagde pilot automatische handschriftherkenning

“Het online zoeken door handgeschreven documenten staat een ware revolutie te wachten”

Is het mogelijk om handgeschreven documenten full-text te doorzoeken met handschriftherkenningstechnieken (HTR)? Dat is de vraag die Noord-Hollands Archief en Nationaal Archief gezamenlijk in de pilot ‘De ijsberg zichtbaar maken’ hebben onderzocht. Voor de uitvoering is samengewerkt met het programma Transkribus, onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents). Vanwege de positieve uitkomsten is inmiddels een vervolgtraject gestart.

Een groot deel van de collectie van zowel Noord-Hollands Archief als het Nationaal Archief bestaat uit handgeschreven teksten. En van slechts een klein deel daarvan is de inhoud bekend. Het topje van de ijsberg dus. Hoe mooi is het om met HTR de rest van de teksten te kunnen doorzoeken en zo toegankelijker te maken voor het publiek. Dat willen we met dit project bereiken. Daarnaast is het doel om de getrainde HTR-modellen beschikbaar te stellen aan andere erfgoedinstellingen en onderzoeksinstituten.  

Hoe werkt het?

Voordat je aan de slag gaat, bepaal je eerst met welk archief je gaat experimenteren. De keuze viel op de indexen van grote correspondentieseries. Indexen hebben namelijk een hoge informatiedichtheid en een uniforme structuur. De lay-out is vrijwel altijd identiek en er komen maar weinig verschillende handschriften voor. Hoe eenvormiger het materiaal, hoe makkelijker de computer geautomatiseerd goede transcripties maakt. Uit deze indexen zijn ongeveer 450 pagina’s handmatig getranscribeerd door een kleine groep toegewijde en enthousiaste vrijwilligers. Deze pagina’s zijn gebruikt om de computer te trainen op het geselecteerde materiaal. Het hieruit ontstane HTR-model kan daarna worden toegepast op pagina’s waarvoor nog geen transcriptie aanwezig is.

Resultaten

De resultaten waren niet gelijk om over naar huis te schrijven. We hoopten op een foutpercentage van rond de 10 procent op karakterniveau. Maar de eerste tests hadden een foutpercentage van rond de 20 procent. Dat kwam doordat de computer punten en komma’s verkeerd transcribeerde. En door de vele afkortingen en korte teksten in de documenten. Gelukkig heeft de computer net als de mens een lerend vermogen. Door een verbeterde HTR-techniek zijn de foutenmarges inmiddels substantieel afgenomen. De computer transcribeert nu ongeveer 90 tot 95 % van alle karakters correct. In de toekomst wordt dit alleen maar beter. Niet alleen door technologische ontwikkelingen, maar ook doordat veel Nederlandse instellingen samenwerken en datasets binnen Transkribus met elkaar delen. In een vergelijkbaar project worden bijvoorbeeld de handgeschreven notarisarchieven van Amsterdam uit de zeventiende en achttiende eeuw doorzoekbaar gemaakt. Simpelweg wordt de computer steeds meer getraind met goede transcripties van documenten uit allerlei tijdsperioden en afkomstig van verschillende personen en organisaties. Een zeer hoopvolle ontwikkeling.

Vervolgproject 2019-2020

Door de positieve resultaten is de pilot in elk geval tot 2020 verlengd, en uitgebreid. De lessons learned worden hierin meegenomen. We kiezen in het vervolgtraject voor documenten met veel lopende tekst en weinig afkortingen, symbolen en tabellen. Daarnaast gaan we verder op een veel grotere schaal. De ambitie is om aan het eind van het project maar liefst twee miljoen handgeschreven pagina’s online tekstueel doorzoekbaar te maken. De focus ligt daarbij op het archief van de Verenigde Oost-Indische Compagnie (VOC) en de archieven van de notarissen uit de negentiende eeuw. We blijven de getrainde HTR-modellen beschikbaar stellen aan andere erfgoedinstellingen en onderzoeksinstituten.

Het online zoeken door handgeschreven documenten staat een ware revolutie te wachten. Alvast benieuwd in welke vorm dit straks zou kunnen? Neem eens een kijkje op deze webpagina, waar ongeveer 90.000 handgeschreven documenten van de Britse filosoof en jurist Jeremy Bentham (1748-1832) op woordniveau doorzoekbaar zijn. 

Wie nog meer de diepte in wil kan hier verder lezen.