Menu

Links

De ijsberg zichtbaar maken: resultaten pilot & start vervolg

“Het online zoeken door handgeschreven documenten staat een ware revolutie te wachten”

Is het mogelijk om handgeschreven documenten full-text te doorzoeken met handschriftherkenningstechnieken (HTR)? Dat is de vraag die Noord-Hollands Archief en Nationaal Archief gezamenlijk in de pilot ‘De ijsberg zichtbaar maken’ hebben onderzocht. Voor de uitvoering is samengewerkt met het programma Transkribus, onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents). Vanwege de positieve uitkomsten is inmiddels een vervolgtraject gestart.

Een groot deel van de collectie van zowel Noord-Hollands Archief als het Nationaal Archief bestaat uit handgeschreven teksten. En van slechts een klein deel daarvan is de inhoud bekend. Het topje van de ijsberg dus. Hoe mooi is het om met HTR de rest van de teksten te kunnen doorzoeken en zo toegankelijker te maken voor het publiek. Dat willen we met dit project bereiken. Daarnaast is het doel om de getrainde HTR-modellen beschikbaar te stellen aan andere erfgoedinstellingen en onderzoeksinstituten.  

Pilot

Voordat je aan de slag gaat, bepaal je eerst met welk archief je gaat experimenteren. De keuze viel op de indexen op grote correspondentieseries. In het geval van Noord-Hollands Archief is gewerkt met de correspondentieseries van de gemeente Haarlem 1886-1898, Nationaal Archief is aan de slag gegaan met het zogenaamde verbaalarchief van het ministerie van koloniën 1910-1919. De keuze voor de indexen is genomen op basis van twee factoren. Ten eerste hebben de indexen een hoge informatiedichtheid omdat deze bestaan uit korte samenvattingen van grote hoeveelheden andere documenten. Ten tweede is de structuur van de indexen zeer uniform. De lay-out van de pagina’s is vrijwel altijd identiek en er komen maar weinig verschillende handschriften voor. Dit is belangrijk met het oog op de te gebruiken computertechniek: Handwritten Text Recognition (HTR). Hoe eenvormiger het materiaal, hoe makkelijker de computer geautomatiseerd goede transcripties maakt. Binnen de software van Transkribus zijn eerst ongeveer 450 pagina’s uit de indexen handmatig getranscribeerd door een kleine groep toegewijde en enthousiaste vrijwilligers. Deze pagina’s zijn vervolgens gebruikt om de computer te trainen op het geselecteerde materiaal. Het hieruit ontstane HTR-model kan daarna worden toegepast op pagina’s waarvoor nog geen transcriptie aanwezig is.

HTR-resultaten

De mate van succes van een HTR-model wordt met name gemeten door foutenmarges op karakterniveau te vergelijken, de zogenaamde Character Error Rate (CER). De marges die wij met onze modellen behaalden, waren niet gelijk om over naar huis te schrijven. We hoopten op een foutpercentage van rond de 10 procent op karakterniveau, maar de eerste tests hadden een foutpercentage van rond de 20-25 procent. Dat kwam doordat de computer punten en komma’s ‘verkeerd’ transcribeerde, maar ook door het geselecteerde materiaal. De indexen bevatten namelijk veel lastige afkortingen en bestaan slechts voor een deel uit lopende tekst. Niet alleen de vrijwilligers hadden soms moeite om de pagina’s correct te transcriberen, logischerwijs had de computer dat ook.

Gelukkig heeft de computer net als de mens een lerend vermogen. Gedurende het jaar is door het team van Transkribus en alle Europese partners een nieuw, verbeterde HTR-techniek geïmplementeerd waardoor de foutenmarges substantieel zijn afgenomen. Op dezelfde datasets wordt nu (maart 2018) een foutenmarge behaald van respectievelijk 6,57% CER voor de Haarlemse bestanden en 10,84% CER voor de bestanden van het ministerie van koloniën (zie afbeeldingen). Dat wil zeggen dat respectievelijk 93,43% en 89,16% van alle karakters door de computer juist wordt getranscribeerd. In de toekomst wordt dit alleen maar beter. Niet alleen door technologische ontwikkelingen, maar ook doordat veel Nederlandse instellingen samenwerken en datasets binnen Transkribus met elkaar delen. Zo kregen wij soms (maar niet altijd) al betere HTR-resultaten door andere Nederlandstalige datasets te combineren met de onze. Simpelweg wordt de computer steeds meer getraind met goede transcripties van documenten uit allerlei tijdsperioden en afkomstig van verschillende personen en organisaties. Een zeer hoopvolle ontwikkeling.

 
Behaalde Character Error Rates (CER) van getrainde HTR-modellen op de Haarlemse bestanden (links) en de bestanden van het ministerie van koloniën (rechts). Boven de resultaten van de oude techniek, onder de nieuwe verbeterde versie (HTR+). Rechtsonder wordt het behaalde CER-resultaat op de testset getoond aan het einde van het leerproces (de curve).

Tabelherkenning

Los van het onderzoeken van HTR-resultaten, zijn we in de pilot ook aan de slag gegaan met de tabelstructuren die in de indexen op iedere pagina, in vrijwel identieke vorm te vinden zijn. We hebben onderzocht of het mogelijk is om deze negentiende of twintigste eeuwse tabellen digitaal te reproduceren. Met andere woorden, kan je een ‘van papier’ afkomstige tabel op een geautomatiseerde manier omzetten naar een moderne spreadsheet? Kan je de inhoud van een tabel bijvoorbeeld exporteren als een Excel-bestand? Het voordeel van een dergelijke export is dat je de gegevens uit de tabel meer betekenis kunt meegeven (omdat je bijvoorbeeld weet in welke kolom persoonsnamen staan) en makkelijk kunt hergebruiken op een andere plek.

Ook om tabellen te herkennen en reproduceren moet de computer getraind worden: waar bevinden zich de kolommen en rijen van een tabel? Om dit te doen, worden deze lijnen eerst handmatig ‘getekend’ voor een aantal pagina’s. Daarmee wordt een computermodel gemaakt, die dan in staat zou moeten zijn om op een volgende pagina deze lijnen automatisch te trekken. Hoewel de eerste resultaten van dit model er positief uitzagen voor onze tabellen (zie afbeelding), blijkt de opgave helaas lastiger dan gedacht. Vooral met het goed herkennen van de rijen uit de tabellen is onvoldoende progressie geboekt. Dit is één van de redenen dat wij in de komende twee jaar een iets andere koers gaan varen, hoewel we de ontwikkelingen rond tabelherkenning in de gaten blijven houden.

 
Digitale representatie van een negentiende eeuwse tabel in Excel. De computer heeft vooral moeite om de rijen uit de tabellen goed te herkennen.

Vervolgproject 2019-2020

Met het pilotproject is Noord-Hollands Archief en Nationaal Archief duidelijk geworden welke potentie er schuilt in HTR. Door de positieve resultaten is het project in elk geval tot 2020 verlengd, en uitgebreid. De lessons learned worden hierin meegenomen. We kiezen er in het vervolgtraject voor documenten met veel lopende tekst en weinig afkortingen, symbolen en tabellen. Daarnaast gaan we verder op een veel grotere schaal. De ambitie is om aan het einde van het project maar liefst twee miljoen handgeschreven pagina’s online tekstueel doorzoekbaar te maken. Nationaal Archief gaat daartoe aan slag met het archief van de Verenigde Oost-Indische Compagnie (VOC) uit de zeventiende en achttiende eeuw. Noord-Hollands Archief start met de archieven van de Haarlemse notarissen uit de negentiende eeuw. Ook de notarisarchieven uit de negentiende eeuw afkomstig uit andere provincies worden doorzoekbaar gemaakt. De getrainde HTR-modellen stellen we beschikbaar aan andere erfgoedinstellingen en onderzoeksinstituten.

Het online zoeken door handgeschreven documenten staat een ware revolutie te wachten. Natuurlijk is de computer (net als de mens) niet foutloos en dat zal ook zo blijven. Niet alle in de documenten voorkomende woorden zijn daardoor terug te vinden, maar een groot deel is dat wel. Alvast benieuwd in welke vorm je straks handgeschreven documenten zou kunnen doorzoeken? Neem eens een kijkje op deze webpagina, waar circa 90.000 handgeschreven documenten van de Britse filosoof en jurist Jeremy Bentham (1748-1832) op woordniveau doorzoekbaar zijn. Probeer het bijvoorbeeld eens met de zoekterm ‘democracy’. De pagina is ontwikkeld door één van de Transkribus-partners en is te zien als een voorbeeld van ‘best practice’.

Meer Lab?

Wil je weten wat er nog meer borrelt bij het Noord-Hollands Archief? Bekijk de projecten in ons NHALab!