Menu

De ijsberg zichtbaar maken: hoe goed kan de computer inmiddels lezen?

Begin 2019 startten wij samen met Nationaal Archief het project De ijsberg zichtbaar maken, met als doel om twee miljoen scans volledig, full-text te kunnen doorzoeken. Dit doen we door de computer te leren lezen met behulp van Transkribus, software op het gebied van handschriftherkenning (Handwritten Text Recognition, HTR). Het gaat de computer goed af.

De gehele in het project gebruikte dataset bestaat uit:

  • circa 1 miljoen scans van de VOC uit de 17e en 18e eeuw van het Nationaal Archief (NA);
  • circa 400.000 scans van notariële archieven uit de 19e eeuw van het Noord-Hollands Archief (NHA);
  • circa 600.000 scans van notariële archieven uit de 19e eeuw van 9 andere Regionaal Historische Centra (RHC’s).

In december 2019 is een eerste belangrijke mijlpaal bereikt. Het transcriptieteam van het project rondde die maand haar werk af. Zij leverde 7.706 handmatig getranscribeerde pagina’s aan: 4.810 pagina’s van het archief van de VOC, 2.393 pagina’s van het notariële archief van het NHA en 500 pagina’s van de notariële archieven van andere RHC’s.

VOC 

Met de bovengenoemde transcripties zijn verschillende modellen getraind om het automatisch transcriberen mogelijk te maken. Van de transcripties van de VOC zijn onder andere de volgende modellen gemaakt:

  • een specifiek 17e-eeuws VOC model;
  • een specifiek 18e-eeuws VOC model;
  • een gecombineerd VOC-model van zowel transcripties van archieven uit de 17e- en 18e- eeuw. 

Het gecombineerde model blijkt het beste resultaat te geven voor zowel de 17e- als 18e-eeuwse handschriften. De mate van succes van een HTR-model wordt met name gemeten door foutenmarges op karakterniveau te vergelijken, de zogenaamde Character Error Rate (CER). De door ons behaalde CER is 5,3 op de test set en 7,3 op de sample set.

Het IJsberg model, een gecombineerd model met transcripties van het archief van het NA, het NHA en de overige RHC’s geeft bijna dezelfde resultaten op de scans van de VOC als het gecombineerde VOC model.

Noord-Hollands Archief

Voor de verwerking van de scans van het NHA zijn onder andere de volgende modellen gemaakt:

  • een model met enkel transcripties van het notarieel archief van het NHA;
  • een gecombineerd model met transcripties van archief van zowel NHA als van de overige RHC’s.

Ook hier blijkt het gecombineerde model het beste resultaat te geven. De CER is 3,9 op de test set en 6,6 op de sample set.

Overige Regionaal Historische Centra

Voor de scans van de overige RHC’s zijn onder andere de volgende modellen getest:

  • een gecombineerd model met transcripties van zowel het notarieel archief van het NHA als van de overige RHC’s;
  • Het IJsberg model. Een gecombineerd model met transcripties van zowel het notarieel archief van het NHA, de RHC’s als van de VOC. 

Het IJsberg model blijkt het beste resultaat te geven met een CER van 5,2 op de test set en 7.6 op de sample set.

Conclusie

Het bovenstaande leert ons dat het goed is om verschillende modellen te bouwen om te bepalen wat het beste resultaat geeft. Vooraf was namelijk niet duidelijk of een specifiek of juist een meer generiek model het meest geschikt zou zijn. Al met al overtreffen de foutenmarges de verwachtingen die we hadden aan het begin van het project. Uit een beknopte analyse blijkt bovendien dat een aanzienlijk deel van de fouten vooral betrekking heeft op interpunctie in de handschriften.

Langzaamaan is automatische handschriftherkenning (HTR) bezig een volwassen broertje te worden van optical character recognition (OCR) voor gedrukte en getypte documenten. Dat deze ontwikkeling grote invloed zal hebben op toekomstig archiefonderzoek is een understatement.

De transcripties zijn gepubliceerd als open data op het Zenodo-platform. Het IJsberg model is vrij beschikbaar in Transkribus zodat iedereen het kan gebruiken om scans mee te transcriberen of als basis voor een eigen model.

Meer Lab?

Wil je weten wat er nog meer borrelt bij het Noord-Hollands Archief? Bekijk de projecten in ons NHALab!