Menu

Stappen Pre-ingesttool

Preparaties

Controlegetal berekenen
Om zeker te weten dat een aanlevering juist is overgekomen, kan de archiefvormer met het SHA-algoritme een controlegetal (ook wel hash, checksum of fixitywaarde genoemd) berekenen voor het aangeleverde .tar-bestand. De Pre-ingesttool kan de berekende waarde vergelijken met de opgegeven waarde. Zo weet men zeker dat er bij overdracht geen wijzigingen zijn opgetreden.

Archief uitpakken
De als archiefbestand ingepakte bestandsmap wordt weer uitgepakt als bestandsmap. De Pre-ingesttool kan alleen .tar en .tar.gz bestanden verwerken. De tool vereist bovendien dat deze uitgepakt zijn voordat men verder kan met het uitvoeren van controles en toebrengen van wijzigingen.

Viruscontrole
De viruscontrole controleert of er kwaadaardige bestanden in de aanlevering zitten. De virusscanner die de controle uitvoert heet ClamAV, waarvan de officiële versie wordt gebruikt.

DROID - bestandsclassificatie voorbereiden
DROID achterhaalt onder meer het precieze bestandsformaat van een bestand.

DROID - resultaten exporteren naar CSV
Men kan de karakterisaties die DROID maakt, dat wil zeggen de technische kennis die over de digitale objecten wordt vergaard, opslaan als CSV-bestand.

Verificaties

Bestands- en mapnamen controleren
Er wordt in deze stap gecontroleerd of er bestands- of mapnamen aanwezig zijn met commands, met ongeldige tekens of met meer dan 256 tekens.

Controleren of alle bestandstypen op voorkeurslijst staan
Er wordt gecontroleerd of er bestanden aanwezig zijn met bestandsformaten die niet in het overzicht voorkeursformaten staan (de lijst van het Noord-Hollands Archief is default en bevindt zich in de utilities container), zodat er zicht kan worden gehouden op verouderde formaten.

Encoding metadatabestanden controleren
Er wordt gecontroleerd of de sidecars geëncodeerd zijn met UTF-8.

Metadatabestanden valideren met XML-schema (XSD) en Schematron
Er wordt gecontroleerd of de elementen conform schema zijn en of de waarden waarmee deze elementen zijn gevuld conform de begrippenlijst zijn. Zo kan er worden vastgesteld of de aanlevering in zowel ToPX als MDTO voldoet aan de aanlevervoorwaarden.

Mappen en bestanden controleren op sidecarstructuur
Er wordt gecontroleerd of er nestingstructuren voorkomen die in het ToPX of MDTO niet toegestaan zijn.

Fixity waarde uit metadatabestanden extraheren, berekenen en vergelijken
Er wordt gecontroleerd of het door de pre-ingest tool berekende controlegetal overeenkomt met het in de metadata meegeleverde controlegetal (SHA-256 algoritme is default).

Detecteren van bestanden met wachtwoordbeveiliging en macro's
Er wordt gecontroleerd of er bestanden aanwezig zijn met wachtwoordbeveiliging en macro’s.

Non-metadata bestanden controleren op 0 bytes en PRONOM combinaties
Er wordt gecontroleerd of er bestanden aanwezig zijn met een omvang van 0 bytes of waarvan de door DROID berekende PUID niet overeenkomt met de in de metadata meegeleverde bestandsextensie.

Mutaties

Voorbewerking
Voor aanleveringen die niet aan de eisen voldoen kan een XSLT transform als voorbewerking worden uitgevoerd. Dat wijzigt de ToPX- of MDTO-aanlevering, zodat ook validatie/rapportage andere resultaten geeft. De Pre-ingesttool kijkt op de machine naar C:\preingest\prewash. Via de Instellingen-knop in de gebruikersinterface van de Pre-ingesttool kan men één van de XSLT’s selecteren die in deze directory staan.

Metadatabestanden bijwerken met Pronom-gegevens en/of checksum
Er is op bestandsniveau zowel in ToPX als MDTO een element waarin het bestandsformaat van het bestand kan worden vermeld. De Pre-ingesttool kan de waarde in het element wijzigen naar de PUID waarmee DROID het bestand heeft geïdentificeerd. Ook kan de tool de berekende controlegetallen in de sidecars zetten in het daarvoor bestemde element (SHA-256 algoritme is default).

Collectie-inhoud

Zodra een TAR is uitgepakt, komt de uitgepakte versie binnen een session folder te staan. Hier kan men doorheen navigeren met Windows Verkenner, maar dit kan in de tab Collectie-inhoud ook worden gedaan vanuit de Pre-ingesttool zelf.

Conversie ToPX naar MDTO

Met kans op informatieverlies vindt er bij het gebruik van deze optionele feature een metadatamapping plaats waarbij ToPX-sidecars worden omgezet naar MDTO-sidecars.

Het NHA past deze functie niet toe in productie. Het NHA ontvangt van overheden archieven in ToPX of MDTO. Het NHA past omzetten liever niet toe omdat de modellen te veel van elkaar verschillen.

Preservica

OPEX - ToPX of MDTO omzetten naar OPEX
Hiermee bouwt men de submission package. Dit gebeurt aan de hand van zes XSLT’s die te vinden zijn in C:\preingest\prewash. De Pre-ingesttool zet de aanlevering in de OPEX-mappenstructuur, de tool wijzigt de extensies van de metadatabestanden naar .opex en de tool wijzigt de inhoud van de metadatabestanden door het ToPX/MDTO-schema binnen het overkoepelende OPEX-schema te zetten. De sidecarbestanden worden onomkeerbaar veranderd, maar de TAR blijft natuurlijk bestaan.

OPEX - OPEX bestanden nabewerken d.m.v. XSL(T) transformatie.
Hiermee kan men instellen dat de mappen en bestanden in de submission package moeten worden ge-ingest met bepaalde XIP-metadata. Hiervoor moet de gebruiker net als bij de optie Voorbewerkingen een XSLT selecteren, waarbij de Pre-ingesttool de keuze geeft uit de XSLT’s die in de prewash folder staan. Deze feature is optioneel en kan worden gebruikt om de vijfde fase van de OPEX-transformatie (05-opex-finalize.xsl) te overschrijven als men een andere Description of Security Tag wil dan degenen die worden gebruikt in de standaard stylesheets.

BUCKET - legen
Men wil uiteraard niet per ongeluk digitale informatie mee-ingesten die niet behoort tot de collectie: data die nog is blijven hangen na een vorige ingest of die om welke reden dan ook nog in de bucket staat. Daarom kan deze bulk bucket of source location worden leeggemaakt voor upload en ingest.

BUCKET - raadplegen en weergeven
Met deze functie kan men controleren dat de bucket is gevuld voor het legen, leeg na het legen en gevuld na het uploaden.

BUCKET - upload
Hiermee wordt de gemaakte submission package in de bucket gezet. De ingest zelf moet worden gestart en gemonitord in de GUI van het e-depot.

Rapportages

MS Excel - Metadatabestanden indexeren
De metadatabestanden worden hierbij ingelezen en verzameld in Excel.

DROID - PDF-rapportage
Er kan een PDF-rapportage van DROID’s karakterisaties worden gegenereerd.

MS Excel - Eindrapportage
De uitkomsten van alle controles worden per controle gepresenteerd in kolommen in een Excel-bestand.