Catching the Digital Heritage. De collectie websites van Liberas (2003-2019)

Digitalisering

donderdag 20 februari 2020

Sinds maart 2019 voeren twee medewerkers onderzoek naar de beste manier om websites te archiveren. Zij doen dit in het kader van het project Catching the Digital Heritage, een samenwerking tussen Liberas en Amsab-ISG. Een deel van hun opdracht was om de in het verleden reeds gedownloade websites te beschrijven en op te nemen in de collectiebeheersystemen van beide organisaties. In Liberas werd dit afgerond in het najaar van 2019.

Liberas downloadt sinds 2003 websites van liberale personen en organisaties. Met uitzondering van de jaren 2005 en 2008 gebeurde dit jaarlijks. Vandaag telt de collectie 1.648 snapshots van 719 verschillende websites en neemt ze 375.930,4 MB (of 367,12 GB) van het e-depot in beslag (grafiek 1).

De collectie bestaat hoofdzakelijk uit snapshots van de websites van liberale partijen, hun afdelingen en hun verkiezingskandidaten (partijen VLD, Open Vld, Lijst Dedecker, LSP) genomen voor én na de verschillende Europese, federale, Vlaamse en lokale verkiezingen. In verkiezingsjaren werden daarom meer websites gedownload, wat meteen ook verklaart waarom er in 2005 en 2008 geen websites werden gearchiveerd (grafiek 2). Daarnaast werden sinds 2009 op regelmatige basis websites van liberale organisaties in binnen- en buitenland gearchiveerd.

De snapshots werden gemaakt met HTTrack en sinds 2019 met Wget. Voor het overgrote deel zijn de websites bewaard in .html formaat. Vanaf 2019 ook in .warc formaat.

Websites die Liberas heeft gedownload, werden in de loop der jaren gemiddeld steeds groter, zowel in aantal bestanden (grafiek 3) als in totaal aantal MB (grafiek 4). Een piek werd bereikt in 2017, waar het gemiddeld aantal bestanden van een snapshot 9.461,02 bedroeg. Er was vooral een toename van het aantal beeldbestanden doorheen de jaren, mogelijk gemaakt door onder meer snellere dataverbindingen. Websites werden visueel aantrekkelijker.

De toename van het aantal beeldbestanden ging hand in hand met de totale grootte van de website. Statische en bewegende beelden wogen zwaar door op de omvang van een website. Ook hier is een piek waar te nemen in 2017, waar de gemiddelde grootte van een snapshot 644,98 MB bedroeg.

Met de jaren werd het steeds moeilijker om websites te harvesten (bijv. 9,7 % foutmeldingen in 2006 t.o.v. 32,2 % foutmeldingen in 2018). Websites die dateren van het begin van het millennium bestaan voor het merendeel uit zuivere HTML-pagina’s die makkelijk worden binnengehaald. De huidige websites maken meestal gebruik van een content management system en een achterliggende database om inhoud op te slaan. Programma’s als HTTrack lopen daar soms op vast. Daarom werd besloten om over te stappen op Wget, een programma dat beduidend minder foutmeldingen geeft.

De laatste jaren zien we ook een verschuiving naar het gebruik van sociale media. Het merendeel van de personen en organisaties heeft nog wel een website, maar ze zetten steeds meer in op sociale media om in interactie te gaan met hun doelpubliek. Sinds 2018 archiveert Liberas daarom ook sociale media zoals Facebook, Twitter, YouTube en WhatsApp. Deze data wordt voorlopig per platform op een interne server opgeslagen. In de toekomst zal Liberas onderzoeken hoe ook de metadata van deze collecties kan worden opgenomen in ons collectiebeheersysteem en hoe we de content intern raadpleegbaar kunnen maken.

De metadata van de collectie websites is te bekijken op de website van Liberas (https://hdl.handle.net/21.12117/14379309). De websites zelf kunnen ter plaatse bij Liberas geraadpleegd worden.

Op 3 maart 2020 vindt het slotevent van het project Catching the Digital Heritage plaats waarop alle onderzoeksresultaten worden voorgesteld. Meer info is hier te vinden: https://www.liberas.eu/slotevenement-catching-the-digital-heritage-workshop-website-archivering/.