18.04.2013

Skráartegundir í íslenska vefsafninu

Landsbókasafn Íslands - Háskólabókasafn hefur safnað markvisst íslenskum vefsíðum allt frá haustinu 2004. Vefsafnið okkar er miklu ítarlegra hvað varðar íslenskt efni en sambærilegt safn Internet Web Archive sem safnar vefsíðum frá öllum heiminum. Vefsafnið er gríðarstórt og telur nú tæpa tvo milljarða hluta (safnaðar slóðir að frádregnum tvítekningum). Auk þess að gera fólki kleift að skoða vefi aftur í tímann á slóðinni vefsafn.is (til dæmis vefi stjórnmálaflokka fyrir síðustu kosningar) býður þetta mikla safn íslenskra vefja upp á alls kyns möguleika til rannsókna á stafrænni samtímasögu Íslands og stafrænni fornleifafræði.

Til dæmis er athyglisvert að skoða hlutfall ólíkra skráartegunda í safninu. Í ljós kemur að mikill meirihluti stafrænna hluta eru á formi vefsíðna (texti, html, css, xml og svo framvegis) eða tæp 70% safnaðra slóða. Næstar koma myndir af ýmsu tagi sem eru 23% safnaðra slóða. PDF-skjöl nálgast að vera 1% en aðrar skjalategundir, til dæmis myndskeið og hljóðskrár eru langt frá því.

Ef gagnamagn er skoðað hins vegar sést að vefsíður/texti mynda tæp 60% af safninu, myndir um 14%, PDF-skjöl um 6%, myndskeið um 10% og hljóðskrár um 4%. Sem dæmi má nefna að í safninu eru um það bil 750 þúsund ólíkar hljóðskrár eða um 2,5 terabæt af hljóðefni, en meðalstærð hljóðskránna er 3,5 megabæt. Þá vekur athygli að mun fleiri myndskeið en hljóðskrár eru í safninu. Fjöldi myndskeiða er 1,7 milljónir og meðalstærð þeirra er 4,2  megabæt. Samtals eru því tæp sjö terabæt af myndskeiðum í Vefsafninu.

Stærsti skjalaflokkurinn fyrir utan texta og myndir eru  PDF-skjöl. Í Vefsafninu eru varðveitt um 8,2 milljón ólík PDF-skjöl eða samtals 3,7 terabæt af gögnum. Meðalstærð PDF-skjala í safninu er hins vegar ekki nema 477 kílóbæt.

➜ Fréttasafn