-
Notifications
You must be signed in to change notification settings - Fork 0
Technická‐dokumentace
Specializovaná veřejná databáze Databáze mrtvých webových zdrojů zobrazuje ve strukturované formě údaje o zaniklých webových zdrojích archivovaných Webarchivem Národní knihovny ČR. Databáze je integrovaná do kurátorské aplikace Seeder a zobrazuje údaje získané prostřednictvím aplikace Extinct Websites. Obě aplikace byly navrženy jako open source, zdrojové kódy a dokumentace jsou volně dostupné v repozitářích na githubu. Informace o webových zdrojích, které jsou aplikací Extinct Websites identifikovány jako mrtvé, jsou prostřednictvím API přenášeny do Seederu a prostřednictvím Databáze mrtvých webových zdrojů jsou interpretovány veřejnosti - https://www.webarchiv.cz/mrtve-weby.
- Seeder - kurátorská aplikace pro správu zdrojů, sklizní a webových stránek Webarchivu
- Extinct Websites - aplikace pro automatizované řešení identifikace a popisu mrtvých webových zdrojů
Databáze mrtvých webových zdrojů je integrovaná do kurátorské aplikace Seeder, která slouží pro správu webových zdrojů, licenčních smluv, rejstříku vydavatelů webových stránek, harmonogramu sklizní a správu webových stránek Webarchivu NK ČR. Aplikace byla vyvinuta na míru potřebám Webarchivu. Je napsána v programovacím jazyku Python s využitím frameworku Django. Pro uložení svých dat využívá databázi PostgresSQL.
Data z Extinct Websites se pravidelně nahrávají do aplikace Seeder pomocí vlastního REST API rozhraní. Data se následně zobrazují uživatelům aplikace ve formě statistik, tabulek a interaktivního grafu, který využívá knihovnu Chart.js, na webové stránce Webarchivu.
- Github: https://github.com/WebarchivCZ/Seeder
- Wiki: https://github.com/WebarchivCZ/Seeder/wiki
- ReadTheDocs: https://seeder.readthedocs.io/en/latest/
Databáze mrtvých webových zdrojů zobrazuje údaje získané prostřednictvím aplikace Extinct Websites, která slouží jako automatizované řešení pro identifikaci a popis mrtvých webů. Aplikace data ukládá do vlastní interní databáze a zpřístupňuje je kurátorům, kteří s informacemi v ní dále nakládají, interpretují je a obsah klasifikují. Aplikace Extinct Websites identifikuje mrtvé weby za pomocí stavových kódů, dle kterých weby kategorizuje na skupiny, jimiž jsou automatizovány další procesy, jako je ověřování metadat z živých webů, databáze WhoIS, či historických metadat.
- Github: https://github.com/WebarchivCZ/extinct-websites
- Wiki: https://github.com/WebarchivCZ/extinct-websites/wiki/Popis-aplikace
Základní popis api je na wiki Extinct Websites
Pro propojení s Databází mrtvých webových zdrojů je důležité přiřadit parametru type
hodnotu seeder
, tedy:
http://url-aplikace/api/v2/?type=seeder
Databáze mrtvých webových zdrojů: https://www.webarchiv.cz//mrtve-weby
Cílem vzniku Databáze mrtvých webových zdrojů je podat zprávu o zanikajícím webovém obsahu a nabídnout statistiky, z nichž si bude možné udělat představu o trendech zanikajících webových zdrojů v průběhu času. Databáze interpretuje data získaná z aplikace Extinct Websites, jejímž smyslem je nastavení agendy dlouhodobého pravidelného trackování zanikajících webových zdrojů a evidování příslušných metadat. Vzniku databáze předcházel výzkum a metodologické uchopení pojmu mrtvý webový zdroj, popsané v článku O mrtvých webových zdrojích. Jak identifikovat a sledovat zaniklý webový obsah? Z průzkumu vyplývá, že s ohledem na proměnlivou povahu webu nelze mrtvý web striktně vymezit. Při interpretaci dat z databáze je proto nutné mít na paměti, že žádný web nelze definitivně označit za mrtvý. Pro určování stavu webových zdrojů byl navržen tzv. Index mrtvosti. Jedná se o automatizované řešení, jednotlivé hodnoty jsou průbežně upravovány dle potřeb vyplývajících z praxe.
Databáze obsahuje několik parametrů, které vychází z API naší aplikace Extinct websites. Níže je vypsán seznam:
- URL - seznam URL adres zdrojů prolinkovaných na archivní kopie Webarchivu
- Datum zjištěného úmrtí - datum, kdy jsme zjistili úhyn webového zdroje
- Stavový kód - poslední zjištěný HTTPS kód
- Datum, od kterého webový zdroj evidujeme
- Index mrtvosti - index, kterým vyhodnocujeme ohrožení zdroje, který se skládá z několika parametrů (metadata stránek, obsah stránek, informace z whois databáze)
Důležitým zobrazovacím prvkem je graf umožňující zobrazit úhyn webů v čase. Web dále zobrazuje jako hlavní údaj počet dosavadně identifikovaných mrtvých webů a procentuální vyjádření z celkového počtu sledovaných webových stránek. Dále nabízíme uživateli dvě tabulky, které se obě dají uložit jako CSV – seznam mrtvých webů celkově a seznam všech trackovaných webů. Každý rok se také uloží statistika úhynu webů daného roku, neboť statistiky dosavadní jsou generované dynamicky.
Kontroly lze nastavit dle potřeb kurátora, rychlost kontrol je ovlivněna technickými podmínkami, jako je výkon serveru a vytížení sítě.