Skip to content

Technická‐dokumentace

zlodej_papiru edited this page Jan 18, 2024 · 17 revisions

Databáze mrtvých webových zdrojů - Technická dokumentace

Specializovaná veřejná databáze Databáze mrtvých webových zdrojů zobrazuje ve strukturované formě údaje o zaniklých webových zdrojích archivovaných Webarchivem Národní knihovny ČR. Databáze je integrovaná do kurátorské aplikace Seeder a zobrazuje údaje získané prostřednictvím aplikace Extinct Websites. Obě aplikace byly navrženy jako open source, zdrojové kódy a dokumentace jsou volně dostupné v repozitářích na githubu. Informace o webových zdrojích, které jsou aplikací Extinct Websites identifikovány jako mrtvé, jsou prostřednictvím API přenášeny do Seederu a prostřednictvím Databáze mrtvých webových zdrojů jsou interpretovány veřejnosti - https://www.webarchiv.cz/mrtve-weby.

Hlavní komponenty specializované databáze

  • Seeder - kurátorská aplikace pro správu zdrojů, sklizní a webových stránek Webarchivu
  • Extinct Websites - aplikace pro automatizované řešení identifikace a popisu mrtvých webových zdrojů

Seeder

Databáze mrtvých webových zdrojů je integrovaná do kurátorské aplikace Seeder, která slouží pro správu webových zdrojů, licenčních smluv, rejstříku vydavatelů webových stránek, harmonogramu sklizní a správu webových stránek Webarchivu NK ČR. Aplikace byla vyvinuta na míru potřebám Webarchivu. Je napsána v programovacím jazyku Python s využitím frameworku Django. Pro uložení svých dat využívá databázi PostgresSQL.

Data z Extinct Websites se pravidelně nahrávají do aplikace Seeder pomocí vlastního REST API rozhraní. Data se následně zobrazují uživatelům aplikace ve formě statistik, tabulek a interaktivního grafu, který využívá knihovnu Chart.js, na webové stránce Webarchivu.

Technická dokumentace pro seeder

Extinct Websites

Databáze mrtvých webových zdrojů zobrazuje údaje získané prostřednictvím aplikace Extinct Websites, která slouží jako automatizované řešení pro identifikaci a popis mrtvých webů. Aplikace data ukládá do vlastní interní databáze a zpřístupňuje je kurátorům, kteří s informacemi v ní dále nakládají, interpretují je a obsah klasifikují. Aplikace Extinct Websites identifikuje mrtvé weby za pomocí stavových kódů, dle kterých weby kategorizuje na skupiny, jimiž jsou automatizovány další procesy, jako je ověřování metadat z živých webů, databáze WhoIS, či historických metadat.

Techická dokumentace pro Extinct Websites

Popis API

Základní popis api je na wiki Extinct Websites

Pro propojení s Databází mrtvých webových zdrojů je důležité přiřadit parametru type hodnotu seeder, tedy:

 http://url-aplikace/api/v2/?type=seeder

Databáze mrtvých webových zdrojů

Databáze mrtvých webových zdrojů: https://www.webarchiv.cz//mrtve-weby

Cílem vzniku Databáze mrtvých webových zdrojů je podat zprávu o zanikajícím webovém obsahu a nabídnout statistiky, z nichž si bude možné udělat představu o trendech zanikajících webových zdrojů v průběhu času. Databáze interpretuje data získaná z aplikace Extinct Websites, jejímž smyslem je nastavení agendy dlouhodobého pravidelného trackování zanikajících webových zdrojů a evidování příslušných metadat. Vzniku databáze předcházel výzkum a metodologické uchopení pojmu mrtvý webový zdroj, popsané v článku O mrtvých webových zdrojích. Jak identifikovat a sledovat zaniklý webový obsah? Z průzkumu vyplývá, že s ohledem na proměnlivou povahu webu nelze mrtvý web striktně vymezit. Při interpretaci dat z databáze je proto nutné mít na paměti, že žádný web nelze definitivně označit za mrtvý. Pro určování stavu webových zdrojů byl navržen tzv. Index mrtvosti. Jedná se o automatizované řešení, jednotlivé hodnoty jsou průbežně upravovány dle potřeb vyplývajících z praxe.

Databáze obsahuje několik parametrů, které vychází z API naší aplikace Extinct websites. Níže je vypsán seznam:

  • URL - seznam URL adres zdrojů prolinkovaných na archivní kopie Webarchivu
  • Datum zjištěného úmrtí - datum, kdy jsme zjistili úhyn webového zdroje
  • Stavový kód - poslední zjištěný HTTPS kód
  • Datum, od kterého webový zdroj evidujeme
  • Index mrtvosti - index, kterým vyhodnocujeme ohrožení zdroje, který se skládá z několika parametrů (metadata stránek, obsah stránek, informace z whois databáze)

Důležitým zobrazovacím prvkem je graf umožňující zobrazit úhyn webů v čase. Web dále zobrazuje jako hlavní údaj počet dosavadně identifikovaných mrtvých webů a procentuální vyjádření z celkového počtu sledovaných webových stránek. Dále nabízíme uživateli dvě tabulky, které se obě dají uložit jako CSV – seznam mrtvých webů celkově a seznam všech trackovaných webů. Každý rok se také uloží statistika úhynu webů daného roku, neboť statistiky dosavadní jsou generované dynamicky.

Kontroly lze nastavit dle potřeb kurátora, rychlost kontrol je ovlivněna technickými podmínkami, jako je výkon serveru a vytížení sítě.