Mit WARC das Web archivieren
ISO legt neuen Standard zur Webarchivierung fest
Die ISO hat mit dem Dateiformat WARC alias "ISO 28500:20092" einen Standard zur Archivierung von Webseiten verabschiedet. Damit soll es einfach werden, die flüchtigen Informationen des Web für die Nachwelt verfügbar zu halten.
Das Format WARC (Web ARChive) erlaubt es, mehrere Datenobjekte in einer langen Datei abzulegen. Damit sollen sich Applikationen entwickeln lassen, die Webinhalte abgrasen, verwalten, zur Verfügung stellen und deren Austausch ermöglichen. Die Standardisierung soll dafür sorgen, das Thema Archivierung breiter zu verankern.
WARC ist eine Erweiterung des Dateiformats ARC, das vom Internet Archive seit 1996, aber auch von anderen Institutionen eingesetzt wird. Es wird genutzt, um die beim Crawlen des Webs anfallenden Daten samt der darin verlinkten Daten abzulegen. Anders als das ARC-Format erlaubt WARC auch die Aufzeichnung von HTTP-Request-Headern und beliebiger Metadaten. Zudem lassen sich Duplikate besser verwalten und Inhalte migrieren sowie segmentieren. Dabei soll WARC zur Speicherung beliebiger digitaler Inhalte geeignet sein, ganz gleich ob diese über HTTP oder ein anderes Protokoll erfasst wurden.
Einige Archivierungswerkzeuge unterstützen WARC bereits, darunter der Heritrix Crawler des Internet Archive, die WARC Tools, die Wayback Machine und NutchWAX.
Was Du schreibst ist großer Unsinn. 1. Natürlich bleiben die Links erhalten, die Dateien...