Вебархив - Webarchiv

Вебархив
Логотип Webarchiv
Тип сайта
Цифровая библиотека
Доступно вЧешский, английский
Основан2000; 20 лет спустя (2000)
Штаб-квартираПрага, Чехия
РодительНациональная библиотека Чешской Республики
URLWebarchiv.cz
Запущен2001

Вебархив представляет собой цифровой архив важных чешских веб-ресурсов (т. е. опубликованных на Интернет ), которые собираются с целью их длительного хранения.

Консервация началась в 2000 году, организована с помощью Национальная библиотека Чешской Республики, в сотрудничестве с Моравская библиотека и Институт компьютерных наук Масариковский университет. В настоящее время Вебархив организован Национальная библиотека Чешской Республики только.

Webarchiv использует инструменты, разработанные Internet Archive и Международный консорциум сохранения Интернета (IIPC) такие как Heritrix для веб-архивирование.[1]

Webarchiv является членом IIPC с 2007 года.

Виды урожая

Основная цель проекта Webarchiv - реализовать комплексное решение в области архивирования национальных веб-документов, т.е. Сюда входят инструменты и методы для сбора, архивирования и сохранения веб-ресурсов, а также обеспечения долгосрочного доступа к ним. Осуществляются как крупномасштабный автоматизированный сбор всей национальной сети, так и выборочное архивирование, включая тематические коллекции, основанные на событиях. В настоящее время эти методы апробированы и являются предметом дальнейших исследований. Чтобы все операции выполнялись в обычном режиме, необходимо выполнение двух условий: необходимо обеспечить долгосрочное финансирование и решить текущие правовые вопросы (в первую очередь, законодательство об обязательном экземпляре).[2]

Webarchiv имеет две коллекции заархивированных веб-сайтов. Один доступен через онлайн-доступ; это ограниченный набор данных, содержание которого регулируется соглашениями с исходными издателями. Вторая коллекция доступна только в библиотеке. Согласно чешскому закону об авторском праве онлайн-доступ к заархивированным веб-сайтам осуществляется по соглашению с владельцем веб-сайта или по лицензии Creative Commons. Веб-сайты без этого соглашения заблокированы из онлайн-архива и доступны только с терминалов библиотеки.[3]

Комплексные урожаи

Основная цель комплексного сканирования - автоматический сбор наибольшего количества чешских веб-ресурсов. Список URL-адресов предоставлен организацией CZ.NIC.

Селективные урожаи

Коллекция ресурсов, имеющих историческую, научную или культурную ценность, выбранную вручную. Сборник доступен онлайн по контрактам с издателями.

Основная цель комплексного сканирования - автоматический сбор наибольшего количества чешских веб-ресурсов. Требования к полному сканированию:

Домен - собраны веб-ресурсы чешского домена (.cz). Ресурсы с другими доменами также могут быть собраны, но они должны соответствовать дополнительным требованиям:

Остальные требования необязательны:[4]

Формат - заготовка ресурсов разных форматов зависит от технических настроек комбайна.[4]

Доступ - собираются только свободно доступные ресурсы[4]

Количество файлов - максимум 5000 файлов с одного домена[4]

Тематические урожаи

Коллекции тем - это наборы ресурсов, которые относятся к определенному событию темы, например, выборам.

использованная литература

  1. ^ «Обзор проекта WebArchiv». WebArchiv. Получено 18 марта 2014.
  2. ^ "О Webarchiv | Webarchiv.cz".
  3. ^ "Часто задаваемые вопросы | Webarchiv.cz".
  4. ^ а б c d http://webarchiv.cz/en/comprehensive-harvests

внешние ссылки