Вебархив - Webarchiv

Вебархив
Тип сайта	Цифровая библиотека
Доступно в	Чешский, английский
Основан	2000; 20 лет спустя
Штаб-квартира	Прага, Чехия
Родитель	Национальная библиотека Чешской Республики
URL	Webarchiv.cz
Запущен	2001

Вебархив представляет собой цифровой архив важных чешских веб-ресурсов (т. е. опубликованных на Интернет ), которые собираются с целью их длительного хранения.

Консервация началась в 2000 году, организована с помощью Национальная библиотека Чешской Республики, в сотрудничестве с Моравская библиотека и Институт компьютерных наук Масариковский университет. В настоящее время Вебархив организован Национальная библиотека Чешской Республики только.

Webarchiv использует инструменты, разработанные Internet Archive и Международный консорциум сохранения Интернета (IIPC) такие как Heritrix для веб-архивирование.^[1]

Webarchiv является членом IIPC с 2007 года.

Виды урожая

Основная цель проекта Webarchiv - реализовать комплексное решение в области архивирования национальных веб-документов, т.е. Сюда входят инструменты и методы для сбора, архивирования и сохранения веб-ресурсов, а также обеспечения долгосрочного доступа к ним. Осуществляются как крупномасштабный автоматизированный сбор всей национальной сети, так и выборочное архивирование, включая тематические коллекции, основанные на событиях. В настоящее время эти методы апробированы и являются предметом дальнейших исследований. Чтобы все операции выполнялись в обычном режиме, необходимо выполнение двух условий: необходимо обеспечить долгосрочное финансирование и решить текущие правовые вопросы (в первую очередь, законодательство об обязательном экземпляре).^[2]

Webarchiv имеет две коллекции заархивированных веб-сайтов. Один доступен через онлайн-доступ; это ограниченный набор данных, содержание которого регулируется соглашениями с исходными издателями. Вторая коллекция доступна только в библиотеке. Согласно чешскому закону об авторском праве онлайн-доступ к заархивированным веб-сайтам осуществляется по соглашению с владельцем веб-сайта или по лицензии Creative Commons. Веб-сайты без этого соглашения заблокированы из онлайн-архива и доступны только с терминалов библиотеки.^[3]

Комплексные урожаи

Основная цель комплексного сканирования - автоматический сбор наибольшего количества чешских веб-ресурсов. Список URL-адресов предоставлен организацией CZ.NIC.

Селективные урожаи

Коллекция ресурсов, имеющих историческую, научную или культурную ценность, выбранную вручную. Сборник доступен онлайн по контрактам с издателями.

Основная цель комплексного сканирования - автоматический сбор наибольшего количества чешских веб-ресурсов. Требования к полному сканированию:

Домен - собраны веб-ресурсы чешского домена (.cz). Ресурсы с другими доменами также могут быть собраны, но они должны соответствовать дополнительным требованиям:

Остальные требования необязательны:^[4]

Формат - заготовка ресурсов разных форматов зависит от технических настроек комбайна.^[4]

Доступ - собираются только свободно доступные ресурсы^[4]

Количество файлов - максимум 5000 файлов с одного домена^[4]

Тематические урожаи

Коллекции тем - это наборы ресурсов, которые относятся к определенному событию темы, например, выборам.

использованная литература

^ «Обзор проекта WebArchiv». WebArchiv. Получено 18 марта 2014.
^ "О Webarchiv | Webarchiv.cz".
^ "Часто задаваемые вопросы | Webarchiv.cz".
^ ^а ^б ^c ^d http://webarchiv.cz/en/comprehensive-harvests

внешние ссылки

Домашняя страница Webarchiv (Доступны чешский и английский языки)
Архивирование чешского Интернета: проблемы и вызовы. Петр Жабичка, 2003 г.

[1] «Обзор проекта WebArchiv». WebArchiv. Получено 18 марта 2014.

[2] "О Webarchiv | Webarchiv.cz".

[3] "Часто задаваемые вопросы | Webarchiv.cz".

[comp_hr-4] а ^б ^c ^d http://webarchiv.cz/en/comprehensive-harvests

[1]

[2]

[3]

[4]