Установка интерпретатора RUBY и скрипта wayback_machine_downloader для загрузки архивных копий сайтов




Здравствуйте, уважаемые читатели! Последние годы из интернета по разным причинам стали пропадать различные любительские сайты с бесплатных хостингов. Сайт может быть как повреждён по вине недобросовестных хостеров, так и безжалостно порезан при смене владельца ресурса, а может быть банально без сожаления заброшен самим автором. Нередко пропавшие либо повреждённые сайты любителей были весьма интересными, а иногда несли и сегодня актуальную техническую информацию...

К счастью, имеется весьма прогрессивный ресурс - Internet Archive: Wayback Machine, который денно и нощно собирает резервные копии различных интернет-ресурсов по всей планете! И правда, набрав имя неработающего сайта в адресной строке веб-архива можно получить целую биографию уже без вести пропавшего ресурса! Однако, веб-архив не только имеет невысокое быстродействие, но даже просто загрузить весь сайт командой wget не так-то просто - повреждаются ссылки внутренних переходов. А последнее время и вовсе большую часть архива wget просто не видит.

Но не всё так беспросветно и глухо - есть простая скриптовая программа на интерпретируемом языке ruby, которая поможет загрузить архивную копию сайта с нормально работающими внутренними переходами.


Главное, нужно обязательно выставить точную дату, иначе при установке скрипта вылезет ошибка сертификата! Поскольку в микрокомпьютере сохранение часов не предусмотрено, то сразу после перезагрузки аппарат будет абсолютно уверен, что на дворе только что наступил Новый 1970 Год:

Потом можно уже устанавливать интерпретатор ruby:

Наконец, остаётся установить сам инструмент - скриптовый загрузчик wayback_machine_downloader:

Вот и всё! Теперь можно спокойно загружать работающие архивные копии сайтов.


Для сохранения копии сайта http://site.narod.ru в папку /site.narod.ru раздела /mnt/usbflash3 нужно запустить скрипт, предварительно указав сайт и место сохранения:

wayback_machine_downloader httр://site.narod.ru -d /mnt/usbflash3/site.narod.ru


Напоследок, опции wayback_machine_downloader:

-d, --directory PATH

Каталог для сохранения загруженных файлов. По умолчанию это ./websites/ плюс домен загруженного сайта.
-s, --all-timestamps Загрузить все файлы из архива
-f, --from TIMESTAMP Только файлы или после поддерживаемого снимка, например 20060716231334
-t, --to TIMESTAMP Только файлы или до поддерживаемого снимка, например 20100916231334
-e, --exact-url Только URL адреса.
-o, --only ONLY_FILTER Ограничить скачивание URL адресов, соответствующих этому фильтру. Используйте // для фильтрации регулярными выражениями.
-x, --exclude EXCLUDE_FILTER Сбросить скачивание URL адресов, соответствующих этому фильтру. Используйте // для фильтрации регулярными выражениями.
-a, --all Расширить загрузку до скачивания файлов ошибок (40x и 50x) и перенаправлений (30x)
-c, --concurrency NUMBER Количество различных файлов для одновременной загрузки
-p, --maximum-snapshot NUMBER Максимальное число снимков страниц для рассмотрения
-l, --list Только список ссылок в формате json c временными метками
-v, --version Отобразить версию


Удачных раскопок!


Обновлено - 10.12.2018. Установщик apt-get предварительно настроен для минимизации количества устанавливаемых пакетов.


Обновлено - 24.11.2019. Добавлено описание опций wayback_machine_downloader.


Благодарю за внимание, доброго здоровья!



Сайт работает на микрокомпьютере