![]() |
Установка интерпретатора RUBY и скрипта wayback_machine_downloader для загрузки архивных копий сайтов |
Здравствуйте, уважаемые читатели! Последние годы из интернета по разным причинам стали пропадать различные любительские сайты с бесплатных хостингов. Сайт может быть как повреждён по вине недобросовестных хостеров, так и безжалостно порезан при смене владельца ресурса, а может быть банально без сожаления заброшен самим автором. Нередко пропавшие либо повреждённые сайты любителей были весьма интересными, а иногда несли и сегодня актуальную техническую информацию...
К счастью, имеется весьма прогрессивный ресурс - Internet Archive: Wayback Machine, который денно и нощно собирает резервные копии различных интернет-ресурсов по всей планете! И правда, набрав имя неработающего сайта в адресной строке веб-архива можно получить целую биографию уже без вести пропавшего ресурса! Однако, веб-архив не только имеет невысокое быстродействие, но даже просто загрузить весь сайт командой wget не так-то просто - повреждаются ссылки внутренних переходов. А последнее время и вовсе большую часть архива wget просто не видит.
Но не всё так беспросветно и глухо - есть простая скриптовая программа на интерпретируемом языке ruby, которая поможет загрузить архивную копию сайта с нормально работающими внутренними переходами.
Главное, нужно обязательно выставить точную дату, иначе при установке скрипта вылезет ошибка сертификата! Поскольку в микрокомпьютере сохранение часов не предусмотрено, то сразу после перезагрузки аппарат будет абсолютно уверен, что на дворе только что наступил Новый 1970 Год:

Потом можно уже устанавливать интерпретатор ruby:

Наконец, остаётся установить сам инструмент - скриптовый загрузчик wayback_machine_downloader:

Вот и всё! Теперь можно спокойно загружать работающие архивные копии сайтов.
Для сохранения копии сайта http://site.narod.ru
в папку /site.narod.ru
раздела /mnt/usbflash3
нужно запустить скрипт, предварительно указав сайт и место сохранения:
wayback_machine_downloader httр://site.narod.ru -d /mnt/usbflash3/site.narod.ru
Напоследок, опции wayback_machine_downloader:
|
Каталог для сохранения загруженных файлов. По умолчанию это ./websites/ плюс домен загруженного сайта. |
-s, --all-timestamps |
Загрузить все файлы из архива |
-f, --from TIMESTAMP |
Только файлы или после поддерживаемого снимка, например 20060716231334 |
-t, --to TIMESTAMP |
Только файлы или до поддерживаемого снимка, например 20100916231334 |
-e, --exact-url |
Только URL адреса. |
-o, --only ONLY_FILTER |
Ограничить скачивание URL адресов, соответствующих этому фильтру. Используйте // для фильтрации регулярными выражениями. |
-x, --exclude EXCLUDE_FILTER |
Сбросить скачивание URL адресов, соответствующих этому фильтру. Используйте // для фильтрации регулярными выражениями. |
-a, --all |
Расширить загрузку до скачивания файлов ошибок (40x и 50x) и перенаправлений (30x) |
-c, --concurrency NUMBER |
Количество различных файлов для одновременной загрузки |
-p, --maximum-snapshot NUMBER |
Максимальное число снимков страниц для рассмотрения |
-l, --list |
Только список ссылок в формате json c временными метками |
-v, --version |
Отобразить версию |
Удачных раскопок!
Обновлено - 10.12.2018. Установщик apt-get предварительно настроен для минимизации количества устанавливаемых пакетов.
Обновлено - 24.11.2019. Добавлено описание опций wayback_machine_downloader.
Благодарю за внимание, доброго здоровья!
Сайт работает на микрокомпьютере