![]()  | 
 Установка интерпретатора RUBY и скрипта wayback_machine_downloader для загрузки архивных копий сайтов  | 
Здравствуйте, уважаемые читатели! Последние годы из интернета по разным причинам стали пропадать различные любительские сайты с бесплатных хостингов. Сайт может быть как повреждён по вине недобросовестных хостеров, так и безжалостно порезан при смене владельца ресурса, а может быть банально без сожаления заброшен самим автором. Нередко пропавшие либо повреждённые сайты любителей были весьма интересными, а иногда несли и сегодня актуальную техническую информацию...
К счастью, имеется весьма прогрессивный ресурс - Internet Archive: Wayback Machine, который денно и нощно собирает резервные копии различных интернет-ресурсов по всей планете! И правда, набрав имя неработающего сайта в адресной строке веб-архива можно получить целую биографию уже без вести пропавшего ресурса! Однако, веб-архив не только имеет невысокое быстродействие, но даже просто загрузить весь сайт командой wget не так-то просто - повреждаются ссылки внутренних переходов. А последнее время и вовсе большую часть архива wget просто не видит.
Но не всё так беспросветно и глухо - есть простая скриптовая программа на интерпретируемом языке ruby, которая поможет загрузить архивную копию сайта с нормально работающими внутренними переходами.
Главное, нужно обязательно выставить точную дату, иначе при установке скрипта вылезет ошибка сертификата! Поскольку в микрокомпьютере сохранение часов не предусмотрено, то сразу после перезагрузки аппарат будет абсолютно уверен, что на дворе только что наступил Новый 1970 Год:
Потом можно уже устанавливать интерпретатор ruby:
Наконец, остаётся установить сам инструмент - скриптовый загрузчик wayback_machine_downloader:
Вот и всё! Теперь можно спокойно загружать работающие архивные копии сайтов.
Для сохранения копии сайта http://site.narod.ru в папку /site.narod.ru раздела  /mnt/usbflash3 нужно запустить скрипт, предварительно указав сайт и место сохранения:
wayback_machine_downloader httр://site.narod.ru -d /mnt/usbflash3/site.narod.ru
Напоследок, опции wayback_machine_downloader:
  | 
Каталог для сохранения загруженных файлов. По умолчанию это ./websites/ плюс домен загруженного сайта. | 
-s,  --all-timestamps | 
Загрузить все файлы из архива | 
-f, --from TIMESTAMP | 
Только файлы или после поддерживаемого снимка, например 20060716231334 | 
-t, --to TIMESTAMP | 
Только файлы или до поддерживаемого снимка, например 20100916231334 | 
-e, --exact-url | 
Только URL адреса. | 
-o, --only ONLY_FILTER | 
Ограничить скачивание URL адресов, соответствующих этому фильтру. Используйте // для фильтрации регулярными выражениями. | 
-x, --exclude EXCLUDE_FILTER | 
Сбросить скачивание URL адресов, соответствующих этому фильтру. Используйте // для фильтрации регулярными выражениями. | 
-a, --all | 
Расширить загрузку до скачивания файлов ошибок (40x и 50x) и перенаправлений (30x) | 
-c, --concurrency NUMBER | 
Количество различных файлов для одновременной загрузки | 
-p, --maximum-snapshot NUMBER | 
Максимальное число снимков страниц для рассмотрения | 
-l, --list | 
Только список ссылок в формате json c временными метками | 
-v, --version | 
Отобразить версию | 
Удачных раскопок!
Обновлено - 10.12.2018. Установщик apt-get предварительно настроен для минимизации количества устанавливаемых пакетов.
Обновлено - 24.11.2019. Добавлено описание опций wayback_machine_downloader.
Благодарю за внимание, доброго здоровья!
Сайт работает на микрокомпьютере 



