archivarix
https://ru.archivarix.com - Онлайн парсер сайтов, переноса существующего сайта на CMS, конвертер из HTML в CMS. Теперь наша система может не только восстанавливать сайты из archive.org но и скачивать живые сайты.
В отличие от таких программ как HTTrack или Teleport система не просто скачивает сайт, а интегрирует контент сайта в CMS и создает полнофункциональную действующую копию с возможностью редактирования и обновления. Так же как и для восстановленных из архива сайтов, для скаченных сайтов доступны все функции archivarix - такие как оптимизация графики и HTML кода, очистка от внешних ссылок, рекламы, счетчиков, аналитики и прочего.
archivarix
Недавно мы обновили нашу систему и теперь у нас появились две новых опции.
Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен"
https://ru.archivarix.com/website-downloader-cms-converter/ и сайт будет качаться из сети Tor так же как и обычный.
А ещё Archivarix может не только скачивать существующие сайты или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут
https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контент".
После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json.
При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы.
archivarix
Skyworker писал:
А на WordPress можно будет как-то сайты восстанавливать из Вебархива при помощи вашего сервиса?
Да, теперь можно с помощью опции "Извлечь структурированный контент" получить статьи из сайта-донора и потом импортировать wxr файл с ними в Вордпресс.