сканер всех страниц сайта

efs

SEO оптимизатор дискрипторов одностраничных сайтов
Регистрация
20 Ноя 2009
Сообщения
835
Реакции
493
стоит задача, собрать все внутренние страницы сайта. сайт большой, >10кк страниц. всякие контент даунлоадеры, ксену и прочее, умирает от нехватки памяти
нужно что-то, что не держит все в памяти, а использует бд или файлы
 
так ведь TeleportPro сразу в файлики сохраняет
 
"собрать все внутренние страницы сайта" - ни разу не "список всех урлов сайта, а не его контент"
 
по существу есть что сказать?
 
Ну там явно же cms какая нибудь стоит, а значит все url'ы в базе хранятся. Дергай адреса оттуда.
 
был бы у меня доступ к бд, вопрос бы не стоял )
 
wget со включенным логом (-a test_wget.loc.log), сохранение можно попробовать перенаправить в dev/null (не проверял)
Лог потом чем-то распарсить и будет список, судя по подписи труда не составит ;)

Пробовал:
TeleportPro - загибался на 100-200к
Xenu - кажись до 100к
httrack - самый живучий, осиливал больше 500к
Всякие оффлайн эксплореры гибли не доходя до 10к
wget в промышленных масштабах не юзал из-за его однопоточности, но по расходу оперативки и ресурсам он показывал наилучшие результаты. Плюс проверял его синтетическими тестами (>5кк).
Могут быть другие цифры и это не повод возмущаться - версии софта и крутость компа могут сильно влиять, я на слабеньких ноутах тестил.

10 лямов url выкачивал на php + curl с записью в мускуль, тут уж даже если и упадёт в любой момент можно перезапустить...
 
  • Нравится
Реакции: efs
wget со включенным логом (-a test_wget.loc.log), сохранение можно попробовать перенаправить в dev/null (не проверял)
Лог потом чем-то распарсить и будет список, судя по подписи труда не составит
думал об этом, но насколько по манам понял, он может дергать одну и туже страницу по 100500 раз или вообще зациклиться, если попадет в кольцо страниц, ссылающихся друг на друга.
а так да, смотрю или в сторону wget+grep или свой велосипед писать
 
a-parser это из платного что 100% сможет и не загнется)
 
Назад
Сверху