Порекомендуйте набор для парсинга на PHP 2017

FidaSa

Постоялец
Регистрация
1 Мар 2013
Сообщения
511
Реакции
145
Всем привет.

Порекомендуйте, пожалуйста, какими инструментами пользоваться в PHP для парсинга.

Хочу научиться парсить сайты любой сложности со скриптами и т.п.

1) Нужно будет научиться: собирать ссылки со всего сайта (DOM не DOM).
2) Собирать контент со страниц со скриптами (DOM не DOM).
3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий.

Каким методам и библиотекам стоит обучится для выполнения таких задач? Везде про CURL и SIMPLA пишут, это оптимальное решение или есть сейчас что то получше ?
 
Посмотрите на PhantomJS.
Не знаю как вы 3-е планировали на PHP делать, это не реализуемо.
Мне понравилось на Go парсеры писать, скорость на высоте, про 3-е тоже можно забыть.
 
3-е можно на C# используя Awesomium, но это далеко не php.
 
Вопрос довольно странный. Научитесь сначала работать с CURL, сделйте какой-нибудь относительно простой граббер сайтов.
Имитация мыши и подобные задачи – тут php не поможет.
 
Посмотрите на этот видеокурс, чтобы понять многие нюансы при написание парсеров.
Скрытое содержимое доступно для зарегистрированных пользователей!
 
Я так поняла с этим могут быть сложности:

3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий.

Может тогда на каком то другом языке учиться делать парсеры, где не будет проблем с этим пунктом ?
Или чем то дополнить PHP можно ?
 
Всем привет.

Порекомендуйте, пожалуйста, какими инструментами пользоваться в PHP для парсинга.

Хочу научиться парсить сайты любой сложности со скриптами и т.п.

1) Нужно будет научиться: собирать ссылки со всего сайта (DOM не DOM).
2) Собирать контент со страниц со скриптами (DOM не DOM).
3) Имитировать нажатие кнопок, прокручивания мыши, кликов и событий.

Каким методам и библиотекам стоит обучится для выполнения таких задач? Везде про CURL и SIMPLA пишут, это оптимальное решение или есть сейчас что то получше ?
php и имитация работы юзера - однозначно php Human Emulator
 
You can't simulate pressing buttons, scrolling mouse, clicks and events with PHP, all you can do is to parse DOM elements after requesting some url with curl. You could use PhantomJS instead Для просмотра ссылки Войди или Зарегистрируйся or if you just want to do a stress test on your website you could use Apache JMeter Для просмотра ссылки Войди или Зарегистрируйся, in this application you can simulate user access, scrolling mouse, navigation, etc.
 
как и писали выше - лучше попробуйте сначала написать сами используя встренную библиотеку CURL. А потом уж можно и пробовать готовые решения, Snoopy например, и в дополнение модуль для разбора DOM - symfony/dom-crawler. Имитировать нажатие кнопок - это только на сайтах без js, где страница перезагружается после каждого действия. Мне кажется таких сайтов уже не существует :)
 
Назад
Сверху