- Регистрация
- 5 Сен 2009
- Сообщения
- 701
- Реакции
- 611
- Автор темы
- Модер.
- #1
Стоит задача создания парсера для similarweb.com (популярный сайт, выдающий кучу довольно полезной информации о домене...к примеру Для просмотра ссылки Войди или Зарегистрируйся )
Итого имеется следующий код:
Он работает но всего раз 5 для одного IP :/ Пробовал несколько десятков разных бесплатных прокси - ни один не заработал ни разу, с ходу же выдаётся сообщение о блокировке Для просмотра ссылки Войди или Зарегистрируйся
Также ставил разные юзерагенты - тоже толку ноль.
Собственно, может есть у кого идеи хотя бы в какую стороны копать
Нагуглил вот такое видео
т.е. похоже, что в принципе возможен обход блокировки.
Итого имеется следующий код:
PHP:
$cookie_filename = dirname(__FILE__).'\cookie.txt';
$ch = curl_init();
curl_setopt($ch, CURLOPT_HEADER, FALSE);
curl_setopt($ch, CURLOPT_URL, 'https://www.similarweb.com/website/nulled.cc');
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0');
curl_setopt($ch, CURLOPT_COOKIESESSION, TRUE);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_filename);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_filename);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
$out = curl_exec($ch);
curl_close($ch);
Также ставил разные юзерагенты - тоже толку ноль.
Собственно, может есть у кого идеи хотя бы в какую стороны копать
Нагуглил вот такое видео