maxy666
Профессор
- Регистрация
- 23 Июл 2012
- Сообщения
- 143
- Реакции
- 44
- Автор темы
- #1
Написал простенький скрипт для парсинга товаров с алиекспреса, использовал библиотеку PhpQuery. Парсер умеет собирать сразу несколько товаров одним проходом. В общем общий вид парсера:
Верхнее поле предназначено для ввода url товаров, нижнее для ввода вручную название.
Бывают случаи когда накопируешь кучу товаров, запустишь парсинг, а один из них сразу же удалят, например
Для просмотра ссылки Войдиили Зарегистрируйся
В таком случаи скрипт дойдя до такого url товара полностью останавливаться.
Пробовал написать проверку, на title = "Page Not Found - Aliexpress.com"
Но получить тайтл со страницы 404 не получилось. Пожалуйста посоветуйте как можно получить тайтл или другие данные что бы идентифицировать такие страницы 404.
Бывают случаи когда накопируешь кучу товаров, запустишь парсинг, а один из них сразу же удалят, например
Для просмотра ссылки Войди
В таком случаи скрипт дойдя до такого url товара полностью останавливаться.
Пробовал написать проверку, на title = "Page Not Found - Aliexpress.com"
PHP:
// Получает тайтл товара
$title = $html->find('title');
if "Page Not Found - Aliexpress.com"
{
echo "товар $url[$i] удален";
}
else {
тело выполнение скрипта
}
Но получить тайтл со страницы 404 не получилось. Пожалуйста посоветуйте как можно получить тайтл или другие данные что бы идентифицировать такие страницы 404.