Поделитесь информацией о написании парсеров.

VIP2013

Постоялец
Заблокирован
Регистрация
4 Мар 2013
Сообщения
203
Реакции
113
  • Автор темы
  • Заблокирован
  • #1
Всем привет. Помогите информацией о написании парсеров. Думаю, что тут есть люди которые пишут их. Проблема в том, что у меня был портал и написали для него парсер, но донор постоянно изменяется и парсер через месяц перестает работать. Вот бы хотелось самому узнать что да как.
 
Что конкретно интересует-то?
Не существует какой-то инструкции от А до Я по написанию парсеров) Просто берёте какой-то парсер в качестве примера и разбираете как он работает. Это если есть знания ПХП, если нет - учите ПХП)
В общем-то можно и без этих знаний подстраивать парсер под изменения вёрстки сайта-донора, но для этого чтобы можно было что-то советовать по этому поводу нужно видеть код этого парсера.
 
Всем привет. Помогите информацией о написании парсеров. Думаю, что тут есть люди которые пишут их. Проблема в том, что у меня был портал и написали для него парсер, но донор постоянно изменяется и парсер через месяц перестает работать. Вот бы хотелось самому узнать что да как.
Обратитесь к человеку, что писал парсер, и попросите его (за деньги) сделать для парсера админку.
В ТЗ к админке напишите, какие переменные на странице хотите менять вручную.
Для парсера это обычно параметры запросов Get (для адреса страницы), теги и классы на странице, в которых хранятся данные.
Сколько параметров парсить — подскажет таблица, куда надо данные загнать.
Сколько там полей, столько и понадобится переменных распарсить из адреса.
 
  • Автор темы
  • Заблокирован
  • #4
Обратитесь к человеку, что писал парсер, и попросите его (за деньги) сделать для парсера админку.
В ТЗ к админке напишите, какие переменные на странице хотите менять вручную.
Для парсера это обычно параметры запросов Get (для адреса страницы), теги и классы на странице, в которых хранятся данные.
Сколько параметров парсить — подскажет таблица, куда надо данные загнать.
Сколько там полей, столько и понадобится переменных распарсить из адреса.
А может есть универсальные парсеры, что бы самому переменные подставлять?
 
  • Автор темы
  • Заблокирован
  • #6
Помогите информацией о написании парсеров.
Уточните, какой имеется опыт работы с php. Рекомендую начать с простых вещей: набросать собственный парсер на основе file_get_contents(), preg_match_all() и fopen(). Добиться его работоспособности на простых примерах. Проанализировать код того парсера, который сейчас у Вас есть, с помощью среды отладки и добиться уверенного понимания, что в какой момент происходит при выполнении кода. Сам пользуюсь средой NetBeans.

После уже можно будет искать причины проблем в работе парсера при модификации донора и править код. У меня например были проблемы в парсинге ссылок. Не всякий парсер способен совладать с перезаписываемыми URL и ЧПУ.

Может быть прав zilon, обращая Ваше внимание на десктопные аналоги.
 
А может есть универсальные парсеры, что бы самому переменные подставлять?
Я недавно покупал такой — парсит диапазон страниц и складывает на сервере описания в текстовый файл, а картинки в папку.
Но он был написан по моему ТЗ, как мне надо. Вам же нужно будет написать исходя из наличия полей в Вашей БД.
Взял здесь — Для просмотра ссылки Войди или Зарегистрируйся
Потом связался с автором, он допилил. Проверили как работает, на Я-маркете.
В Вашем же случае всё работает, потому имхо проще админку написать, чем весь парсер с нуля.
 
  • Автор темы
  • Заблокирован
  • #10
Я недавно покупал такой — парсит диапазон страниц и складывает на сервере описания в текстовый файл, а картинки в папку.
Но он был написан по моему ТЗ, как мне надо. Вам же нужно будет написать исходя из наличия полей в Вашей БД.
Взял здесь — Для просмотра ссылки Войди или Зарегистрируйся
Потом связался с автором, он допилил. Проверили как работает, на Я-маркете.
В Вашем же случае всё работает, потому имхо проще админку написать, чем весь парсер с нуля.
уточню у админов можно ли выложить адрес сайта и ссылку на персер. Думаю так будет понятнее.
 
Назад
Сверху