[Работа] Нужно напарсить базу DLE сайтов

Статус
В этой теме нельзя размещать новые ответы.

ravist

Гуру форума
Регистрация
24 Июл 2007
Сообщения
201
Реакции
97
Необходима свежая база DLE сайтов. Выложенные в паблике и любые покупные, выложенные на plati.ru, либо где-нибудь еще - не предлагать.
С предложениями и ценами в личку.
 
  • Заблокирован
  • #12
По количеству сказать точно не могу, согласен на всю работу потратить два дня.
А там как получиться!!!
 
На сколько знаю, сайтов на dle где-то в районе 20 тысяч всего.
 
что-то мало, у меня база примерно из такого колличества будет, даже чуть больше.
на 9 тыс из которых я на автомате могу зарегестрировать пользователя.

где-то я слышал что DLE около 90к.
 
Могу напарсить базу, какое точное кол-во получится не знаю. Обращайтесь в пм или асько
 
Могу тоже напарсить хрефером,могу базу переслать или в личку или здесь выложить.Могу очистить от мусора,дублей ,проверить на 200 ОК .Давайте признаки .
зы
бесплатно.
 
  • Заблокирован
  • #17
Могу тоже напарсить хрефером,могу базу переслать или в личку или здесь выложить.Могу очистить от мусора,дублей ,проверить на 200 ОК .Давайте признаки .
зы
бесплатно.
Что есть у каждого DLE сайта?

* страница регистрации расположенная по адресу Для просмотра ссылки Войди или Зарегистрируйся
* страница с формой обратной связи Для просмотра ссылки Войди или Зарегистрируйся
* страница статистики Для просмотра ссылки Войди или Зарегистрируйся
* страница с правилами при регистрации ( не у всех, появилась в последних версиях ) Для просмотра ссылки Войди или Зарегистрируйся

В гугле есть полезный оператор для поиска страниц содержащих в своем адресе нужный текст, называется он inurl. Т.е. для поиска всех страниц регистрации, мы ищем в гугле inurl:”index.php?do=register”, для поиска страниц обратной связи inurl:”index.php?do=feedback”, и т.д. Пробуем найти inurl:”index.php?do=register”, найдено: 1 330 000, но есть проблема.

Для каждого запроса гугль и яндекс выдают только тысячу результатов, поэтому нужно как можно больше признаков, пока есть 4, дальше “разбавляем” каждый признак какими нибудь словами которые встречаются на странице которую мы ищем, к примеру, из признака inurl:”index.php?do=register”, мы сделаем следующие:

* inurl:”index.php?do=register” “регистрация”
* inurl:”index.php?do=register” “пароль”
* inurl:”index.php?do=register” “повторите пароль”
* inurl:”index.php?do=register” “Код безопасности”
* inurl:”index.php?do=register” “Введите код”
* inurl:”index.php?do=register” “Подтверждение кода безопасности”

Все слова стандартные, так же сюда можно добавить английский, украинские и прочие варианты этих же слов, если вам нужна база не только русскоязычных сайтов. В яндексе все аналогично, только немного немного отличается оператор inurl, смотрите в хелпе.

Пока мы рассматривали оператор для поиска по адресу страницы, рассмотрим еще один вариант парсинга: поиск по заголовку страницы: intitle – в гугле и title – в яндексе. Попробуем поискать заголовок страницы регистрации:

intitle:»Регистрация посетителя», появилось немного мусора, сайты работающие не на dle, нам не нужны, отсеить их не трудно, сделаем так же как при поиске по адресу страницы, добавим слово для более точного поиска:

intitle:»Регистрация посетителя» “Код безопасности”, теперь только DLE и ни какого мусора. Поиск в яндексе по заголовку страницы осуществляется практически так же.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху