Могу тоже напарсить хрефером,могу базу переслать или в личку или здесь выложить.Могу очистить от мусора,дублей ,проверить на 200 ОК .Давайте признаки .
зы
бесплатно.
Что есть у каждого DLE сайта?
* страница регистрации расположенная по адресу
Для просмотра ссылки Войди или Зарегистрируйся
* страница с формой обратной связи
Для просмотра ссылки Войди или Зарегистрируйся
* страница статистики
Для просмотра ссылки Войди или Зарегистрируйся
* страница с правилами при регистрации ( не у всех, появилась в последних версиях )
Для просмотра ссылки Войди или Зарегистрируйся
В гугле есть полезный оператор для поиска страниц содержащих в своем адресе нужный текст, называется он inurl. Т.е. для поиска всех страниц регистрации, мы ищем в гугле inurl:”index.php?do=register”, для поиска страниц обратной связи inurl:”index.php?do=feedback”, и т.д. Пробуем найти inurl:”index.php?do=register”, найдено: 1 330 000, но есть проблема.
Для каждого запроса гугль и яндекс выдают только тысячу результатов, поэтому нужно как можно больше признаков, пока есть 4, дальше “разбавляем” каждый признак какими нибудь словами которые встречаются на странице которую мы ищем, к примеру, из признака inurl:”index.php?do=register”, мы сделаем следующие:
* inurl:”index.php?do=register” “регистрация”
* inurl:”index.php?do=register” “пароль”
* inurl:”index.php?do=register” “повторите пароль”
* inurl:”index.php?do=register” “Код безопасности”
* inurl:”index.php?do=register” “Введите код”
* inurl:”index.php?do=register” “Подтверждение кода безопасности”
Все слова стандартные, так же сюда можно добавить английский, украинские и прочие варианты этих же слов, если вам нужна база не только русскоязычных сайтов. В яндексе все аналогично, только немного немного отличается оператор inurl, смотрите в хелпе.
Пока мы рассматривали оператор для поиска по адресу страницы, рассмотрим еще один вариант парсинга: поиск по заголовку страницы: intitle – в гугле и title – в яндексе. Попробуем поискать заголовок страницы регистрации:
intitle:»Регистрация посетителя», появилось немного мусора, сайты работающие не на dle, нам не нужны, отсеить их не трудно, сделаем так же как при поиске по адресу страницы, добавим слово для более точного поиска:
intitle:»Регистрация посетителя» “Код безопасности”, теперь только DLE и ни какого мусора. Поиск в яндексе по заголовку страницы осуществляется практически так же.