Так ли нужны (важны) все нашествия членистоногих?

Статус
В этой теме нельзя размещать новые ответы.

andrewa

Участник
Регистрация
11 Янв 2008
Сообщения
167
Реакции
7
Наблюдаю картину нашествия всевозможных поисковых систем, роботов, пауков на своем сайте.

Ясное дело, что главные поисковые системы - Yandex, Google, MSN, Bing, Rambler, Mail, Yahoo - просто обязаны и необходимы сайту, иначе как его никто и не найдет.

GW351d1ohF.jpg


Подскажите, плиз, нужны ли остальные никому неизвестные и ничего не приносящие роботы для сайта (Jakarta, BlogPuls, Nokia, Samsung, HTMLParser), предназначенного для русскоговорящей аудитории.

Потому как они бесполезно шарятся на сайте, может им стоит запретить присутствие на сайте в robots.txt как Disallow?
 
Если есть проблема с трафиком, нагрузкой на сервер, то боты нужно запрещать. Если сайт русскоязычный, то имеет смысл ставить только три поисковика: яша, гугл, рамблер - остальное запрещать. Так и бэки не спаляться через яхо и нагрузки не будет сильно. А потери трафики практически не будет при этом.
 
Меня интересует присутствие только основных роботов Рунета. А все запреты выставленные в robots.txt вовсе игнорируются остальными неизвестными и ненужными, посещаемыми мой сайт...

вот такой robots.txt:

Код:
User-agent: Yandex
Disallow: */admin
Disallow: /archive
Disallow: /tag
Disallow: /comments
Disallow: /login 
Disallow: /logout

User-agent: Googlebot
Disallow: */admin
Disallow: /archive
Disallow: /tag
Disallow: /comments
Disallow: /login 
Disallow: /logout

User-agent: StackRambler
Disallow: */admin
Disallow: /archive
Disallow: /tag
Disallow: /comments
Disallow: /login 
Disallow: /logout

User-agent: Mail.Ru
Disallow: */admin
Disallow: /archive
Disallow: /tag
Disallow: /comments
Disallow: /login 
Disallow: /logout

User-agent: *
Disallow: /
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

кроме Mediapartners-Google, которого я не выделил, и в течение последнего месяца я наблюдал социальную рекламу на сайте и не мог никак понять в чем же дело :(

зато подобного рода боты NOKIAN95, SAMSUNG-SGH-U700, Twiceler, Python-urllib, Who.is Bot, lwp-trivia, Wget и др. не реагируют на robots.txt.

можно ли взамен последнего файла как-то с помощью .htaccess разрешить доступ 4 ботам, а остальным запретить?
потому как если запрещать посредством .htaccess, добавится еще много строк в мой и так довольно большой файл (у меня там прописаны редиректы 301, правила строк на 100:(

Код:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} liveinternet [OR]
RewriteCond %{HTTP_USER_AGENT} StackRambler [OR]
RewriteCond %{HTTP_USER_AGENT} WebAlta [OR]
RewriteCond %{HTTP_USER_AGENT} Yanga [OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} Flexum [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl
RewriteRule ^(.*)$ – [F,L]
 
Подскажите, плиз, нужны ли остальные никому неизвестные и ничего не приносящие роботы для сайта (Jakarta, BlogPuls, Nokia, Samsung, HTMLParser), предназначенного для русскоговорящей аудитории.
Потому как они бесполезно шарятся на сайте, может им стоит запретить присутствие на сайте в robots.txt как Disallow?

Robots.txt здесь совершено бесполезен. Юзерагенты типа NOKIAN95, SAMSUNG-SGH-U700 - это не боты, а юзеры с мобильников. HTMLParser - скорее всего чей-то парсер. Закрыть доступ этим юзерагентам через .htaccess можно, но бесмысленно. В парсере можно поставить любой ua, от бродилки до бота Google, а вот реальных пользователей порежешь.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху