|
|
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21801
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
вот, только за 10 дней, с начало мес. от этого непойми чего, я получил:
Nutch 19827+4606 586.49 МБ
.. и ладно бы если, он качал что то осмысленно.. так я по стате вижу, что он одну и тужу стр, по раз 50 забирает..
.. никак немогу найти.. описание этого.. кто такой, и можно ли его ограничить через robots.txt, типа так..
Код: |
User-agent: *
Crawl-delay: 5
User-agent: nutch
Disallow: /
|
.. или же, блокировать маску, только через ПХП/хтаксесс .. т.к. это не бот, и роботсы.тхт он несмотрит ?
также, строка "User-agent: nutch" регистро-зависима, или нет.. т.е. неважно в каком регистре писать nutch
т.е. и так nutch и так Nutch будет срабатывать (я сейчас обо всех ботах..) ?
подскажите, сразу, как через .htaccess блокирнуть этот агент
с признаком/подстрокой в агенте как "Nutch" ?
.. и выдавать, 403 ошибку (заблокировано)..
(403 - это и есть отказ в доступе / блокировка.. ?)
гугль/ соблюдает/понимает строчки robots.txt как:
Код: |
User-agent: *
Crawl-delay: 5
|
(яндекс - говорили что соблюдает)
_______
вот еще немного инфы по
.. и еще nutch
.. может кому нить пригодиться.. игого игого.. |
|
|
|
|
|
porno |
IseeDeadPeople Объединенная Электрическая |
Зарегистрирован: 06.12.2005
Сообщений: 21801
|
Обратиться по нику
|
IseeDeadPeople |
Ответить с цитатой | | |
|
кстати, код
Код: |
User-agent: *
Crawl-delay: 5
|
ограничивает только тот домен, на котором находиться сам роботс.тхт,
на другом домене, также отдельно будет считаться роботс.тхт и правила..
т.е. если у меня около 1000 сабов на домене второго уровня..
то получаеться, в общей сложности, яндекс бот будет соблюдать интервал на каждый саб, но в сумме, сам хост, будет получать, возможно и по 1000/5 (=200) запросто в сек.
какие есть решения, чтоб недопустить такого, может через роботс.тхт, спец. пониками уставновить.. что правило
Код: |
User-agent: *
Crawl-delay: 5
|
должно действовать, в сумме (глобально) на все сабдомены и домен. |
|
|
|
|
|
porno |
Soeti Профессионал |
Зарегистрирован: 05.06.2009
Сообщений: 616
|
Обратиться по нику
|
Soeti |
Ответить с цитатой | | |
|
Пропарсь логи на user-agent
Скорее всего тебя кто-то выкачивает.
http://www.globalsecurity.org/robots.txt
Вот очень суровый файл. Маниакально суровый, но видать ребята не зря его поставили.
Что с хотлинками? Если у тебя контент из картинок, то могут сайт могут эксплуатировать как халявный хостинг изображений. нужно поставить хотлинк-протект защиту.
зы. Посмотрел внимательнее:
Код: |
User-agent: CazoodleBot/Nutch-0.9-dev
Disallow: /
User-agent: CazoodleBot/Nutch-0.9-dev (CazoodleBot Crawler; http://www.cazoodle.com; mqbot@cazoodle.com)
Disallow: /
кажется твое. нахуй его режь
|
|
|
|
|
|
|
оо.....какие быстрые машинки!(переходя на Красный) |
|
|
Партнеры
|