Игнорирование robots.txt ?

Тема: Игнорирование robots.txt ?

цитата
05/07/04 в 13:19

Forward
Никак не пойму:
какого икса гугл лезет в директории, запрещенные для индексирования?

User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

...и эта сволочь, вместо того, чтобы лазить по корню, постоянно шарится в webalizer'e...
Замечал еще, что на некоторых доменах часто запрашивает даже скрипты из админ-зоны, ссылок на которые нигде и в помине нет, кроме того же вебалайзера...

Почему гугл robots.txt сначала вообще не запрашивает, а изначально сразу лезет в вебалайзер?

новая фича?

цитата
05/07/04 в 13:48

Nikola
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит?

Если просто гуляет, может и х с ним? Я в нужные страницы вставляю тэг meta name="robots" content="noindex, nofollow"
Тогда точно не индексит страницу, а по линкам может и лазит, я за ним не слежу.

цитата
05/07/04 в 14:15

Forward
Nikola писал:

Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит?

Если просто гуляет, может и х с ним?

Индексирует, судя по всему...
Просто хочется заставить его побыстрее корневик проиндексировать вместо левого вебалайзера...

meta name="robots" content="noindex, nofollow"

это спасет от индексирования паги, но как бы ему запретить на эту пагу вообще лезть...
robots.txt не запрашивает...
сразу ломится в вебалайзер...

цитата
05/07/04 в 14:16

Sergunya
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.
Во только индексирует ли, сам не знаю?

цитата
05/07/04 в 14:21

Forward
Sergunya писал:

спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.

А как он их находит, если на них нигде с других паг нет ссылок?
Скажем, откуда он узнает о существовании /webalizer/bla-bla.html , который я сам создал???

цитата
05/07/04 в 16:20

Mauser
Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.

цитата
05/07/04 в 16:44

Forward

User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

Все эти директории существуют. Ошибок нет.
что тут неверно?
роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...

цитата
05/07/04 в 19:53

Mauser
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.

цитата
05/07/04 в 20:01

Nikola
Forward писал:

User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
Все эти директории существуют. Ошибок нет.
что тут неверно?

Да верно всё...

Forward писал:

роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...

Вот это действительно странно. У меня на новых доменах в error логи вылазит на первое место именно запрос роботс.txt (т.к. его нет

в том числе от гугля.

цитата
05/07/04 в 20:51

Forward
Mauser писал:

Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.

Сейчас уже в последнее время запросы на роботс.тхт временно начали поступать, но дней 8 назад прекратились. Меня просто удивило то, что первым запросом от гугла с момента регистрации домена вижу вот это:

64.68.87.66 - - [18/Jun/2004:09:42:08 +0000] "GET /cooladmin/ HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
64.68.86.138 - - [18/Jun/2004:09:43:29 +0000] "GET /cooladmin/index.php HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

Перерыл все логи, упоминания о гугле не нашел до этого момента.
Папка cooladmin на этом домене была и остается запрещенной в роботс.тхт

Далее:

64.68.86.154 - - [21/Jun/2004:20:52:11 +0000] "GET /robots.txt HTTP/1.0" 200 - "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

64.68.87.69 - - [23/Jun/2004:08:43:40 +0000] "GET /robots.txt HTTP/1.0" 200 159 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

.. потом еще пара таких запросов на роботс.тхт и лишь 1 запрос на страницу сайта.
На этом гугл на меня забил... Уже дней 8 не появляется.

Как гугл умудряется заломится в директорию, запрещенную для индексирования - не понимаю...

цитата
05/07/04 в 21:07

Forward
Вопрос не в том, что запрашивает гугл роботс.тхт или нет...
Суть вопроса в том, почему гугл первым своим запросом ищет не роботс.тхт, а что-то левое, пусть даже запрещенное для индексирования в самом роботс и ссылок на которое нигде нет.

цитата
14/07/04 в 11:14

xhot_com
а google-баров всяких у тебя нет? может стучит что-нить. Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.

цитата
14/07/04 в 12:20

Forward
xhot_com писал:

а google-баров всяких у тебя нет? может стучит что-нить.

Да, гугл-тулбар стоит...

xhot_com писал:

Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.

Алекса пришла после того, как ее тулбар "постучал"? Или она читает новые записи в днс?

Новая тема Ответить

Эта страница в полной версии