Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Игнорирование robots.txt ?
цитата
05/07/04 в 13:19
 Forward
Никак не пойму:
какого икса гугл лезет в директории, запрещенные для индексирования?

User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

...и эта сволочь, вместо того, чтобы лазить по корню, постоянно шарится в webalizer'e...
Замечал еще, что на некоторых доменах часто запрашивает даже скрипты из админ-зоны, ссылок на которые нигде и в помине нет, кроме того же вебалайзера...

Почему гугл robots.txt сначала вообще не запрашивает, а изначально сразу лезет в вебалайзер? icon_smile.gif новая фича?
цитата
05/07/04 в 13:48
 Nikola
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит? icon_smile.gif Если просто гуляет, может и х с ним? Я в нужные страницы вставляю тэг meta name="robots" content="noindex, nofollow"
Тогда точно не индексит страницу, а по линкам может и лазит, я за ним не слежу. icon_lol.gif
цитата
05/07/04 в 14:15
 Forward
Nikola писал:
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит? icon_smile.gif Если просто гуляет, может и х с ним?


Индексирует, судя по всему...
Просто хочется заставить его побыстрее корневик проиндексировать вместо левого вебалайзера...

meta name="robots" content="noindex, nofollow"

это спасет от индексирования паги, но как бы ему запретить на эту пагу вообще лезть...
robots.txt не запрашивает...
сразу ломится в вебалайзер... icon_sad.gif
цитата
05/07/04 в 14:16
 Sergunya
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.
Во только индексирует ли, сам не знаю?
цитата
05/07/04 в 14:21
 Forward
Sergunya писал:
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.


А как он их находит, если на них нигде с других паг нет ссылок?
Скажем, откуда он узнает о существовании /webalizer/bla-bla.html , который я сам создал???
цитата
05/07/04 в 16:20
 Mauser
Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.
цитата
05/07/04 в 16:44
 Forward


User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/

Все эти директории существуют. Ошибок нет.
что тут неверно?
роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...
цитата
05/07/04 в 19:53
 Mauser
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.
цитата
05/07/04 в 20:01
 Nikola
Forward писал:
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
Все эти директории существуют. Ошибок нет.
что тут неверно?


Да верно всё...

Forward писал:

роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...


Вот это действительно странно. У меня на новых доменах в error логи вылазит на первое место именно запрос роботс.txt (т.к. его нет icon_smile.gif в том числе от гугля.
цитата
05/07/04 в 20:51
 Forward
Mauser писал:
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.


Сейчас уже в последнее время запросы на роботс.тхт временно начали поступать, но дней 8 назад прекратились. Меня просто удивило то, что первым запросом от гугла с момента регистрации домена вижу вот это:

64.68.87.66 - - [18/Jun/2004:09:42:08 +0000] "GET /cooladmin/ HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
64.68.86.138 - - [18/Jun/2004:09:43:29 +0000] "GET /cooladmin/index.php HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

Перерыл все логи, упоминания о гугле не нашел до этого момента.
Папка cooladmin на этом домене была и остается запрещенной в роботс.тхт

Далее:

64.68.86.154 - - [21/Jun/2004:20:52:11 +0000] "GET /robots.txt HTTP/1.0" 200 - "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

64.68.87.69 - - [23/Jun/2004:08:43:40 +0000] "GET /robots.txt HTTP/1.0" 200 159 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"

.. потом еще пара таких запросов на роботс.тхт и лишь 1 запрос на страницу сайта.
На этом гугл на меня забил... Уже дней 8 не появляется.

Как гугл умудряется заломится в директорию, запрещенную для индексирования - не понимаю...
цитата
05/07/04 в 21:07
 Forward
Вопрос не в том, что запрашивает гугл роботс.тхт или нет...
Суть вопроса в том, почему гугл первым своим запросом ищет не роботс.тхт, а что-то левое, пусть даже запрещенное для индексирования в самом роботс и ссылок на которое нигде нет.
цитата
14/07/04 в 11:14
 xhot_com
а google-баров всяких у тебя нет? может стучит что-нить. Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.
цитата
14/07/04 в 12:20
 Forward
xhot_com писал:
а google-баров всяких у тебя нет? может стучит что-нить.


Да, гугл-тулбар стоит...

xhot_com писал:

Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.


Алекса пришла после того, как ее тулбар "постучал"? Или она читает новые записи в днс? icon_smile.gif


Эта страница в полной версии