Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Поисковые Системы
»
Тема:
Игнорирование robots.txt ?
Новая тема
Ответить
цитата
05/07/04 в 13:19
Forward
Никак не пойму:
какого икса гугл лезет в директории, запрещенные для индексирования?
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
...и эта сволочь, вместо того, чтобы лазить по корню, постоянно шарится в webalizer'e...
Замечал еще, что на некоторых доменах часто запрашивает даже скрипты из админ-зоны, ссылок на которые нигде и в помине нет, кроме того же вебалайзера...
Почему гугл robots.txt сначала вообще не запрашивает, а изначально сразу лезет в вебалайзер?
новая фича?
цитата
05/07/04 в 13:48
Nikola
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит?
Если просто гуляет, может и х с ним? Я в нужные страницы вставляю тэг meta name="robots" content="noindex, nofollow"
Тогда точно не индексит страницу, а по линкам может и лазит, я за ним не слежу.
цитата
05/07/04 в 14:15
Forward
Nikola писал:
Насчёт robots.txt, может глюк это? Он индексирует страницы или просто лазит?
Если просто гуляет, может и х с ним?
Индексирует, судя по всему...
Просто хочется заставить его побыстрее корневик проиндексировать вместо левого вебалайзера...
meta name="robots" content="noindex, nofollow"
это спасет от индексирования паги, но как бы ему запретить на эту пагу вообще лезть...
robots.txt не запрашивает...
сразу ломится в вебалайзер...
цитата
05/07/04 в 14:16
Sergunya
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.
Во только индексирует ли, сам не знаю?
цитата
05/07/04 в 14:21
Forward
Sergunya писал:
спрашивал я как то про robots.txt на SE.ru, отвечали мне там, что Гуглю на запреты, указанные в этом файле по барабану, он все равно заходит на те страницы.
А как он их находит, если на них нигде с других паг нет ссылок?
Скажем, откуда он узнает о существовании /webalizer/bla-bla.html , который я сам создал???
цитата
05/07/04 в 16:20
Mauser
Forward, или утебя роботс неверно написан или это не гугль. Гугль как раз роботс уважает.
цитата
05/07/04 в 16:44
Forward
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
Все эти директории существуют. Ошибок нет.
что тут неверно?
роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...
цитата
05/07/04 в 19:53
Mauser
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.
цитата
05/07/04 в 20:01
Nikola
Forward писал:
User-agent: *
Disallow: /cgi-bin/
Disallow: /img/
Disallow: /webalizer/
Все эти директории существуют. Ошибок нет.
что тут неверно?
Да верно всё...
Forward писал:
роботс.тхт был положен в корень сразу же, но гугл его так и не запросил ни разу.... странно это все...
Вот это действительно странно. У меня на новых доменах в error логи вылазит на первое место именно запрос роботс.txt (т.к. его нет
в том числе от гугля.
цитата
05/07/04 в 20:51
Forward
Mauser писал:
Forward, даже запросов robotx.txt нету??? Ну быть такого не может. Стукнись в 177952596, посмотрим логи.
Сейчас уже в последнее время запросы на роботс.тхт временно начали поступать, но дней 8 назад прекратились. Меня просто удивило то, что первым запросом от гугла с момента регистрации домена вижу вот это:
64.68.87.66 - - [18/Jun/2004:09:42:08 +0000] "GET /cooladmin/ HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
64.68.86.138 - - [18/Jun/2004:09:43:29 +0000] "GET /cooladmin/index.php HTTP/1.0" 200 1466 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
Перерыл все логи, упоминания о гугле не нашел до этого момента.
Папка cooladmin на этом домене была и остается запрещенной в роботс.тхт
Далее:
64.68.86.154 - - [21/Jun/2004:20:52:11 +0000] "GET /robots.txt HTTP/1.0" 200 - "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
64.68.87.69 - - [23/Jun/2004:08:43:40 +0000] "GET /robots.txt HTTP/1.0" 200 159 "-" "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
.. потом еще пара таких запросов на роботс.тхт и лишь 1 запрос на страницу сайта.
На этом гугл на меня забил... Уже дней 8 не появляется.
Как гугл умудряется заломится в директорию, запрещенную для индексирования - не понимаю...
цитата
05/07/04 в 21:07
Forward
Вопрос не в том, что запрашивает гугл роботс.тхт или нет...
Суть вопроса в том, почему гугл первым своим запросом ищет не роботс.тхт, а что-то левое, пусть даже запрещенное для индексирования в самом роботс и ссылок на которое нигде нет.
цитата
14/07/04 в 11:14
xhot_com
а google-баров всяких у тебя нет? может стучит что-нить. Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.
цитата
14/07/04 в 12:20
Forward
xhot_com писал:
а google-баров всяких у тебя нет? может стучит что-нить.
Да, гугл-тулбар стоит...
xhot_com писал:
Alexa стучит 100%. Поисковик пришел через 10 мин. после прописки хоста в dns'е.
Алекса пришла после того, как ее тулбар "постучал"? Или она читает новые записи в днс?
Новая тема
Ответить
Эта страница в полной версии