Про робот.тхт

Тема: Про робот.тхт

цитата
25/11/05 в 06:19

wdfrretevw
хочется уточнить такой момент, если запрещена кака нибудь папка,
то поисковики не видят этих сылок, то есть их как будто не существет?
правильно?

и правилораспросраняется на все субпапки запрещеной папки.
и просба пример запрета индексации папки как писать?

рейтинг будет

цитата
25/11/05 в 08:29

wdfrretevw
а вот еще можно ли субдомен запредить к индексации,
то есть именно на главном домене сделать робот тхт и на нем написать что такие субдомены к индексации запрещены , будет ли это работать?

цитата
25/11/05 в 10:05

Eklmn
гугл очень часто игнорирует запреты в robots.txt .
на каждом субдомене делать robots.txt надо.

цитата
25/11/05 в 10:31

pierx
Интересная дискуссия была на http://www.webmasterworld.com/forum5/1531.htm
Еще на всякий случай ссылку http://www.robotstxt.org/wc/robots.html

цитата
25/11/05 в 11:25

Mauser
Eklmn, я ни разу не видел что бы гугль пригнорировал роботс.

wdfrretevw, неправильно. Запрос роботсом запрещает БРАТЬ эти урлы. Но не запрещает видеть ссылки на них. Смотри: сюда

цитата
25/11/05 в 13:54

Eklmn
Mauser писал:

Eklmn, я ни разу не видел что бы гугль пригнорировал роботс.
wdfrretevw, неправильно. Запрос роботсом запрещает БРАТЬ эти урлы. Но не запрещает видеть ссылки на них. Смотри: сюда

http://forum.searchengines.ru/showthread.php?t=24084&highlight=google+robots.txt

http://forum.searchengines.ru/showthread.php?t=16845&highlight=google+robots.txt

http://forum.searchengines.ru/showthread.php?t=16173&highlight=google+robots.txt

http://forum.searchengines.ru/showthread.php?t=12089&highlight=google+robots.txt

цитата
25/11/05 в 18:18

Mauser
Eklmn, об этом много говорят, но де-факто все случаи сводятся к тому, как интерпретирует поисковик некорректный роботс. Гугль игнорирует части не по стандарту написанные.

Например во второй ссылке, где дан урл, черным по белому разъяснили причины "игнорирования".

А в четвертой черным по белому повторено то что я выше сказал. Это непонимание что роботс не запрещает урлы в выдаче, а запрещает боту обращаться к самому файлу.

цитата
25/11/05 в 20:22

Eklmn
я не собираюсь с тобой спорить...
все поисковики понимают правильно robots.txt ,
а гугла придумала свои правила и по ним живет.
покажи мне урл хоть одного поисковика где нужно вбивать
запрещенные к индексации урлы ,чтобы их удалили из выдачи.

цитата
25/11/05 в 20:44

Stek
Линки из роботс все равно участвуют в индекации, только в выдаче их не видно. Это к гуглу применимо.

цитата
25/11/05 в 21:32

Mauser
Eklmn, поисковики как раз понимают правильно. Например yahoo или msn.
Ни один из них, в полном соответствии с роботс, не берет эти файлы. Но они в курсе о ссылках которые туда ведут и в курсе о существовании некоторых урлов. Цитата с http://www.robotstxt.org/wc/faq.html#prevent Цитата:

the basic concept is simple: by writing a structured text file you can indicate to robots that certain parts of your server are off-limits to some or all robots

То есть вопрос включения в индекс вообще не регламентируется роботсом. Роботс предназначен ТОЛЬКО для запрета роботам посещать те или иные страницы. И это касается не только поисковых роботов, а вообще любых. Вопрос наличия страницы в индексе вообще не имеет отношения к делу.

Stek, что значит "линки участвуют в индексации"? Факт существования - да. Содержимое урлов - нет. Линки прекрасно видно в выдаче. Вона, посмотри на ссылку поиск crutop на MSN Найден урл crutop.nu/vbulletin. В ранжировании же учитываются и внешние факторы. В данном случае их хватает что бы поставить этот урл на первое место даже безотносительно к содержимому самого урла.

цитата
25/11/05 в 22:17

teller
wdfrretevw писал:

и просба пример запрета индексации папки как писать?
рейтинг будет

файл robots.txt
пишем:

User-agent: *

Disallow: /sex/
Disallow: /phentermine/

цитата
25/11/05 в 22:55

Eklmn
Mauser я не пойму,что ты пытаешся доказать?
что все поисковики долбаебы и не показывают,то что все пытаются
скрыть от индексации,а гугла самый умный и все показывает?

цитата
25/11/05 в 23:53

Mauser
Eklmn, я тебе уже дал две ссылки. И yahoo показывает и MSN показывает хотя сам сайт полностью закрыт роботсом.

Ты в выдачеи у МСН и у Яхи видишь линку на крутоп? Где поисковики которые "не показывают"?

цитата
26/11/05 в 00:23

Eklmn
по твоему нет разницы показывать наличие этого домена и показывать
кучу закрытых страниц?

цитата
26/11/05 в 00:44

Eklmn
а если ты не понял что я имел под наличием домена,
то поставь корневую папку домена доступ только руту и оставь ее пустой и посмотриш проиндексят поисковики тебя или нет.
чтобы не ждать долго,я тебе сам отвечу - проиндексят даже не имея
рута и получив в лицо 403 ошибку.

цитата
26/11/05 в 00:52

Mauser
Eklmn, ты неправильно понимаешь что есть "проиндексят". Обрати внимание. На Яху и МСН разные документы. На яху crutop.nu, а на мсн crutop.nu/vbulletin Как видишь твоя теория о наличии именно домена на МСНе не оправдывается.

Это уже вопрос политики поисковика что держать в базе и как показывать и по каким запросам выдавать. Закрытость роботом на это никак не влияет. На бис: роботс запрещает ВЗЯТЬ файл. Визит паука начинается с запроса роботса и если там какой-то урл закрыт, то этот урл не запрашивается ботом. Жирная точка. содержимое индекса поисковика - личное дело самого поисковика. И Гугль Бот уважает роботс.тхт. Он таки не запрашивает то, что там закрыто. Но из этого никак не следует что урлы не могут сидеть в индексе.

цитата
26/11/05 в 01:04

Eklmn
msn считает папку за домен из-за редиректа, который стоял на морде.
"проиндексят" - попадут в выдачу.
моя теория верна до тех пор ,пока ты не покажеш мне
в выдаче мсн и яхи любой закрытый от индексации файл либо документ (index.html,index.php или любой другой)

цитата
26/11/05 в 01:20

Mauser
Ну показал же уже! На МСНе crutop.nu/vbulletin и с crutop.nu ридеректа НЕТУ. Набери в браузере crutop.nu. Ты получишь Код:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
<title>Crutop.Nu</title>
</head>
<body bgcolor="Black" text="White" link="White" vlink="White" alink="White">
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<center>
<h3><a href="/vbulletin/">Crutop.Nu</a></h3>
</center>
</body>
</html>

Никакого редиректа там нет.
А в индексе сидит закрытый роботсом crutop.nu/vbulletin имеющий совсем другой код.

Это уже вопрос политики поисковика что показывать в такой ситуации в выдаче и что хранить в базе. Яху предпочла одну страницу, корень домена. Мсн предпочел почему-то форум. А гугль держит все и часть в сапплементал.

Роботс.тхт не регулирует содержимое индекса поисковика. Я ж тебе дал цитату. Там черным по белому написано что и как запрещается.
Ты почему-то решил что указание в роботсе чего-то запрещает "проиндексить" - попасть в выдачу". А откуда ты такое взял? Где сказано что роботс регулирует выдачу поисковика и содержимое его базы?

цитата
26/11/05 в 02:49

Eklmn
ну пиздец ты не угомонный.....
папка это не ДОКУМЕНТ! документ это файл, который тебе или боту выдает АПАЧ, ты имееш полное право на папку без запроса
документа НЕ выдавать этот документ если на него нет прямого запроса!
яха и мсн НЕ показывает |папка/index.html если они запрещены.

редирект с морды на папку всеже помоему был до вчерашнего дня.

цитата
26/11/05 в 03:25

Core
никогда там не было редиректа
и если запрещен / корень, то мсн не имла право выкладывать ссылку на форум, по твоей теории.

хотя гугл, конечно, как всегда, самый умный.

цитата
26/11/05 в 04:07

Eklmn
Core писал:

никогда там не было редиректа
и если запрещен / корень, то мсн не имла право выкладывать ссылку на форум, по твоей теории.
хотя гугл, конечно, как всегда, самый умный.

я непомню когда в последний раз ,не считая вчерашнего,я был на морде крутопа, у меня в закладках до сих пор этот урл
http://www.crutop.nu/cgi-bin/ubb/Ultimate.cgi
который меня редиректит на папку форума.
согласен ,что мсн не имел права давать папку,но он должен
показать присутствие домена.
и не понятна тогда политика мсн почему он вместо показа домена,
показывает домен с папкой,а сам домен не показывает.
у меня только одно обяснение: мсн по каким-то причинам считает
домен/папка/ за домен.
в таком случае получается,что мсн пукнул,а гугла обосрался

цитата
26/11/05 в 04:59

wdfrretevw
то есть если я правильно понял, пр все же передается по этим сылкам, но так как отуда страница не скачивается ПР уходит в пустоту.
Меня этот вопрос больше интересовал с позиции потери ПР
?

цитата
26/11/05 в 05:01

wdfrretevw
а если в сылку поставить rel=nofollow то это тоже самое что запрет через робот.тхт? то есть сылку видит, ПР передает, а страницу не индексирует

цитата
26/11/05 в 05:28

Mauser
Eklnm, http://www.crutop.nu/cgi-bin/ubb/Ultimate.cgi - этот редиректил с момента смена скрипта форума. Но crutop.nu никогда не редиректил. Папка ровно такой же документ как и файл. Ибо это не документ вовсе, это запрос. Отправляется запрос, по нему приходит 200 и содержимое файла. Папка это, файл ли это или вообще хитрый обман - не важно.

Я тебе о том и толкую что если ты наконец перестанешь самозабвенно повторять одно и тоже, а наконец откроешь спецификацию и прочтешь для чего именно существует robots.txt то наконец поймешь что он не имеет никакого отношения к индексу поисковика. Я тебе в черти какой раз повторяю: robots.txt регулирует какие файлы можно запрашивать ботам, а какие нельзя. Все. Никакого упоминания об соджержимом индекса поисковиков тут нет. Индекс поисковика формируется на основании чего-то, но нигде нет упоминания что в индексе не должно быть урлов закрытых роботсом.
"нельзя посещать боту" НЕ РАВНО "нельзя сунуть в индекс".

Сделай такой опыт: поставь домен, закрой все роботсом, но не клади ни одного файла кроме собственно роботса. По всем прочим запросам отдавай 404. И наставь внешних ссылок на /test/ или test.html Ты увидишь что они один культурный бот не возьмет эти эти файлы, но в индексах они появятся.

вот и вот. index1 Бот не можеть взять этот файл и сделать кеш. Он и идет без тайтла и сниппета. Но урл он где-то зацепил.

wdfrretevw, именно так. Такая страница считается не имеющей внешних ссылок, то есть ссылающейся на гугль.

цитата
26/11/05 в 05:54

Eklmn
насчет ПР я если честно несталкивался с такой ситуацией на своих сайтах, если верить Mauser-у, что гугл не ходит по запрещенным страницам, а сам я этого не проверял,т.к. небыло такой необходимости, а только знает как я понял старые страницы которые он проиндексил ДО запрета в robots.txt ,то гугл понятия не имеет существуют они на самом деле или нет и я склонен полагать, что при запрете в robots гугл учитывает ссылки с других
ресурсов и передает ПР, но не передает ПР внутри самого сайта.
что касается rel=nofollow , то я с опаской отношусь к этому и не использую его, если исходить из причин ввода этого тега, то можно предположить, что если % линков с этим тегом превысит % нормальных линков , то могут наверно последовать какие либо санкции со стороны гугла.

Стр. 1, 2 > последняя »

Новая тема Ответить

Эта страница в полной версии