Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Про робот.тхт
цитата
26/11/05 в 05:56
 Mauser
Eklmn, НЕТ! Гугль включает в индекс даже страницы которые никогда не были ему открыты на основании имеющихся внешних ссылок. И даже дает ПР таким страницам.
цитата
26/11/05 в 05:58
 Eklmn
верхний топик запостил не видя,твоего поста
цитата
26/11/05 в 05:59
 Mauser
http://www.google.com/news имеет ПР. Но запрещен. И не имеет кеша.

покопайся и ты дохера таких примеров найешь

http://www.crutop.nu/vbulletin/ - аналогично. Потому что вот
цитата
26/11/05 в 06:02
 Eklmn
насчет ПР я ничего не утверждаю, я же написал,что у меня небыло таких ситуаций, а проверять так это или нет у меня небыло повода.
цитата
26/11/05 в 06:15
 Eklmn
но всеравно, показывать линки даже не собранные ботом ,это полный долбоебизм,когда некоторые годами ждут когда придет бот и проиндексит сайт.
а чтобы избавиться от этого говна нужно еще найти страницу, о которой я сам до недавнего времени и не подозревал, на которой
нужно еще зарегится, и тогда многоуважаемый гугл еще подумает над вашей проблемой.

http://www.google.com/webmasters/remove.html

если ты считаеш, что это все так и должно быть. то тогда я даже и незнаю что сказать.
и я еще ниодного топика не видел на тему какого хуя яха или мсн
показывает запрещенные для просмотра ботом документы, а всторону гугла на каждом углу.
цитата
26/11/05 в 06:25
 Mauser
ну пиздец ты неугомонный... (С) сам знаешь icon_smile.gif

Увы, но вопрос что для гугля правильно, а что нет решают в самом гугле. Там есть форма ля связи и ты можешь прислать туда свое предложение. icon_smile.gif Только не забудь что бот не тратит вренмени на обход этих урлов. Он их включает в индекс на основании внешних факторов. Вот тебе еще страница: http://www.google.com/intl/en/contact/index.html Свое возмущение политикой гугля в этом вопросе ты можешь излить там.
цитата
26/11/05 в 06:49
 Eklmn
ответь пожалуйста на пару вопросов.
1. для чего существует robots.txt
2. для чего существуют поисковые боты(это не те что ищут гостевухи icon_smile.gif )
3. для чего люди ставят запреты в robots.txt

коротко и я отвечу...
1. показать ботам куда можно сувать нос,а куда нет
2. собирать информацию о содержащихся на сайте документах и
сборе этих самым документов.
3. для того чтобы всякие мудаки не знали,что у меня есть эти страницы.

в итоге мы имеем:
хитровыебанный гугл нашел отмазку,когда
robots.txt закрыт , для того чтобы всетаки показать всем линки
на страницы,которые все так пытаются спрятать и с криками
"всем сасать!" выкладывает эти самые линки в поиске.
в то время как другие посковики сразу полезли чистить свои кэши.
а когда ты действительно хочеш посмотреть нужную инфу,
например бэки своего сайта,то и тут "всем сасать!" смотрите ровно
столько, сколько я вам покажу,а не столько сколько я знаю!
цитата
26/11/05 в 06:51
 Eklmn
опять пока кофе делал и тебе писал поста твоего не видел
цитата
26/11/05 в 07:24
 Eklmn
кстати пример с яхой какойто подозрительный...
http://pgprint.ru/robots.txt
последнее изменение :26 ноября 2005 г. 4:34:52 icon_smile.gif
цитата
26/11/05 в 08:10
 Mauser
Потому что я сам то туда не по хттп забираюсь. И каждый раз когда я туда захожу он пересохраняется. Таких примеров дохрена просто их искать сложно потому что содержимого то страницы и роботса в индексе нет.
цитата
26/11/05 в 09:06
 wdfrretevw
ну люди вы разошлись icon_smile.gif
если на сидже или топовом фрихе - типа такой структуры сайта, с большим количеством исходящих сылок. я хотел запретить или хотя бы максимально уменьшить потери исходяшего ПР. данным способом то лучше сделать сылку на директорию запрещеную к индексации а отуда редирект. тк если на прямую делать то ПР будет уходить, а если запрета этой папки к индексации не будет, то робот пойдя по этой сылке увидя что там редирект передаст туда часть ПРа
цитата
26/11/05 в 09:18
 Mauser
wdfrretevw, на закрытую он точно также передаст. Я ж давал выше пример.
цитата
21/12/05 в 01:00
 Tonic
все эти вещи создавались давно..и уже давно это всё неправда...


хотя тред полезен... и прочёл с удовольствием мнения ;)
цитата
21/12/05 в 04:40
 XXL Fuck
вопщем по сабжу роботс.тхт может закрыть папку и все вложенные внутрь папки, но если есть линки на внутренние документы в этих папках, то поисковик про них будет знать, но при заходе бота для индексации этих документов для индексации по прописанному пути, робот.тхт просто не пустит их, вернее бот просто нахнепойдет туда и у нормальных поисковиков боты при заходе на домен нюхают робот.тхт
цитата
21/12/05 в 04:50
 XXL Fuck
глюк
цитата
21/12/05 в 09:02
 Mauser
XXL Fuck, смотри как это бывает:

шаг 1: бот находит где-то ссылку на site.com/forbidden.html.
шаг 2: в базу заносится что вот существует вроде как страничка site.com/forbidden.html
шаг 3: бот приходит на сайт site.com и первым делом запрашивает robots.txt
шаг 4.1: если страничка не была запрещена роботсом, то бот дергает ии и размещает у себя кеш.
шаг 4.2: если страничка запрещена роботсом, то бот просто не отправляет запроса на forbidden.html

Дальше в игру вступает политика формирования базы и ответов на запросы. В ней участвует факт существования ссылок на site.com/forbidden.html То есть по запросу уникального текста находящегося на site.com/forbidden.html эта страница железно не будет найдена ибо поисковик просто понятия не имеет о содержимом страницы. Однако отсюда не следует что нельзч подобрать запрос на который поисковик сочетет наилучшим ответом site.com/forbidden.html исходя из внешних факторов. Причем самой site.com/forbidden.html может вообще не существовать в таком раскладе. Она может 404 отзываться, что с того? Бот этой 404-ой не видел.
цитата
21/12/05 в 15:32
 XXL Fuck
Mauser писал:
XXL Fuck, смотри как это бывает:
бла-бла-бла

ну я типа об этом и говорил, возможно непонятно изъяснился, чуток пьян был
Стр. « первая   <  1, 2


Эта страница в полной версии