Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Ошибки сканирования
цитата
25/09/11 в 12:37
 net666
В GWT, в "Ошибках сканирования", такая запись "Заблокирован файлом robots.txt ‎(137)‎" .
В robots.txt есть строка "Disallow: */feed*", вот все feed и блокированы.
Это дествительно ошибка ? Ее надо исправлять, , вроде все по чесному просто закрыл для индексации некоторые паги и все, для гугли это плохо ?
цитата
25/09/11 в 13:57
 sergio21
net666:
1. в некоторых источниках читал, что использование звездочки в качестве "любой знак" в роботс.тхт не допускается.
правда, в других местах пишут, что это можно делать.

если ты хочешь закрыть от индексации только папку feed, лучше пропиши так: Disallow: /feed/

2. я думаю, что сообщение о подобных ошибках возникает тогда, когда гугл находит на твоем сайте ссылку, не закрытую тэгом "noindex" на страницы, которые закрыты от индексации в роботс.тхт
т.е., получается противоречие: ссылка говорит: "индексировать", а роботс.тхт говорит: "индексировать запрещено".
попробуй найти такие ссылки и прописать им "noindex".
если после этого сообщения об ошибках исчезнут, отпишись, плз, в этом топике.
цитата
25/09/11 в 15:05
 net666
Спасибо, сегодня попробую, постараюсь на забыть отписаться :-)
цитата
25/09/11 в 18:51
 net666
Привел robots.txt в соответствие рекомендациям с http://robotstxt.org.ru/robotstxterrors (вкючая все ссылки из стать).
Ссылок на feed с этой dir связанное, я не нашел.
В хедере остались
<link rel="alternate" type="application/rss+xml" title="XXX XX &raquo; Feed" href="http://www.xxx.com/feed/" />
<link rel="alternate" type="application/rss+xml" title="xxx xx &raquo; Comments Feed" href="http://www.xxx.com/comments/feed/" />
Это на индексе, в постах и пагах к этому жобаляются еще адреса для постов и паг, еще по одной строке.
Как это удалить пока не знаю.
Может в этом проблема и есть ?
цитата
27/09/11 в 21:42
 net666
Прошу прощения, буду здесь писать свои действия чтоб не забыть, может пользу юудет :-)
Написал еще одни топик, ПО совету andreich порлся в *****/wp-includes/general-template.php
Вроде нашел, что отключить. Закоментил
echo '<link rel="alternate" type="' . feed_content_type() . '" title="' . esc_attr(sprintf( $args['feedtitle'], get_bloginfo('name'), $args['separator'] )) . '" href="' . get_feed_link() . "\" />\n";
echo '<link rel="alternate" type="' . feed_content_type() . '" title="' . esc_attr(sprintf( $args['comstitle'], get_bloginfo('name'), $args['separator'] )) . '" href="' . get_feed_link( 'comments_' . get_default_feed() ) . "\" />\n";
}
я не программер. просто по логике отрубил. Но результат есть, пропали строки с алтернативными линками. На пагах, осталось. но их мало.
Посмотрю через несколько дней, что будет с ошибками сканирования.
Постараюсь отписаться.
цитата
27/09/11 в 22:13
 orvas
sergio21 писал:

2. я думаю, что сообщение о подобных ошибках возникает тогда, когда гугл находит на твоем сайте ссылку, не закрытую тэгом "noindex" на страницы, которые закрыты от индексации в роботс.тхт
т.е., получается противоречие: ссылка говорит: "индексировать", а роботс.тхт говорит: "индексировать запрещено".
попробуй найти такие ссылки и прописать им "noindex".
если после этого сообщения об ошибках исчезнут, отпишись, плз, в этом топике.

"noindex" - гугл не знает такой тег.
цитата
28/09/11 в 01:32
 cdroller
еще как знает, когда он записан там где должен быть - в мета, а не как яндексоиды предлагают отдельными тагами хуярить

net666, хуй знает чем тебе ссылки на RSS ленту помешали, если ее не генерируешь, то конечно ебни ... или можно заменить на линки фидбернера, если через него прогоняешь ... но думаю что наврятли дело в них
цитата
29/09/11 в 21:56
 net666
cdroller:
Ну а откуда эти ошибки берутся ? Хотя нет полной уверенности , что это ошибки, подожду несколько дней еще, будет видно.
цитата
01/10/11 в 08:17
 net666
После изменений количество "ошибок" начало уменьшаться, но медленно. Жду еще... icon_cool.gif
цитата
02/10/11 в 20:06
 cdroller
Заблокирован файлом robots.txt - это не ошибка, это хуйня ... бот не может индексировать ссылку, потому что в роботсе стоит на нее запрет, вот он весело закидывает ее в ошибки и сканирует дальше ... вообще все это хуйня в большинстве случаев, дубли хуюбли страниц, построение сайтмапов и т.п. говнокопательства в вебмастертулзе, от нехуй делать наверно люди дрочатся с этим ... гугл сам определяет все что нужно в большинстве случаев, дубли склеивает на то куда бэков больше, сайтмапы нахуй ему не нужны, один хуй по страницам и внешним ссылкам сам базу свою собирает ... там можно неделями и месяцами копаться а толку не будет, на "любовь" ПС влияют совсем другие параметры, вовсе не та хуйня что написана в рекомендациях про красивые тексты для людей, удаление дублей, построение сайтмапов нахуй ненужных и прочее ...
цитата
05/10/11 в 05:50
 net666
С 25 сентября по сегодняшний день, количество "ошибок" изменилось с 137 до 120. Связано-ли это с моими изменениями ? Не знаю :-)
цитата
08/10/11 в 07:40
 net666
Восстановил все , появились новые ошибки "Истекло время ожидания" с какого перепуга х.з.
цитата
08/10/11 в 08:43
 Sergeyka
да не парься ты слишком по этим ошибкам, прими к сведению и все


Эта страница в полной версии