Master-X
Форум | Новости | Статьи
Главная » Статьи » Интервью » Бретт Табке отвечает на вопросы о Бане Ботов » 
СТАТЬИ

Бретт Табке отвечает на вопросы о Бане Ботов
Barry: Как часть процесса, вы ввели изменение, согласно которому теперь требуется поддержка кук - большинство ботов не поддерживают эту функцию. В качестве побочного эффекта, все пользователи должны по-новой залогиниться на WW. Первый вопрос, есть ли у вас статистика, как часто использовалась функция «Забыли пароль?» за последние 5 дней? J И второй вопрос: может быть, эффективнее было потратить деньги на специалиста для борьбы с этими ботами, чем полностью потерять трафик с поисковых систем?

Brett: Большинство людей пользуются браузерами, подобными Opera или IE, которые автоматически запоминают пароли. Именно поэтому мы обновляли наши куки примерно каждые 60 дней. Это не позволяет случайно оставлять куки в Интернет-кафе или на рабочем месте.

>эффективнее было потратить деньги на специалиста для борьбы с этими ботами, чем полностью потерять трафик с поисковых систем?

Даже привлечение человека на полную занятость, в данном случае, не решит проблемы. Все инструменты, которыми мы пользовались, были что мертвому припарка. Мы испробовали: ограничение на просмотр страниц (page view throttling), ограничение на ширину канала (bandwidth throttling), парсинг имени агента (agent name parsing), запрос кук от определенных ISP (более 500, включая Европу/Китай), бан IP, различные формы клоакинга и маскировку (obfuscation) сайта, чтобы сделать сайт недоступным для не-поисковых ботов.

Самое неприятное здесь – огромное количество дополнительных надстроек и времени, которое требуется на управление всем этим. Если свести все воедино, голова пойдет кругом. От предварительного парсинга лог-файлов, до кодирования и настроек сервера, плюс последующее управление процессами – на это требуется неоправданно большое количество времени. И ошибки при этом допускаются крайне легко (однажды мы забанили пользователей из Новой Зеландии, потому что был забанен большой прокси-сервер одного крупного ISP, расположенного там). Наш сайт создан для пользователей – но не для мошеннических ботов.

Barry: Стоит отметить: почти все известные деятели индустрии были шокированы, когда узнали, что вы собираетесь предпринять подобные действия. Поводом для насмешек стало ваше предположение, что вы не пропадете из листингов в течение 30 дней, не говоря уже о 60 днях. Дэнни Салливан (Danny Sullivan) сказал:

Бретт считает, что у него есть 60 дней, пока страницы не понизятся в результатах поиска, подобных Google, чтобы предоставить альтернативное решение для поисковиков. Мне это кажется весьма оптимистичным. WW – выдающийся сайт, и он должен посещаться роботами, по крайней мере, ежедневно. Если поисковые системы будут снова и снова натыкаться на бан в файле robots.txt, они должны довольно быстро опустить эти страницы в листингах – или их нельзя называть хорошими поисковыми системами. Судите сами, насколько ироничными будут высказывания по поводу Yahoo или Google на том же WW, если они замешкаются с понижением ранкинга страниц после того, как им сказали сделать это, поместив в бан.

Поисковые эксперты (DaveN, Oilman, SEGuru и другие) считают так же. Почему ты полагаешь, что это не произойдет настолько быстро?

Brett: Прошло более 180 дней с того момента, как мы заблокировали GigaBlast, 120 дней после блокирования Jeeves, более 90 дней после блокирования MSN, и почти 60 дней после блокирования Slurp. По состоянию на прошедший вторник, мы числились во всех, кроме Teoma. MSN отработал довольно быстро, однако продолжал листить URLы без сниппетов.

Google будет пытаться достучаться к сайту на протяжении до 90 дней после того, как вы пропишете бан в файле robots.txt. Мы наблюдали в листингах сайты, которые были полностью недоступны, до 6 месяцев спустя - в виде простых URL. Этот процесс можно ускорить только через утилиту удаления URL в Google. Данную опцию я не использовал в Google на протяжении многих лет, и даже забыл о ее существовании.

Barry: В том топике, который упоминался выше, ты выразил свое разочарование в поисковых системах «за изменение совершенно работоспособного и общепринятого Интернет-стандарта». Можешь ли ты подробнее изложить свое видение вопроса, а также очертить шаги, которые они должны предпринять, чтобы привести синтаксис файла robots.txt в соответствие с текущим моментом?

05.12.05
Источник: Seroundtable.
Автор: Barry. Перевод: Seva.
Стр. « первая   <  1, 2, 3, 4  >  последняя »


Эта страница в полной версии