Бретт Табке (Brett Tabke), владелец ресурса WebmasterWorld, согласился ответить на мои вопросы, касающиеся недавней новости о бане ботов поисковых систем на индексацию сайта WebmasterWorld (далее – WW). Читайте…
Barry: Бретт… Спасибо тебе, что нашел время, учитывая нынешний напряженный график на WW, чтобы ответить на некоторые вопросы о последних изменениях на твоем сайте. Изменений, которые запретили спайдерам доступ к нему.
Это было довольно серьезным решением, когда 18 ноября вы изменили ваш файл robots.txt, запретив всем ботам доступ к сайту. В топике, который ты создал на форуме Foo на WW, и который назывался «давайте попробуем это в течение нескольких месяцев», ты поместил ссылку на ваш файл robots.txt, чтобы показать его людям. В качестве подзаголовка того топика стояло «последнее прибежище против мошеннических ботов». Почему были предприняты подобные действия? Я разговаривал со многими владельцами сайтов, схожими по величине с твоим. Большинство из них сказали мне, что этих мошеннических ботов можно победить одного за другим, однако при этом нужно учитывать стоимость этой борьбы в смете расходов на поддержку сайта. Что ты думаешь по этому поводу?
Brett: Довольно сложно обсуждать проблемы, которые граничат с вопросами безопасности. Как только ты начинаешь публично говорить о чем-то и о предпринимаемых тобой действиях, ты тем самым даешь толчок к контрмерам. Однако мы не скрывали, на протяжении многих лет, что это была проблема номер один на нашем сайте. Еще пять лет назад я пытался поднимать вопрос на форумах о создании стандарта для Включения роботов (вместо стандарта Исключения роботов).
Одна деталь отличает WW от других подобных сайтов. Это легкость с которой он может обрабатываться спайдерами. На нем нет параметров CGI в строках URL, и любой захудалый бот может индексировать сайт. Я могу за 5 минут написать скрипт на Perl, состоящий из 15 строк, который загрузит сайт полностью – даже с учетом поддержки куков. Этого нельзя сказать о сайтах, которые не настолько просты для считывания (подобно другим форумам или сайтам с аукционами, основанными на CGI или нестандартных URL).
От нас потребовалось ввести поддержку кук, посредством логина пользователя. Этот шаг требует, также, разрешение большим признанным поисковым системам запускать своих пауков через страницу логина - они не должны просматривать несколько миллионов страниц только для того, чтобы понять, что сайт на 100% отличен от ранее просмотренной версии. Самое простое решение этой проблемы – установить бан для всех спайдеров в файле robots.txt
Я отдаю себе отчет в том, что этот шаг может оказаться противоречивым. В таких случаях, лучше самому указать на проблему, чтобы люди не подумали, что вас принудили к подобным действиям. Я сделал тот постинг индикатором того, что мы сами решили действовать именно так, и позже я предоставлю дополнительную информацию - после того, как ситуация немного прояснится. Мы пошли по этому пути где-то в середине июля, когда начали блокировать многие из основных спайдеров.
>Почему были предприняты подобные действия?
Мы перепробовали все возможные способы, чтобы остановить боты. Дошло до того, что в нашем системном бан-листе было несколько тысяч IP, и это начало серьезно сказываться на функционировании системы. Иногда, также, случалось, что мы банили IP, который потом переходил к другому пользователю, не имевшему ничего общего с загрузочными атаками. Довольно сложно блокировать IP, скажем, компании AOL, поскольку вы блокируете несколько миллионов пользователей, использующих этот IP через AOL proxy cache.
> Я разговаривал со многими владельцами сайтов, схожими по величине с твоим.
Не только размер имеет значение. На первом месте стоит легкость, с которой можно спайдерить WW. Я потратил около недели на изучение офлайновых браузеров. Все загрузчики сайтов, или офлайновые браузеры, доступные на Tacows, способны полностью загрузить WW. Только 6 из них смогли успешно загрузить часть сайта Vbulletin. Многие спотыкались на неуклюжих URL (содержащих заглавные буквы в именах файлов, или слишком длинные имена файлов).
> Большинство из них сказали мне, что этих мошеннических ботов можно победить одного за другим,
Да, мы тратили на решение этой проблемы один-два часа в день, и я подумывал о том, чтобы нанять для этого отдельного человека.