RS: Локальному поиску уделяется в последние дни огромное внимание. В прошлом году Overture сделал демо локального поиска открытым для всех. Как прошла эта акция?
GF: Превосходно. Мы были очень польщены тем, как прошел тест и какие отзывы мы получили и от прессы, и от пользователей. Это действительно огромная возможность для всего Yahoo!, и наша цель – разработать стратегию, которая позволила бы объединить все усилия, предпринимаемые в разных отделениях компании в области локального поиска.
RS: Очень часто пользователи не знают точно, что они ищут. Поисковый запрос должен быть сформулирован и затем построен. Это то, что могут сделать работники справочной службы. Стоит ли им волноваться о том, что они скоро потеряют работу?
GF: Одно из моих любимых высказываний: "данные - не информация; информация - не знание; знание - не мудрость". Сегодня SE могут предоставить вам массу данных, среди которых содержится множество ценной информации, но все эти данные и информация не обеспечат знания и мудрости. Я думаю, работники справочных служб сохранят свою работу надолго. Когда наступят изменения, связанные с улучшениями работы SE, я думаю, что роль справочных служб тоже будет постепенно изменяться, от простого оперирования данными к мудрости. Подобные процессы происходят уже сейчас, и от этого выигрывают все.
RS: В так называемых «традиционных» поисковых базах данных, сведение количества дубликатов к минимуму часто является важной целью. Тем не менее, дубликаты и спам являются проблемой для многих поисковиков. Что Yahoo и Yahoo Research делают, чтобы решить эту проблему? Какие еще области являются проблемными для ботов?
GF: Мы работаем над текстами и ссылками для нахождения дубликатов и спама. Спам - очень интересная проблема, потому что он имеет эволюционный характер. Мы создаем алгоритмы обнаружения спама, спам приспосабливается к ним, и круг повторяется. Тем не менее, я думаю, проблема SE-спама в итоге будет решена.
Я полагаю, что одна из труднейших проблем для ботов - баланс загрузки, планирование, определение свежести и ценности информации. Вот дилемма: пользователи хотят, чтобы контент был свежим, и большинство вебмастеров хотят, чтобы он индексировался регулярно. В результате, независимо от того, как мы планируем сканирование страниц, угодить всем тяжело, и кто-нибудь все равно останется недоволен. Чтобы сделать процесс более интересным, мы повышаем эффективность работы ботов параллельным сканированием многих сайтов. Решение этой проблемы интересно, но крайне трудно.
RS: Какие поисковые возможности, предлагаемые вашими конкурентами, вы бы хотели изобрести первыми?
GF: Мне нравится Google-оператор "тильда", и я думаю, что Teoma делает впечатляющие расчеты во время запроса.
RS: Каково вам было, когда на протяжении нескольких последних лет одна компания приковывала к себе все внимание? Приводило ли это в замешательство?
GF: Как компания, мы сосредоточены на создании великолепных сервисов, и как исследовательская лаборатория - на безупречных исследованиях. Как я уже упоминал, поиск (и решение других Интернет-проблем) – весьма долгосрочные предприятия. Сейчас – период ранней молодости, и то, что мы создадим в будущем, сделает современные SE игрушками. Так что, отвечая на ваш вопрос, я скажу, что все происходит к лучшему. Появление компании, которая создает новую индустрию, и которую копируют другие, само по себе уже награда ;-).
RS: С приобретением AltaVista, Yahoo получил превосходную базу данных изображений. Есть ли у Yahoo какие-либо планы насчет того, чтобы сделать поиск текста в изображениях (при помощи OCR)?