В мае 2003 года, совладелец Google Сергей Брин оставил свой след в журналистике. Статья была написана несколькими авторами – разработчиками Google. Тема: релевантность новостных материалов в Сети новостям, передаваемым по широковещательному ТВ. Целью авторов было найти пути для воплощения следующей задачи: пока пользователь смотрит себе телевизор (вполне возможно, что на собственном PC), ему можно показывать ссылки на другие статьи или промо-материалы, релевантные контенту, который он просматривает. Подобное уже происходит, но не автоматически, когда телевизионные сети рекламируют в нижней части экрана другие передачи или веб-сайты.
Интересно, как видит себе Брин и его коллеги «релевантность» контенту, содержащемуся в видео? Тут не обойтись без анализа текста, проговариваемого в телепередачах, подобных CNN Headline News, с использованием стенограмм титров. Без этих стенограмм, практически невозможно определить релевантность.
Попытка поиска в видео без доступа к тексту, содержащемуся в нем, подобна поиску книги, в которой упоминается римский император Нерон, путем просмотра обзоров этой книги. Тем не менее, большинство современных поисковых сайтов идут именно таким путем при поиске файлов мультимедиа. Сканируются «метаданные», ассоциированные с веб-контентом. Метаданные включают в себя текст, появляющийся на странице вместе с видеофайлами, иногда «тэги» (которые вводятся пользователями вручную, как на Del.icio.us и Flickr), информацию о видео – выдержки из телепрограмм, описания или кейворды, использованные на других сайтах для ссылок на видео.
Прошло почти три года после появления этой статьи Брина. Вставшая на ноги видео-поисковая служба Google по-прежнему полагается на эти метаданные. Для компании, которая завоевала стратегическое лидерство, и неплохую долю рынка при этом, путем использования высококлассной поисковой технологии, подобный провал в видео-поиске непростителен. Особенно на фоне молодых компаний (можно назвать, по крайней мере, три стартапа – TVEyes, BBN и Autonomy с сервисом Blinkx), которые уже предлагают услуги полнотекстового аудио-поиска.
Упомянутые фирмы начинали с того, что делали госзаказы на поиск в речевых массивах информации. Американские службы безопасности весьма заинтересованы в возможности поиска слов в различных потоках аудио и видео данных. По сути, практически все программное обеспечение по распознаванию речи берет начало в Агентстве по Специальным Исследовательским Проектам для обеспечения безопасности (Defense Advanced Research Projects Agency – DARPA). Эта бюджетная организация функционирует с 1970 года. DARPA, также, создала сеть компьютеров, которая в конечном счете превратилась в Интернет.
Технология по распознаванию речи отличается дороговизной и сложностью, поэтому крупные компании (Google, Yahoo!) должны будут либо покупать лицензии на использование технологии, либо приобретать компании, у которых эти технологии уже имеются. Речь идет не о проекте, который бригада инженеров сможет сваять за пару недель. Причем подрядчики министерства обороны не стали дожидаться, пока Google или Yahoo! постучатся к ним, а стали разрабатывать собственные интерфейсы для того, чтобы этот тип поиска стал доступен потребителям.
TVEyes, к примеру, существует уже семь лет и Министерство Обороны у него один из самых уважаемых заказчиков. Поисковый бизнес компании, tveyes.com и сайт подкаст-поиска podscope.com составляют сравнительно небольшую часть общих доходов компании. Но директор фирмы Давид Ивз (David Ives) предрекает быстрое развитие именно в этом секторе. Как говорит Ивз, «мы подобны торговцам оружием» для крупных поисковиков, которые пытаются получить лицензию на технологию.
На сайте TVEyes можно найти поиск, который получает результаты из онлайн-версий основных поставщиков медиа-контента. Поиск по слову “Dubai” вернул видео-клипы из Foxnews.com и CNN.com. Результаты базируются, в основном, на фонетической стенограмме видео-клипов, и вы можете воспроизвести сниппет, содержащий ваш поисковый термин, прямо на странице TVEyes. Клип целиком можно просмотреть на сайте поизводителя контента, куда вас направит соответствующая ссылка.
На сайте Podscope.com той же компании TVEyes вы можете осуществлять поиск среди 100 000 аудио и видео подкастов. Владельцам аудио и видео блогов (их теперь называют влоггерами – vloggers) предоставляется возможность направить свои сайты в поисковый индекс. Таким образом, вы можете узнать, что говорят по поводу интересующей вас темы производители любительского контента, ну а подкастеры получают возможность заявить о себе.
В сентябре 2005 года, AOL заявил, что ведется работа над службой поиска в подкастах, которая будет функционировать на платформе Podscope. Сервис еще не запущен, но есть все основания ожидать его появления этой весной. Для видео-поиска AOL приобрел Singingfish.com и Truveo. Обе эти поисковые системы основаны на поиске в метаданных - по принципу Google и Yahoo!, без анализа аудио стенограмм.
27.03.06
Источник:
forbes.com.
Автор:
Matt Rand. Перевод:
Seva.