Master-X
Форум | Новости | Статьи
Главная » Статьи » Поисковые системы » Google Dance - обновление индекса в поисковой системе Google » 
СТАТЬИ

Google Dance - обновление индекса в поисковой системе Google


  Google передает на Тулбар значения PageRank в виде обычных текстовых файлов. Ранее для этого использовался XML, а на текстовые файлы перешли в августе 2002 года. Файлы PageRank можно запросить непосредственно с домена www.google.com . Обычно URL подобных файлов имеют следующий вид:

  http://www.google.com/search?client=navclient-auto&ch=0123456789&features=Rank&q=info:http://www.domain.com/

  Файлы PageRank содержат только одну текстовую строку. Завершает эту строку аббревиатура "PageRank".

  Параметры, включенные в приведенный здесь URL необходимы для того, чтобы отобразить файлы PageRank в браузере. Значение "navclient-auto" для параметра "client" идентифицирует Тулбар. URL передается через параметр q. Значение "Rank" для параметра "features" определяет, что запрашиваются файлы PageRank. Если его опустить, серверы Google будут передавать файлы XML. Параметр "ch" передает Google контрольную сумму для данного URL, причем эта контрольная сумма может изменяться только тогда, когда Google обновляет версию своего Тулбара.

  Файлы PageRank, запрашиваемые Тулбаром Google, сохраняются в кэше Internet Explorer. Поэтому их URL и контрольные суммы можно легко узнать, заглянув в папку Temporary Internet Files. Зная контрольные суммы ваших URL, вы можете просматривать файлы PageRank в вашем браузере. Поскольку файлы PageRank хранятся в кэше браузера и явно доступны для просмотра, и пока запросы не производятся автоматически, просмотр файлов PageRank в браузере не будет нарушением Правил Google. Однако будьте осторожны. Тулбар передает Google свой собственный User-Agent, в виде:

  Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4/10)

  1.1.60-deleon - это версия Тулбара, которая, естественно, может изменяться. OS - операционная система, которая у вас установлена. Таким образом, Google способен определять запросы от браузеров, если они не поступают через прокси, и если User-Agent не изменен соответствующим образом.

  Сейчас давайте посмотрим, как мы можем получить новые значения PageRank. Посмотрев на кэш Internet Explorer, вы заметите, что файлы PageRank запрашиваются не с домена www.google.com, а с IP-адресов, подобных 216.239.33.102 . К тому же, URL файлов PageRank часто содержат параметр "failedip", который имеет значение типа "216.239.35.102;1111" (назначение этого параметра пока что не совсем ясно). Однако получить новые значения PageRank довольно просто. Нужно изменить IP-адреса в URL таким образом, чтобы запрос посылался на те data-центры, которые уже содержат обновленный индекс. Необходимая для этого информация у вас уже есть.

11.05.04
Источник: efactory.
Автор: Markus Sobek. Перевод: Seva.
Стр. « первая   <  3, 4, 5


Эта страница в полной версии