Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Ошибка при распарсивании гугля. Нид хэлп!
цитата
09/01/06 в 10:37
 Lamagro
Привет всем!
С новым годом! (первый пост в новом году icon_smile.gif )

Собственно вопрос возник... может кто чего подскажет...

Скрипт у меня работает - парсит гугль - выбирает урлы.
Только что-то последнее время - перестал работать - немогу понять в чем причина - прокси есть (постоянно обновляются) запросы есть - гугль вроде все отдает - но скрипт крутится на одном месте icon_sad.gif

В пока общем немогу пока разобраться сам ... ну и вопрос соответственно может гугль изменил алгоритм выдачи ну например недает больше 60 резов в период времени... или еще что нить
Кто нить что-нить замечал?
цитата
09/01/06 в 11:29
 contribfgf
Он счас по многим запросам больше 100 резалтов не даёт.
Но это обходиться..
цитата
09/01/06 в 11:52
 Lamagro
ага это знаю... заметил когда перед новым годом ковыряться с тем же самым начал. Запрос тогда видоизменил - всеравно фиг... icon_sad.gif

а как обходится если не секрет? icon_smile.gif
я обошелся видоизменением - выкидыванием ключевого слова, ну всмысле слова на которое он ругается
цитата
09/01/06 в 11:58
 Lamagro
а кстати - это я отследил же это и добавил обработку такой ошибки - так что точно не оно..
цитата
09/01/06 в 13:30
 sotiris
yx0: Цитата:
Но это обходиться..

на умаксфоруме тож читал, что обходится, и многие как-то обходят. я пока не доперicon_smile.gif временно переключился на парсинг мсн, правда и он, сцуко, больше 250 результатов не выдаетicon_sad.gif(
цитата
10/01/06 в 10:53
 ptah
Если ты используешь в парсере запросы inurl, intitle и тому подобные, то гугля тебе ничего не отдаст. А напишет, что с твоего компа какой-то шпион посылает кучу запросов. И все. Гугля защищает себя от таких парсеров. Это естественно. Попробуй поменять запросы.
цитата
10/01/06 в 11:37
 Paul-T
При видоизменённых запросах теряется и часть нужных результатов. icon_sad.gif
цитата
10/01/06 в 11:42
 ptah
Так теряется часть результатов, а при старом запросе результатов нет вообще!
цитата
10/01/06 в 12:25
 sotiris
иногда не теряется, а наоборот куча хлама выдается ненужного, типа внутренних страниц гестбуков и т.д. выход: парсить вместе с этими ненужными страницами, а потом дополнительно производить отсев.

p.s. седня еще одно заблокированное слово нашел: powered... писец, круг сужается...
цитата
10/01/06 в 12:34
 Lamagro
sotiris писал:
p.s. седня еще одно заблокированное слово нашел: powered... писец, круг сужается...
я это слово первым узнал ... icon_smile.gif после уже искать начал ...
Ну придется просеивать кучи мусора, а что делать... зато наградой будет жемчужина icon_smile.gif
цитата
10/01/06 в 12:36
 Lamagro
да кстати по поводу сабджа... вопрос снят - ошибку нашел icon_smile.gif
цитата
10/01/06 в 17:42
 ibiz
Блокирование слов происходит автоматически.
Эту "гадость" можно использовать, чтоб "убить" конкурентов за соткой (хотя смысла ноль).
Вообщем потестировал я слова различные, и на некоторых адалтных словах тоже есть блокировка.
Для примера запрос allinurl:test
цитата
10/01/06 в 17:46
 ibiz
Это была информация к размышлению... но самое интересное, что через некоторый промежуток времени, и некоторых действиях заблокированные слова "оживают" icon_smile.gif
цитата
10/01/06 в 22:38
 sotiris
ibiz: Цитата:
и некоторых действиях заблокированные слова "оживают"

ты не томи, сказал А, говори Б;)))
хотябы направление б указал, куда копатьicon_smile.gif
цитата
11/01/06 в 02:38
 ibiz
sotiris: ну это тебе врятли кто скажет, может это "очередной глюк гугля". Но такие запросы, как, например, "inurl:addguestbook", врятли возможно вытащить из поля зрения гугли.


Эта страница в полной версии