Master-X
Форум | Новости | Статьи
Главная » Форум » Программинг, Скрипты, Софт, Сервисы » 
Тема: Парсинг Гугла
цитата
19/10/09 в 14:12
 WebOldie
Вопрос прежде всего писателям парсинг скриптов ...
Никто не сталкивается несколько заключительных дней с тем, что Г. стал иногда игнорировать кавычки ?
Т.е. например запрашиваем у него скриптом (именно скриптом) search "слово1 слово2 слово3 слово4", а он выдаёт результат как будто search сделан без кавычек.
Причём если мы тутже, ручками скопируем URL этого неправильного скрипт-search в браузер, то search будет сделан уже правильно, учитывая кавычки.
Происходит это примерно с каждым вторым запросом.
Что это ? Глюк или Г. ввёл какие-то новые параметры ?
цитата
19/10/09 в 14:15
 ibiz
это неправильный скрипт
цитата
19/10/09 в 14:25
 WebOldie
Скрипт идеально работает 3 года.

P.S. Прошу отписывать только тех, кому есть что сказать по делу.
Те, кто считают что, только они достаточно умны, чтобы отличить правильный скрипт от неправильного, накручивайте себе кол-во постов в другом месте.
цитата
19/10/09 в 16:08
 Yacc
Не всё так как ты описал, но похоже на то. Кавычки он, конечно, не игнорирует.

А "слово1 слово2 слово3 слово4" представляет собой устойчивое словосочетание?
Или у тебя по любым запросам беда?
цитата
19/10/09 в 16:18
 ibiz
WebOldie писал:
Скрипт идеально работает 3 года.
P.S. Прошу отписывать только тех, кому есть что сказать по делу.
Те, кто считают что, только они достаточно умны, чтобы отличить правильный скрипт от неправильного, накручивайте себе кол-во постов в другом месте.


значит у гугла появился javascript при поиске...
или у тебя скрипт который делает запросы браузерным движком (под win32 например)?
цитата
19/10/09 в 17:35
 WebOldie
Yacc писал:
Не всё так как ты описал, но похоже на то. Кавычки он, конечно, не игнорирует.
А "слово1 слово2 слово3 слово4" представляет собой устойчивое словосочетание?
Или у тебя по любым запросам беда?


Любая фраза. Причём один раз он может выдать как-бы без кавычек, а сразу повторишь и выдаёт уже с учётом кавычек.
От ДЦ не зависит. От языка не зависит. Параметры разные попробовал добавить/убрать - ничего не помогает.

Полазил, почитал чего народ говорит ... Восновном ничего )
Единственное, что возможно Г. стал учитывать историю запросов каждого отдельного пользователя и стал выдавать результаты в зависимости от истории тоже. Типа, если два пользователя залогинены в gmail (например), то по одинаковому запросу у них выдача может быть разная.
Но я попробовал с разных компов (залогиненых и нет) - тоже ничего не помогает.
Да и наврядли история может влиять на учитывание кавычек. Какая бы ни была история, а если пользователь хочет точное соответствие (в кавычках), то уж подай ему именно точное соответствие.

Помнится пару лет назад был у Г. какой-то похожий глюк ... именно с кавычками. Непонятно вообщем.

А у тебя какие симптомы ?

Последний раз редактировалось: WebOldie (19/10/09 в 17:39), всего редактировалось 1 раз
цитата
19/10/09 в 17:37
 WebOldie
ibiz писал:
значит у гугла появился javascript при поиске...
или у тебя скрипт который делает запросы браузерным движком (под win32 например)?


Имитируется браузерный запрос (если я правильно понял твой вопрос).
цитата
19/10/09 в 18:01
 ibiz
WebOldie писал:
Имитируется браузерный запрос (если я правильно понял твой вопрос).


ну тоесть твой скрипт исполняет javascript с сервера при запросах?
если не исполняет, то проблема в скрипте, отличий от браузерного запроса кроме javascript и прочих апплетов быть неможет, тогда скрипт неправильный, если такие-же ошибки возникают и в браузере, то проблема у гугла
за годы работы в онлайне напарсил гигабайты гугла, и не только, при помощи рнр и курла, и представляю о чем говорю
цитата
19/10/09 в 18:03
 Yacc
Я наблюдаю такую картину: если запрос (без кавычек) представляет собой устойчивое словосочетание, то результаты (с кавычками и без) почти одинаковые. По крайней мере топ10 отличается только структурой, сниппетами и заголовками - сайты одни и те же.

Мысль такая: г. делает предположение об устойчивости словосочетания, сравнивая результаты для обычного запроса и точного.

Т.е., например, результаты для "anal sex toys" и anal sex toys - будут похожи, а для "anal sex toys porn" и anal sex toys porn - нет.

зы: всё имхо и для google.com/webhp
цитата
19/10/09 в 18:13
 ibiz
Yacc писал:
Т.е., например, результаты для "anal sex toys" и anal sex toys - будут похожи, а для "anal sex toys porn" и anal sex toys porn - нет.
зы: всё имхо и для google.com/webhp


из первого поста ТС следует, что у него проблема в том, что два одинаковых запроса первый через скрипт, второй через браузер выдают различные результаты...
цитата
19/10/09 в 18:26
 WebOldie
ibiz писал:
из первого поста ТС следует, что у него проблема в том, что два одинаковых запроса первый через скрипт, второй через браузер выдают различные результаты...


именно ...
Но через скрипт невсегда кавычки игнорируются, а через раз.

Скрипт не может быть неправильный. 3 года как часы работает.
Или глюк у Г., или введён какой-то новый параметр, который позволяет ему отличить ручной запрос от скриптового.

имхо конечно
цитата
19/10/09 в 18:27
 WebOldie
Yacc писал:
Я наблюдаю такую картину ...


Нее, это другая проблема.
цитата
19/10/09 в 19:14
 Yacc
Не знаю, что у тебя там за скрипт.
Проверил с десяток запросов скриптом (на основе activex из mshtml.dll) и руками. Результаты одинаковые.

Однако тема с кавычками имеет место быть. И началось всё аккурат на прошлой неделе.
цитата
19/10/09 в 19:39
 WebOldie
Yacc писал:
Не знаю, что у тебя там за скрипт.
Проверил с десяток запросов скриптом (на основе activex из mshtml.dll) и руками. Результаты одинаковые.
Однако тема с кавычками имеет место быть. И началось всё аккурат на прошлой неделе.


Дык я речь именно про кавычки и веду ... И началось всё аккурат на прошлой неделе )
цитата
19/10/09 в 19:46
 Yacc
Так это не проблема скрипта - руками то же самое получается. icon_smile.gif
цитата
19/10/09 в 19:52
 Yacc
ibiz писал:
из первого поста ТС следует, что у него проблема в том, что два одинаковых запроса первый через скрипт, второй через браузер выдают различные результаты...


WebOldie писал:
именно ...


Запрос в студию. icon_smile.gif
цитата
19/10/09 в 21:31
 WebOldie
Yacc писал:
Запрос в студию. icon_smile.gif


Ну например взял первый попавшийся текст, скрипт оттуда дернул фразу ... результат :
http://img.villagephotos.com/p/2006-6/1191386/temp1.jpg
Г. обработал фразу как будто кавычек нет.


А если ты эту же фразу в тех же кавычках загонишь в Г. ручками, то результат будет как всегда :
http://img.villagephotos.com/p/2006-6/1191386/temp2.jpg

Хм ... только сеичас обратил внимание, что результаты то одинаковые. Просто в первом случае отсутствует строка, предлагаюшая сделать search без кавычек.
Вообще ничего не понимаю ... icon_confused.gif

P.S. Сразу оговорюсь, что от смены языка суть не меняется.
цитата
20/10/09 в 00:31
 Yacc
WebOldie писал:
...в первом случае отсутствует строка, предлагаюшая сделать search без кавычек.

Прверил по твоему запросу - результаты одинаковые. И как я ни крутил, но такого результата как на первой картинке скриптом не получается - фраза

Цитата:
No se ha encontrado ningún resultado para "Mane and Tail Shampoo if the eyes are the doorway to a person's soul,".

есть всегда.

Ещё интерфейс на первой картинке странный. У меня всегда такой же как в браузере.

А как ты браузер имитируешь? Скрипт кнопку нажимает?
цитата
20/10/09 в 01:07
 WebOldie
Yacc писал:
Прверил по твоему запросу - результаты одинаковые. И как я ни крутил, но такого результата как на первой картинке скриптом не получается - фраза

есть всегда.


Уверяю тебя, что эту картинку я не рисовал ручками ))
цитата
20/10/09 в 01:09
 WebOldie
И самое интересное, что этот сбой происходит только в 30-40%
Т.е. в большинстве случаев всё работает по-прежнему без проблем.
цитата
20/10/09 в 01:20
 Yacc
WebOldie писал:
Уверяю тебя, что эту картинку я не рисовал ручками ))

Охотно верю. smail101.gif

Сравним запросы:

Цитата:
http://www.google.com/search?
hl=es&
source=hp&
q="Mane+and+Tail+Shampoo+if+the+eyes+are+the+doorway+to+a+person's+soul,"&
btnG=Buscar+con+Google&
lr=&
aq=f&
oq=


А интерфейс у тебя всегда такой как на первой картинке?
цитата
20/10/09 в 01:31
 WebOldie
Запрос без некоторых параметров (&source=hp напр.), но я их все по отдельности и кучей и по разному менял, подставлял, переставлял ---> пофиг.

Интерфейс такой только когда "забывает" по кавычки.
Когда нормально срабатывет, тогда и интерфейс нормальный.
Просто даже не понимаю в какую сторону ещё думать.
цитата
20/10/09 в 01:44
 Yacc
Проверь скриптом тот же запрос здесь
http://www2.sandbox.google.com/

Цитата:
Интерфейс такой только когда "забывает" по кавычки.
Когда нормально срабатывет, тогда и интерфейс нормальный.

Это вопрос вопросов.

Ты так и не сказал на чём построен твой чудо-скрипт. Хоть намекни - я пойму. icon_smile.gif

зы А если запрос по-проще взять. Типа тех, что я выше приводил.
цитата
20/10/09 в 02:02
 WebOldie
В Caffeine тоже самое. Это было первое что проверил )
Количество слов тоже не влияет.

Чуда нет никакого. Точно также как и все - дергает фразу и search её.
Просто алгоритм построен умно. Поэтому и работает с уверенностью 97%.
Точнее работал.
цитата
20/10/09 в 02:09
 WebOldie
Yacc, ты программер ?
Стр. 1, 2, 3  >  последняя »


Эта страница в полной версии