Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Программинг, Скрипты, Софт, Сервисы
»
Тема:
Парсинг Гугла
Новая тема
Ответить
цитата
19/10/09 в 14:12
WebOldie
Вопрос прежде всего писателям парсинг скриптов ...
Никто не сталкивается несколько заключительных дней с тем, что Г. стал иногда игнорировать кавычки ?
Т.е. например запрашиваем у него скриптом (именно скриптом) search "слово1 слово2 слово3 слово4", а он выдаёт результат как будто search сделан без кавычек.
Причём если мы тутже, ручками скопируем URL этого неправильного скрипт-search в браузер, то search будет сделан уже правильно, учитывая кавычки.
Происходит это примерно с каждым вторым запросом.
Что это ? Глюк или Г. ввёл какие-то новые параметры ?
цитата
19/10/09 в 14:15
ibiz
это неправильный скрипт
цитата
19/10/09 в 14:25
WebOldie
Скрипт идеально работает 3 года.
P.S. Прошу отписывать только тех, кому есть что сказать по делу.
Те, кто считают что, только они достаточно умны, чтобы отличить правильный скрипт от неправильного, накручивайте себе кол-во постов в другом месте.
цитата
19/10/09 в 16:08
Yacc
Не всё так как ты описал, но похоже на то. Кавычки он, конечно, не игнорирует.
А "слово1 слово2 слово3 слово4" представляет собой устойчивое словосочетание?
Или у тебя по любым запросам беда?
цитата
19/10/09 в 16:18
ibiz
WebOldie писал:
Скрипт идеально работает 3 года.
P.S. Прошу отписывать только тех, кому есть что сказать по делу.
Те, кто считают что, только они достаточно умны, чтобы отличить правильный скрипт от неправильного, накручивайте себе кол-во постов в другом месте.
значит у гугла появился javascript при поиске...
или у тебя скрипт который делает запросы браузерным движком (под win32 например)?
цитата
19/10/09 в 17:35
WebOldie
Yacc писал:
Не всё так как ты описал, но похоже на то. Кавычки он, конечно, не игнорирует.
А "слово1 слово2 слово3 слово4" представляет собой устойчивое словосочетание?
Или у тебя по любым запросам беда?
Любая фраза. Причём один раз он может выдать как-бы без кавычек, а сразу повторишь и выдаёт уже с учётом кавычек.
От ДЦ не зависит. От языка не зависит. Параметры разные попробовал добавить/убрать - ничего не помогает.
Полазил, почитал чего народ говорит ... Восновном ничего )
Единственное, что возможно Г. стал учитывать историю запросов каждого отдельного пользователя и стал выдавать результаты в зависимости от истории тоже. Типа, если два пользователя залогинены в gmail (например), то по одинаковому запросу у них выдача может быть разная.
Но я попробовал с разных компов (залогиненых и нет) - тоже ничего не помогает.
Да и наврядли история может влиять на учитывание кавычек. Какая бы ни была история, а если пользователь хочет точное соответствие (в кавычках), то уж подай ему именно точное соответствие.
Помнится пару лет назад был у Г. какой-то похожий глюк ... именно с кавычками. Непонятно вообщем.
А у тебя какие симптомы ?
Последний раз редактировалось: WebOldie (
19/10/09 в 17:39
), всего редактировалось 1 раз
цитата
19/10/09 в 17:37
WebOldie
ibiz писал:
значит у гугла появился javascript при поиске...
или у тебя скрипт который делает запросы браузерным движком (под win32 например)?
Имитируется браузерный запрос (если я правильно понял твой вопрос).
цитата
19/10/09 в 18:01
ibiz
WebOldie писал:
Имитируется браузерный запрос (если я правильно понял твой вопрос).
ну тоесть твой скрипт исполняет javascript с сервера при запросах?
если не исполняет, то проблема в скрипте, отличий от браузерного запроса кроме javascript и прочих апплетов быть неможет, тогда скрипт неправильный, если такие-же ошибки возникают и в браузере, то проблема у гугла
за годы работы в онлайне напарсил гигабайты гугла, и не только, при помощи рнр и курла, и представляю о чем говорю
цитата
19/10/09 в 18:03
Yacc
Я наблюдаю такую картину: если запрос (без кавычек) представляет собой устойчивое словосочетание, то результаты (с кавычками и без) почти одинаковые. По крайней мере топ10 отличается только структурой, сниппетами и заголовками - сайты одни и те же.
Мысль такая: г. делает предположение об устойчивости словосочетания, сравнивая результаты для обычного запроса и точного.
Т.е., например, результаты для "anal sex toys" и anal sex toys - будут похожи, а для "anal sex toys porn" и anal sex toys porn - нет.
зы: всё имхо и для google.com/webhp
цитата
19/10/09 в 18:13
ibiz
Yacc писал:
Т.е., например, результаты для "anal sex toys" и anal sex toys - будут похожи, а для "anal sex toys porn" и anal sex toys porn - нет.
зы: всё имхо и для google.com/webhp
из первого поста ТС следует, что у него проблема в том, что два одинаковых запроса первый через скрипт, второй через браузер выдают различные результаты...
цитата
19/10/09 в 18:26
WebOldie
ibiz писал:
из первого поста ТС следует, что у него проблема в том, что два одинаковых запроса первый через скрипт, второй через браузер выдают различные результаты...
именно ...
Но через скрипт невсегда кавычки игнорируются, а через раз.
Скрипт не может быть неправильный. 3 года как часы работает.
Или глюк у Г., или введён какой-то новый параметр, который позволяет ему отличить ручной запрос от скриптового.
имхо конечно
цитата
19/10/09 в 18:27
WebOldie
Yacc писал:
Я наблюдаю такую картину ...
Нее, это другая проблема.
цитата
19/10/09 в 19:14
Yacc
Не знаю, что у тебя там за скрипт.
Проверил с десяток запросов скриптом (на основе activex из mshtml.dll) и руками. Результаты одинаковые.
Однако тема с кавычками имеет место быть. И началось всё аккурат на прошлой неделе.
цитата
19/10/09 в 19:39
WebOldie
Yacc писал:
Не знаю, что у тебя там за скрипт.
Проверил с десяток запросов скриптом (на основе activex из mshtml.dll) и руками. Результаты одинаковые.
Однако тема с кавычками имеет место быть. И началось всё аккурат на прошлой неделе.
Дык я речь именно про кавычки и веду ... И началось всё аккурат на прошлой неделе )
цитата
19/10/09 в 19:46
Yacc
Так это не проблема скрипта - руками то же самое получается.
цитата
19/10/09 в 19:52
Yacc
ibiz писал:
из первого поста ТС следует, что у него проблема в том, что два одинаковых запроса первый через скрипт, второй через браузер выдают различные результаты...
WebOldie писал:
именно ...
Запрос в студию.
цитата
19/10/09 в 21:31
WebOldie
Yacc писал:
Запрос в студию.
Ну например взял первый попавшийся текст, скрипт оттуда дернул фразу ... результат :
http://img.villagephotos.com/p/2006-6/1191386/temp1.jpg
Г. обработал фразу как будто кавычек нет.
А если ты эту же фразу в тех же кавычках загонишь в Г. ручками, то результат будет как всегда :
http://img.villagephotos.com/p/2006-6/1191386/temp2.jpg
Хм ... только сеичас обратил внимание, что результаты то одинаковые. Просто в первом случае отсутствует строка, предлагаюшая сделать search без кавычек.
Вообще ничего не понимаю ...
P.S. Сразу оговорюсь, что от смены языка суть не меняется.
цитата
20/10/09 в 00:31
Yacc
WebOldie писал:
...в первом случае отсутствует строка, предлагаюшая сделать search без кавычек.
Прверил по твоему запросу - результаты одинаковые. И как я ни крутил, но такого результата как на первой картинке скриптом не получается - фраза
Цитата:
No se ha encontrado ningún resultado para "Mane and Tail Shampoo if the eyes are the doorway to a person's soul,".
есть всегда.
Ещё интерфейс на первой картинке странный. У меня всегда такой же как в браузере.
А как ты браузер имитируешь? Скрипт кнопку нажимает?
цитата
20/10/09 в 01:07
WebOldie
Yacc писал:
Прверил по твоему запросу - результаты одинаковые. И как я ни крутил, но такого результата как на первой картинке скриптом не получается - фраза
есть всегда.
Уверяю тебя, что эту картинку я не рисовал ручками ))
цитата
20/10/09 в 01:09
WebOldie
И самое интересное, что этот сбой происходит только в 30-40%
Т.е. в большинстве случаев всё работает по-прежнему без проблем.
цитата
20/10/09 в 01:20
Yacc
WebOldie писал:
Уверяю тебя, что эту картинку я не рисовал ручками ))
Охотно верю.
Сравним запросы:
Цитата:
http://www.google.com/search?
hl=es&
source=hp&
q="Mane+and+Tail+Shampoo+if+the+eyes+are+the+doorway+to+a+person's+soul,"&
btnG=Buscar+con+Google&
lr=&
aq=f&
oq=
А интерфейс у тебя всегда такой как на первой картинке?
цитата
20/10/09 в 01:31
WebOldie
Запрос без некоторых параметров (&source=hp напр.), но я их все по отдельности и кучей и по разному менял, подставлял, переставлял ---> пофиг.
Интерфейс такой только когда "забывает" по кавычки.
Когда нормально срабатывет, тогда и интерфейс нормальный.
Просто даже не понимаю в какую сторону ещё думать.
цитата
20/10/09 в 01:44
Yacc
Проверь скриптом тот же запрос здесь
http://www2.sandbox.google.com/
Цитата:
Интерфейс такой только когда "забывает" по кавычки.
Когда нормально срабатывет, тогда и интерфейс нормальный.
Это вопрос вопросов.
Ты так и не сказал на чём построен твой чудо-скрипт. Хоть намекни - я пойму.
зы А если запрос по-проще взять. Типа тех, что я выше приводил.
цитата
20/10/09 в 02:02
WebOldie
В Caffeine тоже самое. Это было первое что проверил )
Количество слов тоже не влияет.
Чуда нет никакого. Точно также как и все - дергает фразу и search её.
Просто алгоритм построен умно. Поэтому и работает с уверенностью 97%.
Точнее работал.
цитата
20/10/09 в 02:09
WebOldie
Yacc, ты программер ?
Стр.
1
,
2
,
3
>
последняя »
Новая тема
Ответить
Эта страница в полной версии