Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Золото SEO: AOL опубликовали данные запросов
цитата
07/08/06 в 10:58
 SemenSemenich
Видимо, самая горячая новость дня...

AOL опубликовали статистику запросов 650K юзеров. Всего в базе около 20 миллионов записей. Все, что искали и где нашли их пользователи. Для SEO - это золото.

Размер базы ~450Mb

http://www.gregsadetsky.com/aol-data/
цитата
07/08/06 в 11:58
 keosia
SemenSemenich писал:

Видимо, самая горячая новость дня...
AOL опубликовали статистику запросов 650K юзеров


интересно - они ли это сделали...
цитата
07/08/06 в 12:17
 SemenSemenich
Они, т.к. изначально данные находились у них на сайте.
http://research.aol.com/pmwiki/pmwiki.php?n=Research.Research?actio…kusers.tgz

Следы еще остались - http://research.aol.com/pmwiki/pmwiki.php?n=Research.500kUserQueriesSampledOver3Months
цитата
07/08/06 в 12:32
 Synchro
Эээ, а кто-нить знает, мускуль помрет с табличкой в 20 лямов записей? icon_smile.gif
цитата
07/08/06 в 12:48
 magic
но есть же и другие базы данных
цитата
07/08/06 в 13:16
 Synchro
Так понятно, что есть. Только их ставить, настраивать и оптимизировать надо. icon_smile.gif Лан, попробую так пропарсить, авось проканает. icon_smile.gif
цитата
07/08/06 в 13:56
 keosia
SemenSemenich писал:
Они, т.к. изначально данные находились у них на сайте.


да, это говорит о том, что развод действительно красив =)
цитата
07/08/06 в 18:27
 ghood
Synchro писал:
Эээ, а кто-нить знает, мускуль помрет с табличкой в 20 лямов записей? icon_smile.gif

нет
цитата
07/08/06 в 18:57
 spin
будет весьма интересно глянуть.
цитата
07/08/06 в 22:07
 Winners
439mb icon_smile.gif модемщики в пролете icon_smile.gif
цитата
07/08/06 в 22:34
 Lab
я на модеме 300 метров за ночь выкачивал
цитата
07/08/06 в 22:50
 Praetorian
<Karrde> Я снова подлянку у ся на фтп сделал
<Karrde> Закачал 700меговый фильм якобы с порнухой )) А там просто интервью с Питером Джексоном
<Luxor> Называется файл ...porno_access_hardcore_sex...????
<Karrde> Угу
<Luxor> СЦУКО!
<Karrde> Че?
<Luxor> Я уже 87% закачал!
<Luxor> Урод ты Кард


bash.org.ru icon_biggrin.gif icon_biggrin.gif icon_biggrin.gif
цитата
07/08/06 в 23:23
 Synchro
Не, я уже посмотрел сегодня днем эту базу. Реально похоже на то, но пиздец как криво сделано... Просто лог поисковика.
цитата
07/08/06 в 23:30
 pirate
опять будет "превед молдованам"
цитата
07/08/06 в 23:41
 SemenSemenich
Цитата:
да, это говорит о том, что развод действительно красив =)


В смысле развод? AOL уже официально признала факт утечки, попросила прощения и начала внутреннее расследование.

Цитата:
This was a screw up, and we’re angry and upset about it. It was an innocent enough attempt to reach out to the academic community with new research tools, but it was obviously not appropriately vetted, and if it had been, it would have been stopped in an instant.


Конечно, может быть, это организованный слив, но смысл от этого не меняется - данные-то настоящие, да и зачем им это...
цитата
08/08/06 в 00:03
 w84me
полезного там оч мало. скачал, подрючил, видали и получше
цитата
08/08/06 в 00:08
 kiwi
имхо это намеренная утечка. слишком мало данных, всего по 7 лямов серчей в месяц...

AOL released search information on about 20 million searches done from its software by about 658,000 anonymous AOL users over a three-month period, representing about one-third-of-1-percent of searches conducted over that time.
цитата
08/08/06 в 01:11
 begemot
бесплатная, большая и сразу
данные в базе очень интересные - кеи по каждой сессии,
такое фиг где найдешь icon_smile.gif
цитата
08/08/06 в 01:16
 kiwi
nтам ного интересного.
гораздо больше кеев интересны поисковые паттерны.

я глазами просматривал, забавно получается.

можно делать сразу серые ресы, которые процентов на 90 будут удовлетворять весь спрос оптом и в одном месте...
цитата
08/08/06 в 06:59
 Stup
+1. Неплохая база. Еще к тому же показано на какой урл в серпе тыкнул пользователь и на какой позиции в серпе этот сцайт был. Нашел там и логи трафика идущего ко мне. Хотя как по мне, лучше вытягивать данные с гугла.
цитата
08/08/06 в 12:39
 mavook
20 лямов нормально выдержит
у меня на локале сейчас 84 млн rows с кейвордами
и запрос вида select distinct * from keywords where keyword like '%casino%'
отрабатывается 150 секунд
таблица без primary без индекса
cel 2.4d 1gb mem
цитата
08/08/06 в 13:12
 Stek
mavook: fulltext наложи на таблицу, будет все бегать.
цитата
08/08/06 в 13:25
 Rainmaker
а какой прогой эти базы можно конвертнуть в читабельный вид (хотя бы с разбивкой запросов по разным строкам) ?

очень неудобно инфа скинута
цитата
08/08/06 в 14:32
 keosia
Stek писал:
mavook: fulltext наложи на таблицу, будет все бегать.


а каким боком fulltext при like выборке используется?
цитата
08/08/06 в 15:11
 bog
Для иследований инфа интересная, для дорвеев не очень.
Я жду пока гугл выпустит данные по использованию н-грам на 6ти DVD - для доров это будет гораздо более ценная инфа.
Стр. 1, 2  >  последняя »


Эта страница в полной версии