flying
Куки конечно дадут по-идее более точный результат, но здесь есть опасность того что куки выключены/не поддерживаются/стерты и т.д.
Учет по IP заведомо не будет точным, здесь можно назвать хотя бы:
1. Пользователей AOL (которые как известно хотят в сеть через общие proxy)
2. Различные anonymizer'ы (в том числе Tor)
3. Корпоративные и домашние сети где за одним IP могут сидеть тысячи людей
Вообще я обычно считаю по кукам, предварительно стараясь проверить их поддержку + дополнительно фильтрую известных роботов (хорошая база по этому поводу есть на
http://www.botsvsbrowsers.com/)
Proo
\
Спасибо за такой развернутый ответ, какие хорошие пропорции пост/рейтинг у тебя
Все твои 3 причины существуют, но мне нужно не твочное кол-во, а пропорции заходов на мои диры с разных блогов, т.е. пропорции будут примерно верными, так наверно?
Насчет ботов, я учитываю только тех что приходят именно с блогов которые засабмичены в мои диры, т.е. я думаю актуальность с ботами отпадает?
flying
Proo писал:
Спасибо за такой развернутый ответ, какие хорошие пропорции пост/рейтинг у тебя
Стараюсь
Proo писал:
Все твои 3 причины существуют, но мне нужно не твочное кол-во, а пропорции заходов на мои диры с разных блогов, т.е. пропорции будут примерно верными, так наверно?
Насчет ботов, я учитываю только тех что приходят именно с блогов которые засабмичены в мои диры, т.е. я думаю актуальность с ботами отпадает?
Боты (например поисковики) вполне могут придти со ссылки с блога, они ведь любопытные
![icon_smile.gif](/template/images/smiles/icon_smile.gif)
Другое дело что как раз поисковиков отследить достаточно просто, у них известны user agent'ы и они как правило сразу кидаются robots.txt скачивать - можно их фильтровать уже по этому признаку.
Грабберы content'а вряд ли придут по ссылке если только человек не пытается сделать себе копию всего интернета
![icon_smile.gif](/template/images/smiles/icon_smile.gif)
Плюс в большинстве случаев эти грабберы не передают referer, так что для тебя будут выглядеть как direct traffic.
Принципиальных отключателей cookies среди пользователей сейчас относительно немного, так что для тебя схема может быть такой:
1. Если хит пришел с referer'ом который надо считать - то вешаем ему постоянную куку + дополнительную одноразовую куку. Для себя запоминаем что хит вроде бы есть, но не факт что не бот.
2. Если в дальнейшем приходит хит с "одноразовой" кукой - то снимаем ее и отмечаем что данная кука на самом деле валидна и это юзер.
3. Если "юзер" сунулся скачать robots.txt - то скорее всего это поисковик (довольно странное поведение, но мало ли).
4. Можно поставить на сайте "слепую" ссылку, невидимую для пользователя (например в <div style="position: absolute; top: -1000px;">) и если "юзер" пройдет по ней - то 99% что это робот.
Что делать с записями которые были запомнены, но не подтверждены - решать тебе. Это либо пользователи которые сразу ушли либо у них выключены cookies либо это роботы. Можно отследить таких пользователей по косвенным данным, например установить на странице <img>, вызывающий скрипт с передачей ему каких-то проверочных данных. Затем в этом скрипте проверить соответствие полученных данных и cookies. Если совпадают - то скорее всего юзер, если нет - то либо отключены cookies либо робот. Если вообще не вызвали - то либо отключены images либо робот.