Master-X
Регистрация
|
Вход
Форум
|
Новости
|
Статьи
Главная
»
Форум
»
Поисковые Системы
»
Тема:
Скрытая масса сайта
Новая тема
Ответить
цитата
30/11/05 в 14:17
kit
Столкнулся с тем. что Гуглю известно намного больше страниц на сайте, чем их должно быть на самом деле. Пример:
Код:
"site map" site:porninspector.com/reviews/
запрос даёт свыше 16.700 результатов, хотя я знаю, что в этом разделе не может быть больше 2500 страниц (примерно 2000 обзоров и еще примерно 500 вспомогательных страниц)
1) Анализ логов GoogleBot ничего не выявил: Запрашиваются только существующие страницы.
2) Сделана довольно жесткая валидация вызываемого урл-а. Если он хоть немного отличается от корректного - выдаётся 404 ошибка.
Вопрос:
Как найти эти самые не существующие страницы?
PS. Я уже спрашивал этот вопрос на форумt у Маузера:
http://www.seochase.com/viewtopic.php?t=3576&highlight=
но получил скорее рекомендации типа "где-то у тебя не так", а не точные ответы.
Последний раз редактировалось: kit (
08/12/05 в 02:25
), всего редактировалось 1 раз
цитата
30/11/05 в 14:31
infest
я вроде нечто подбное уже наблюдал и там тоже фигурировала цифра 16.700-16.800
урл сайта уже не помню....
учитывая, что гугл больше 1000 резалтов не отдаст, то задачку довольно таки трудно решить..
возможно
, это баг самого гугла
цитата
30/11/05 в 14:34
kit
Да, совсем забыл сказать:
Есть идея, использовать оператор "daterange:" Google, чтобы двигаться по индексу фрагментами, и детально изучить каждый кусок. Но почему-то не работает.
Вот инфа по нему:
http://www.google.com/search?num=100&hl=en&lr=&safe=off tnG=Search
Делаю запрос:
Код:
daterange:2453654-2453704 "site map" site:porninspector.com/reviews
но он показывает всё то-же общее количество страниц.
цитата
30/11/05 в 14:49
Core
простите несведущего, а что значит вот это самое "site map"?
цитата
30/11/05 в 14:56
infest
по всему запросу кита гугл выводит все проиндексированные страницы на домене в папке reviews с упоминанием слов "site map"
цитата
30/11/05 в 16:21
Student
kit писал:
...но он показывает всё то-же общее количество страниц.
И пишет: Оператор Ограничение по дате был исключен из Вашего запроса, так как он не поддерживается для данного типа поиска.
цитата
30/11/05 в 17:10
W
Гугл просто любит хвастаться, часто замечаю такое на своих доменах - пишет, что проиндексированно гораздо больше, чем реально существует, причем со временем постепенно уменьшается это количество..
Может дело в том что у гугла большая база и существуют сложности синхронизации между ДЦ и в связи с этим завышение количества страниц происходит..
цитата
30/11/05 в 17:43
zJ
а если с другими запросами поиграть?, например
Код:
"conclusion" site:porninspector.com/reviews/
выдает то 858 то 859 результатов, но зато
Код:
"intro promises" site:porninspector.com/reviews/
14500 результатов...
цитата
30/11/05 в 19:58
kit
Student писал:
И пишет: Оператор Ограничение по дате был исключен из Вашего запроса, так как он не поддерживается для данного типа поиска.
Странно, у меня такого не показывает.
цитата
30/11/05 в 19:59
kit
Core писал:
простите несведущего, а что значит вот это самое "site map"?
"site map" взят как характерный текстовый паттерн, встречающийся на каждой странице сайта.
цитата
30/11/05 в 20:59
Mauser
zJ, ну так и что удивляет? Стало быть "conclusion" встречается внутри porninspector.com/reviews/ не везде. Например тут
http://www.porninspector.com/reviews/review/straight-goes-gay/
его нет. Именно потому "site map" взяли что он, по идее, везде есть.
вообще это метод искать пропавшие и ниоткуда возникшие разделы. В сами цифры, в точные значения, упираться не стоит.
Вот
такого
рода вещи где-то прячутся.
цитата
30/11/05 в 21:20
zJ
Да я в целом явлению удивлен.
А поискать
"site map" site:porninspector.com/reviews/все_существующие_подкаталоги
если?
я имею в виду /site/, /go/ и т.д..
чтобы сузить круг подозреваемых так сказать.
цитата
30/11/05 в 21:43
Mauser
zJ, да нет тут удивительного ничего. Тут кто-то в сапплементал затырился. Смотри:
вот
и
вот
. По второй ссылке всего 260 результатов, просмотри их глазами. Той что в первой - нету. Вот так где-то, видимо, затырилась целая куча добра. Неправильный модрерайт создал лишние директори... черт его знает. Тут смотреть надо тому кто свой сайт знает и искать откуда оно лезет.
цитата
30/11/05 в 21:44
kit
Код:
"site map" site:porninspector.com/reviews/review/
14500
Код:
"site map" site:porninspector.com/reviews/site/
0
Код:
-"site map" site:porninspector.com/reviews/site/
264
Код:
-"site map" site:porninspector.com/reviews/go/
317
По любому не сходится.
цитата
30/11/05 в 21:47
kit
А как удалить саплементал резалтс так , чтобы не удалять весь сайт из индекса? Я кстати не уверен, что они тогда уйдут.
цитата
30/11/05 в 22:04
Mauser
Удалять. найдя корень зла закрыть его и через ремувурл на гугле.
Смотри kit как в саплементал прячутся. Ты ищешь "site map" site:porninspector.com/reviews/site/ и видишь там 0 результатов. Но это ты сделал ПРЕДПОЛОЖЕНИЕ что "site map" там именно обязательно сидит. Но так как у тебя что-то идет наперекосяк, то, к примеру, к сайту приклеился кто-то через редиректы. На них то "site map" и нету. А они есть. Вот они
sex site:www.porninspector.com/reviews/site/
. Тут надо копаться. Видишь расхождения в числах - пробуй разные формулировки.
я там на воркфлоу тебе скинул пример что как-то странно для меня пенисбот там светится. это уже внутренняя кухня, снаружи не сказать ничего.
цитата
01/12/05 в 08:09
Eklmn
с разницей на количество проиндексированных страниц я давно сталкнулся,
на нескольких доменах с дорами у меня тоже самое.
у гугла наверняка существует много баз для одновременной выдачи, при выдаче которых она не сверяет на дубликаты.
одной из баз я как думаю является база с линками, вот эту базу
она без снипетов выдает, остальные со снипетами.
отсюда и разница такая.
цитата
01/12/05 в 08:43
zJ
Получается что искать надо тут:
porninspector.com/reviews/review/
причем все 14500 страниц являются ревью, а не чем-то еще, исходя из
Код:
"intro promises" site:porninspector.com/reviews/review/ - 14500
цитата
01/12/05 в 13:08
kit
Дык в том-то и дело, что не может быть 14.500 обзоров у нас. Пока их примерно 2000.
По поводу ссылок типа:
Код:
www.porninspector.com/reviews/site/penisbot/gape-sex/
1) Если гугль сохраняет в индексе 301 редиректы, то смысла вычищать индекс нету, так как всё равно у нас очень много редиректоры входящи через 301 делается.
2) И ещё непонятно, на 10% ли можно вычистить supplemental results , даже если сайт запретить к индексации и подать запрос на "index removal".
3) И вообще не понятно, это supplemental results влияет на расчёт рейтинга сайта?
Вообще я сделал такое наблюдение:
а) Эта самая "скрытая масса" выросла за время, что я веду наблюдения примерно пропорционально размеру "рубелой части". (Mauser, ты в курсе моих наблюдений)
б) Некорректные урлы роботом гугла не запрашиваются, я вёл наблюдение в течении полутора месяцев.
цитата
02/12/05 в 02:55
xzac
2кит
Смотрел ревю по запросу который ты привел… вот что удалось вытащить
http://e-master.org/pi.txt
2,2к результатов.
У меня был в индексе очень большая база (для меня) доров на одном домене 22000
Чем больше Линков шло на доры тем гугла больше врала
Перед банном гугл видел 300к
Так что не переживай мусора у тя не так уж много ;)
цитата
02/12/05 в 15:15
kit
xzac? спасибо за список, но вот какая штука:
урлы типа
Код:
http://www.porninspector.com/community/
.....
раньше были 302 редиректом, но уже месяца четыре как это 301 редирект, тоесть должне исчезнуть из базы Гугля.
то-же самое с урлами типа
Код:
http://www.porninspector.com/porn/
...
то-же самое с урлами типа
Код:
http://www.porninspector.com/profile/
?action=login&...
ссылки типа
Код:
http://www.porninspector.com/reviews/?site=the-mature-hardcore
уже месяцев 10 обрабатываются как 404
и даже при таких раскладах, не понятно, откуда он увидел столько страниц. Даже такиессылки могут увеличить "массу" раздела в 3-4 раза, не более того, и то, если это сделать по всем сайтам.
цитата
03/12/05 в 04:00
xzac
Насчет тех страниц что я привел… сори неправильно выборку делал…
Site:porninspector.com inurl:”/reviews/” вот он и вытащил эти паги с динамикой.
А то что он типа видит страницы я высказал свои наблюдения… это все сделано для украшения общей базы, но делает он это только на высококатируемых сайтах.
Мне странно, что тебя это так беспокоит ;) главное, что он активно кушает страницы… и видимо скоро начнешь вылазить по вкусным запросам. ;)
цитата
03/12/05 в 05:13
kit
Я так понимаю, что авторитетность сайта, нормируется на количество его страниц, и далее мы получаем усреднённую авторитетность отлельно взятой страницы и кроме того, вообще решаем проблему что есть хорошаяпопулярити , а что есть плохая, для разноколиберных сайтов. Судя по всем Гугль примерно так расчитывает кое-какие показатели.
В итоге, получается так:
2) Сайт с 2000 линкбеками, имеющий 200 страниц - это отлично.
2) Сайт с 2000 линкбеками, имеющий 2.000 страниц - это хорошо.
3) Сайт с 2000 линкбеками, имеющий 20.000 страниц - это хуже, чем второй вариант.
4) Сайт с 2000 линкбеками, имеющий 200.000 страниц - это совсем плохо, можно считать его авторитетность слабой.
И это помимо проблем с дубликатами контента, которые возможно он мне насчитал из-за альтернативных вызовов одних и тех-же данных.
Это мысль не моя, а моего персонального SE-гуру, мнение которого я очень уважаю. :-)
Так что о размере индекса по отдельно взхятомусайту ИМХО стоит беспокоиться. В идеале его размер должен совпадать с реальным количеством страниц на сайте.
цитата
03/12/05 в 05:51
xzac
Цели у нас немного разные
мне вот лишбы бабки лились а чистота выдочи и совпадения с реальными результатами уже полтора года у гугля нев лучшем виде и меня это уже перестало удивлять.
ПС Удачи те с порнинспектором если получится его поднять на уровень пенисбота реально будишь папой !
цитата
06/12/05 в 03:04
solid
у меня тоже самое.
реально на сайте 61к страниц, по site:domain.com гугл показывает 155к
сайт свежий.
точный результат я вижу, только если на сайте действительно меньше 1к страниц.
Стр.
1
,
2
>
последняя »
Новая тема
Ответить
Эта страница в полной версии