Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Индексация очень больших сайтов
цитата
07/07/11 в 02:35
 kit
Допустим, у вас есть очень большой сайт. Страницы на нем генерируются динамически. И вот вы наблюдаете, как Гугл индексирует все больше и больше страниц с этого сайта. 300К, 600К, 900К, 1100К, .

Очевидно, довольно много результатов попадает в дополнительный индекс. Ведь 1М страниц в основном индексе дало бы такую тучу трафика, что страшно подумать, думаю в районе 1М в сутки, или даже больше.

И вот Гугл индексирует, индексирует, а доля контента в дополнительном индексе все растет и растет. Я не знаю как это проверить (сейчас говорят нет надежного способа вычислить, сколько страниц в основном индексе), но думаю что 90% проиндексированного в соплях у Гугла. 100К страниц в основном индексе и 1М в дополнительном.

Опасаюсь, что в какой-то момент Гугл подумает: 99% сайта в соплях, значит весь сайт - говно, и зафильтрует его.

А теперь вопрос: Стоит ли ограничить количество разрешенных для индексации страниц на сайте за счет страниц с наминающей ценностью для пользователя? Ценность измерять по показателю отказов. Цель: улучшить качество индекса по сайту, снизить вероятность пенальти.
цитата
07/07/11 в 03:37
 Христофор Бонефатьевич
kit, нету никакого дополнительного индекса, это миф. Все страницы участвуют в поиске. Проверено мной не раз. Просто гугл не всё показывает по команде site:
цитата
07/07/11 в 11:14
 Gidz
я где-то читал, по моему даже на сайте гугл, в дискуссии вебмастеров, отвечала представитель из гугл, и сказала что с 2007 года, они отказались от такой фичи как дополнительный индекс. Попробую сейчас поискать
цитата
07/07/11 в 11:15
 Gidz
ну вот оно, самая первая ссылка по саплементал
http://www.google.com/support/forum/p/webmasters/thread?tid=3ca3e3f6ae0e32bf&hl=ru
цитата
07/07/11 в 13:30
 kit
Допустим сайт считается качественным. 1М страниц в индексе, дажеесли каждая будет на 10 странице, легко даст 1М трафика в день. Значит у Гугла есть какие-то механизмы, которые топят в индексе 90% страниц сайта, а оставшиеся 10% участвуют в индексе. Согласны, что такой механизм есть?
цитата
07/07/11 в 14:07
 Crappyday
kit: я думаю они применяют свои алгоритмы именно для того, чтобы в поиске оставались только качественные миллионники.

Если по запросу в поиске на сайте находится больше 3х страниц гугл их прячет под кат "показать все результаты с этого сайта" таким образом и выдачу не рубит и дает возможность остальным участвовать в топе.
цитата
07/07/11 в 14:17
 kit
Все равно какая-то нестыковка: Как Гугл ограничивает большие сайты в индексе, если сайт в целом считается качественным по всем показателям? Ну допутим, как не показывать много результатов с одного сайта по конкретному запросу мы разобрались, согласен с Crappyday. Но что делать, если 1М страниц так или иначе возникает в выдаче по огромному количеству низкочастотников? Тогда даже при прятании результатов под кат, получается очень много трафика.

Значит Гугл дает каждому сайту какую-то квоту, на место в своем индексе. Не только по конкретному запросу, а в целом, по всей поляне.
цитата
07/07/11 в 14:36
 kit
Вычитывал наш июньский SEO-дайджест перед публикацией, там цитата Мэта Каттса:
Мэта Каттса писал:
У нас есть алгоритм, который ограничивает количество отображаемых результатов с одного ресурса. Именно он помогает другим сайтам также появляться в поисковой выдаче.
Так что квотирование точно есть. И я уверен, что размер квоты устанавливается по количеству трафика на сайте. Если на сайте море трафика, типа Википедии (30М в сутки легко), то Гуглу будет не западло подкинуть 15М трафика, если верить статистике Алексы:

Кстати, это стыкуется с фразами многих владельцев крупных сайтов, что чем больше трафика на сайте, тем больше его любит Гугл. Да, он любит большие сайты, через механизм квотирования.
цитата
07/07/11 в 15:13
 Farel777
kit писал:

А теперь вопрос: Стоит ли ограничить количество разрешенных для индексации страниц на сайте за счет страниц с наминающей ценностью для пользователя? Ценность измерять по показателю отказов. Цель: улучшить качество индекса по сайту, снизить вероятность пенальти.

зависит не от колва этих страниц а от их качества,т.е. при динамической генерации страниц относящихся к одному домену, каждая страница должна иметь как минимум уникальный контент,дескрипшен к нему,заточена под кеи этого контента и дальше по юзабилити и оптимизации "фантазировать" улучшение генерации.
Практически: при индексации 30к-50к таких страниц дейли гуглом,после перехода на новый алгоритм,не каких пенальти из за колва страниц не было.
пс по команде site:domain.com можно по топовым сайтам посмотреть как это работает.
цитата
08/07/11 в 20:59
 Mr.Elliot
Согласен с тем что квотирование есть а вот с тем что есть доп. выдача не согласен, просто гугл отбиарает наиболее качественные страницы из всей массы проиндексированного , по многим параметрам например: бэклинки - невозможно впринцыпи получить обратные ссылки на каждую страницу если их 1м , проверить что по мнению гугла т.е. какие страницы участвуют максимально в поиске можно командой site:domen.com/* , многие думают что это доп выдача или сопли но на самом деле это те страницы которые максимально участвуют в выдаче.
Как вариант у тюбов такие хорошие показатели потому что много естественных бэк линков которые в свою очередь выводят эти страницы в поисковое ранжирование !
цитата
09/07/11 в 12:26
 shaprivate
kit писал:
Кстати, это стыкуется с фразами многих владельцев крупных сайтов, что чем больше трафика на сайте, тем больше его любит Гугл.


Это точно, недавно в этом убедился на нескольких сайтах.
Чем больше траффу на сайте, тем больше он в выдаче показывается.
Гугля таким образом определяет популярность, что в принципе верно.
цитата
09/07/11 в 12:39
 kit
Уточнение: чем больше букмарков на сайте, тем больше его любит Гугл.
Врядли учитывается "пролетающий" трафик. Поэтому получить позиции плохому сайту с помощью покупки трафика нельзя.
цитата
09/07/11 в 13:03
 arachnO
kit писал:
Уточнение: чем больше букмарков на сайте, тем больше его любит Гугл.
Врядли учитывается "пролетающий" трафик. Поэтому получить позиции плохому сайту с помощью покупки трафика нельзя .


ну по моим экспериментам - учитывается и пролетающий траф
банально заливал какое-то количество покупного трафика - через 2-3 дня - рост позиций в гугле
цитата
09/07/11 в 13:05
 kit
Покупной трафик по любому букмарков прибавляет на любом сайте. Гугл это видит и дает небольшой бонус. Как-то так получается.
цитата
09/07/11 в 15:28
 Ara Man
Как гугл отслеживает кол-во букмарков если нету ГА?
цитата
09/07/11 в 15:40
 Христофор Бонефатьевич
Mr.Elliot писал:
site:domen.com/*


Этот запрос показывает какуето хуйню! Помню проверял на одном сайте - страница висит на первом месте в гугле и получает трафик, но по запросу site:domen.com/* ее НЕТ icon_smile.gif
цитата
09/07/11 в 15:42
 Христофор Бонефатьевич
Ara Man писал:
Как гугл отслеживает кол-во букмарков если нету ГА?


браузеры всё что надо отслеживают
цитата
09/07/11 в 15:59
 goodlover
arachnO писал:
ну по моим экспериментам - учитывается и пролетающий траф
банально заливал какое-то количество покупного трафика - через 2-3 дня - рост позиций в гугле

+1 работает, не однократно проверял. Причём почти сразу рост se с гугла шел.
Наличие аналитикса не влияло на рост se.
цитата
10/07/11 в 16:01
 kit
Ara Man писал:
Как гугл отслеживает кол-во букмарков если нету ГА?
Есть огромное количество способов отследить трафик на сайте. Не конкретного юзера, а в целом, тренды:

1) Тулбар Гугла.
2) Обращение к ДНС.
3) Переходы на сайт из поисковой выдачи, особенно по имени сайта.

Думаю, что Гугл обсчитывает так или иначе примерно 20-30% трафика в сети. Этого достаточно доля оценки трафика на сайте, и как он себя ведет.
цитата
12/07/11 в 18:20
 Sergeyka
kit писал:
А теперь вопрос: Стоит ли ограничить количество разрешенных для индексации страниц на сайте за счет страниц с наминающей ценностью для пользователя?



а в чем проблема сделать каждую пагу уникальной и ценной для пользователя? мое имхо в конечном итоге это даст больший плюс, хоть и затратно пипец как

щас иду по этому пути
цитата
12/07/11 в 23:06
 kit
В адалте, интересность страницы часто пропорционально количеству контента на ней. Иногда ничего не возможно поделать с этим.


Эта страница в полной версии