Master-X
Форум | Новости | Статьи
Главная » Форум » Поисковые Системы » 
Тема: Конспект на русском гугловского мануала по ручной модерации
цитата
26/10/11 в 13:11
 orvas
Из гугла утекло руководство для асессоров, которые, опираясь на этот 125-страничный документ, рассматривают результаты поиска по разным запросам и определяют, насколько тот или иной сайт релевантен и необходим для пользователей.
Полный текст

Оценка сайтов ассесорами

Первые страниц 30 не представляют особого интереса – там приводятся основы работы поиска и некоторые примеры для асессоров для оценки ресурсов. Из этого текста полезной может оказаться только следующая информация:

Асессоры оценивают страницы (обратите внимание, именно страницы, а не домены), а затем присваивают им определенный рейтинг, который зависит от качества этих страниц, а именно, сайту могут присвоить одно из значений рейтинга:
•Vital – особая категория рейтинга, присваивается страницам в специальных ситуациях. Используется в тех случаях, когда поисковый запрос может иметь несколько значений, причем одно из значений заметно преобладает над другими. Только в этих случаях страницам может быть присвоен рейтинг «Vital». К примеру, англоязычный запрос apple может иметь как минимум 2 значения – яблоко и компания apple. Но люди гораздо чаще, вводя этот запрос, имеют в виду компанию, а не фрукт. Вот таким страницы и получают это значение рейтинга.
•Useful – релевантная страница, которая может быть полезна для большинства посетителей, попавших на эту страницу из поиска по конкретным запросам.
•Relevant – релевантная страница, которая может быть полезна для многих или некоторых пользователей.
•Slightly Relevant – слегка соответствующая страница. Страница, которая не очень полезна для большинства пользователей, но немного связана с запросом. Некоторые пользователи могут найти в ней необходимую информацию.
•Off-Topic (Useless) – нерелевантная/бесполезная страница. Она полезна слишком малому количеству людей, либо никому.
•Unratable – страница, которую нельзя оценить. Такой рейтинг могут получить страницы, которые не загрузились при посещении асессором, на которых есть вредоносное ПО и программное обеспечение об этом преджупреждает, либо страницы на языке, с которым асессор не знаком.

Кроме одного из этих значений, особым типам страниц могут быть присвоены различные метки:

1. Спам-метки
•Spam – если страница имеет признаки спама, то ей присваивается эта метка.
•Not Spam – если вы видите, что страница выглядит вполне адекватно и не имеет признаков спама, то ей присваивается эта метка.
•Maybe Spam (Возможно, спам) – если асессор сомневается при выборе одной из меток этого типа и есть подозрения, что это спам-страница, то он присваивает ей эту метку.

2. Порно-метки

Все страницы, содержащие порно-контент любого типа (изображения, текст, видео, всплывающие окна, текст) считаются порнографическими. Но асессоров просят обращать внимание на особенности культуры определенных стран – в одной стране что-то может считать порнографией, а в другой нет. Каждой странице по особым запросам присваиваются метка «Porn» или «Not porn».

Clear Non-Porn Intent (очевидные не порнографические запросы). Эти страницы с порно-контентом все получают метку «Porn», если пользователь попадает на нее по очевидным не порно запросам. В качестве примера приводится запрос «фотографии автомобилей». Если на фото будет изображена голая/обнаженная девушка на капоте автомобиля, то этой странице поставят метку «порно», хотя на картинке есть машина. Называются 2 причины:•Пользователь искал явно не порно, поэтому этот результат можно рассматривать как бесполезный.
•Многие пользователи считают наличие порно в выдаче по не порно запросам показателем плохого качества поиска.

Possible Porn Inten (возможные порно запросы). Некоторые запросы имеют порно и не-порно интерпретации. К примеру, в следующих англоязычных запросах, возможно, могут иметь место порно-намерения: [girls], [gay], [thong], [breast], [sex], [spanking]. Такие запросы называются Possible Porn Inten. Асессоры в подобных запросах должны считать не-порно намерения преимущественными и помечать страницы с порно-контентом меткой «Porn».

Clear Porn Inten (очевидные порно запросы). Явные порнографические запросы обязательно оцениваются по шкале релевантности (которую я приводил в начале), но все равно все получают метку «Porn». Страницы с вредоносным ПО в любом случае должны иметь низкие позиции, даже если на них есть релевантный контент – это задача для асессоров.

Reporting Illegal Images (жалобы на незаконные изображения). На все страницы, на которых содержится детская порнография/зоофилия и др. виды извращений от асессоров поступают жалобы своим работодателям. Все сцены, в которых особое внимание обращается на половые органы или есть откровенные сексуальные моменты, при этом асессору трудно определить, есть ли ребенку 18, считаются детским порно.

3. Метки вредоносности•Страницам присваивается метка «Malicious» если:
•Вы вынуждены закрыть браузер из-за всплывающих окон, которые не закрываются. Если после нескольких попыток не получается закрыть всплывающее окно страница получает метку «Malicious».
•Была обнаружена попытка загрузки вредоносных программ.
Обратите внимание, что страницам, на которых появилось окошко браузера с предупреждением о вредоносных программах, не присваивается флаг «Malicious». Эти страницы получают рейтинг Unratable (страница не загрузилась).

Ранжирование по гео-зависимым и гео-независимым запросам
Основные тезисы:•Полезные для пользователей страницы по гео-зависимым запросам должны иметь более высокие позиции.
•Страницы, которые могут быть полезны пользователям по гео-независимым запросам должны также иметь высокие позиции.
•По запросам, в которых пользователи ищут определенные местные объекты (предприятия, организации, школы) официальные сайты/страницы этих объектов будут получать наивысшее значение рейтинга.
•Если сложно определить, является ли запрос гео-зависимым, то страницы ранжируются как гео-независимый.

Типы поисковых запросов
•Большинство запросов могут быть классифицированы как информационные и навигационные, но есть и другие виды запросов.
•Именные запросы - когда пользователи ищут какую-то информацию по именам и названиям объектов: знаменитых людей, географические места, компании и бренды, книги, события и т.д.
•Транзакционные запросы – вводя подобные запросы пользователи хотят что-то сделать, к примеру, скачать, посмотреть, купить, играть в онлайн-игры, распечатать что-то и т.д.
•Информационные запросы – при вводе подобных запросов пользователи хотят найти информацию, хотят узнать что-то.
•Запросы, в которых ищут списки. Часто, лучшими результатами в выдаче на эти запросы могут стать страницы со списками полезной для пользователей информации. Вот примеры подобных запросов: банки, курсы валют, велосипеды, отели и т.д.

Руководство по поисковому спаму

Страницы, нахождение на которых раздражает, у которых контент низкого качества, которые имеют большое количество всплывающих окон и рекламы не обязательно являются спамом.
Наличие меток «Спам» не зависит от релевантности контента запросу. Страница может быть полезной для пользователей, но на ней используются приемы поискового спама. Это значит, что по шкале оценки сайтов ее можно оценить как «релевантная», но метку «спам» в любом случае необходимо присвоить.

Метка «спам» присваивается страницам, которые созданы только для заработка денег, а пользователям не несут никакой полезной информации.

Виды спама и технические признаки:•Скрытый текст и скрытые ссылки. Признаки: невидимый невооруженным глазом текст, текст, который имеет цвет фона, текст, размещенный за пределами области просмотра (к примеру, могут быть большие пробелы между основным контентом и контентом для поисковых систем).
•Чрезмерное содержание ключевых слов. Признаки: ключевые слова повторяются много раз на странице, немного неверное написание ключевых слов, частое повторение фраз, связанных с ключевыми словами. Метку «Спам» могут получить страницы, на которых, по мнению асессора, слишком частое употребление ключевых слов, которое может отвлекать или раздражать пользователей.
•Скрытое перенаправление. Перенаправление с одной страницы одного домена на другой домен – это плохо, такие сайты надо помечать как «спам». Перенаправление в пределах одного домена – это нормально.
•Клоакинг с перенаправлением через JavaScript и 100% фреймы. Один из методов спамеров по маскировке контента. Пользователям и поисковым системам показывается разный контент. Помечать меткой «Спам».

Отличия между спам и не-спам страницами
Если страница полезна для пользователей и содержит объявления PPC – это не спам.

Примеры полезного для пользователей контента:•Сравнение цены и технических характеристик товара. Некоторые сайты сравнивают параметры товаров, в частности, его цену. Даже если пользователю нужно кликнуть по партнерской ссылке, чтобы разместить заказ, такие страницы не являются спамом. Сравнение цены – это всегда полезная информация.
•Отзывы о продуктах. Реальные отзывы людей о каких-то товаров, которые помогут пользователям принять решение о покупке или об отказе от нее – также полезная информация.
•Текст, цитаты пословицы. Если страницы предназначены для того, чтобы помочь пользователям найти тексты песен, стихов – это не спам.
•Контактная информация. Страницы, которые содержат реальные контактные данные компаний не являются спамом.
•Купоны, скидки. Этот тип контента также является полезным для посетителей.

Страницы с копированным контентом и PPC-объявлениями

Даже если вебмастера, которые скопировали контент с других сайтов, ссылаются на первоисточники, это все равно считается копированным контентом. Если страница с копированным контентом создана для того, чтобы заработать на рекламных объявлениях, то ее нужно помечать как «Спам».

Страницы с PPC-объявлениями и контентом из RSS

Страницы, на которых содержится только контент с открытых RSS лент и размещены PPC-объявлениями считаются спамом.

Блоги-фейки, фейковые доски-объявлений
Блоги-фейки, фейковые доски-объявлений, созданные для того, чтобы заработать на рекламе – это спам.
Внимание, просьба к асессорам:

Цитата:


Мы не хотим наказывать блоги и доски, на которых кто-то опубликовал спам. Если вы видите, что блог/доска хорошая, то, пожалуйста, не отмечайте их меткой «Спам».Признаки качественных сайтов с рекламой•Страницы хорошо структурированы. Объявления могут быть, но они расположены в удобных местах и не отвлекают от чтения контента.
•Если проверить страницу на уникальность, к примеру, проверив одно предложение в поиске, то, как правило, качественный сайт будет на первой позиции по этому запросу.
•Страница полезна и интересна для пользователей.
•На популярных сайтах к статьям есть большое количество комментариев – это хороший признак качественного сайта.
цитата
26/10/11 в 15:18
 orvas
Всем пофиг? icon_smile.gif
А, помнится, столько копий было сломано на тему того, есть ли у гугла ручная модерация. icon_wink.gif
цитата
26/10/11 в 15:34
 Sergeyka
дык процент сайтов попадающих под нее весьма низок
цитата
26/10/11 в 16:27
 dr.BoB
спасибо за перевод.

Sergeyka: - а ты откуда знаешь какой процент попадает под ручной ценз? и неужели ты думаешь что их алгоритм работает отлично от этих пунктов? trollface.png
цитата
26/10/11 в 16:39
 Sergeyka
dr.BoB: да не знаю, а предполагаю, ибо прикидываю сколько миллионов запрсов и сколь сайтов, эт какое количест во негров надо? trollface.png
цитата
26/10/11 в 16:41
 Vantage
спасибо за статейку.
цитата
26/10/11 в 16:49
 LOVE
orvas писал:
А, помнится, столько копий было сломано на тему того, есть ли у гугла ручная модерация.


есть, и у гугла и у яндекса.
даже скриншоты админки были.
цитата
26/10/11 в 16:50
 LOVE
Sergeyka писал:
dr.BoB: да не знаю, а предполагаю, ибо прикидываю сколько миллионов запрсов и сколь сайтов, эт какое количест во негров надо? trollface.png


берешь 10% запросов ВЧ.
берешь только ТОП10 из серпа.

уже только это даст результат.
а негров очень много и не понадобится.
цитата
26/10/11 в 20:21
 aewm
orvas писал:
Из гугла утекло руководство для асессоров


класс, забираю

и за перевод спасибо smail54.gif
цитата
26/10/11 в 20:22
 sydoow
orvas: кто это переводил и конспектировал? Ты сам?
цитата
26/10/11 в 20:30
 orvas
Нет, взял с Армады. Ссылки на источник не было. Там ещё конспект есть, смысл тот же, но более сумбурно написано.
цитата
26/10/11 в 20:30
 LEO
Интересно,спасибо.
В последнее время мастер вновь стал информативным форумом smail54.gif icon_smile.gif
цитата
26/10/11 в 21:54
 sydoow
orvas писал:
Нет, взял с Армады. Ссылки на источник не было. Там ещё конспект есть, смысл тот же, но более сумбурно написано.

Полный бы перевод ктонибудь сделал было бы хорошо icon_wink.gif
цитата
26/10/11 в 22:35
 Crappyday
sydoow писал:
Полный бы перевод ктонибудь сделал было бы хорошо icon_wink.gif

может тебе еще с картинками? trollface.png
цитата
26/10/11 в 22:49
 Stup
Guideline настолько полезен, насколько бесполезен. Похоже на фейковый вброс "никакая-информация".
цитата
26/10/11 в 22:51
 sydoow
Crappyday писал:
может тебе еще с картинками? trollface.png

Оффтопик: Не надо, у меня фантазия хорошая trollface.png
цитата
26/10/11 в 23:29
 adonis
Цитата:
Примеры полезного для пользователей контента:•Сравнение цены и технических характеристик товара. Некоторые сайты сравнивают параметры товаров, в частности, его цену. Даже если пользователю нужно кликнуть по партнерской ссылке, чтобы разместить заказ, такие страницы не являются спамом. Сравнение цены – это всегда полезная информация.


как обстоят дела с ревью сайтами? Гугля должна любить их и как она поймет что это сравнение цен, а не просто реклама? icon_surprised.gif
цитата
27/10/11 в 00:24
 shapov
это руководство для асессоров, а не описание алгоритма гугла. Поэтому ему и не надо понимать, чем является ревью-сайт
цитата
27/10/11 в 09:35
 bizz
adonis писал:
как обстоят дела с ревью сайтами? Гугля должна любить их и как она поймет что это сравнение цен, а не просто реклама? icon_surprised.gif



Инфу по ревью сайтам можно найти в другом руководстве:

Review Sites

Some advertisers web sites review products or services offered by others (for example, credit cards, weight loss supplements, or people search sites) and include a link to the reviewed merchant. Most review sites you encounter are affiliates of the merchants they review. That is, the Landing Page advertiser receives a referral fee for sending users to the featured merchant. This is common, and it is not always a bad thing for users. Base your own evaluation of review sites on the quality and usefulness of the advertiser's site.

Keep in mind that good reviews tend to share several of the following attributes:

reviewer is identified as a real person rather than an anonymous person
not all reviews are positive, although any single review might be
good reviewers provide clear criteria that inform their ratings
in order to avoid appearance of conflict of interest, honest reviewers disclose their relationship with affiliated merchants, if any

The guidelines use the term Fake Review Site to refer to sites with the following attributes:

Reviews are vague or overly general
It is rarely clear who the reviewer is and what criteria the reviewer uses to rate the featured products or services
Reviews usually lead directly to a merchant or vendor (one can sometimes see an affiliate code embedded in the merchant's URL)
There is no contact information, or if there is it’s only an email address or web form
Reviews and ratings are generally all positive/optimistic
Advertiser usually offer little beyond links to affiliate sites
Fake Review Sites are rarely updated (even when they say they are)


https://www.google.com/evaluation/ads/hub/spam.html#spam3
цитата
27/10/11 в 15:47
 raider
если не фек - то конечно опаньки - блин
особено про паблик rss
цитата
28/10/11 в 11:47
 orvas
Вот ещё немного интересного
Цитата:
В пару строк - сайты оцениваются не сами по себе, а в соответствии с запросами, геолокацией и языком. Запросы делятся на типы - что имел в виду пользователь, когда делал запрос. Оценивается не просто насколько точно отвечает результат запросу, но и его значимость в соответствии с типом запроса. Уровни значимости - Vital (необходимый в контексте запроса, у большинства запросов нет результатов этого уровня), Полезный, Соответствующий, Слегка соответствующий, Несоответствующий, Неоцениваемый(Не удалось открыть или неизвестный оценщику язык)
Типы запросов - Do (действие), Know (получить информацию), Go (навигация). Do - это например купить виагру онлайн, Know - виагра, Go - rxp customer support, запрос с явным подразумеванием сайта для перехода.
Еще раз, каждый результат оценивается не сам по себе в рамках ключевых слов, а учитывается, что имел в виду юзер, какой тип запроса он вбил в гугл и насколько географически релевантен результат.
Тем не менее есть запросы, по которым сложно понять их тип.


Отдельно целый раздел посвящен поисковому спаму. Сайт может получить флаг "полезный в соответствии с запросом" и одновременно флаг "спам". Уникальный контент, отсутствие рекламы не спасает от флага спам. А вот например скопипащеный контент, но без PPC, иногда может и не быть спамом. Ключевые слова в урл один из главных признаков спама. "Тонкие" партнерские сайты - спам. А вот например хорошо сделаное сравнение цен и ревью с теми же самыми партнерскими линками уже не спам. keyword stuffing - спам.

Features that will help you determine if a website is a true merchant include:
a “view your shopping cart” link that stays on the same site
a shopping cart that updates when you add items to it
a return policy with a physical address
a shipping charge calculator that works
a “wish list” link, or a link to postpone the purchase of an item until later
a way to track FedEx orders
a user forum that works
the ability to register or login
a gift registry that works
но отдельно поясняется что многие сайты используют внешние мерчанты и это не признак плохого сайта.

"Уникальные статьи" без полезного содержания - спам. Так например приводится пример уникальной статьи об электромобилях из 4 абзацев, по прочтении которой читатель не унает ничего нового, кроме того, что электромобили в отличие от обычных ездят на электричестве. Именно за такие статьи и получили пенальти от панды крупнейшие езины.

Дизайн имеет значение. В общем-то полезный контент может получить флаг спам только из-за замусоренного неструктурированного дизайна.

У порна отдельная категория, считается что порн релевантен только для запросов, явно подразумевающих порн. Для двусмысеных запросов (например spanking) подразумевается, что юзер искал не порн.
У сайтов на английском небольшой бонус - считается, что они в некоторой степени могут быть релевантными для выдачи на любом языке. Есть группы "близких" языков, например в украинской выдаче будут ранжироваться сайты на русском.

Учитывается все вплоть до whois инфы. Внутренний автоматический редирект - ок, внешний редирект на сайт с тем же овнером по хуиз - ок, просто неявный внешний редирект - спам.
100% фрейм - спам. Клоакинг спам.

Есть целый ряд типов контента, который вообще не считается копипастом - original or the page includes reviews oLyrics, quotes, proverbs, poems, etc. В любом случае копипаст еще не повод для флага спам.

fake search, fake blogsm fake messageboards(forums) - спам

по цп и зу - отдельный пункт. все ссылки на цп и зу следует посылать начальнику. Видимо для этого контента как раз и работает ручная модерация выдачи. Картуны, лоликон и тп это тоже цп. И вообще, если картинка кажется цп (например хорошо выбритая 18тилетняя девочка, выглядящая намного младше своего возраста) - это цп.
Even if the image has literary (think of the famous book “Lolita”), artistic, political (think of political cartoons), or
scientific (think of images for a medical text book) value, please send the link to your employer.


Оценщики пользуются файрфоксом с плагином, позволяющим отключить цсс, js и т.п. чтобы увидеть например спрятанные ссылки и мелкий текст. Процесс оценки это не "посмотрел и поставил галочки", а тщательное изучение ландинговой страницы.

http://www.armadaboard.com/viewtopic.php?p=4795933#4795933
цитата
28/10/11 в 18:12
 net666
...Картуны, лоликон и тп это тоже цп....
Круть бля, больше слов нет icon_evil.gif
цитата
29/10/11 в 08:06
 Sergeyka
orvas писал:
Картуны, лоликон и тп это тоже цп.


интересно, с чего бы это ?
цитата
29/10/11 в 11:25
 sergio21
net666 писал:
...Картуны, лоликон и тп это тоже цп....

Sergeyka писал:
интересно, с чего бы это ?

с того, что законодатели установили, что к цп относятся не только материалы, реально содержащие изображения несовершеннолетних, но и те материалы, которые это имитируют. независимо от возраста модели, или от способа подачи материала (читай - рисованое порно).
правильно это, или нет - другой вопрос.
наверное, с точки зрения тех, кто работает в картунсовой нише, неправильно. а с точки зрения противников цп в любом виде - правильно, т.к. в таких делах "лучше перебдеть, чем недобдеть."
цитата
29/10/11 в 11:34
 Gossha
Интересная статейка. smail54.gif
спасибо за перевод.
Стр. 1, 2, 3  >  последняя »


Эта страница в полной версии