Дублированный контент в Google

На последней конференции "Стратегии поисковых систем" в Чикаго было много вопросов о дублирующемся контенте. Мы признаем что есть много тонкостей и узких мест ( наших ошибок ) по работе с таким контентом, поэтому я бы хотел прояснить некоторые моменты:

Почему Гугль заботится об оригинальности контента ?

Наши пользователи обычно хотят видеть подборку различных сайтов ( или статей ) по своему запросу. Представляете каково будет разочарование если введя свой запрос человек увидит 10 одинаковых статей на разных сайтах на первой странице серпа? А вэбмастера еще ругают нас за то что страница вида example.com/contentredir?value=shorty-george=en может оказаться выше чем example.com/en/shorty-george.htm

Что гугль делает с дублированным контентом ?

В процессе индексации и ранжирования сайтов мы стараемся выбирать страницы с оригинальной информацией. Эти фильтры означают что если ваша статья на сайте есть в двух вариантах - "обычный" и "для печати" и один из них не заблокирован через robots.txt или через noindex то сохранен в индексе будет только один вариант статьи. В редких случаях, когда мы видим что дублирующийся контент находится на сайте с целью манипулировать результатами поиска - мы можем исключить такой сайт из серпа. Однако мы предпочитаем заниматься именно фильтрацией вместо удаления сайтов с дублированым контентом из выдачи. Поэтому в большинстве случаев худшее что может случиться с вашим сайтом это "более низкое" место в серпе.

Как лучше распределять дублированный текст ?

- Вместо того что бы предоставлять нашему роботу какую из копий текста выбрать ( т.е. обычную или "для принтера" и т.п. ). Блокируйте лишние копии через файл роботс

- используйте 301 редирект если вы изменили структуру сайта ( с помощью .htaccess ).

- Используйте полные ссылки, а не /page/ или /page или /page/index.htm

- Используйте домены а не субдомены, также не забывайте что при ранжировании активно используется определение страны ( т.е. русскоязычным пользователям в первую очередь будут показаны домены .ru и т.п. )

- Используйте RSS аккуратно, всегда следите что бы сайты которые импортируют ваши статьи ссылались на ваш сайт в КАЖДОЙ статье

- Если на ваш сайт ссылаются как на "site.ru" так и на "www.site.ru" указываете КАКУЮ ИМЕННО версию сайта индексировать.

- Минимизируйте повторяющиеся блоки текста на страницах, например если внизу или вверху каждой статьи вы в нескольких предложениях расписали запреты на копирование контента и т.п. , то лучшим решением будет вынести такой текст в отдельную страницу и поставить на нее ссылку во всех статьях.

- Избегайте опубликования по алфавиту или например по странам в том случае если кликнув по одной из ссылок пользователь увидит пустой шаблон ( т.е. например нет у вас статей на букву Я, но ссылка на "Я" есть ). Пользователи не любят такие шутки, а мы работаем для пользователей.

- Будьте "на ты" с вашей CMS , постарайтесь узнать все способы которыми дублируется контент ( например версия для печати, версия для мобильных, и т.п.)

- "Не парься, будь счастлив"  Не слишком беспокойтесь о дублировании или воровстве контента с вашего сайта, как правило гугль справляется с такими воришками без проблем. Если уж вас совсем достал какой-нибудь "ксерокс" обратитесь в Google на страницу www.google.com/dmca.html - они отправят нам запрос на удаление его из индекса.

  • Hits: 8841

Продвижение сайтов. Создание сайтовРаскрутка в Интернете. Поисковое продвижение. Раскрутка сайтов. Создать сайт. Разработка сайта. Оптимизация сайтов. СЕО продвижение.