Как "побороть" pdf в индексе google?

12
S
На сайте с 20.07.2008
Offline
26
1142

Добрый день!

В качестве cms используется на сайте joomla 1.5. Видимо из благих побуждений в данной версии было реализовано конвертирование страниц в pdf. К любой странице добавляешь приблуду ?format=pdf и вуаля.

Но дело в том, что это "вуаля" индексируется google и нормальные страницы с "уникальным" контентом попадают в дополнительный индекс.

В роботсе запретил индексацию страниц с подобным расширением, но страницы продолжают индексироваться google. В панели для веб-мастеров страницы с данным расширением из индекса не удаляются. Они просто отклоняются.

Подскажите, плз, как можно "очистить" индекс от этого мусора?

Все, что сказано хорошо - мое, кем бы до этого оно не было сказано! Мое, правда, до этого это говорил и Сенека
SaleSeo
На сайте с 26.07.2007
Offline
352
#1

Это уже кривость cms, переходите на нормальные движки.

Скорее всего надо в cms устранять причину...может pdf графически чтоб собирался...и не текстом.

Прогон BULLET для крауд,PNB,зеркал,доров https://bootmasterru.com/postingbyxrumer.html | Честное SEO,настройка Я Директ,семантика и оптимизация под ключ https://saleseo.ru :)
ZoomY
На сайте с 07.11.2008
Offline
165
#2

Поставьте rel=canonical и будет вам счастье, останутся только основные страницы.

Размещу ваши статьи на сайтах с тИЦ до 1400 по 5$ (/ru/forum/846111) Сейчас многие ищут хостинг за пределами России. Ukrnames - один из лучших вариантов: (http://ukrnames.com/?ref_id=114) и лидер рынка, и привычно, и по-русски, и вне юрисдикции РФ.
S
На сайте с 20.07.2008
Offline
26
#3
ZoomY:
Поставьте rel=canonical и будет вам счастье, останутся только основные страницы.

Спасибо, впервые встречаю этот тег... Но есть некоторые сложности в использовании. Нашел следующее:

12 февраля Google анонсировал новый тег canonical, который поможет вам избавиться на сайте от дублированного контента, указывая предпочитаемую версию URL адреса для страницы. Также в этот день ввод нового тега анонсировали компании Yahoo и Microsoft.

Если ваш сайт имеет идентичный или очень похожий контент, доступный по разным URL, тогда новый формат позволит указать тот URL, который должен возвращаться в поисковой системе. Также можно быть уверенным, что все характеристики, такие как ссылочный вес и т.д. передадутся на нужную версию адреса.

Теперь вы можете добавить этот тег, для указания вашей версии адреса, внутри тега <head> на страницах с дублированным контентом

Но в том то и дело, что фактически этих страниц не существует... Они генерятся автоматически.

ZoomY
На сайте с 07.11.2008
Offline
165
#4
svtim:
Спасибо, впервые встречаю этот тег... Но есть некоторые сложности в использовании. Нашел следующее:



Но в том то и дело, что фактически этих страниц не существует... Они генерятся автоматически.

А базируются они на чём? На основной странице?

Т.е. page.php автоматически генерирует page.php?format=pdf?

S
На сайте с 20.07.2008
Offline
26
#5
saleseo:
Это уже кривость cms, переходите на нормальные движки.
Скорее всего надо в cms устранять причину...может pdf графически чтоб собирался...и не текстом.

Не первый год пользуюсь данной cms, но в предыдущих версиях подобных боков не было. Мы все прекрасно понимаем, что идеальных решений не существует... Но суть не в этом.

В принципе мне этот pdf вообще не нужен.

svtim добавил 27.10.2009 в 13:09

ZoomY:
А базируются они на чём? На основной странице?
Т.е. page.php автоматически генерирует page.php?format=pdf?

Ну да... Вот в этом, собственно, и вопрос. Могу ли я проставлять данный тег на основных страницах?

Насколько я понял из статьи, то нет.

ZoomY
На сайте с 07.11.2008
Offline
165
#6
svtim:

Ну да... Вот в этом, собственно, и вопрос. Могу ли я проставлять данный тег на основных страницах?
Насколько я понял из статьи, то нет.

Этот тег — не директива, а подсказка. Попробуйте — попытка не пытка. Расскажете заодно.

Кроме того, вы можете в .htaccess автоматически редиректить все урлы с ?format=pdf на оригинальную страницу (просто удалять эту часть из урла), и Гугл тогда физически до них не доберётся.

S
На сайте с 20.07.2008
Offline
26
#7
ZoomY:
Этот тег — не директива, а подсказка. Попробуйте — попытка не пытка. Расскажете заодно.
Кроме того, вы можете в .htaccess автоматически редиректить все урлы с ?format=pdf на оригинальную страницу (просто удалять эту часть из урла), и Гугл тогда физически до них не доберётся.

С редиректами не очень хотелось бы извращаться... Что бы не говорили, а при их использовании есть "темные" пятна. Этот вариант самый простой, но самый трудоемкий.

К тому же, проблема не только с google... Хоть меня и мало интересует Yahoo и "творчество" Microsoft, но лучше о них не забывать... Насколько я вижу по индексу с роботсом работает нормально только Яндекс.

Спасибо, ZoomY, буду пробовать!

SaleSeo
На сайте с 26.07.2007
Offline
352
#8

На форумах cms этой запостите...в ней надо фиксить баг

S
На сайте с 20.07.2008
Offline
26
#9
saleseo:
На форумах cms этой запостите...в ней надо фиксить баг

Ок, спасибо!

DyaDya
На сайте с 11.04.2007
Offline
147
#10

Не думаю, что версия страницы в формате пдф - это баг).

1. Запрещайте индексацию таких страниц и всё. Я не совсем понял, как вы запретили индексацию страниц с подобным расширением. О каком расширении идёт речь?

Запретить нужно индексацию всех урлов с параметром format=pdf

Проверьте, действительно ли вы их правильно запретили?

2. Для надёжности поменять настройки в движке, чтобы версии в формате пдф вообще не выдавалось!

Если речь об этом, то тут да, можно на форум по джумле идти.

Выбирайте качественный хостинг (http://vashmaster.ru/informaciya/o_poleznyh_programmah/news83.php) и продвигайте сайты в СЕОПУЛЬТ (http://seopult.ru/ref.php?ref=72b5ed9561fe66a1). А на «SAPE» я в обиде :) Не упрекайте за очепятки, пишу вслепую (http://ergosolo.ru/) и также делаю сайты (http://www.vashmaster.ru/) ;)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий