За такие CMS-ки расстреливать надо - подскажите как победить мусорные ссылки

12
ZiNTeR2001
На сайте с 28.05.2008
Offline
42
1553

Уважаемые коллеги, некоторое время назад я получил сайт. Не неясным причинам у него проблемы с индексацией были (сейчас я его переделываю заново).

Не могу не поделить с гениальным решением, которое видимо убивало у всех поисковых машин какое-то желание его индексировать!

Итак наш рассматриваемый "пациент" имеет забавную особенность: Элемент "Новости" слева.

Поскольку к MOD_REWRITE он не привязан, и отношения к основному содержимому не имеет сделали просто - к адресу ссылки вида http://www.сайт.вру/адрес/до/просматриваемой/публикации/ (для любой страницы!) чтобы перелистать месяцы в новостях дописывали "бяку" вида: ?month=3&year=2009.

Когда я поставил скипт для составления sitemap.xml, как думаете он поступил?

Правильно - с каждой весомой страницы он пролистал все новости!

до 1854 года!

Уж простите - ничего в энциклопедиях про Интернет на эту дату не слышал - Метро в Лондоне и то 1861 запустили.

В Результате вместо 200 с мелочью страниц на сайте было обнаружен десяток тысяч!

Представьте теперь потерю PR для весомых страниц, скорости индексации и прочее счастье...

Я просто в шоке.

P.S. Счастье обнаружилось при помощи утилиты http://enarion.net/google/phpsitemapng/

Коллеги, будьте осторожны с подобным счастьем.

Надеюсь что кому-то еще поможет...

P.S. Никто мне не подскажет как теперь запретить из robots.xt ВСЕМ поисковикам ходить по ссылками вида ?month=..&year=.. ?

Лабаю Медицинского центра "Евразия" (http://http://xn----7sbbhoobaglcj1a2c6o.xn--p1ai/) Плюс ещё Пытаюсь отреставрировать и воссоздать "сообщество любителей поиграть в футбол шаговой доступности" (http://www.kubgoal.ru)
S2
На сайте с 07.01.2008
Offline
611
#1

А скинуть все новости в отдельную папку, а её запаролить?

А запретить вроде просто:

Disallow: /?month=*

Проверьте тут: http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
dkameleon
На сайте с 09.12.2005
Offline
386
#2
ZiNTeR2001:
В Результате вместо 200 с мелочью страниц на сайте было обнаружен десяток тысяч!

бгггг. Радуйтесь! :)

вы спалили тему, как делать многостраничные сайты из воздуга :)

Дизайн интерьера (http://balabukha.com/)
ZiNTeR2001
На сайте с 28.05.2008
Offline
42
#3
dkameleon:
бгггг. Радуйтесь! :)
вы спалили тему, как делать многостраничные сайты из воздуга :)

Только за такие страницы (где контента в принципе нет) ты получаешь большой минус по распределению PR и пулю в лоб от индексаторов за спам...

Чуть остыл - нашел в коде где эти ссылки шли (это жеж надо - они генерились в папке /system/functions/!) и прибил их <noindex> rel=nofollow.

Блин, я хочу увидеть это чудо, что писало код и спросить зачем он это сделал :)

ZiNTeR2001 добавил 27.04.2009 в 21:56

Str256:
А скинуть все новости в отдельную папку, а её запаролить?

А запретить вроде просто:
Disallow: /?month=*

Проверьте тут: http://webmaster.yandex.ru/wmconsole/public_robots_txt.xml

В том то и дело что не могу.

1. Звездочки там недопустимы

http://www.robotstxt.org/robotstxt.html

Specifically, you cannot have lines like "User-agent: *bot*", "Disallow: /tmp/*" or "Disallow: *.gif".

тогда придется писать так:

/index.php?month=1&year=1

/index.php?month=2&year=1

...

/index.php?month=1&year=2

...

/catalog/?month=1&year=1

/catalog/?month=2&year=1

...

/about/?month=1&year=1

/about/contacts/?month=1&year=1

...

И так до полного морально удовлетворения (для всех страниц через mod_rewrite отображаемых перечислять все года и месяцы до Рождества Христова :) )

Ага, не до рождества - проверил и вбил: ?month=2&year=-2009

Знаете какую ссылку дал? %)

Правильно: ?month=1&year=-2009

S2
На сайте с 07.01.2008
Offline
611
#4
ZiNTeR2001:
1. Звездочки там недопустимы

http://help.yandex.ru/webmaster/?id=996567#996572

Вы лучше проверьте там где я писал, а не спорьте. Делал со звёздочками, нормально и в Яндексе и в Гугле.

Alipapa
На сайте с 01.02.2008
Offline
234
#5

CMS при чем здесь? Стоит, может быть, какой-нибудь блок вроде календаря событий. Уберите его, если не нужны псевдостраницы, и всё.

Биржа фриланса - простая и удобная (http://kwork.ru/ref/2541)
ZiNTeR2001
На сайте с 28.05.2008
Offline
42
#6
Str256:
http://help.yandex.ru/webmaster/?id=996567#996572
Вы лучше проверьте там где я писал, а не спорьте. Делал со звёздочками, нормально и в Яндексе и в Гугле.

Проверил. Забавно то что сам Гугл дает ранее приведенную мной ссылки, согласно которой работать не будет. Однако проверка через google.ru/webmasters/ показала что действительно все правильно. Спасибо :)

ZiNTeR2001 добавил 28.04.2009 в 02:28

Alipapa:
CMS при чем здесь? Стоит, может быть, какой-нибудь блок вроде календаря событий. Уберите его, если не нужны псевдостраницы, и всё.

При том что полностью написала сайт одна Краснодарская компания, которая видимо очень уж кичится своей CMS-кой (правда раскопки показали что состоит она из 3 include 2 If кое-как приделанного Smarty + MOD_rewrite)

AN
На сайте с 05.06.2004
Offline
243
#7
Str256:
А запретить вроде просто:
Disallow: /?month=*

Именно так, только без звездочки:)

Звездочка это не по стандарту, хотя многие поисковики действительно ее сейчас правильно понимают.

И в данном случае она просто ни к чему.

Размещу ваши баннеры на посещаемых сайтах. Места еще есть! Возможен безнал. (/ru/forum/324945) Нужны копирайтеры/рерайтеры - медики. Пишите в личку. (/ru/forum/676932)
Деймос
На сайте с 10.09.2008
Offline
138
#8

В чем проблема то? Обратитесь к тем людям кто писал сайт, и пусть устраняют, что Вы хотите услышать на форуме, если нет пациента и нет кода?!

[Удален]
#9
ZiNTeR2001:
http://www.сайт.вру/адрес/до/просматриваемой/публикации/ (для любой страницы!) чтобы перелистать месяцы в новостях дописывали "бяку" вида: ?month=3&year=2009.

Что за система? Чет мне кажется, что это фреймверк какой то, в котором есть URL менеджер при помощи которого можно легко исправить ситуацию прописав соответствующий паттерн.

Думается, Вы плохо смотрели документацию того на чем пишете сайт.

ZiNTeR2001:
Когда я поставил скипт для составления sitemap.xml, как думаете он поступил?
Правильно - с каждой весомой страницы он пролистал все новости!
до 1854 года!

Ржу :))) Жесть.

S2
На сайте с 07.01.2008
Offline
611
#10
AnNik:
Именно так, только без звездочки
Звездочка это не по стандарту, хотя многие поисковики действительно ее сейчас правильно понимают.
И в данном случае она просто ни к чему.

Пожалуй так, я её использовал в таких конструкциях:

Disallow: /*/ххххх.html

Disallow: /*?tmpl

Но вреда от неё тоже нет, для кого роботс пишется, те поймут.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий