богоносец

богоносец
Рейтинг
779
Регистрация
30.01.2007
Коля Дубр:
Привет :)
Но вообще (сугубо ИМХО!) это слишком общая проблема, настолько общая, что ей должны заниматься сами поисковики. Тем более, что у них есть все данные, чтобы для таких примеров выбирать правильный вариант. Все известные мне случаи проблем с дублями были связаны с тем, что CMS именно отдает разные URL, а не только реагирует на них.

Привет.

Эту общую проблему CMS чаще усугубляют, чем лечат.

Когда за дубли берутся поисковики, то... им в первую очередь надо освободить свою базу, а не обеспечить на 100% безошибочную фильтрацию... если они в 5% случаев ошибутся, то у них проблем не возникает, а у владельцев сайтов всякое возможно. Ну и не могут ПС на второстепенные задачи тратить слишком много своих ресурсов, поэтому упрощают эту борьбу.

Коля Дубр:
А какой заголовок там должен быть?

Такой, который не даёт ПС повода для индексации всего лишнего.

Это для ПС разные урлы.

Коля Дубр:
На мой вкус, заголовок должен отдаваться как раз 200, но с добавлением <link rel="canonical" />, благо его поддерживают более-менее все.

Сначала ПС (имея ограничение на количество обращений к конкретному серваку) скачает эти дубли, потом поймёт, что это дубли. Скорость индексации/переиндексации снижается.

Коля Дубр:
Полностью соответствует чему?

Единственно возможному правильному.

Нужно взаимно однозначное соответсвие между единицами контента и урлами.

Коля Дубр:
есть еще примеры того, что современные CMS не умеют, но должны уметь?

1. Ну хотя бы не создавать тупых проблем для ПС. И там писал уже.

2. Помогать разруливать проблемы, являющиеся как бы свойством сайта. Например футеры/шапки/менюшки можно рисовать на клиенте, не показывая ботам... ну вот если на страницах неповторимого контета мало, например.

3. Оставлять много свободы по изменению всего... включая урлы (предоставляя выбор ласт-модифайда и ответа при обращении по старому урлу), типа Райцин писал давно, или свежие проделки Бурундука.

Если этому всему CMS не соответствуют, то проще возиться со статикой.

87793:
Ну и правильно.

Ну это означает смену урлов для ПС.

Чтобы так не скакало, надо удалить файл index.html из корня и в =настройки дизайна= сделать шаблон страницы из содержимого index.html ... с добавками типа

<script type='text/javascript'>

document.write('<a href="http://www.ucoz.ru/" title="Бесплатно!"><img style="margin:0;padding:0;border:0;" alt="uCoz" src="http://s200.ucoz.net/img/cp/4.gif" width="80" height="15"/></a>');
</script>
<script type='text/javascript'> <!--
document.write(' $Powered-By$ '); // ну он сам точнее подскажет при сохранении шаблона -->
</script>

А с папками не знаю.

Ayavryk:
Мэтс пишет, что скрипты выполняются в определенных ограничениях. Я хочу понять где эти ограничения.

И в robots.txt тоже, наверное.

Ну и от популярности чего-либо зависит... какого-либо метода, например xslt (это же типа статика) выполнять не хотят, даже в предпросмотре, для erum.ru в выдаче: Просмотр недоступен.

burunduk:
они их не исполняют, а разбирают как обычный текст

Исполняют... может быть не на всех сайтах // см в подвале примера. Откуда undefined? И почему продолжение сниппета с самого начала страницы?

просто не могу пока себе представить необходимые мощности именно для выполнения всех возможных вариантов на документе

Ну вот превьюшки в выдаче рисует с полным исполнением JS, но XSL никак.

Игорь К:
каков ваш конкретный совет

Не надеяться на то, что создатели CMS ставят задачу сделать сайты удобными для ПС (которым обычно остаётся много работы по отфильровыванию дублей, но делают они это как-нибудь и без лишних затрат, из-за чего и бывают проблемы). Они стараются сделать облегчалку создания сайтов. Тут создатель СМС не стеснялся позиционировать себя как идейного противника удобства сайта для ПС.

Shivana:
вы меня окончательно запутали

У серваков (созданных ещё до появления ПС) есть некоторые особенности, пересекающиеся со стандартом на урл... и вот пример проблемы из-за сервака, которую двиг не лечит, хотя мог бы... но это же сколько надо было бы проверок сделать перед ответом!

Ну в адресную строку forum-collection.narod.ru

получим адрес forum-collection.narod.ru/index.html

Папки... ну на других сайтах не видит в них (index.html) 403 Forbidden

Ну из поиска повыпадают.

Ayavryk:
Matt Cutts три года назад однозначно пообещал, что если будет нужно, они будут учитывать JS-ссылки в ccылочном ранжировании

Так заспамят JS-ссылками...

Ayavryk:
Если страница на которой отображается закрытый контент сама не закрыта от индексации, то логично было бы все ее содержимое пихать в поиск

Чем дальше ПС откладывали учёт JS и пр. так и не ставшее популярным xslt, тем больше они найдут мусора при включении этого всего в ранжирование.

Если среди разработчиков ПС разумные остались, то даже при включении (по умолчанию) этого всего... оставили бы боту возможность не-учёта результата JS/XSL при явном указании в роботсе.

Shivana:
ни разу не сталкивалась с урлами с кучей слешей на неткетовских сайтах, даже интересно стало почему.

За это спасибо тем, кто ссылок таких не ставил... и ПС, умеющих как-нибудь фильтровать дубли, возможность которых CMS обычно лишь создаёт.

Из-за этой мути ранжирующие системы поисковыми не стали!

87793:
Скажем, тот сайт, который у меня в профиле на этом форуме, я ещё не трогал

301 на /index.html

А в папках не видит index...

т.е. хостер решил растерять посещалку ещё до обвешивания рекламой.

Shivana:
мы с Неткетом давно совместно работаем над адаптацией NetCat под SEO

Скорее над тем, что пользователям СМС положено знать про это SEO

Ну вот прямо за минуту (т.е. вероятность этого всего слишком уж высока)

http://www.netcat.ru/developes//archiTect/

http://www.netcat.ru//developes////arcHiTect/

200 OK

http://www.netcat.ru/?robot

Всего: 13685