BlagFurer

BlagFurer
Рейтинг
79
Регистрация
09.12.2009
AlexPronichev:
1) Как сообщить гуглу и яндекс что эти страницы мне не нужны?

https://webmaster.yandex.ru/delurl.xml

Если вы хотите удалить страницу из результатов поиска, то можно воспользоваться формой «Удалить URL», предварительно убедившись, что страница удалена с самого сайта, либо ее индексирование запрещено.

Если эта форма говорит, что "Указанный URL не проиндексирован.", http://bertal.ru/ показывает 404 ошибку, а внутренние ссылки после прохода парсером на эти страницы действительно удалены, то вы сделали всё что от вас зависит.

AlexPronichev:
2) Как их правильно удалять с сайта?

Помимо удаления с самого сайта ничего больше делать не надо. Если страница действительно отдает 404, то со временем она будет удалена из индекса. Можно ускорить удаление по ссылке выше.

AlexPronichev:
3) Дают ли поисковики какие либо санкции за то что я удалил страницы вышеописанным способом?

Нет.

AlexPronichev:
4) Я знаю что сайт просядет по запросам, которые вели на эти страницы, это не страшно. А просядет ли по запросам на страницы с которыми ничего не делалось?

Если удаленные страницы участвовали в продвижении других страниц, например, в перелинковке, то конечно повлияет.

AlexPronichev:
5) Я слышал что нужно настраивать 404 ошибку. У меня сайт на хостинге Rucenter и на этом хостинге похоже по умолчанию настроена ошибка 404. Потому что при вводе несуществующей страницы пользователям выводится красивая и информирующая страница.

В чём вопрос?

1. Убедитесь, что по удаленным адресам действительно отдается 404 ошибка через этот сервис https://webmaster.yandex.ru/server-response.xml или бертал.

2. Панели вебмастера обычно показывают внутренние страницы, которые ссылаются на ваши 404. Возможно, вы удалили не все страницы источники 404.

3. Прогоните сайт парсером типа xenu, screaming frog на предмет внутренних 404 или киньте сайт в личку.

А вообще правильно настраивать 410 ошибку на удаленные страницы, но лично мне сайты с такой настройкой еще не попадались :)

Мнение Яндекса на этот вопрос:

Как правило, HTTP-код 404 возвращают более несуществующие страницы сайта. Это нормальная ситуация, не требующая исправления.

Хо-хо. Проблема глубже чем я думал. Получается, что кроме seotome и siteline больше ничего нет в этой области. Прикольно.

А sitecontrol никто не юзал как я понимаю?

Ну я уверен, что найти алгоритм на такую штуку совсем не сложно, сервисам по поиску неуникального контента уже много лет. С технической документацией сложнее. Ну в крайнем случае можно взять API того же text.ru

Готовый софт конечно более предпочтительный.

IPXI:
//car-intrade.ru/ - вёрстка на сайте не проходит валидатор https://validator.w3.org/ не сочтите за придирки, но раз уж здесь про seo...

Я сам за валидную верстку. Но как связана валидная верстка и CMS система?

Этому примеру наверно уже икается :) Так и уникальность контента можно на движок повесить.

---------- Добавлено 16.02.2016 в 23:23 ----------

IPXI:
А вы работали с umi.cms? Если да, то интересно ваше мнение, какие у неё косяки?

Нет, сайтов на ней не попадалось в работу, хотя раньше много к ней присматривался. Сегодня восполнил пробел и заглянул к ним на сайт, заодно оценил внедрения.

При виде доисторических GET параметров в URL пагинации и отсутствии нумерации страниц в title, meta и энтузиазм угас... Привык к диафаноским page2/ и другое решение теперь не воспринимается. Нашлась общая проблема для сайтов на UMI:

http://www.bebeplay.ru/katalog/avtokresla/gruppa_00/?p=1

содержит ссылку на

http://www.bebeplay.ru/katalog/avtokresla/gruppa_00/?p=0, которая является дублем для http://www.bebeplay.ru/katalog/avtokresla/gruppa_00/

http://portrose.ru/magazin/bouquet/?p=1

содержит ссылку на

http://portrose.ru/magazin/bouquet/?p=0, которая является дублем для http://portrose.ru/magazin/bouquet/

Это не слеш не дописанный в конце URL. Это баг размером со слона с вековой историей и я думал, что больше никогда его не увижу. Причем на своём сайте UMI старательно отрезает ?p=0 301 редиректом.

Решил заглянуть в sitemap.xml на сайте key.ru. Результат 100 000 урлов, из которых 50 000 дубли... напомню, что это в sitemap. При этом 79 000 в индексе Яндекс. Удивило отсутствие 304 Not Modified на таком многостраничнике.

На мои попытки вывести ЧПУ key.ru из равновесия UMI не сдалась и показывала 404. Хотя уже другой сайт на этом же движке на не GET запрос http://portrose.ru/любая_белиберда/ — показал код ответа 200 хоть и предупредил, что "страница не найдена".

В общем я не понял зачем платить больше и разбираться в редакциях UMI, если есть Diafan без очевидных косяков.

bay_ebook:


Это очень хорошо. Пока вы так думаете, у меня всегда будут заказы на доработку ваших "правильных" мыслей :)

И сколько вы собираетесь заработать на 1 редиректе без слеша на слеш и правке одной 404 ошибки? На сайте даже 304 Not Modified настроен из коробки. Вы такое где-то еще видели? Если да, то я бы присмотрелся к вашему выбору.

Вот то ли дело, когда из 200 страниц на сайте в индексе 2000. Вот это я понимаю заработать на доработке сайта.

Про параметры, типа "?любая_белиберда" в URL это конечно весело... а UTM как работать должны? Для этого и прописывается в robots.txt disallow: *?. По нормальному ставится rel="canonical", которого, к сожалению, нет в коробке диафан.

Господа, может сразимся на сайтах? Я без проблем сравню коробочный Diafan — http://car-intrade.ru/ с каким-нибудь из предложенных вами сайтов схожей весовой категории. Сделаю стандартные проверки, которые обычно проводит любой оптимизатор - дубли-шмубли, редиректы, серверные ошибки, компрометация подстановками в URL, работа sitemap, пагинации и прочее.

TF-Studio:
-
- там есть реальная проблема с дублями
- требуется множество допилов, к примеру метатегов.

Вы не могли бы пример показать с дублями? Ну то есть на той же битре примеров дублей из коробки море можно насобирать. Но вот на диафане не встречал.

А что там с мета-тегами не так? Шаблоны есть, если не ошибаюсь даже страницы пагинации мета и title нумерует из коробки.

Масол:
Особенно понравилось )))
Т.е. это разработчик CMS должен настраивать, что должно на каждом конкретном сайте отображаться на 404 странице? ))

P.S 404 по умолчанию есть у всех. И нормально отрабатывается, по крайней мере из коробки.

Возможно вы не внимательно прочитали.... имелась ввиду ошибка, при которой страница 404 продолжает отображать контент страницы. Звучит фантастически, правда? Не знаю, может вам с таким не приходилось сталкиваться, но я такое вижу постоянно.

Вот живой пример http://digitaltorg.ru/brandy/asus/ — не поленитесь загляните в бертал. Сайт сделан золотым сертифицированным партнёром битрикс.

На Diafan вы такого не встретите. Каким вы разработчиком не были, хоть золотым, хоть не золотым, хоть вчера узнали как натягивать верстку на двиг.

---------- Добавлено 12.02.2016 в 21:54 ----------

i-work:
Отзыв хоть проплачен? Не лень вам в пятницу такую портянку писать?

Нет. Я не получал денег от Diafan. Нет, не лень, спасибо за беспокойство :)

---------- Добавлено 12.02.2016 в 22:00 ----------

bay_ebook:
Похоже продажи у ЦМСки совсем упали, раз на такой откровенный бред начали деньги выкидывать. Печалька.

Жаль, что когда человек хочет искренне поделится чем то позитивным его сразу воспринимаю за рекламу :) Я не знаю как идут продажи у Diafan, но мне приятно, что я вижу эту cms в списках интеграции различных уважаемых сервисов. По этим признаком я делаю вывод, что всё у них очень хорошо.

---------- Добавлено 12.02.2016 в 22:10 ----------

xakep1:
Даже не слышал про эту CMS. ТС, а что можете сказать про Wordpress?

CMS как CMS, довольно распространенная. Про бесплатную WP ничего не скажу. Но она очень поднялась в глазах, когда посмотрел блог банка тинькова.

Fringer:
парсим сайт прогой screaming frog seo spider, удаляем левые страницы, урлы с параметрами, а потом оставшиеся ссылки загружаем в любой онлайновый сервис генерации сайтмап.

Когда количество страничек перевалит через 100 000 вы удивитесь как упадет скорость этого парсера, даже если отдадите ему все свои 16 гигов оперативы. А потом он начнет выдавать ошибки, что мол памяти нема и проблема будет уже не в железе.

При нынешнем курсе фунта я платил и плакал. Платил и плакал. 12000 рублей на год у SreaminFrog против 2000 руб навечно у Алаева.

Правильно прописывать с карточки на карточку, с категории на категорию.

Но в вашем случае это бесполезно как отметили выше. Яндекс не поддерживает междоменный canonical да google рекомендует использовать 301.

Я бы на вашем месте просто закрыл в robots.txt этот раздел на сайте заказчика. Может коллеги посоветуют что то лучше.

Можно попробовать парсером Алаева. Зависит от ресурсов ПК.

Файл придется разбить аж на 6 частей и создать индексный файл

http://www.sitemaps.org/ru/protocol.html#index

Sitemap штука динамическая. Сделать его один раз и забыть не получится. Соответственно лучше всего, если двиг сам будет формировать список своих же URL... ну ему виднее должно быть сколько у него страниц, чем любому из парсеров.

Всего: 85