https://webmaster.yandex.ru/delurl.xml
Если эта форма говорит, что "Указанный URL не проиндексирован.", http://bertal.ru/ показывает 404 ошибку, а внутренние ссылки после прохода парсером на эти страницы действительно удалены, то вы сделали всё что от вас зависит.
Помимо удаления с самого сайта ничего больше делать не надо. Если страница действительно отдает 404, то со временем она будет удалена из индекса. Можно ускорить удаление по ссылке выше.
Нет.
Если удаленные страницы участвовали в продвижении других страниц, например, в перелинковке, то конечно повлияет.
В чём вопрос?
1. Убедитесь, что по удаленным адресам действительно отдается 404 ошибка через этот сервис https://webmaster.yandex.ru/server-response.xml или бертал.
2. Панели вебмастера обычно показывают внутренние страницы, которые ссылаются на ваши 404. Возможно, вы удалили не все страницы источники 404.
3. Прогоните сайт парсером типа xenu, screaming frog на предмет внутренних 404 или киньте сайт в личку.
А вообще правильно настраивать 410 ошибку на удаленные страницы, но лично мне сайты с такой настройкой еще не попадались :)
Мнение Яндекса на этот вопрос:
Хо-хо. Проблема глубже чем я думал. Получается, что кроме seotome и siteline больше ничего нет в этой области. Прикольно.
А sitecontrol никто не юзал как я понимаю?
Ну я уверен, что найти алгоритм на такую штуку совсем не сложно, сервисам по поиску неуникального контента уже много лет. С технической документацией сложнее. Ну в крайнем случае можно взять API того же text.ru
Готовый софт конечно более предпочтительный.
Я сам за валидную верстку. Но как связана валидная верстка и CMS система?
Этому примеру наверно уже икается :) Так и уникальность контента можно на движок повесить.---------- Добавлено 16.02.2016 в 23:23 ----------
Нет, сайтов на ней не попадалось в работу, хотя раньше много к ней присматривался. Сегодня восполнил пробел и заглянул к ним на сайт, заодно оценил внедрения.
При виде доисторических GET параметров в URL пагинации и отсутствии нумерации страниц в title, meta и энтузиазм угас... Привык к диафаноским page2/ и другое решение теперь не воспринимается. Нашлась общая проблема для сайтов на UMI:
http://www.bebeplay.ru/katalog/avtokresla/gruppa_00/?p=1
содержит ссылку на
http://www.bebeplay.ru/katalog/avtokresla/gruppa_00/?p=0, которая является дублем для http://www.bebeplay.ru/katalog/avtokresla/gruppa_00/
http://portrose.ru/magazin/bouquet/?p=1
http://portrose.ru/magazin/bouquet/?p=0, которая является дублем для http://portrose.ru/magazin/bouquet/
Это не слеш не дописанный в конце URL. Это баг размером со слона с вековой историей и я думал, что больше никогда его не увижу. Причем на своём сайте UMI старательно отрезает ?p=0 301 редиректом.
Решил заглянуть в sitemap.xml на сайте key.ru. Результат 100 000 урлов, из которых 50 000 дубли... напомню, что это в sitemap. При этом 79 000 в индексе Яндекс. Удивило отсутствие 304 Not Modified на таком многостраничнике.
На мои попытки вывести ЧПУ key.ru из равновесия UMI не сдалась и показывала 404. Хотя уже другой сайт на этом же движке на не GET запрос http://portrose.ru/любая_белиберда/ — показал код ответа 200 хоть и предупредил, что "страница не найдена".
В общем я не понял зачем платить больше и разбираться в редакциях UMI, если есть Diafan без очевидных косяков.
И сколько вы собираетесь заработать на 1 редиректе без слеша на слеш и правке одной 404 ошибки? На сайте даже 304 Not Modified настроен из коробки. Вы такое где-то еще видели? Если да, то я бы присмотрелся к вашему выбору.
Вот то ли дело, когда из 200 страниц на сайте в индексе 2000. Вот это я понимаю заработать на доработке сайта.
Про параметры, типа "?любая_белиберда" в URL это конечно весело... а UTM как работать должны? Для этого и прописывается в robots.txt disallow: *?. По нормальному ставится rel="canonical", которого, к сожалению, нет в коробке диафан.
Господа, может сразимся на сайтах? Я без проблем сравню коробочный Diafan — http://car-intrade.ru/ с каким-нибудь из предложенных вами сайтов схожей весовой категории. Сделаю стандартные проверки, которые обычно проводит любой оптимизатор - дубли-шмубли, редиректы, серверные ошибки, компрометация подстановками в URL, работа sitemap, пагинации и прочее.
Вы не могли бы пример показать с дублями? Ну то есть на той же битре примеров дублей из коробки море можно насобирать. Но вот на диафане не встречал.
А что там с мета-тегами не так? Шаблоны есть, если не ошибаюсь даже страницы пагинации мета и title нумерует из коробки.
Возможно вы не внимательно прочитали.... имелась ввиду ошибка, при которой страница 404 продолжает отображать контент страницы. Звучит фантастически, правда? Не знаю, может вам с таким не приходилось сталкиваться, но я такое вижу постоянно.
Вот живой пример http://digitaltorg.ru/brandy/asus/ — не поленитесь загляните в бертал. Сайт сделан золотым сертифицированным партнёром битрикс.
На Diafan вы такого не встретите. Каким вы разработчиком не были, хоть золотым, хоть не золотым, хоть вчера узнали как натягивать верстку на двиг.---------- Добавлено 12.02.2016 в 21:54 ----------
Нет. Я не получал денег от Diafan. Нет, не лень, спасибо за беспокойство :)---------- Добавлено 12.02.2016 в 22:00 ----------
Жаль, что когда человек хочет искренне поделится чем то позитивным его сразу воспринимаю за рекламу :) Я не знаю как идут продажи у Diafan, но мне приятно, что я вижу эту cms в списках интеграции различных уважаемых сервисов. По этим признаком я делаю вывод, что всё у них очень хорошо.---------- Добавлено 12.02.2016 в 22:10 ----------
CMS как CMS, довольно распространенная. Про бесплатную WP ничего не скажу. Но она очень поднялась в глазах, когда посмотрел блог банка тинькова.
Когда количество страничек перевалит через 100 000 вы удивитесь как упадет скорость этого парсера, даже если отдадите ему все свои 16 гигов оперативы. А потом он начнет выдавать ошибки, что мол памяти нема и проблема будет уже не в железе.
При нынешнем курсе фунта я платил и плакал. Платил и плакал. 12000 рублей на год у SreaminFrog против 2000 руб навечно у Алаева.
Правильно прописывать с карточки на карточку, с категории на категорию.
Но в вашем случае это бесполезно как отметили выше. Яндекс не поддерживает междоменный canonical да google рекомендует использовать 301.
Я бы на вашем месте просто закрыл в robots.txt этот раздел на сайте заказчика. Может коллеги посоветуют что то лучше.
Можно попробовать парсером Алаева. Зависит от ресурсов ПК.
Файл придется разбить аж на 6 частей и создать индексный файл
http://www.sitemaps.org/ru/protocol.html#index
Sitemap штука динамическая. Сделать его один раз и забыть не получится. Соответственно лучше всего, если двиг сам будет формировать список своих же URL... ну ему виднее должно быть сколько у него страниц, чем любому из парсеров.