Анализ лишних страниц в индексе

12
T
На сайте с 16.08.2018
Offline
6
1166

Добрый день.

Какие есть методики анализа проиндексирванных страниц большого сайта?

Надо найти мусор, технические страницы, дубли.

На малых сайтах делал руками. до 500 страниц.

А что делать, когда в индексе гугл 15000 стр, а в яндексе 12000?

Какие есть варианты, может какая-то автоматизация?

RuslanVech
На сайте с 17.08.2017
Offline
24
#1

Орущая Жаба Паук? (Screaming Frog SEO Spider)

Собираюсь написать роман "Сокровища прокрастинации", но всё откладываю...
zenja
На сайте с 04.08.2010
Offline
139
#2
RuslanVech:
Орущая Жаба Паук? (Screaming Frog SEO Spider)

он же не индекс проверяет

когда-то сталкивался с такой ситцацией, когда в индексе больше 1000 страниц, а гугл показывает только 100 страниц по 10 результатов. делали свой парсер на джаве. если нужно, могу поискать

Быть минимально гордым, быть максимально честным! Услуги по продвижению Ваших сайтов: прозрачно, качественно, недорого (/ru/forum/779787)
T
На сайте с 16.08.2018
Offline
6
#3

Да, в скрименфроге значительно меньше страниц.

zenja, спасибо за предложение. Ещё послушаю, что говорят) Должно быть универсальное решение, надеюсь) Если что - обращусь.

RuslanVech
На сайте с 17.08.2017
Offline
24
#4
zenja:
он же не индекс проверяет

Тем не менее это логичный ответ на:

Turis:
Надо найти мусор, технические страницы, дубли.

То, что показано роботам, можно проорать жабопауком - см. настройки.

А парсить именно индекс... В этом что, есть какой-то особый смысл? Вот висит в панельках информационник на полторы сотни килостраниц - показать вам, какие качели кол-ва страниц в индексе в одном Яше при каждом апе? +/- 10К - легко.

---------- Добавлено 30.08.2018 в 13:34 ----------

zenja:
когда в индексе больше 1000 страниц, а гугл показывает только 100 страниц по 10 результатов

Ну, или мы вообще о разном говорим...

Жендосье
На сайте с 08.12.2013
Offline
67
#5
Turis:
Добрый день.
Какие есть методики анализа проиндексирванных страниц большого сайта?
Надо найти мусор, технические страницы, дубли.
На малых сайтах делал руками. до 500 страниц.
А что делать, когда в индексе гугл 15000 стр, а в яндексе 12000?

Какие есть варианты, может какая-то автоматизация?

Есть платная софтина от алаева, fasttrust называется, она первоначально индексирует ваш сайт, а потом сверяет страницы с теми, что в индексе. Честно говоря, сколько не пробовал, либо сервак падает, либо не совсем корректные данные выдает, может у Вас лучше получится (софт в любом случае стоящий, хотя бы для проверки качества ссылок). Также могут понадобится докупать, например, прокси или лимиты к каким-нибудь аккаунтам.

Можно руками индекс смотреть по кластерам через операторы (например, прочекать все категории товарные в индексе, потом сервисные страницы и т.п.).

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#6

Turis, тут https://search.google.com/search-console/index вкладка "Исключено" и тут https://webmaster.yandex.ru/site/indexing/searchable/ вкладка "Исключенные".

А также всякие такие сервисы:

https://techaudit.site/ru/

http://www.siteliner.com

https://saitreport.ru

и т. д.

Но вообще, даже если на сайте сто тысяч страниц, то его можно отсканировать лягушкой и в экселе отфильтровать все подозрительные урлы.

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
T
На сайте с 16.08.2018
Offline
6
#7

RuslanVech, когда сайт сделан через одно место, то имеет. К примеру пару тысяч страниц по 200 символов вообще не имеют ссылок на сайте. И скримен фрог их не видит. Как и не видит, когда cms что-то не то генерирует (по факту дубли) или всякие технические страницы, тестовые страницы и т.д.

krikyxa
На сайте с 03.04.2017
Offline
23
#8

Включаешь в поиске "отображение страниц = 100", вбиваешь site:мойсайт.ру и через js скрипт который как закладка на панели браузера, копируешь все 100 урлов на странице. И так все страницы) а потом в Screaming Frog или NetSpeak Spider и прогоняешь + глазами смотришь, что лишнее (пагинация, фильтры, сортировки,теги)

Конечно вариант не автоматический, руками всё надо, зато бесплатно и рабочий метод)

В моей предыдущей компании, прогер создал маленькую софтину, которая юзает этот скрипт и сама перелистывает странички в браузере) поэтому если у вас есть такой человек, который сможет, то будет вам счастье)

SEO-специалист фрилансер. За разработкой или продвижением сайта обращаться в телеграм
Жендосье
На сайте с 08.12.2013
Offline
67
#9
krikyxa:
Включаешь в поиске "отображение страниц = 100", вбиваешь site:мойсайт.ру и через js скрипт который как закладка на панели браузера, копируешь все 100 урлов на странице. И так все страницы) а потом в Screaming Frog или NetSpeak Spider и прогоняешь + глазами смотришь, что лишнее (пагинация, фильтры, сортировки,теги)
Конечно вариант не автоматический, руками всё надо, зато бесплатно и рабочий метод)
В моей предыдущей компании, прогер создал маленькую софтину, которая юзает этот скрипт и сама перелистывает странички в браузере) поэтому если у вас есть такой человек, который сможет, то будет вам счастье)

А сопли в том же гугле как софтина/js посмотрит? Где нужен дополнительный клик, чтобы их увидеть, ведь всякий мусор чаще всего туда и попадает в первую очередь.

T
На сайте с 16.08.2018
Offline
6
#10

Ingref, просканировать лягушкой можно, но вопрос в том, что в выдаче. В итоге из вебмастера и консоли гугла взял информацию. Самое удобное по затратам /результату оказалось. Ну и плюс лягушкой просканировал. И всё это соединил. Потом посомтрю. Надо ли будет ещё что-то придумывать или этого хватит.

Интересно, если страница и так отклонена (не в видимом индексе) - на сколько важно от её совсем удалить?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий