Анализ лишних страниц в индексе

T

6

Turis

30 августа 2018, 09:23

1166

Добрый день.

Какие есть методики анализа проиндексирванных страниц большого сайта?

Надо найти мусор, технические страницы, дубли.

На малых сайтах делал руками. до 500 страниц.

А что делать, когда в индексе гугл 15000 стр, а в яндексе 12000?

Какие есть варианты, может какая-то автоматизация?

24

RuslanVech

30 августа 2018, 09:32

#1

Орущая Жаба Паук? (Screaming Frog SEO Spider)

Собираюсь написать роман "Сокровища прокрастинации", но всё откладываю...

139

zenja

30 августа 2018, 10:14

#2

RuslanVech:
Орущая Жаба Паук? (Screaming Frog SEO Spider)

он же не индекс проверяет

когда-то сталкивался с такой ситцацией, когда в индексе больше 1000 страниц, а гугл показывает только 100 страниц по 10 результатов. делали свой парсер на джаве. если нужно, могу поискать

Быть минимально гордым, быть максимально честным! Услуги по продвижению Ваших сайтов: прозрачно, качественно, недорого (/ru/forum/779787)

T

6

Turis

30 августа 2018, 10:21

#3

Да, в скрименфроге значительно меньше страниц.

zenja, спасибо за предложение. Ещё послушаю, что говорят) Должно быть универсальное решение, надеюсь) Если что - обращусь.

24

RuslanVech

30 августа 2018, 10:31

#4

zenja:
он же не индекс проверяет

Тем не менее это логичный ответ на:

Turis:
Надо найти мусор, технические страницы, дубли.

То, что показано роботам, можно проорать жабопауком - см. настройки.

А парсить именно индекс... В этом что, есть какой-то особый смысл? Вот висит в панельках информационник на полторы сотни килостраниц - показать вам, какие качели кол-ва страниц в индексе в одном Яше при каждом апе? +/- 10К - легко.

---------- Добавлено 30.08.2018 в 13:34 ----------

zenja:
когда в индексе больше 1000 страниц, а гугл показывает только 100 страниц по 10 результатов

Ну, или мы вообще о разном говорим...

67

Жендосье

30 августа 2018, 10:37

#5

Turis:
Добрый день.
Какие есть методики анализа проиндексирванных страниц большого сайта?
Надо найти мусор, технические страницы, дубли.
На малых сайтах делал руками. до 500 страниц.
А что делать, когда в индексе гугл 15000 стр, а в яндексе 12000?

Какие есть варианты, может какая-то автоматизация?

Есть платная софтина от алаева, fasttrust называется, она первоначально индексирует ваш сайт, а потом сверяет страницы с теми, что в индексе. Честно говоря, сколько не пробовал, либо сервак падает, либо не совсем корректные данные выдает, может у Вас лучше получится (софт в любом случае стоящий, хотя бы для проверки качества ссылок). Также могут понадобится докупать, например, прокси или лимиты к каким-нибудь аккаунтам.

Можно руками индекс смотреть по кластерам через операторы (например, прочекать все категории товарные в индексе, потом сервисные страницы и т.п.).

325

Станислав Романенко

30 августа 2018, 10:46

#6

Turis, тут https://search.google.com/search-console/index вкладка "Исключено" и тут https://webmaster.yandex.ru/site/indexing/searchable/ вкладка "Исключенные".

А также всякие такие сервисы:

https://techaudit.site/ru/

http://www.siteliner.com

https://saitreport.ru

и т. д.

Но вообще, даже если на сайте сто тысяч страниц, то его можно отсканировать лягушкой и в экселе отфильтровать все подозрительные урлы.

2

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).

T

6

Turis

30 августа 2018, 10:49

#7

RuslanVech, когда сайт сделан через одно место, то имеет. К примеру пару тысяч страниц по 200 символов вообще не имеют ссылок на сайте. И скримен фрог их не видит. Как и не видит, когда cms что-то не то генерирует (по факту дубли) или всякие технические страницы, тестовые страницы и т.д.

23

krikyxa

30 августа 2018, 11:16

#8

Включаешь в поиске "отображение страниц = 100", вбиваешь site:мойсайт.ру и через js скрипт который как закладка на панели браузера, копируешь все 100 урлов на странице. И так все страницы) а потом в Screaming Frog или NetSpeak Spider и прогоняешь + глазами смотришь, что лишнее (пагинация, фильтры, сортировки,теги)

Конечно вариант не автоматический, руками всё надо, зато бесплатно и рабочий метод)

В моей предыдущей компании, прогер создал маленькую софтину, которая юзает этот скрипт и сама перелистывает странички в браузере) поэтому если у вас есть такой человек, который сможет, то будет вам счастье)

1

SEO-специалист фрилансер. За разработкой или продвижением сайта обращаться в телеграм

67

Жендосье

30 августа 2018, 12:45

#9

krikyxa:
Включаешь в поиске "отображение страниц = 100", вбиваешь site:мойсайт.ру и через js скрипт который как закладка на панели браузера, копируешь все 100 урлов на странице. И так все страницы) а потом в Screaming Frog или NetSpeak Spider и прогоняешь + глазами смотришь, что лишнее (пагинация, фильтры, сортировки,теги)
Конечно вариант не автоматический, руками всё надо, зато бесплатно и рабочий метод)
В моей предыдущей компании, прогер создал маленькую софтину, которая юзает этот скрипт и сама перелистывает странички в браузере) поэтому если у вас есть такой человек, который сможет, то будет вам счастье)

А сопли в том же гугле как софтина/js посмотрит? Где нужен дополнительный клик, чтобы их увидеть, ведь всякий мусор чаще всего туда и попадает в первую очередь.

T

6

Turis

31 августа 2018, 10:32

#10

Ingref, просканировать лягушкой можно, но вопрос в том, что в выдаче. В итоге из вебмастера и консоли гугла взял информацию. Самое удобное по затратам /результату оказалось. Ну и плюс лягушкой просканировал. И всё это соединил. Потом посомтрю. Надо ли будет ещё что-то придумывать или этого хватит.

Интересно, если страница и так отклонена (не в видимом индексе) - на сколько важно от её совсем удалить?

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, если ваша email-рассылка попала в спам