- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день.
Какие есть методики анализа проиндексирванных страниц большого сайта?
Надо найти мусор, технические страницы, дубли.
На малых сайтах делал руками. до 500 страниц.
А что делать, когда в индексе гугл 15000 стр, а в яндексе 12000?
Какие есть варианты, может какая-то автоматизация?
Орущая Жаба Паук? (Screaming Frog SEO Spider)
Орущая Жаба Паук? (Screaming Frog SEO Spider)
он же не индекс проверяет
когда-то сталкивался с такой ситцацией, когда в индексе больше 1000 страниц, а гугл показывает только 100 страниц по 10 результатов. делали свой парсер на джаве. если нужно, могу поискать
Да, в скрименфроге значительно меньше страниц.
zenja, спасибо за предложение. Ещё послушаю, что говорят) Должно быть универсальное решение, надеюсь) Если что - обращусь.
он же не индекс проверяет
Тем не менее это логичный ответ на:
Надо найти мусор, технические страницы, дубли.
То, что показано роботам, можно проорать жабопауком - см. настройки.
А парсить именно индекс... В этом что, есть какой-то особый смысл? Вот висит в панельках информационник на полторы сотни килостраниц - показать вам, какие качели кол-ва страниц в индексе в одном Яше при каждом апе? +/- 10К - легко.
---------- Добавлено 30.08.2018 в 13:34 ----------
когда в индексе больше 1000 страниц, а гугл показывает только 100 страниц по 10 результатов
Ну, или мы вообще о разном говорим...
Добрый день.
Какие есть методики анализа проиндексирванных страниц большого сайта?
Надо найти мусор, технические страницы, дубли.
На малых сайтах делал руками. до 500 страниц.
А что делать, когда в индексе гугл 15000 стр, а в яндексе 12000?
Какие есть варианты, может какая-то автоматизация?
Есть платная софтина от алаева, fasttrust называется, она первоначально индексирует ваш сайт, а потом сверяет страницы с теми, что в индексе. Честно говоря, сколько не пробовал, либо сервак падает, либо не совсем корректные данные выдает, может у Вас лучше получится (софт в любом случае стоящий, хотя бы для проверки качества ссылок). Также могут понадобится докупать, например, прокси или лимиты к каким-нибудь аккаунтам.
Можно руками индекс смотреть по кластерам через операторы (например, прочекать все категории товарные в индексе, потом сервисные страницы и т.п.).
Turis, тут https://search.google.com/search-console/index вкладка "Исключено" и тут https://webmaster.yandex.ru/site/indexing/searchable/ вкладка "Исключенные".
А также всякие такие сервисы:
https://techaudit.site/ru/
http://www.siteliner.com
https://saitreport.ru
и т. д.
Но вообще, даже если на сайте сто тысяч страниц, то его можно отсканировать лягушкой и в экселе отфильтровать все подозрительные урлы.
RuslanVech, когда сайт сделан через одно место, то имеет. К примеру пару тысяч страниц по 200 символов вообще не имеют ссылок на сайте. И скримен фрог их не видит. Как и не видит, когда cms что-то не то генерирует (по факту дубли) или всякие технические страницы, тестовые страницы и т.д.
Включаешь в поиске "отображение страниц = 100", вбиваешь site:мойсайт.ру и через js скрипт который как закладка на панели браузера, копируешь все 100 урлов на странице. И так все страницы) а потом в Screaming Frog или NetSpeak Spider и прогоняешь + глазами смотришь, что лишнее (пагинация, фильтры, сортировки,теги)
Конечно вариант не автоматический, руками всё надо, зато бесплатно и рабочий метод)
В моей предыдущей компании, прогер создал маленькую софтину, которая юзает этот скрипт и сама перелистывает странички в браузере) поэтому если у вас есть такой человек, который сможет, то будет вам счастье)
Включаешь в поиске "отображение страниц = 100", вбиваешь site:мойсайт.ру и через js скрипт который как закладка на панели браузера, копируешь все 100 урлов на странице. И так все страницы) а потом в Screaming Frog или NetSpeak Spider и прогоняешь + глазами смотришь, что лишнее (пагинация, фильтры, сортировки,теги)
Конечно вариант не автоматический, руками всё надо, зато бесплатно и рабочий метод)
В моей предыдущей компании, прогер создал маленькую софтину, которая юзает этот скрипт и сама перелистывает странички в браузере) поэтому если у вас есть такой человек, который сможет, то будет вам счастье)
А сопли в том же гугле как софтина/js посмотрит? Где нужен дополнительный клик, чтобы их увидеть, ведь всякий мусор чаще всего туда и попадает в первую очередь.
Ingref, просканировать лягушкой можно, но вопрос в том, что в выдаче. В итоге из вебмастера и консоли гугла взял информацию. Самое удобное по затратам /результату оказалось. Ну и плюс лягушкой просканировал. И всё это соединил. Потом посомтрю. Надо ли будет ещё что-то придумывать или этого хватит.
Интересно, если страница и так отклонена (не в видимом индексе) - на сколько важно от её совсем удалить?