Как получить список проиндексированных в Google страниц сайта?

12
dimmu-borgir
На сайте с 16.03.2009
Offline
170
12751

Добрый день, поделитесь, пожалуйста, как вы парсите список проиндексированных в Google страниц сайта?

В соседнем топике посоветовали Comparser, с лицензией за 2000р.

Возможно есть какие то платные, но более комплексные решения, типа там се-монитора или подобных. Или бесплатные.

НордЛанд
На сайте с 19.07.2014
Offline
56
#1
dimmu-borgir:
Добрый день, поделитесь, пожалуйста, как вы парсите список проиндексированных в Google страниц сайта?

В соседнем топике посоветовали Comparser, с лицензией за 2000р.

Возможно есть какие то платные, но более комплексные решения, типа там се-монитора или подобных. Или бесплатные.

рекомендую www.rush-analytics.ru

dimmu-borgir
На сайте с 16.03.2009
Offline
170
#2

НордЛанд, Я вижу, что данный сервис проверяет на индексацию указанный список страниц. Там есть отдельно парсер проиндексированных страниц?

donc
На сайте с 16.01.2007
Offline
663
#3

Ксену - потом в плагин винка. Все бесплатно)

Осуждаем применение нейросетей в SEO и не только ( https://webimho.ru/forum/148/ ) :) Продвижение сайтов от 25 000 в мес, прозрачно, надежно ( /ru/forum/818412 ), но не быстро, отзывы ( http://webimho.ru/topic/3225/ )
Жендосье
На сайте с 08.12.2013
Offline
67
#4

От Андрея Липатцева (Гуглойд) слышал, что самый надежный способ, это добавить карту сайта.xml в search console, он там покажет отправленные и проиндексированные. Это мол самые точные данные.

НордЛанд
На сайте с 19.07.2014
Offline
56
#5
dimmu-borgir:
НордЛанд, Я вижу, что данный сервис проверяет на индексацию указанный список страниц. Там есть отдельно парсер проиндексированных страниц?

давно не пользовался, но насколько помню, всё там у них было по уму, отдельно те что в индексе по гуглу и отдельно те что деиндекс.

---------- Добавлено 09.03.2017 в 18:05 ----------

Жендосье:
От Андрея Липатцева (Гуглойд) слышал, что самый надежный способ, это добавить карту сайта.xml в search console, он там покажет отправленные и проиндексированные. Это мол самые точные данные.

стат.данные из SC, это на мой взгляд самые неточные данные, какие только можно получить по сайту. Единственные точные данные, какие там могут быть для нас - это сообщение о ручных санкциях :)

E
На сайте с 21.09.2009
Offline
283
#6
НордЛанд:
стат.данные из SC, это на мой взгляд самые неточные данные, какие только можно получить по сайту.

Поэтому. гугл их и не дает. Это и нагрузка на сервак, и менятся так быстро может. что то что просканировал сейчас. может оказаться измененным через 10 минут :)

XPraptor
На сайте с 15.10.2004
Offline
333
#7

Жендосье, ну он почти точный, но самих страниц там нет. Карта сайта - это данные, которые только отправлены с самой картой, к индексу они мало имеют отношения.

Вот например отправил карту http://screenshot.ru/upload/image/zE4r

пишет что почти 40К в индекс взял,

а вот переходим в статус индекса http://screenshot.ru/upload/image/zE4E

и видим что вдвое больше страниц в индексе, именно этот пункт показывает реальное положение дел (на дату минус 3 дня), которая совпадает с site: в поисковой строке (но в site инфа на текущий запросу момент, плюс быстрый, поэтому там как правило больше показывает, чем в индексе).

А чтобы получить именно урлы все в индексе, придется воспользоваться сторонним сервисом. rush-analytics в принципе не лучше и не хуже других, вполне можно получать нужные данные.

dimmu-borgir
На сайте с 16.03.2009
Offline
170
#8

XPraptor, donc, rush-analytics, Ксену+плагин - это все способы проверить имеющуюся пачку урлов на индексацию. Если не прав, поправьте.

А например, если вчера с сайта удалили вирусы, и в индексе Google 10к мусорных страниц, с помощью этого софта мы о проблеме узнаем?

Жендосье
На сайте с 08.12.2013
Offline
67
#9
XPraptor:
Жендосье, ну он почти точный, но самих страниц там нет. Карта сайта - это данные, которые только отправлены с самой картой, к индексу они мало имеют отношения.

Вот например отправил карту http://screenshot.ru/upload/image/zE4r
пишет что почти 40К в индекс взял,
а вот переходим в статус индекса http://screenshot.ru/upload/image/zE4E
и видим что вдвое больше страниц в индексе, именно этот пункт показывает реальное положение дел (на дату минус 3 дня), которая совпадает с site: в поисковой строке (но в site инфа на текущий запросу момент, плюс быстрый, поэтому там как правило больше показывает, чем в индексе).

А чтобы получить именно урлы все в индексе, придется воспользоваться сторонним сервисом. rush-analytics в принципе не лучше и не хуже других, вполне можно получать нужные данные.

Согласен с Вами, но в общей выдаче показан ещё и добавочный индекс + насколько мне помнится, страницы закрытые от индексации. Скорее так, если нужно знать общее количество корректных страниц в индексе (которые мы передали в карту xml и знаем, что они нормальные), то смотрим на xml.

Ну а если ищем дубли (помимо стандартных методов), то к платному софту, например, ComparseR (который тоже далеко не всегда корректно работает).

Автору можно только советовать разбивать сайт по кластерам и ручками смотреть, либо разово заплатить разработчикам за написание достаточно непростой софтины. Бесплатных, увы, нет

mavrin82
На сайте с 29.06.2010
Offline
109
#10

Тоже интересен вопрос как выгрузить все проиндексированные страницы из гугла. В яндексе 10к страниц и это близко к реалу а в гугле 160к это огромная разница вот и хочу найти что там такое в индекс лезет.

Продвижение сайтов ( https://amuletdm.ru/ ) Аудит сайта ( https://amuletdm.ru/ ) Создание сайтов ( https://amuletdm.ru/ )
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий