Поиск непроиндексированных страниц

12
V0
На сайте с 11.01.2013
Offline
45
1842

День добрый

Каким сервисом (софтом) можно найти непроиндексированный яндексом страницы сайта? По sitemap или просто - чтобы сервис пересканировал сайт, найдя все страницы и дальше проверил их индексацию.

E
На сайте с 26.04.2014
Offline
43
#1

1) Можно скачать сайтмап и пробить все урлы на индексацию, ну а там просто выбрать, что не в индексе

2) можно скачать сайтмап + выгрузить страницы, которые в индексе из ЯВМ, пересечь, и выбрать те, что не в индексе

3) Если сайт не большой - ну тут сайтмап, Page Weight, Xenu (вроде так), Net Peak Spider (вроде так) - софтины обойдут сайт и вытащат все урлы. Последняя - бесплатная.

Насчет "большого сайта". При более 100к страниц у меня все эти софтины легли...-(

Может что-то упустил, но вроде все

Теперь по поводу как найти непроиндексированные урлы:

ну тут, как я писал выше, либо:

1) Собираем все урлы с сайта из сайтмапа или с помощью софта, далее выгружаем то, что есть в индексе ЯВМ, ну и отсекаем то, что в индексе

2) Пробиваем все собранные урлы из сайт через Яззл ( меня так бесит эта прога, на больших объемах виснет)

3) Просто пробиваем урлы с помощью запроса: url:siti.ru/uri/

и там будет простая логика 1/0

1 - в индексе

0 - не в индексе.

V0
На сайте с 11.01.2013
Offline
45
#2

Eruditor_, вопрос в том как это сделать НА АВТОМАТЕ, а не путем длительного шаманства. Страниц порядка 2,500 и руками там выгружать/загружать/сортировать сложно.

D
На сайте с 04.11.2009
Offline
127
#3

Вроде бы вот эта софтина может: seopowersuite.ru

Но зараза дорогущая.

opticosblog.ru - мой блог о интернет-маркетинге и SEO (http://opticosblog.ru)
V0
На сайте с 11.01.2013
Offline
45
#4

dmkolesnikov, ну понятно, что речь все же о бесплатных ресурсах или небольших деньгах :)

E
На сайте с 26.04.2014
Offline
43
#5
Voland010:
dmkolesnikov, ну понятно, что речь все же о бесплатных ресурсах или небольших деньгах :)

А чем тебя не устраивает вариант:

Спайдером проходишь по всем ссылкам сайта (на автомате), сохраняешь в CSV

Далее из ЯВМ выгружаешь те, что в индексе, и отсекаешь их из общего файла, который собрал спайдер.

Вот тебе и страницы, которые не в индексе. Не?!)

И да, из первого поста непонятно, что речь идет о бесплатных ресурсах или небольших деньгах, поэтому я и привел как платный, так и бесплатный софт.

Дальше сам...

Tobolkin_D
На сайте с 29.08.2011
Offline
42
#6

Voland010, comparser - прога для изучения индексации сайта, правда платная, но есть демка (но сомневаюсь, что 2,5к демка обработает). Аналогов для этой задачи пока не встречал((

V0
На сайте с 11.01.2013
Offline
45
#7
Eruditor_:
Далее из ЯВМ выгружаешь те, что в индексе, и отсекаешь их из общего файла

как отсечь-то? :) Ручками зрительно? :)

E
На сайте с 26.04.2014
Offline
43
#8
Voland010:
как отсечь-то? :) Ручками зрительно? :)

Продам мануал, как пользоваться функцией ВПР в екселе за 500р -)

Tobolkin_D
На сайте с 29.08.2011
Offline
42
#9
Eruditor_:
Далее из ЯВМ выгружаешь те, что в индексе

Подскажите, пожалуйста, как вы это собираетесь сделать?

E
На сайте с 26.04.2014
Offline
43
#10

ну тут же речь, как выяснилось, о бесплатных или дешевых методах, поэтому ручками копируем и вставляем в эксельку.

2500 урлов

в индексе, подозреваю, меньше...

на копипаст потратиться около часа, пока Спайдер будет краулить сайт.

Ну а дальше чистим ексель и отсекаем.

Как-то так.

Если страниц больше - так делать уже извращение

---------- Добавлено 18.12.2014 в 13:26 ----------

Если есть кейколлектор - можно через него просто пробить запросы, какой вид запроса - я писал выше.

Или словоебом - тоже самое

Предварительно, конечно, собираем список всех урлов сайта

Так же можно (вроде есть какой-то софт бесплатный для пробивки позиций), вроде эта

Majento PositionMeter

Ну вот, вот и автоматизация:

Краулим на автомате спайдером

Пробиваем индексацию через Majento PositionMeter

На выходе получаем файл с бинарной логикой 1/0, где

1- в индексе

0 - не в индексе

Всех устраивает?!)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий