Парсер проиндексированных страниц яндексом!1000 страниц придел?

[Удален]
1160

Добрый день.

Возникла такая проблему при написании скрипта проиндексированных страниц яндексом.

Больше 1000 страниц Яша не отдает.

Пробовал через нттп без авторизации 1000.

Через панель вебмастера только 1000.

Пробовал через xml яндекса = 1000.

Подскажите существует ли какой еще способ, откуда можно отпарсить все проиндексированные Яндексом страницы сайта. В том случае, если их больше 1000.

Какие идеи будут на этот счет?

Hkey
На сайте с 30.09.2006
Offline
222
#1

добавлять

inurl:{ru|ua|com} или как там в Яндексе. Короче добавлять условия, которые сокращают выдачу..

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
Bitman
На сайте с 05.07.2009
Offline
112
#2

в том то и дело что вариантов запросов в Яндекс не столько сколько можно придумать для гугла

Северный лес (https://euro-vagonka.by) DREW (https://drew.by) AvtoDrive (https://avtodrive.by)
[Удален]
#3

Bitman, у гугля существует вариант парсинга больше 1к?

Hkey
На сайте с 30.09.2006
Offline
222
#4
klimuk:
Bitman, у гугля существует вариант парсинга больше 1к?

Это все примерно (Гугл не отдает много результатов на инюрл)

пусть запрос "каталог сайтов"

inurl:"ru" - 1000

inurl:"ua" - 1000

inurl:"com" - 1000

...

итого 3000

-inurl:"A"

-inurl:"B"

-inurl:"C"

и так еще можно скатать тыс пять.

dlyanachalas
На сайте с 15.09.2006
Offline
693
#5
Hkey:
добавлять
inurl:{ru|ua|com} или как там в Яндексе. Короче добавлять условия, которые сокращают выдачу..

По-моему, вопрос был о том, как пропарсить все страницы одного сайта.

Т.е. тогда уже надо просто разные слова в поиск по сайту пускать, а не зоны выбирать.

Но есть и ещё один способ - взять паука, который создаст список страниц (таких много в свободном доступе) и затем последовательно засунуть страницы в Яндекс и проверить их индексацию.

xpert13
На сайте с 15.09.2008
Offline
127
#6
dlyanachalas:

Но есть и ещё один способ - взять паука, который создаст список страниц (таких много в свободном доступе) и затем последовательно засунуть страницы в Яндекс и проверить их индексацию.

Так же склоняюсь к этому варианту. Единственный минус: если страниц много, или в индексе мало - то запросов может получиться в разы больше чем необходимо

Bitman
На сайте с 05.07.2009
Offline
112
#7

гугл можно хитрым datarange с юлианским форматом дат пользоваться

Алексей Краснов
На сайте с 12.11.2007
Offline
27
#8

+1 куплю тулзу которая проверит на индекс сайт с много тысяч страниц

Полюшко мое, родники, Дальних деревень огоньки, Золотая рожь да кудрявый лен, Я влюблен в тебя, Россия, влюблен. Золотая рожь да кудрявый лен, Я влюблен в тебя, Россия, влюблен.
keks
На сайте с 28.04.2004
Offline
97
#9

Как вариант тянем пауком карту сайта и чекаем каждую страницу на индекс.

B
На сайте с 23.10.2006
Offline
170
#10

Я делаю так.

Много,

чекаем по разделам

lenta.ru/lib/ = 3760 страниц
lenta.ru/news/ = 356 тыс. страниц

Много,

чекаем по частям раздела

http://yandex.ru/yandsearch?serverurl=lenta.ru/lib/14173 = 82 страницы - норм хаваем и т.д. увеличиваем
аналогично
http://yandex.ru/yandsearch?serverurl=lenta.ru/news/2009/01/

главное выделить урлы по которым можно составить правило, по которым разбивается весь сайт на кол-во страниц<1000

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий