Парсер проиндексированных страниц яндексом!1000 страниц придел?

[Удален]

4 сентября 2009, 16:30

1166

Добрый день.

Возникла такая проблему при написании скрипта проиндексированных страниц яндексом.

Больше 1000 страниц Яша не отдает.

Пробовал через нттп без авторизации 1000.

Через панель вебмастера только 1000.

Пробовал через xml яндекса = 1000.

Подскажите существует ли какой еще способ, откуда можно отпарсить все проиндексированные Яндексом страницы сайта. В том случае, если их больше 1000.

Какие идеи будут на этот счет?

222

Hkey

4 сентября 2009, 16:37

#1

добавлять

inurl:{ru|ua|com} или как там в Яндексе. Короче добавлять условия, которые сокращают выдачу..

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))

112

Bitman

4 сентября 2009, 16:42

#2

в том то и дело что вариантов запросов в Яндекс не столько сколько можно придумать для гугла

Северный лес (https://euro-vagonka.by) DREW (https://drew.by) AvtoDrive (https://avtodrive.by)

[Удален]

4 сентября 2009, 16:52

#3

Bitman, у гугля существует вариант парсинга больше 1к?

222

Hkey

6 сентября 2009, 18:17

#4

klimuk:
Bitman, у гугля существует вариант парсинга больше 1к?

Это все примерно (Гугл не отдает много результатов на инюрл)

пусть запрос "каталог сайтов"

inurl:"ru" - 1000

inurl:"ua" - 1000

inurl:"com" - 1000

...

итого 3000

-inurl:"A"

-inurl:"B"

-inurl:"C"

и так еще можно скатать тыс пять.

693

dlyanachalas

6 сентября 2009, 18:22

#5

Hkey:
добавлять
inurl:{ru|ua|com} или как там в Яндексе. Короче добавлять условия, которые сокращают выдачу..

По-моему, вопрос был о том, как пропарсить все страницы одного сайта.

Т.е. тогда уже надо просто разные слова в поиск по сайту пускать, а не зоны выбирать.

Но есть и ещё один способ - взять паука, который создаст список страниц (таких много в свободном доступе) и затем последовательно засунуть страницы в Яндекс и проверить их индексацию.

Индексация контента Апдейты Google могут влиять Как в моем случае

127

xpert13

6 сентября 2009, 19:44

#6

dlyanachalas:

Но есть и ещё один способ - взять паука, который создаст список страниц (таких много в свободном доступе) и затем последовательно засунуть страницы в Яндекс и проверить их индексацию.

Так же склоняюсь к этому варианту. Единственный минус: если страниц много, или в индексе мало - то запросов может получиться в разы больше чем необходимо

112

Bitman

6 сентября 2009, 20:55

#7

гугл можно хитрым datarange с юлианским форматом дат пользоваться

27

Алексей Краснов

7 сентября 2009, 06:34

#8

+1 куплю тулзу которая проверит на индекс сайт с много тысяч страниц

Полюшко мое, родники, Дальних деревень огоньки, Золотая рожь да кудрявый лен, Я влюблен в тебя, Россия, влюблен. Золотая рожь да кудрявый лен, Я влюблен в тебя, Россия, влюблен.

97

keks

7 сентября 2009, 12:23

#9

Как вариант тянем пауком карту сайта и чекаем каждую страницу на индекс.

B

170

bimcom

7 сентября 2009, 20:48

#10

Я делаю так.

http://yandex.ru/yandsearch?serverurl=lenta.ru = 684 тыс. страниц

Много,

чекаем по разделам

lenta.ru/lib/ = 3760 страниц
lenta.ru/news/ = 356 тыс. страниц

Много,

чекаем по частям раздела

http://yandex.ru/yandsearch?serverurl=lenta.ru/lib/14173 = 82 страницы - норм хаваем и т.д. увеличиваем
аналогично
http://yandex.ru/yandsearch?serverurl=lenta.ru/news/2009/01/

главное выделить урлы по которым можно составить правило, по которым разбивается весь сайт на кол-во страниц<1000

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов