как обойти ограничение выдачи

12
bracso
На сайте с 03.10.2007
Offline
86
1281

если ли у кого мысли как обойти ограничение выдачи в 1000 результатов ?

задача спарсить все проиндексированные страницы в массив, для последующего сравнения с исходным и получения кол-ва страниц в индексе и вне его, когда на сайте до 1000 стр проблем нет, а вот если больше, то камнем преткновения становиться это ограничение:cool:

успевает тот, кто не спешит
mhz
На сайте с 16.05.2007
Offline
190
mhz
#1

Хм... Дык, вроде, никак. :)

Можно по одной странице проверять на наличие индексе. Долго, но правдоподобно.

Миниатюрный бультерьер Сахарок (http://www.bule4ka.ru/) — СДЛ о собачках. Вечные ссылки — безопасный способ продвижения и заработка. (http://miralinks.ru/users/registration/from:163)
Borya
На сайте с 21.02.2006
Offline
119
#2

Можно получить список всех проиндексированных страниц через несколько запросов.

Вместо запроса проиндексированных страниц на "www.site.ru" искать проиндексированные страницы "www.site.ru/a", затем "www.site.ru/b" и т.д., то есть весь сайт будет разделен на части. Если в каждой из них меньше 1000 страниц - можно получить список всех страниц.

Например, на этом форуме 622 тысячи страниц. Однако можно получить список страниц, начинающихся с "242" - всего 430 страниц, для "243" всего 99 страниц. И т.д.

Следишь за АПом? АП следит за тобой... получить ссылки навсегда (http://gogetlinks.net/register_user.php?inv=9jsgpj)
bracso
На сайте с 03.10.2007
Offline
86
#3
Borya:
Можно получить список всех проиндексированных страниц через несколько запросов.
Вместо запроса проиндексированных страниц на "www.site.ru" искать проиндексированные страницы "www.site.ru/a", затем "www.site.ru/b" и т.д., то есть весь сайт будет разделен на части. Если в каждой из них меньше 1000 страниц - можно получить список всех страниц.

Например, на этом форуме 622 тысячи страниц. Однако можно получить список страниц, начинающихся с "242" - всего 430 страниц, для "243" всего 99 страниц. И т.д.

да согласен, такая мысль приходила, но...

строение у сайтов разное, и структура у урлов тоже разная, это всего лишь функция будет в система, ради каждого сайта менять не будешь, да и если урл однозначный, т.е. на пример www.sait.ru/(№ page).html ... или наоборот слишком сложный, и в каждой выдаче будет очень мало страниц, т.е. выйдет слишком много запросов и тогда смысл теряеться

bracso добавил 25.06.2008 в 10:40

mhz:
Хм... Дык, вроде, никак. :)

Можно по одной странице проверять на наличие индексе. Долго, но правдоподобно.

по одной это слишком, а если еще и несколько сайтов ....

если на сайте чуть более 1000, тогда разумно обьединить, т.е. получить возмодные 1000, остальные по одной, но если страниц несколько тысяч 😎

SA
На сайте с 12.02.2006
Offline
142
#4

по одной это слишком, а если еще и несколько сайтов ....

Вам же не руками их проверять, машина железная, поставить на ночь, да забыть.

bracso
На сайте с 03.10.2007
Offline
86
#5
seo-alex:
по одной это слишком, а если еще и несколько сайтов ....

Вам же не руками их проверять, машина железная, поставить на ночь, да забыть.

согласен, но вот именно железная, и не резиновая =))) это не подход, если что то программируешь, надо не абы как, а добиваться максимума, и скорости и минимум нагрузки =))

хотя если вариантов так и не надеться, придется так , как можно ...🙅

Шеховцов Алекс
На сайте с 25.02.2006
Offline
20
#6

насколько я знаю это очень сложно сделать

Оптимизатор. Возьму до 10 доп. проекта. ICQ: 346-225-668. Куплю места под статьи навсегда - в личку либо на аську. Путевка в ТОП 5 (http://www.maxstyle.ru/)
Streetmachine
На сайте с 08.06.2007
Offline
114
#7

можно обходить.. добавляя различные вариации слов, после указанного урла...

bracso
На сайте с 03.10.2007
Offline
86
#8
Шеховцов Алекс:
насколько я знаю это очень сложно сделать

ну это не критерий выполнимости задачи, тут видимо любые варианты непросты :)

bracso добавил 25.06.2008 в 14:00

Streetmachine:
можно обходить.. добавляя различные вариации слов, после указанного урла...

это уже интереснее, надо подумать над этим ....

upyrj
На сайте с 17.09.2005
Offline
140
#9

Кажется, оптимальный вариант примерно такой:

1. Собираем сначала карту сайта, оцениваем размеры разделов (типа domain.tld/a, domain.tld/b), выделяем разделы так, чтобы они были размером менее 1000 документов.

2. Скачиваем проиндексированные документы каждого раздела.

3. Если в разделе оказалось более 1000 проиндексированных документов, то делим раздел еще раз.

Можно еще с датами индексации поиграть, наверное.

Денис Иванов Важно: обменом валют я не занимаюсь.
bracso
На сайте с 03.10.2007
Offline
86
#10
upyrj:
Кажется, оптимальный вариант примерно такой:
1. Собираем сначала карту сайта, оцениваем размеры разделов (типа domain.tld/a, domain.tld/b), выделяем разделы так, чтобы они были размером менее 1000 документов.
2. Скачиваем проиндексированные документы каждого раздела.
3. Если в разделе оказалось более 1000 проиндексированных документов, то делим раздел еще раз.

Можно еще с датами индексации поиграть, наверное.

так а если надо чтоб автоматом и сайты разные .... хотя как вариант, вручную

с датами не получается что-то 😡

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий