Hita4

Рейтинг
23
Регистрация
14.11.2018
fillonon #:
а как они вам мешают?

CMS генерировала дубли и они висят в индексе, их нужно убрать

callidus #:
через screaming frog в разделе xpath

Спасибо за решение!

seout #:
Через вебмастер лучше скачать, имхо. "Индексирование"-"страницы в индексе" внизу страницы архив.

Да, это самое логичное решение, но wtf в том, что они там не отображаются, но в выдаче есть!

Игорь #:

Спарси все ссылки этого уровня лягушкой, тебе же все не нужны, и отправь на переобход

Проблема в том, что каталог сайта динамичный и список УРЛов на текущий момент не равен тому, что было год назад.

phoenix555 #:
50 страниц не получится, Яндекс выдаёт максимум 250 результатов (5 страниц с numdoc=50).

Да, в этом и проблема... Остальное приходится выгружать по 10 шт.

Неужели нет парсера, который сможет через тот же Yandex XML вытащить информацию?

LEOnidUKG #:

Вам единоразово это надо или постоянно?

Пару раз в месяц и реже... 

LEOnidUKG #:
Яндекс XML не пробовали?

Пробовал, но это не сильно ускоряет работу без специального скрипта. Вручную за раз в файле можно вытянуть 100 ссылок, в свою очередь эти ссылки тоже надо вытащить из xml...

seout #:
Насколько я знаю, функционала "дособрать" у фрога нет. Я бы сделал отдельный проект, убрал все галки в настройках спайдера, что мне собирать не нужно и собрал бы заново. 400к страниц на нормальном компе, на 5 потоках лягушка соберет за несколько часов. Если вопрос в потоках и боитесь продидосить сайт, то лучше посмотреть время наименьшей активности пользователей (ночь/выходные например). Да и в целом, если лягушка на 5 потоках дидосит сайт это не очень хорошо.

Спасибо за ответ! К сожалению увеличить скорость сканирования не получится и технические проблемы решаются не с нашей стороны. Буду искать другой вариант...