CMS генерировала дубли и они висят в индексе, их нужно убрать
Спасибо за решение!
Да, это самое логичное решение, но wtf в том, что они там не отображаются, но в выдаче есть!
Спарси все ссылки этого уровня лягушкой, тебе же все не нужны, и отправь на переобход
Проблема в том, что каталог сайта динамичный и список УРЛов на текущий момент не равен тому, что было год назад.
Да, в этом и проблема... Остальное приходится выгружать по 10 шт.
Неужели нет парсера, который сможет через тот же Yandex XML вытащить информацию?
Вам единоразово это надо или постоянно?
Пару раз в месяц и реже...
Пробовал, но это не сильно ускоряет работу без специального скрипта. Вручную за раз в файле можно вытянуть 100 ссылок, в свою очередь эти ссылки тоже надо вытащить из xml...
Спасибо за ответ! К сожалению увеличить скорость сканирования не получится и технические проблемы решаются не с нашей стороны. Буду искать другой вариант...