Комментарии - Hita4 - Профиль вебмастера - Форум об интернет-маркетинге

Оператор поиска Яндекс (уровень вложенности УРЛ)

28 июля 2021, 09:08

fillonon #:
а как они вам мешают?

CMS генерировала дубли и они висят в индексе, их нужно убрать

Чем спарсить УРЛы из выдачи Яндекс?

28 июля 2021, 08:07

callidus #:
через screaming frog в разделе xpath

Спасибо за решение!

Оператор поиска Яндекс (уровень вложенности УРЛ)

28 июля 2021, 08:06

seout #:
Через вебмастер лучше скачать, имхо. "Индексирование"-"страницы в индексе" внизу страницы архив.

Да, это самое логичное решение, но wtf в том, что они там не отображаются, но в выдаче есть!

Оператор поиска Яндекс (уровень вложенности УРЛ)

27 июля 2021, 15:14

Игорь #:

Спарси все ссылки этого уровня лягушкой, тебе же все не нужны, и отправь на переобход

Проблема в том, что каталог сайта динамичный и список УРЛов на текущий момент не равен тому, что было год назад.

Чем спарсить УРЛы из выдачи Яндекс?

27 июля 2021, 13:46

phoenix555 #:
50 страниц не получится, Яндекс выдаёт максимум 250 результатов (5 страниц с numdoc=50).

Да, в этом и проблема... Остальное приходится выгружать по 10 шт.

Неужели нет парсера, который сможет через тот же Yandex XML вытащить информацию?

Чем спарсить УРЛы из выдачи Яндекс?

26 июля 2021, 12:23

LEOnidUKG #:

Вам единоразово это надо или постоянно?

Пару раз в месяц и реже...

Чем спарсить УРЛы из выдачи Яндекс?

26 июля 2021, 12:17

LEOnidUKG #:
Яндекс XML не пробовали?

Пробовал, но это не сильно ускоряет работу без специального скрипта. Вручную за раз в файле можно вытянуть 100 ссылок, в свою очередь эти ссылки тоже надо вытащить из xml...

Screaming Frog SEO Spider - Как дособирать данные?

31 августа 2020, 06:37

seout #:
Насколько я знаю, функционала "дособрать" у фрога нет. Я бы сделал отдельный проект, убрал все галки в настройках спайдера, что мне собирать не нужно и собрал бы заново. 400к страниц на нормальном компе, на 5 потоках лягушка соберет за несколько часов. Если вопрос в потоках и боитесь продидосить сайт, то лучше посмотреть время наименьшей активности пользователей (ночь/выходные например). Да и в целом, если лягушка на 5 потоках дидосит сайт это не очень хорошо.

Спасибо за ответ! К сожалению увеличить скорость сканирования не получится и технические проблемы решаются не с нашей стороны. Буду искать другой вариант...

Что делать, если ваша email-рассылка попала в спам

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Hita4