Парсинг ключей из Яндекс-Метрики с помощью КК - тормоза?

Виктор Петров
На сайте с 05.01.2020
Offline
240
719
Коллеги, кто с семантикой и статистикой из Метрики работает частенько - у всех парсинг ключей из Метрики тупит? То, что раньше с помощью KeyCollector занимало минут 5, сейчас растягивается на часы. Ощущение, что они воткнули какой-то ограничитель.
На сайте, конечно, траф некислый, а я взял срок в 2 года - но раньше такого тупняка не встречал.
Delysid
На сайте с 27.05.2019
Online
191
#1
Виктор Петров :
Коллеги, кто с семантикой и статистикой из Метрики работает частенько - у всех парсинг ключей из Метрики тупит? То, что раньше с помощью KeyCollector занимало минут 5, сейчас растягивается на часы. Ощущение, что они воткнули какой-то ограничитель.
На сайте, конечно, траф некислый, а я взял срок в 2 года - но раньше такого тупняка не встречал.

Со стороны: На самом серваке может быть обновление по, сам эту программу обнови до последней версии по, на сайте может быть проверка на js скрипт.

Коллега, ты профессионал. Нужно уметь работать с ручкой, листом и самим сайтом не используя онлайн сервисы. 

big boy
На сайте с 18.11.2006
Offline
314
#2
Delysid #:
Нужно уметь работать с ручкой, листом и самим сайтом не используя онлайн сервисы

Это как? На листок бумаги записывать запросы и составлять СЯ в рукописной форме? 😂 Может еще дальше пойти и не использовать компы? Ах да, пятница ))) И да, КК - это не онлайн сервис, а программа.

Виктор Петров :
На сайте, конечно, траф некислый, а я взял срок в 2 года - но раньше такого тупняка не встречал.
Я для себя workaround нашёл - беру диапазон по 3-4 месяца, выгружаю, потом беру следующий период. Не знаю почему, но получается быстрее. 2 года таким образом можно за 6-8 итераций выгрузить.
✔ Как разблокировать сайт на Cloudflare - https://webmasta.ru/blog/12-roskomnadzor-blokiruet-sayty-na-cloudflare-kak-razblokirovat
Lazy Badger
На сайте с 14.06.2017
Offline
228
#3
Виктор Петров :
Коллеги, кто с семантикой и статистикой из Метрики работает частенько - у всех парсинг ключей из Метрики тупит?

1. Нет

2. Парсить КК экспорт из Метрики - это что такое?

PS - все зависит от числа ключей и мощности техники. И 2 года дает слишком много протухших ключей

Производство жести методом непрерывного отжига
samimages
На сайте с 31.05.2009
Offline
427
#4
Lazy Badger #:
И 2 года дает слишком много протухших ключей

смотря какая задача стоит... да и от тематики зависит

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
Виктор Петров
На сайте с 05.01.2020
Offline
240
#5
Lazy Badger #:
все зависит от числа ключей и мощности техники. И 2 года дает слишком много протухших ключей

У меня поциэнт с очень проблемной техничкой. Формально - там более 20 миллионов посадочных страниц. Фактически в выдаче их не более 5 тысяч. Спарсить сайт в принципе нереально, да и незачем - но хотелось бы понять, что именно Яндекс ловит в отличие от гуглобота, гуглобот сайт сканировать практически не в состоянии.
Ну, и вот уже двое суток я вытаскиваю ключи - сейчас их 80 тысяч, в основном речь об артикулах и VIN (там автомобильная тематика). Это даже не про работу с семантикой, это понять, что вообще оказывается в зоне достижения ботов.
Суть в том, что не так давно на всё ушли бы минуты. Сейчас - двое суток, и конца-края не видать.

Lazy Badger
На сайте с 14.06.2017
Offline
228
#6
Виктор Петров #:
Ну, и вот уже двое суток я вытаскиваю ключи - сейчас их 80 тысяч

Я слегка подзабыл потроха Метрики (и говорят, она слегка новая), но...

Отчет простейший "органика - ключ - страница" я скорее всего сделаю и сейчас, потом экспорт в XLS и убивание дублей будет в Либре. А вот уже уникальные ключи вброшу в КК, и снять частотность 80 тыщ ключей - ну несколько часов (в 19 году мне подбрасывали ядро на 65 тыщ ключей) на 10 потоках

samimages
На сайте с 31.05.2009
Offline
427
#7
Виктор Петров #:
20 миллионов посадочных страниц

ужоснах - 231 день при расходе по секунде на страницу... или они не посадочные;
а проект есть у них на сайт? Просто интересно как они семантику планировали до запуска, вдруг 5000, это как раз релевантные входы на семантический кластер, в котором скажем 20КК/5К = всего 4000 "посадочных".

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий