ArtPresident

Рейтинг
151
Регистрация
10.07.2007
Должность
seo, курсы по seo

Приветствую!

Не работает "Удалять дубликаты-перестановки..." для выгрузки ключей сайта / списка сайтов:

1. Закидываю список сайтов сюда https://www.bukvarix.com/mcmp/ Выбираю регион Google(Киев).

2. В настройках стоит "Удалять дубликаты-перестановки без учета словоформ" http://prntscr.com/lnioex

3. Экспортирую.

4. В выгрузке присутствуют дубликаты перестановки: http://prntscr.com/lnip18 http://prntscr.com/lnipbo и т.п.

5. Почините выгрузку без дубликатов (если стоит в настройках) для домена(ов).

6. Хотелось бы видеть возможность добавлять слова-исключения и для семантики домена (ов). Я хочу выгрузить семантику конкурентов, но в ней много запросов, которые я хочу убрать из полученного списка запросов с помощью слов-исключений. Иначе приходится "чиститься" другими инструментами, например, КейКоллектором, что забирает время.

Оперативно провели обмен с нормальным %. По необходимости буду обращаться еще.

Sobes:
И ...ы считае..., что это круто: использовать язык падонкофф, чтобы себя унизить?

Ни в коем случае не хотел Вас обидеть. Наша дискуссия возникла из разности понимания возможных причин, почему Букварикс пока не вводит посуточную оплату.

Sobes:
И введение платной подписки я только приветствую, так как сам тоже разработчик!
Но сделайте. плиз, 1-3-х суточную подписку!

Попытаюсь выстроить гипотезу, почему сейчас введение посуточной подписки маловероятно. Давайте рассмотрим финансовую часть для разработчиков Букварикса:

1) Вводится платная подписка на день, к примеру, 50 руб. И

2) Есть вариант месячной подписки за 700 руб.

Пусть есть 100 пользователей Букварикса, которые покупают доступ. Из них, я уверен, более 80% пользователей достаточно 1-3 дня, чтобы закрыть почти все задачи по семантике на месяц(ы).

Итого:

1) При модели посуточной оплаты, поступления от 100 пользователей: 5000-15000 руб.

2) При модели помесячной оплаты, поступления от 100 пользователей: 70 000 руб.

Разница весьма существенна. Я не знаю, сколько стоит обслуживание и содержание проекта, сколько пользователей с оплатой. Но 100 пользователей с посуточной оплатой не делают проект интересным финансово разработчикам. А сколько должно быть активных пользователей, которые платят посуточно хотя бы раз в месяц, чтобы это стало интересно разработчикам? Мы не знаем затратную часть проекта -- в деньгах, во времени и т.д. Мне кажется автор явно дал понять такие расклады. И просьбы "ну, позалуста" -- не помогут решить финансовые расклады в данный момент.

А Буквариксу есть куда вкладываться в развитие. Конкуренты не дремлют. И чтобы проект выжил, необходимо его развивать.

Последние несколько месяцев плотно работал над 4-ой версией. Официальный старт 4-ой версии обучения можно считать открытым :)

Курс пошагового практического обучения

“500seo2018: Как готовить LSI статьи с максимальным потенциалом / Продвинутая SEO оптимизация”

17 видео.
PDF конспект на 71 стр.
4 ДЗ с моим практически разбором:

  • Анализ ниши и сбор семантики.
  • Сбор, кластеризация СЯ.
  • Подготовка ТЗ для страницы / статьи.
  • Подготовка текста по ТЗ.

Стоимость на август 2018г.: 8000 руб

Обязательно заполнить бриф (на google docs). Для получения ссылки на бриф свяжитесь со мной через один из каналов связи:

  • личка серч
  • почта: seoseoxa@gmail.com
  • скайп: seoxaseo

1. Запросы. Частота. Типы соответствия.

  • почему важно понимать отличия между разными типами соответствия;
  • какой тип соответствия “плодит” неявные дубли и на что это может влиять.

2. Прогноз посещаемости по запросу / группе запросов. Оценка трафикового потенциала.

  • CTR на выдаче;
  • оценка трафикового потенциала.

3. Классификация запросов. Типы сайтов в выдаче. Спектр. Геозависимость.

  • в чем кардинальная разница между коммерческими и информационными сайтами;
  • каким образом запрос может быть геозависимым и геоНЕзависмым одновременно.

4. Как за 60 минут сделать первичный анализ тематики / ниши / направления.

5. Как за 60 минут проанализировать и собрать 100 000 поисковых запросов (семантическое ядро).

  • собираем тематичные БМ (базовые макеры);
  • расширения БМ (синонимия);
  • ЧС 1-го и 2-го типа (с лемматизацией / стеммингом, без лемматизации / стеминга);;
  • тематичные контексты для БМ;
  • ищем семантически близкие БМ / пересечение запросов по интентам;
  • word2vec;
  • стратегия;
  • собираем список запросов по БМ;
  • уменьшаем размерность списка запросов (отсечение “нулевок” + принцип Парето);
  • из 400 000 собранных запросов “выхожу” на 48 000 запросов без потери наиболее важных интентов (потребности пользователей).

6. Кластеризация семантического ядра (СЯ) на 100 000 запросов за 1 день.

  • кластеризация по БМ (общей лексической основе — слова / словосочетания / n-граммы);
  • кластеризация по ТОПу (ТОП 10-20-30 и т.д);
  • типы кластеризации по ТОПу;
  • кластеризируем по ТОПу большое СЯ (пошагово + сколько времени + сколько денег).

7. Факторы ранжирования Яндекса.

  • факторы ранжирования (обзор);
  • технологии / алгоритмы (матрикснет, векторные модели, вероятностные модели (N-граммные модели, word2vec), тематическое моделирование (LSI, pLSI, LDA);
  • асессорские оценки (обзор);
  • сходство документов: матрица термин-документ;
  • сходство слов: матрица слово-контекст(слово).

8. HARD кластеризация по ТОПу, как разложение матрицы запрос-документ, где латентные переменные — это интенты (потребности, намерения пользователей).

9. Асессорские оценки от Яндекса — релевантность документа запросу “глазами” Яндекса.

10. Текстовые факторы ранжирования яндекса / Качество и естественность текста.

11. Данные для ТЗ / СЯ на конкретную страницу / Подготовка ся для конкретной страницы сайта.

  • N-граммы;
  • вектора / ЧС СЯ страницы;
  • вектора / ЧС “эталонных” сайтов / ТОПа.

12. Алгоритм PRO ТЗ.

13. Как оптимизировать статью / страницу под 100-500-1000 запросов / Готовим PRO ТЗ с строуктурой статьи / страницы..

14. Готовим СЯ страницы / статьи по запросу / Кластеризация по БМ (общая лексическая основа).

15. Конструктор ТЗ (PRO ТЗ, ЛАЙТ ТЗ, УЛЬТРА ЛАЙТ ТЗ).

16. Как одному человеку самостоятельно оперативно “переварить” 100 000 поисковых запросов и покрыть ТЗ основные трафиковые группы этого СЯ;

Doroshev:
Всем привет. Резко рухнул трафик на крупном e-commerce.
1. Подозреваем, что это фильтр из-за DMCA
2. Рухнул трафик и позиции почти в ноль.
3. Вот хронология абуз:
http://s2.1pic.org/files/2018/06/29/98d850963ad02798e8e3.png
4. Шлет ру-контора на картинки, которые мы используем на карточках товара. Хотя картинки от поставщиков, их не только мы используем.

Кто подскажет, как выйти из ситуации и что делать дальше? URL достаточно много.

Была подобная ситуация. Правда пару лет назад, но думаю кардинально что-то не поменялось.

Вводная: интернет магазин клиента. Картинки в интернет магазине от поставщика. Конкурент кинул жалобу по DMCA на несколько картинок по одной категории интернет магазина. Google сразу "выкинул" весь раздел из выдачи, трафик на этот раздел сразу просел. Было уведомление в вебмастер гугла (тогда еще вебмастер).

У гугла была форма "ответки" на DMCA (не знаю как сейчас). Владелец интернет магазина через эту форму дал необходимую информацию с объяснениями, откуда картинки. Тогда процедура со стороны google выглядела следующим образом:

После получения "ответки" через форму, гугл отписывал жалобщику, что если в течение 5-10 дней (если не ошибаюсь) не будет подан официальный иск в калифорнийский суд, жалоба снимается. Так и произошло, конкурент в калифорнийский суд иск не подавал :) жалоба аннулировалась. Все позиции вернулись.

Не знаю как сейчас, но тогда у гугла была презумция виновности — страница / раздел / сайт "выкидывается" из выдачи по жалобе. Чтобы восстановить "справедливость", должен доказывать, что "неувиноват".

LazyBadger:

PS: Идеи и мысли Арти всячески (морально только пока) поддерживаю, это может быть отдельный (форк) "Букварикс Про" со своим ценником (только не надо безбашенную цену ахрефса выкатывать - не наши там цифры)

Мое субъективное мнение на ценник для платных возможностей Букварикса в данный момент — $10/мес. "Букварикс ПРО" сейчас только увеличит ценник и выведет на уровень конкуренции с другими продуктами— КейКоллектор, Keys.so и др. — где Букварикс им проиграет.

Все-таки основная ценность Букварикса — это супер скорость в анализе и сборе СЯ, быстрый вход для новичка (очень просто пользоваться). Но есть и минусы, которые тем сильнее выходят на первый план, чем больше становится цена . Тут необходим очень тонкий баланс между ценой и удовлетворенностью пользователей. Этот баланс не нужен был, когда продукт был бесплатным — у него просто не было конкурентов. Бесплатность "убивала" все минусы еще на подлете :)

Вложение сейчас усилий разработчиков / финансовых вложений в улучшение функционала, чтобы поднять цену — это путь направлять взгляды пользователей на другие продукты и искать компромиссные альтернативы. А эти поиски компромиссов будут при увеличении цены, так как анализ конкурентов и сбор ядра — это фундамент, но есть еще и кластеризация, подготовка ТЗ, подготовка контента / написание статей. И все стоит денег, а значит человек просчитывает как оптимизировать расходную финансовую часть на всю цепочку.

Например, стоимость кластеризации напрямую зависит от количества запросов. Больше "мусорных" запросов — больше цена кластеризации. Значит СЯ с неявными дублями увеличивает стоимость кластеризации. Для больших СЯ (к примеру 500 000 запросов) "переплата" за кластеризацию неявных дублей может быть весьма существенной (зависит, конечно же, от количества этих самых неявных дублей). И тут уже скорость сбора как преимущество нивелируется, так как качество ядра может серьезно повлиять на окончательную стоимость собранного и кластеризированного СЯ.

Bukvarix:

Поддержка словоформ у нас есть, но при применении этого решения (которое сделано с главной задачей обеспечения быстрого поиска) непосредственно для анализа, оно будет работать не так быстро, как нам бы хотелось. Это не значит, что мы никогда не сможем сгруппировать словоформы и выводить леммы быстро, просто прямо сейчас хорошего решения у нас нет.

Может можно реализовать какое-то дополнительное компромиссное решение для инструмента "анализ слов" с ограничением на количество запросов? Что есть сейчас:

1) ЧС по словоформам любой выборки запросов в поиске (переход "к анализу"). Хорошо подходит для первичного анализа большого списка запросов по маркерам — поиск нетематичных слов (контекстов маркера), поиск тематичных слов (контекстов маркера). Анализируя ЧС на этом этапе, быстро нахожу тематичные контексты для формирования более длинных словосочетаний в поиск Букварикса. Или ищу нетематичные слова для добавления в слова-исключения и исключаю из выборки запросы с "левыми" контекстами. В принципе, для этих целей мне хватает и того формата, что есть сейчас (ЧС по словоформам).

2) ЧС в инструменте "анализ слов". Сейчас туда можно загрузить 100 000 запросов (это очень вери гуд, найти сервис на такое количество запросов для ЧС не так просто, если нет КейКоллектора, к примеру). Из минусов — ЧС по словофрмам. Тут ситуация понятна — решение в поиске, задача не такая простая, как кажется "не технарю" (мне :) оставляем этот вариант.

3) Компромиссный дополнительный вариант: я могу загрузить, к примеру, до 5000 запросов (или больше, если тех. возможности позволяют), но получаю ЧС по леммам И / ИЛИ (в идеале, в дополнение к ЧС первого типа) ЧС второго типа (лемма + сумма по частотам всех запросов, в которые она входит). Объясню для чего этот вариант:

При подготовке СЯ для конкретной страницы я делаю ЧС. Здесь количество запросов, естественно, поменьше. Но...Это позволит мне, во-первых: не корректировать вручную частоты, объединяя словоформы (или "на глазок"). Во вторых — у меня все-таки будет возможность получить ЧС второго типа :)
Я могу отсортировать из общей выгрузки первых 5000 наиболее частотных запросов (например, из выгрузки в 100 000 запросов) и закинуть их для формирования ЧС второго типа.

То есть, некий такой компромисс, дополнительный вариант, для ограниченного количества запросов. Частотный словарь второго типа: лемма + сумма частот всех запросов, в которые входит эта лемма + словоформы в скобочках) (но можно и без словоформ). Реально такое реализовать? Если да — для какого количества запросов? Даже для 3000 запросов инструмента "анализ слов", это позволит делать ЧС разных типов по леммам для СЯ конкретной страницы.

Bukvarix:

Вы хотите, чтобы в "Анализе слов" словоформы группировались и чтобы выводилась базовая словоформа (лемма и, возможно, в скобках через запятую все остальные встреченные словоформы) и суммарное значение частотностей всех встреченных словоформ, так?

1) Если да, то у нас уже есть в планах, но пока не решили, как это сделать быстро, а решение "в лоб" будет медленным.


2) Сортировка тоже пока в планах; для тех функций, о которых вы говорите, сначала нужно сделать сортировку в принципе.

1) Да, добавить к первому частотному словарю (тот, что есть сейчас — считает количество запросов , в которые вошла словоформа), второй частотный словарь -- по суммам частот запросов в которые входит лемма (считает суммарные частоты для всех запросов, в которые входит слово / лемма).

Эти два ЧС похожи на:

— документную частоту df, (в каком количестве документе встречается слово);

— частота в коллекции cf (сколько раз всего встречается слово во всей коллекции документов).

В нашем случае, тот ЧС, что есть сейчас ("к анализу" и "анализ слов") считает в какое кол-во запросов входит словоформа (опустим незначительную погрешность, если в запросе слово встречается больше одного раза).

ЧС второго типа (о котором я говорю) считает сумму частот всех запросов, в которые входит слово / лемма. Вы правильно поняли. У КейКоллектора есть реализация ЧС словарей двух типов. Второй ЧС реализован именно как Вы говорите — лемма + в скобках словоформы + суммарная частота всех запросов, в которые входит лемма. С этим разобрались — задача трудоемкая и требует оптимизации решений :)

1.1) Для частотных словарей выводить статистику не по словоформам отдельно, а по леммам. И при переходе "к анализу" после поиска по маркеру(ам), и при использовании доп. сервиса "анализ слов". Когда я даю слово / словосочетания в строку поиска — Букварикс не ищет только в тех словоформах, которые я задал. Значит стемминг / лемматизация запросов у Букварикса уже реализован. Насколько трудоемка задача выводить ЧС не по словоформам, а по леммам? Те, кто работают с частотными словарями, поймут меня и оценят вывод статистики не по словоформам отдельно, а по леммам :) Я интенсивно использую ЧС на каждом этапе — начиная от сбора СЯ до подготовки ТЗ страницы.

2) Чтобы мы поняли друг друга правильно, уточню: сейчас список запросов выводится по какому-то алгоритму сортировки (кол-во слов + наиболее частотные). Правильно? Можете описать более подробно алгоритм вывода? Ну например, что выводится на первой странице поиска Букварикса? По какому принципу отбираются запросы на первую страницу? На вторую? На третью? Выше Вы написали, что отбираются результаты "выдачи" Букварикса (сделаем такое сравнение с поисковиками) по количеству слов и частоте. То есть, какой-то алгоритм сортировки результатов уже есть? Если я хочу найти самый частотный запрос (или 10 самых частотных) без выгрузки, я могу понять на какой странице мне искать такой запрос(ы)?

Здравствуйте!

Есть ли возможность:

1) В частотных словарях ("к анализу" и "анализатор слов") выводить статистику не по каждой словоформе, а по леммам (базовая словоформа)? То есть, выводить статистику по всем запросам, в которых встретилось слово И его словоформы (не для каждой словоформы отдельно, как сейчас).

2) Сейчас частотный словарь считает только встречаемость словоформы в запросах. Возможно ли добавить еще один частотный словарь: считать суммарную частоту для всех запросов, в которых встретилось слово / лемма.

3) Возможно ли заменить частоты по запросу с "!слово !слово" на точную "[!слово !слово]"?

4) Вывод списка запросов жестко привязать к частотам — вывод всегда от самых частотных к менее частотным. Чтобы при выгрузке, к примеру, 3000 запросов выгружались первые 3000 самых частотных. И при просмотре списка (еще ДО выгрузки) сразу видеть наиболее частотные. Не совсем понятно, зачем сейчас список запросов выводится с учетом количества слов.

Сейчас это абсолютно бесполезная "фича" при выводе списка запросов. Я бы даже сказал, что "фича" более вредная, чем полезная — чтобы увидеть , к примеру, ТОП-100 самых частотных запросов, начиная с самого частотного, мне необходимо делать выгрузку в csv и сортировать по частотам уже в выгрузке. Зачем усложнять работу и тратить лишнее время пользователя? Вбил слово/ словосочетание — сразу видишь список наиболее частотных.

Анализирую я, к примеру (это реальная ситуация), тематику с более 1 000 000 запросов. Много направлений, много базовых маркеров. Нужно быстро проанализировать направления с наиболее частотными. Это мне необходимо по каждому маркеру делать выгрузки, чтобы банально просмотреть наиболее частотные перед тем, как определиться какие направления брать в работу в первую очередь. На ровном месте мое время тратится на бесполезную работу.

Реализация этих пунктов — ну просто бриллиант. Говорю не как теоретик. Что улучшит реализация этих пунктов:

1) При анализе списка запросов, статистика по каждой словоформе — это увеличение строк, неудобство в анализе популярности того или иного слова (нужно вручную просматривать статистику по каждой словоформе).

2) ЧС этого типа — это более точная информация, так как используется информация по частотам запросов.

3) "[!точная !частота] — возможность значительно уменьшать список запросов, убирая некоторые запросы-пустышки ("!" не фиксирует порядок слов, что может порождать запросы с некорректной реальной статой по частотам). Соответственно, запросы-пустышки "размывают" конечные результаты по прогнозированию посещаемости по той или иной группе запросов, "раздувают" кол-во запросов (например, для дальнейшей кластеризации с затраткой на каждый запрос).

Серьезный плюс Букварикса — это очень быстрая работа с большими списками запросов. Но нужно "подтягивать" и более тонкие нюансы.

Всего: 844