- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен
я же говорю не разобрались в том что я написал :)
приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем)
использовать лучше именно текст, а не служебные фрагменты
маз 6422 это немного другое, в данном случае это стоит рассматривать как одно слово ;)
просто по запросу 6422 можно получить кучу эпиляторов и это будет зависеть от истории пользователя/рекламы и пр.
Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно".
вы пытаетесь пойти в лоб решая задачу и поэтому возникает ошибка в логике, а именно:
"термины, без которых тема раскрыта не полно" - миф это ни как не повлияет на ранжирование документа, в существующих реалиях, подобное позволяет документу попасть в выборку для ранжирования и всё именно эту задачу можно решать с помощью LSI
но не забывайте, что расширяя таким образом документ вы теряете в релевантности + у подобного документа будет больше конкурентов ;)
если внимательно посмотреть на выдачу, то вы обнаружите, что каждый документ предлагает решение задачи пользователя по своему - повторов практически нет (за редким исключением и по запросам не допускающим иного толкования)
сравни выдачу по 2 запросам эпилятор филипс 6422 и эпилятор филипс 6422 купить в москве
1. пересечение в документах по запросу в топ или из корпуса всех слов топа?
бесполезное занятие, по большому спектру запросов, кроме слов самого запроса пересечений в документах практически не будет (тематика одежда)
неплохие словари есть http://www.ruscorpora.ru/
учитывать стоит не только биграммы
P.S. я как-то приводил график текстового анализа топа по запросу, правда тогда не описывал методику сам запрос и что находится по осям, повторю его с небольшими комментариями
запрос: мужская одежда
не подписанная ось это искусственно придуманные параметры типа, отношение количество существительных из запроса в полных триграммах к количеству прилагательных в полных биграммах (это полный бред, но для набора большого количества параметров годиться) или просто частота триплета (3 подряд идущие буквы)
*полная биграмма, при обработке текста не значимые фрагменты удаляются (устоявшиеся выражения, обороты, цифры (если их нет в запросе), остаётся пустое место они и попадают в биграммы
burunduk, а можно покороче, ибо даже я тя не понял (точнее понял, но частично - вот это яндекс точно отфильтрует)))))
Miha Kuzmin (KMY), ну если совсем коротко, то LSI ключи не являются обязательным условием для попадания в топ
я же говорю не разобрались в том что я написал :)
приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем)
Вначале, приведение к начальным словоформам делал посредством словарей http://opencorpora.org/?page=downloads или апи , но по результатам экспериментов (не все слова есть или апи через пень колоду) остановился на простом стеммере. MyStem есть в планах. Но, пока группировка словоформ меня в общем и целом устраивает. Тут, главное, одинаковым алгоритмом нормализовать "ключи", н-граммы ТОПа и сниппеты яХМЛ (пока не используются, но есть идея вес терминов, если они в сниппете увеличивать).
Осознаю, что при
возможна конкуренция каких то других "собр", но думаю невероятно, что это будет вместе c lsi, одновременно с высокой частотностью (cnt) в документе, урл которого получен из топа по запросу "Как массово собрать LSI ключи". Но, все равно спасибо.
без учёта порядка лем
Для "ключевиков" это у меня есть, "без учёта порядка лем" достигается простой сортировкой "камаз 65206" => parent = 65206_kamaz (видно в примере бд). Грубо, из базы ключевиков будут вынуты (если, там 2 записи как в вышестоящем сообщении) ид биграмм:
65206_kamaz, kamaz_65206, kamaz_sedeln, sedeln_tyagach, kamaz_tyagach, tyagach_kamaz. По факту, обычно (сильно больше 2-х записей в базе), идешек биграмм может быть тысячи. Кстати, видно, что данные "просто по запросу 6422" не нашумят.
Для н-грамм документов, вероятно, стоит делать также ☝ Только в массивчик "65206_kamaz" добавить частоты "65206_kamaz" и "kamaz_65206". И в этом случае не надо в таблице ключей хранить "каждый к каждому". Тем, не менее скептично настроен, к тому, что это позволит решить проблему левых, но высокочастотных в документе н-грамм:(
Так или иначе, пока, приоритет - копать сюда:
Ибо, просто Х-первых по частотности не дает приемлемых для меня результатов.
использовать лучше именно текст, а не служебные фрагменты
Пока, есть некоторые сложности с корректным определением текста статьи на документе из выдачи. Работает ведь как, взяли топ-20 и следующим шагом - контент всех 20 урлов домой на обработку. + 100% уверенности, что нужен только контент статьи нет. Да и многие документы не имеют статьи как таковой.
"термины, без которых тема раскрыта не полно" - миф это ни как не повлияет на ранжирование документа, в существующих реалиях, подобное позволяет документу попасть в выборку для ранжирования и всё именно эту задачу можно решать с помощью LSI но не забывайте, что расширяя таким образом документ вы теряете в релевантности + у подобного документа будет больше конкурентов ;)
Тут могут быть разные взгляды, могу лишь сказать, собственноручно проведенный эксперимент убедил меня, что рациональное зерно есть. Когда-то, когда они были не только лишь город +, подсветки пособирал немного. Потом нашел эту базу, + разные акварели и т.п. сервисы. Скорректировал выкачанными из топ-20 и ручками, в соответствии с обычной житейской логикой, отфильтрованными терминами (1,2,3 - граммы). Результат порадовал. На домене была заглушка пару лет, потом вордпресс, пяток статей и ТОП-3 по ключу, стоимость которого чаще с 3 нулями, чем с 2-мя, 30-50 переходов в сутки. Понятно, что разные факторы ведут к топу, но, имхо, контент по-делу один из них. + Обилие а-ля фб в топах, не все из которых на доменах с супер ПФ и ссылочным. Да и выше в топике говорят, что
Посему, задача - научиться пользоваться в промышленных масштабах.
бесполезное занятие, по большому спектру запросов, кроме слов самого запроса пересечений в документах практически не будет (тематика одежда)
Тоже, имхо, двояко. Те, темы (не одежда), которые смотрел, там можно что то накопать. А так время покажет, есть ли в этой идее что то интересное:)
неплохие словари есть http://www.ruscorpora.ru/
Спасибо!!! Кое что уже взял. + представляет интерес corpora-freq.html
учитывать стоит не только биграммы
Я много данных собираю. Но, еще до конца не осмыслил как их прикрутить для пользы дела😕
Кому как, по мне так, конструктивно получилось - несколько идей есть🍻
MyStem есть в планах
очень удобно, но желательно добавлять свои словари
возможна конкуренция каких то других "собр", но думаю невероятно, что это будет вместе c lsi
смотрите немного шире через слово/через2...
И в этом случае не надо в таблице ключей хранить "каждый к каждому"
зависит от задачи, если потом оценивать корректность, то надо (сам с этим столкнулся, обратное преобразование для тз) как раз корректность исходной n-граммы можно использовать для корректировки её веса
купить белое платье - 1
белое платье купить - 1
платье купить белое - 0,8
итого получаем частота 3 вес не 1, а 0,93
белый купить платье
Пока, есть некоторые сложности с корректным определением текста статьи на документе из выдачи.
надо брать именно весь текстовый контент - с этим у всех проблема, хорошего парсера html пока вроде нет, регулярно в текст влезают артефакты html кода, особенно по низко конкурентным запросам или за пределами топ 20
Посему, задача - научиться пользоваться в промышленных масштабах.
плохо получается :(
плохо получается :(
Сложности есть. Одна из - не могу найти сервис с апи возвращающий "вместе с **** ищут", ну или "Запросы, похожие на ****" вордстата. Врукопашную добавлять для каждого запроса муторно. Все остальное более менее автоматизированно, а тут затык.
услуги тепловизора
утепление пенополиуретаном
утепление
пенополиуретан
утеплить фасад
ппу
утепление ппу
утеплить пенополиуретаном
Не всегда выборка ид биграмм из моей базы ключей, например по запросу "утеплить дом", дойдет до тепловизора или ппу:(
Какое-то сборище задротов, уже 8 лет как сделали себе сервис: http://stxt.ru/
И благополучно пользуемся. А тут что-то вдруг стали обсуждать. :D
overnight, он криво работает, более того, он не понимает о чём текст ;)
Индекс тематичности: 9,02*. Прогноз посещаемости из поисковых систем по низкочастотным запросам: 36 в месяц.
Распознанные ключи
в о что это, жить надо проще, как жить проще, к о это, о что это, просто буду жить проще, просто жить, просто надо жить, просто не знаю, просто хочется жить, с о это, так хочется жить, ты знаешь так хочется жить, это о, я просто смотрю
Анализируемый текст (2 848 знаков без пробелов)
И дальше пользуйтесь, тем что никому тут не надо😂 Тут не про то как вставить статью в форму и узнать тематику (криво кстати) и выдернуть и нее ключи (тоже криво). А про то, как на нужный ключ подобрать "термины, которые наиболее полно раскроют тему". Причем, сделать это быстро, массово и дешево.
Одна из - не могу найти сервис с апи возвращающий "вместе с **** ищут", ну или "Запросы, похожие на ****" вордстата.
ya-bot.net дает по апи запросы, но не из вордстата, а которые в поиске внизу выводятся - "так же ищут"