SeoCillin (beta) - анализ текстовой релевантности, ТЗ копирайтеру и мониторинг алгори

NF
На сайте с 15.06.2007
Offline
73
15879

Здравствуйте, предлагаю вам поучаствовать в открытой бете SeoCillin

Сервис находится в стадии разработки, поэтому мне очень важно узнать ваше мнение и доработать его с учетом пожеланий пользователей.

Минутка промо текста ...

Как получить высокую прибыль с сайта без дополнительных вложений?

Шаг 1. Узнайте, насколько эффективны ваши тексты.

Шаг 2. Проанализируйте страницы конкурентов.

Шаг 3. Поднимитесь в Топ-10 за счет грамотной текстовой оптимизации!

КАК ЭТО РАБОТАЕТ?

Сервис дает возможность:

  • Оценить эффективность своих текстов с точки зрения поисковых систем.
  • Определить сильные и слабые стороны основных конкурентов.
  • Увидеть все возможности для получения конкурентного преимущества.
  • Разработать мощную стратегию для улучшения позиций в поисковой выдаче.
  • Оптимизировать свои тексты с помощью инструментов повышения релевантности.

РЕЗУЛЬТАТ? ЭКСПОНЕНЦИАЛЬНЫЙ РОСТ ПРОДАЖ БЕЗ ДОПОЛНИТЕЛЬНЫХ РАСХОДОВ!

В чем уникальность сервиса?

  • Сервис оценивает огромное число параметров.
  • Производится поиск зависимостей, учитываются средние значения в Топ-10 и корреляция параметров в Топ-50.
  • Есть возможность анализировать сайты конкурентов, выявлять их сильные стороны и разрабатывать стратегию развития проекта на основании новой информации.
  • Аналитические инструменты используют актуальные алгоритмы основных поисковых систем (Яндекс и Гугл) и обновляются ежедневно.
  • Уже сегодня можно оптимизировать ресурс не только на основании текущей ситуации, но с прицелом на будущее, что даст колоссальный перевес над конкурентами в ближайшей и отдаленной перспективе.

Опережайте конкурентов!

Развивайте ресурс в соответствии с требованиями поисковых систем!

Занимайте место в Топ-10 с помощью идеальной внутренней оптимизации!

Проанализировать тексты конкурентов в топ

На время Бета-тестирование вся функциональность полностью бесплатна.

Заранее извиняюсь за ошибки. Пожалуйста, не забывайте сообщать о них (желательно в лс), сервис разрабатываю сам, поэтому не все будет фикситься в порядке очереди или критичности.

IBakalov
На сайте с 05.10.2011
Offline
218
#1

А можно подробнее про:

Аналитические инструменты используют актуальные алгоритмы основных поисковых систем (Яндекс и Гугл)

И как получаете актуальные значения для BM25, в частности IDF и avgdl?

И анализируется весь текст на страницах, или как-то выделяется "текстовый блок" с обрезанием навигационного обвеса?

NF
На сайте с 15.06.2007
Offline
73
#2
IBakalov:
А можно подробнее про: Аналитические инструменты используют актуальные алгоритмы основных поисковых систем (Яндекс и Гугл)

http://seocillin.ru/search-updates/yandex/ - мониторинг изменений в алгоритмах яндекса.

Ежедневно отслеживаются средние показатели и корреляция для ВЧ, СЧ и НЧ запросов (около 200 запросов в каждой группе, запросы не меняются) по каждому параметру (вхождения слов, фраз и т.д). Динамику можно просматривать за последние 45 дней или по неделям за весь период.

Отмечу, что цель данного мониторинга - выделить факторы, влияние которых на позиции в топ изменилось, особенно, после введения новых алгоритмов. Т.к. запросы и алгоритм подсчета не меняются, данные можно сравнивать с предыдущими периодами.

Однако, это "средняя температура по больнице", для отдельных запросов ситуация может отличаться кардинально.

---------- Добавлено 08.05.2015 в 12:14 ----------

IBakalov:
И анализируется весь текст на страницах, или как-то выделяется "текстовый блок" с обрезанием навигационного обвеса?

Игрался с этим в свое время и пришел к выводу, что смысла удалять навигационные и другие сквозные блоки нет.

На большой выборке данных, особенно с запросами более 3х слов, видно, что зачастую единственные вхождения слов/словоформ находятся в меню (обычно достаточно массивных).

Была мысль ввести понижающий коэффициент для слов из таких блоков (например, 0.8), однако, пока не понятно есть ли в этом реальный смысл. Реализовать можно что угодно, главное, чтобы это было нужно людям.

Для идея есть специальный раздел с идеями, где пользователей могут делать предложения и они выносятся на голосование. Самые популярные будут реализовываться т.о. каждый может получить в сервисе то, что ему нужно (если другим пользователям это тоже интересно).

---------- Добавлено 08.05.2015 в 12:25 ----------

IBakalov:
А можно подробнее про: И как получаете актуальные значения для BM25, в частности IDF и avgdl??

За среднюю длинную документа в коллекции (avgdl) берется значение в топ по данному запросу : суммарное кол-во слов в документах в топ/кол-во документов (обычно 50 для топ-50).

Решение возможно не лучшее, однако, какие в поиске используются коллекции и какова их средняя длинна - вопрос не очевидный.

Для просчета IDF (обратная частота документа) берется кол-во документов, найденных по точному вхождению каждого слова/словоформы (например, для Яндекс это "!слово") из анализируемого запроса. Таким образом вклад "популярных слов" в релевантность становится меньше, чем более "редких".

P.S. открыт к всем предложениям по просчету релевантности. В конечном счете (по моему мнению) важно понять не то, как поисковые системы считают релевантность (для разных запросов алгоритм вероятнее всего отличается), а то как мы можем оценивать топ на параметры, которые можно "оптимизировать" для улучшения позиций продвигаемых документов.

[Удален]
#3

Написал в интерфейсе сервиса, но не могу понять как от вас там получить обратную связь.

Для чего у вас в данных по топу используется директ? Он просто указан в списке или вы по этим сайтам тоже ведете расчеты?

Так же не совсем понял для чего рандомизация ТЗ каждый раз?

Можно ли прикрутить архив статичный сгенеренных ТЗ и группы ключей (загрузка/выгрузка для ТЗ и анализа)?

При корреляции у вас есть сглаженные значения, в чем заключается их "сглаженность"? Приводите фразы к леммам, анализируете все словоформы, или еще что-то?

При анализе текстов у нас минимальное (единственное) значение топа - 50, вам не кажется что для многих групп нк запросов этого будет много, и результат будет размываться?

По поводу навигационных блоков, может действительно есть смысл задавать для них понижающий коэффициент? В некоторых тематиках часть топа занята сайтами-каталогами, в навигации которых вхождения могут зашкаливать (не знаю вашего алгоритма, но это может оказывать влияние на общий результат). Навигационный блок у всех свой, а для пользователей сервиса скорее всего больше интересна именно часть текстового контента.

С предложениями идей через сайт тоже не ясно: один день - одна идея, добавляю первую - говорит больше нельзя в этот день добавлять. Как так? Или 1 идея от всех участников на день?

wolf
На сайте с 13.03.2001
Offline
1183
#4

Игорь, для начала не мешало бы спросить, чистят ли серп от примесей и витальников.

А уж про хоть какую-нибудь чистку от нетекстовых факторов, боюсь, спрашивать вообще бесполезно.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
NF
На сайте с 15.06.2007
Offline
73
#5
Ironray:

Так же не совсем понял для чего рандомизация ТЗ каждый раз?

Я предположил, что большинство будут анализировать одни и теже запросы, при таком исходе каждое ТЗ будет одинковым и вероятность улучшения позиций после его внедрения будет минимальной. Рандомизация добавит "разнообразия" в тексты в топ, думаю в следующем релизе от этого избавлюсь.

Алгоритм составления ТЗ еще сырой, планирую учитывать больше параметров и учесть все пожелания.

---------- Добавлено 10.05.2015 в 02:11 ----------

Ironray:

При корреляции у вас есть сглаженные значения, в чем заключается их "сглаженность"?

Сглаживаются числовые значения, полученные в топ, для каждого параметра с помощью Среднеквадратического отклонения (по подробней).

Это достаточно полезно т.к. зачастую у некоторых документов в топ значение какого-либо параметра сильно отличается и итоговое значение корреляции из-за этого сильно изменяется. Сглаживание позволяет уменьшить влияние подобных отклонений. Поэтому не нужно удалять документы из топ по каким-либо признакам (витальные, спектральная примесь и т.п), их влияние и так будет занижено в Сглаженных данных.

Изначально данные "чистились" от подобных отклонений, затем склаживались. Однако, для запросов с более 3-х слов в фразе кол-во таких отклонений очень большое и их удаление приводит к сомнетельным результатам.

Важно понимать, что наличие корреляции/зависимости параметра от позиции документа в топ не может являться гарантией улучшения позиций при его "оптимизации" на продвигаемой странице. Связь может быть случайной.

---------- Добавлено 10.05.2015 в 02:16 ----------

Ironray:

При анализе текстов у нас минимальное (единственное) значение топа - 50, вам не кажется что для многих групп нк запросов этого будет много, и результат будет размываться?

В действительности я планировал скорее добавить анализ Топ 100 и Топ 200. Смысла уменьшать до топ 10 лично я не вижу, т.к. все данные по каждому документу есть в графиках и таблицах. Вы можете учитывать только данные для первых 10 результатов по запросу.

Считать корреляцию только по 10 первым документам нет смысла, слишком маленькая выборка + частые отклонения в топ 10. Однако, если такая возможность действительная необходима, реализовать ее не составит труда.

---------- Добавлено 10.05.2015 в 02:17 ----------

Ironray:

С предложениями идей через сайт тоже не ясно: один день - одна идея, добавляю первую - говорит больше нельзя в этот день добавлять. Как так? Или 1 идея от всех участников на день?

1 идея в 24 часа для 1 пользователя т.к. хотелось бы, чтобы она была обдуманной + защита от спама.

---------- Добавлено 10.05.2015 в 02:26 ----------

wolf:
Игорь, для начала не мешало бы спросить, чистят ли серп от примесей и витальников.

Примеси не чистятся, но данные сглаживаются и их влияние снижается. Если есть рабочий алгоритм как их можно определять с большой достоверностью при минимальных затратах ресурсов напишите его, постараюсь реализовать. Для меня сейчас не очевидно как это можно было бы сделать.

wolf:

А уж про хоть какую-нибудь чистку от нетекстовых факторов, боюсь, спрашивать вообще бесполезно.

Конечно спрашивайте, в теме или лс - на все вопросы постараюсь дать ответ. Мне приятно, что разработка заинтересовала некоторых пользователей форума.

Не думаю, что есть смысл что-либо чистить т.к. объективно просчитать как поисковики учитывают тот или иной параметр в топ невозможно, а удаление документов из анализа может исказить результат.

Однако, вполне можно учитывать ссылочные факторы. Но для этого мне нужно выкачивать весь интернет, считать графы, веса на каждое слово в ссылках, темпы прироста, возраст с момента установки, спамность и т.д. - это очень затратное мероприятие + у поисковиков все равно накоплено гораздо больше данных, особенно за предыдущие годы (можно анализировать изменения в динамике).

Реализовать это можно, если пользователи смогут выделить мне пару сотен впс (можно дешевых) для скачивания/парсинга интернета + пару топовых серверов для просчета данных (может даже видеокарты для майнинга сойдут, они хорошо распаралеливают простые вычисления) и хранилище под гигансткую бд. В теории можно написать распределенный скрипт/программу и каждый сделает свой вклад ... но это уже другой разговор.

wolf
На сайте с 13.03.2001
Offline
1183
#6

Сорри, больше вопросов не имею. Очередной порожняк

Sterh
На сайте с 15.06.2006
Offline
226
#7
net-free:

Однако, вполне можно учитывать ссылочные факторы. Но для этого мне нужно выкачивать весь интернет, считать графы, веса на каждое слово в ссылках, темпы прироста, возраст с момента установки, спамность и т.д. - это очень затратное мероприятие + у поисковиков все равно накоплено гораздо больше данных, особенно за предыдущие годы (можно анализировать изменения в динамике).

Можно использовать API того же ahrefs например...

net-free:

Реализовать это можно, если пользователи смогут выделить мне пару сотен впс (можно дешевых) для скачивания/парсинга интернета + пару топовых серверов для просчета данных (может даже видеокарты для майнинга сойдут, они хорошо распаралеливают простые вычисления) и хранилище под гигансткую бд. В теории можно написать распределенный скрипт/программу и каждый сделает свой вклад ... но это уже другой разговор.

Да нивапрос :)

---------

Вообще, порыв верный и напрашивается на рынок давно. А вот подход к реализации не очень. На вскидку несколько вариантов:

1) По конкурентым запросам снимать ТОП50 особо смысла нет. Лучше снять ТОП50-100. Далее, через тот же ахрефс выбрать сайты, на которые не будет ссылок. По получившейся выборке выявлять факторы.

2) Чаще используют производные IDF (та же ICF, которая считается по количеству лемм, а не документов, содержащих лемму). Тут для начала можно взять данные НКРЯ.

3) На НК запросах можно прикинуть влияние весовых коэффициентов полей (Title, H1 и т.д.), и попробовать применить их к более конкурентным запросам.

И т.д.

P.S. Если есть желание обоюдовыгодно посотрудничать, вэлкам в личку :)

P.S.S А по какому принципу выбирались те 200 запросов, по которым мониторите ТОП?

Программа для настройки внутренней перелинковки сайта: купить (http://www.page-weight.ru/) Проверка внешних ссылок на сайт (https://backlink.page-weight.ru) (когда Ахрефс дорого) Возьму на продвижение пару магазинов, & SEO консультации (/ru/forum/987866) для сложных случаев.
NF
На сайте с 15.06.2007
Offline
73
#8
Sterh:
Можно использовать API того же ahrefs например...

Изначально был отдельный анализ топ по MajesticSeo, Moz и LinkPad. Однако, сервис планируется коммерческий и я посчитал их использование некорректным (апи для коммерческого использования стоит очень дорого). Возможно в будущем что-то продвинутое по ссылкам реализую, если пользователям это действительно будет нужно. У LinkPad все полностью бесплатно, если владельцы будут не против использования их данных в коммерческих целях (можно с указанием ссылки на них или рекламы в качестве компенсации), реализую без проблем.

Sterh:

3) На НК запросах можно прикинуть влияние весовых коэффициентов полей (Title, H1 и т.д.), и попробовать применить их к более конкурентным запросам.

Можно к bm25 добавить просчет bm25f, а коэффициенты для каждого поля пользователи смогут задавать сами. Кому-нибудь нужна такая функциональность? Нужно определиться с списком полей и дефолтными коэффициентами для них, раньше было предложено выделять сквозные блоки (после скачивания 2-3х страница сайта их можно выделять с большой достоверностью и корректировать их вклад в релевантность коэффициентами).

Sterh:
P.S.S А по какому принципу выбирались те 200 запросов, по которым мониторите ТОП?

Запросы выбирал исходя из их долгосрочной востребованности у клиентов по seo, без указания сезона, года, города или бренда.

Sterh:
P.S. Если есть желание обоюдовыгодно посотрудничать, вэлкам в личку

Спасибо, желание есть, на неделе думаю спишемся :)

Wasya
На сайте с 18.11.2002
Offline
164
#9

net-free, Ну когда же обещанный апдейт версии? (и я не про Минусинск)

NF
На сайте с 15.06.2007
Offline
73
#10
Wasya:
net-free, Ну когда же обещанный апдейт версии? (и я не про Минусинск)

Новая версия планируется в начале следующей недели.

Будет добавлен:

1. Поиск сквозных блоков (меню, футер) на анализируемых страницах - их можно будет не учитывать.

2. Новый алгоритм составления ТЗ + планирую добавить возможность составлять его без предварительного анализа текстов по запросам (недостающие запросы будут добавляться на анализ автоматически)

3. Подробное описание алгоритма составления Тз + примеры

4. Экспорт ТЗ в xls/csv

Спасибо пользователям за идеи, постараюсь оставшиеся реализовать в следующих обновлениях.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий