SeoCillin (beta) - анализ текстовой релевантности, ТЗ копирайтеру и мониторинг алгори

[Удален]
#11

Обновление откладывается?

NF
На сайте с 15.06.2007
Offline
73
#12
Ironray:
Обновление откладывается?

Решил глобально переработать сервис:

1. Будут учитываться как индивидуальные значения каждого слова из запроса и словоформы (вхождения, плотность, релевантность), так и групповые характеристики (точные вхождения слов, словоформы) для анализа релевантности по запросу и составления ТЗ.

2. Автоматическое добавление ключей на анализ при составлении Тз (сейчас вначале надо проанализировать ключи, потом из результатов составляется Тз). Результаты анализа для каждого ключа будут доступны отдельно, если пользователям будет нужно больше информации на основании чего составлялось Тз по группе запросов.

3. Пытаюсь переработать интерфейс - для многих текущий оказался неочевидным. Отчасти это связано с тем, что составление ТЗ было вторичной разработкой, сделанной на скорую руку. Сейчас наоборот планирую сделать на нем акцент.

+ ранее указанные доработки тоже будут в обновлении

NF
На сайте с 15.06.2007
Offline
73
#13

Для альфа-тестирования доступна новая версия анализа текстов в Топ 50.

Что нового:

1. Добавлен подсчет вхождений в Title, H1-H3

2. Доступна информация по каждому слову в Топ

3. Добавлен просчет длинны текстов (кол-во слов и символов)

4. Возможность удалять сквозные блоки на страницах

5. Общий вывод по анализу, включая сравнение с Адресом вашей страницы (для последующей ее доработки)

6. Просчет рекомендуемых значений исходя из средних значений в Топ 10 и наличия прямой/обратной зависимости

7. Выгрузка результатов анализа в .xlsx с страницы результатов или результата самого анализа

8. Результаты анализа текстов доступны на новой вкладке

9. Для Яндекс добавлены 60 регионов (теперь анализ не только по региону Москва)

[ATTACH]143307[/ATTACH]

Демо нового анализа запроса "пластиковые окна" доступно по ссылке.

Переход из альфы в бету нового анализа планируется в течении 5-7 дней. Предыдущие анализы текстов будут не совместимы.

Буду признателен за конструктивную критику.

Спасибо всем, кто участвует в бете! Вы действительно помогаете сделать сервис лучше.

Как и раньше все абсолютно бесплатно.

jpg alfa-demo.jpg
[Удален]
#14
wolf:
Игорь, для начала не мешало бы спросить, чистят ли серп от примесей и витальников.

вообще-то, это элементарно при отслеживании большого количества запросов (100к+) ;)

NF
На сайте с 15.06.2007
Offline
73
#15
burunduk:
вообще-то, это элементарно при отслеживании большого количества запросов (100к+) ;)

Сервис анализирует 1 запрос в "вакууме", не понимая какой из сайтов для запроса может быть витальным или примесью. Если за 1 раз анализировать большое кол-во запросов в одной тематике, то выделять витальные сайты можно было бы с большой вероятностью (в теории).

Однако, я считаю, что % ошибок при определении подобных сайтов был бы высоким и под нож пошли документы, релевантность которых рассчитывается по "общим правилам".

Если это настолько принципиально, могу добавить возможность создания списков стоп-доменов и написать алгоритм определения/удаления информационных страниц по коммерческим запросам (как сделать своими руками, отзывы и т.д).

P.S. наблюдаю некоторые несоответствия при парсинге title и подзаголовков, относитесь к этим данным с осторожностью.

Сергей Людкевич
На сайте с 13.03.2001
Offline
Модератор1170
#16
net-free:
Сервис анализирует 1 запрос в "вакууме", не понимая какой из сайтов для запроса может быть витальным или примесью.

Может, пора научиться понимать?

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов (http://www.ludkiewicz.ru/p/blog-page_2.html) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения (http://www.ludkiewicz.ru/)
[Удален]
#17
net-free:
Сервис анализирует 1 запрос в "вакууме",

вот здесь-то и "собака порылась", как правило документы из топа находятся по многим запросам и соответственно создаются не под один запрос ;)

NF
На сайте с 15.06.2007
Offline
73
#18

Сейчас дорабатываю 2ю версию сервиса, в 3й итерации можно будет подумать, как это сделать с минимальными расходами и большой вероятностью.

Вынес идею на обсуждение (ссылка), если есть мысли как это лучше реализовать - пишите (на странице идей или здесь).

Один из пользователей предложил считать вхождения релевантных пассажей для слов из запроса (ссылка). Как вы считаете стоит учитывать комбинацию групп слов (точные вхождения, словоформы) отдельно друг от друга или вместе?

Например, для запроса "пластиковые окна" (пример из головы):

" ... мы установим окна с надежным пластиковым профилем быстро ..."

Стоит ли считать это 1м вхождением в пассаже, если слово "пластиковым" является словоформой от "пластиковые"?

Какое расстояние между словами оптимально по вашему мнению, чтобы считать это вхождением в пассаж (при добавлении на анализ можно ввести диапазон слов, например, от 2х до 5ти)?

---------- Добавлено 15.06.2015 в 19:47 ----------

burunduk:
вот здесь-то и "собака порылась", как правило документы из топа находятся по многим запросам и соответственно создаются не под один запрос ;)

Скоро будет реализован новый алгоритм составления Тз, в нем учитываются данные анализов нескольких запросов для оптимизации на 1й странице.

На данный момент есть несколько проблем:

1. Кол-во вхождений слов, которые есть в нескольких запросах. Я решил, что брать среднеарифметическое для средних значений в Топ 10 - будет лучшим вариантом.

Например, при анализе 3х фраз слово встречается в топ 10 первого запроса 10 раз, 2го запроса 5 раз, 3го запроса 8 раз. Соответственно сервис предложит употребить данное слово (10+5+8)/3 = 8 раз (округляем в большую сторону).

2. Учитывать вероятную зависимость (корреляцию Пирсона). Для таких слов приоритет должен быть большим, соответственно рекомендованное значение умножаем на повышающий коэффициент (например, 1.3).

Однако, как это правильно учитывать для групп запросов? Изначально я считал, что если зависимость слова есть не мене чем в 50% запросов, в которых оно употребляется - тогда увеличиваем значение.

Например, зависимость (будем считать корреляцию Пирсона меньше -0.2 по исходным и меньше -0.4 по сглаженным) найдена в 2х из 3х запросов. Значит итоговое рекомендуемое значение = 8*1.3 = 11 раз (округляем в большую сторону).

Сейчас продумываю алгоритм, слишком много вариантов того, как это можно было бы делать. От учета плотности слова и релевантности в составлении Тз отказался, с ними получится полная каша - пусть каждый сам решает исходя из данных анализа каждого запроса как ему стоит их учитывать.

У кого-нибудь есть мысли на этот счет? Примеры всех данных, получаемых при анализе 1 запроса можно посмотреть в Демо (ссылка), но как свести данные для нескольких запросов - большой вопрос.

[Удален]
#19
net-free:
У кого-нибудь есть мысли на этот счет?

а почему просто не составить словарь слов/лем для группы документов?

NF
На сайте с 15.06.2007
Offline
73
#20

Новый анализ текстов перешел из альфы в бету, большинство известных ошибок (спасибо пользователям, которые о них сообщали) исправлены.

Что нового в последнем обновлении:

1. Переписан парсер страниц - выделение текста со страницы, подзаголовков и просчет вхождений слов/фраз стал намного точнее.

2. Исправлен баг определения кодировки при скачивании некоторых страниц, за счет чего невозможно было подсчитать вхождения слов/фраз на странице (вместо слов были "кракозябры").

3. При просчете "Рекомендованного значения" теперь учитывается 3 вида зависимостей: Положительная (делаем акцент на параметре, значение увеличиваем), Негативная (чем ближе к топ 1, тем значение меньше - возможны санкции, уменьшаем значение) и Нейтральная (оставляем среднее значение в Топ 10 в качестве рекомендованного).

4. Добавлено удаление контента внутри тегов header, footer и nav (при включенной опции Удалять сквозные блоки).

Проанализировать Топ и сравнить с Вашей продвигаемой страницей можно по ссылке.

Алгоритм создания ТЗ копирайтеру для группы запросов готов, делаю Описание алгоритма и интерфейс для пользователей. Альфа версия будет запущена ближе к середине недели.

---------- Добавлено 21.06.2015 в 20:36 ----------

burunduk:
а почему просто не составить словарь слов/лем для группы документов?

В общем то при анализе Топ так и происходит (если я правильно понял о чем речь). Для поисковой фразы выделяются точные вхождения слов, словоформ и связанные слова - после для каждого документа в Топ выделяется текст и считается кол-во вхождений (на вкладке "Как анализируется Топ" я это описал в обновлении).

В случае если будут анализироваться абсолютно все слова/леммы, которые были найдены в документах (а не только точные вхождения/словоформы от запроса и связанные слова) - то в таком большом объеме информации (уникальных слов в топ 50 может употребляться больше 500 и для каждого нужно просчитать значения/зависимости) пользователям будет сложно выделить то, что им нужно "оптимизировать".

Вопрос скорее был - стоит ли считать вхождением в пассаж, например, комбинацию из 1го слова из запроса в точной форме и 2го слова из запроса в виде словоформы.

На мой взгляд лучшим вариантом подсчета вхождения в пассаже была бы проверка комбинаций точных слов и словоформ на определенном расстоянии друг от друга или в 1м предложении.

Например, для запроса пластиковые окна вхождением в пассаж можно считать:

" ... мы установим окна с надежным пластиковым профилем быстро ..."

Как считаете?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий