Добрый вечер, для анализа текстов и тз копирайтеру есть демо (демо анализ и демо тз), которые доступны без регистрации.
Сама регистрация происходит в 1 клик через Facebook или Google.
На время бета тестирования все бесплатно.
Для альфа-тестирования доступна новая версия составления Тз копирайтеру для группы запросов
Что нового:
1. Учитываются пересечения фраз и слов
2. Учитывается наличие зависимости (Положительная, Негативная)
3. Добавлена возможность сравнения с Вашей продвигаемой страницей
4. Автоматическое добавление запросов на анализ, если они не были проанализированы (опционально)
5. Экспорт результатов в .xlsx
6. Добавлен просчет рекомендуемой Плотности для точных вхождений слов и Объем текста
7. Просмотр анализа каждого запроса отдельно
Демо нового тз копирайтеру доступно по ссылке
Не забывайте сообщать об ошибках и ваших идеях
Новый анализ текстов перешел из альфы в бету, большинство известных ошибок (спасибо пользователям, которые о них сообщали) исправлены.
Что нового в последнем обновлении:
1. Переписан парсер страниц - выделение текста со страницы, подзаголовков и просчет вхождений слов/фраз стал намного точнее.
2. Исправлен баг определения кодировки при скачивании некоторых страниц, за счет чего невозможно было подсчитать вхождения слов/фраз на странице (вместо слов были "кракозябры").
3. При просчете "Рекомендованного значения" теперь учитывается 3 вида зависимостей: Положительная (делаем акцент на параметре, значение увеличиваем), Негативная (чем ближе к топ 1, тем значение меньше - возможны санкции, уменьшаем значение) и Нейтральная (оставляем среднее значение в Топ 10 в качестве рекомендованного).
4. Добавлено удаление контента внутри тегов header, footer и nav (при включенной опции Удалять сквозные блоки).
Проанализировать Топ и сравнить с Вашей продвигаемой страницей можно по ссылке.
Алгоритм создания ТЗ копирайтеру для группы запросов готов, делаю Описание алгоритма и интерфейс для пользователей. Альфа версия будет запущена ближе к середине недели.---------- Добавлено 21.06.2015 в 20:36 ----------
В общем то при анализе Топ так и происходит (если я правильно понял о чем речь). Для поисковой фразы выделяются точные вхождения слов, словоформ и связанные слова - после для каждого документа в Топ выделяется текст и считается кол-во вхождений (на вкладке "Как анализируется Топ" я это описал в обновлении).
В случае если будут анализироваться абсолютно все слова/леммы, которые были найдены в документах (а не только точные вхождения/словоформы от запроса и связанные слова) - то в таком большом объеме информации (уникальных слов в топ 50 может употребляться больше 500 и для каждого нужно просчитать значения/зависимости) пользователям будет сложно выделить то, что им нужно "оптимизировать".
Вопрос скорее был - стоит ли считать вхождением в пассаж, например, комбинацию из 1го слова из запроса в точной форме и 2го слова из запроса в виде словоформы.
На мой взгляд лучшим вариантом подсчета вхождения в пассаже была бы проверка комбинаций точных слов и словоформ на определенном расстоянии друг от друга или в 1м предложении.
Например, для запроса пластиковые окна вхождением в пассаж можно считать:
" ... мы установим окна с надежным пластиковым профилем быстро ..."
Как считаете?
Сейчас дорабатываю 2ю версию сервиса, в 3й итерации можно будет подумать, как это сделать с минимальными расходами и большой вероятностью.
Вынес идею на обсуждение (ссылка), если есть мысли как это лучше реализовать - пишите (на странице идей или здесь).
Один из пользователей предложил считать вхождения релевантных пассажей для слов из запроса (ссылка). Как вы считаете стоит учитывать комбинацию групп слов (точные вхождения, словоформы) отдельно друг от друга или вместе?
Например, для запроса "пластиковые окна" (пример из головы):
Стоит ли считать это 1м вхождением в пассаже, если слово "пластиковым" является словоформой от "пластиковые"?
Какое расстояние между словами оптимально по вашему мнению, чтобы считать это вхождением в пассаж (при добавлении на анализ можно ввести диапазон слов, например, от 2х до 5ти)?---------- Добавлено 15.06.2015 в 19:47 ----------
Скоро будет реализован новый алгоритм составления Тз, в нем учитываются данные анализов нескольких запросов для оптимизации на 1й странице.
На данный момент есть несколько проблем:
1. Кол-во вхождений слов, которые есть в нескольких запросах. Я решил, что брать среднеарифметическое для средних значений в Топ 10 - будет лучшим вариантом.
Например, при анализе 3х фраз слово встречается в топ 10 первого запроса 10 раз, 2го запроса 5 раз, 3го запроса 8 раз. Соответственно сервис предложит употребить данное слово (10+5+8)/3 = 8 раз (округляем в большую сторону).
2. Учитывать вероятную зависимость (корреляцию Пирсона). Для таких слов приоритет должен быть большим, соответственно рекомендованное значение умножаем на повышающий коэффициент (например, 1.3).
Однако, как это правильно учитывать для групп запросов? Изначально я считал, что если зависимость слова есть не мене чем в 50% запросов, в которых оно употребляется - тогда увеличиваем значение.
Например, зависимость (будем считать корреляцию Пирсона меньше -0.2 по исходным и меньше -0.4 по сглаженным) найдена в 2х из 3х запросов. Значит итоговое рекомендуемое значение = 8*1.3 = 11 раз (округляем в большую сторону).
Сейчас продумываю алгоритм, слишком много вариантов того, как это можно было бы делать. От учета плотности слова и релевантности в составлении Тз отказался, с ними получится полная каша - пусть каждый сам решает исходя из данных анализа каждого запроса как ему стоит их учитывать.
У кого-нибудь есть мысли на этот счет? Примеры всех данных, получаемых при анализе 1 запроса можно посмотреть в Демо (ссылка), но как свести данные для нескольких запросов - большой вопрос.
Сервис анализирует 1 запрос в "вакууме", не понимая какой из сайтов для запроса может быть витальным или примесью. Если за 1 раз анализировать большое кол-во запросов в одной тематике, то выделять витальные сайты можно было бы с большой вероятностью (в теории).
Однако, я считаю, что % ошибок при определении подобных сайтов был бы высоким и под нож пошли документы, релевантность которых рассчитывается по "общим правилам".
Если это настолько принципиально, могу добавить возможность создания списков стоп-доменов и написать алгоритм определения/удаления информационных страниц по коммерческим запросам (как сделать своими руками, отзывы и т.д).
P.S. наблюдаю некоторые несоответствия при парсинге title и подзаголовков, относитесь к этим данным с осторожностью.
Для альфа-тестирования доступна новая версия анализа текстов в Топ 50.
1. Добавлен подсчет вхождений в Title, H1-H3
2. Доступна информация по каждому слову в Топ
3. Добавлен просчет длинны текстов (кол-во слов и символов)
4. Возможность удалять сквозные блоки на страницах
5. Общий вывод по анализу, включая сравнение с Адресом вашей страницы (для последующей ее доработки)
6. Просчет рекомендуемых значений исходя из средних значений в Топ 10 и наличия прямой/обратной зависимости
7. Выгрузка результатов анализа в .xlsx с страницы результатов или результата самого анализа
8. Результаты анализа текстов доступны на новой вкладке
9. Для Яндекс добавлены 60 регионов (теперь анализ не только по региону Москва)
[ATTACH]143307[/ATTACH]
Демо нового анализа запроса "пластиковые окна" доступно по ссылке.
Переход из альфы в бету нового анализа планируется в течении 5-7 дней. Предыдущие анализы текстов будут не совместимы.
Буду признателен за конструктивную критику.
Спасибо всем, кто участвует в бете! Вы действительно помогаете сделать сервис лучше.
Как и раньше все абсолютно бесплатно.
Решил глобально переработать сервис:
1. Будут учитываться как индивидуальные значения каждого слова из запроса и словоформы (вхождения, плотность, релевантность), так и групповые характеристики (точные вхождения слов, словоформы) для анализа релевантности по запросу и составления ТЗ.
2. Автоматическое добавление ключей на анализ при составлении Тз (сейчас вначале надо проанализировать ключи, потом из результатов составляется Тз). Результаты анализа для каждого ключа будут доступны отдельно, если пользователям будет нужно больше информации на основании чего составлялось Тз по группе запросов.
3. Пытаюсь переработать интерфейс - для многих текущий оказался неочевидным. Отчасти это связано с тем, что составление ТЗ было вторичной разработкой, сделанной на скорую руку. Сейчас наоборот планирую сделать на нем акцент.
+ ранее указанные доработки тоже будут в обновлении
Новая версия планируется в начале следующей недели.
Будет добавлен:
1. Поиск сквозных блоков (меню, футер) на анализируемых страницах - их можно будет не учитывать.
2. Новый алгоритм составления ТЗ + планирую добавить возможность составлять его без предварительного анализа текстов по запросам (недостающие запросы будут добавляться на анализ автоматически)
3. Подробное описание алгоритма составления Тз + примеры
4. Экспорт ТЗ в xls/csv
Спасибо пользователям за идеи, постараюсь оставшиеся реализовать в следующих обновлениях.
Изначально был отдельный анализ топ по MajesticSeo, Moz и LinkPad. Однако, сервис планируется коммерческий и я посчитал их использование некорректным (апи для коммерческого использования стоит очень дорого). Возможно в будущем что-то продвинутое по ссылкам реализую, если пользователям это действительно будет нужно. У LinkPad все полностью бесплатно, если владельцы будут не против использования их данных в коммерческих целях (можно с указанием ссылки на них или рекламы в качестве компенсации), реализую без проблем.
Можно к bm25 добавить просчет bm25f, а коэффициенты для каждого поля пользователи смогут задавать сами. Кому-нибудь нужна такая функциональность? Нужно определиться с списком полей и дефолтными коэффициентами для них, раньше было предложено выделять сквозные блоки (после скачивания 2-3х страница сайта их можно выделять с большой достоверностью и корректировать их вклад в релевантность коэффициентами).
Запросы выбирал исходя из их долгосрочной востребованности у клиентов по seo, без указания сезона, года, города или бренда.
Спасибо, желание есть, на неделе думаю спишемся :)
Я предположил, что большинство будут анализировать одни и теже запросы, при таком исходе каждое ТЗ будет одинковым и вероятность улучшения позиций после его внедрения будет минимальной. Рандомизация добавит "разнообразия" в тексты в топ, думаю в следующем релизе от этого избавлюсь.
Алгоритм составления ТЗ еще сырой, планирую учитывать больше параметров и учесть все пожелания.---------- Добавлено 10.05.2015 в 02:11 ----------
Сглаживаются числовые значения, полученные в топ, для каждого параметра с помощью Среднеквадратического отклонения (по подробней).
Это достаточно полезно т.к. зачастую у некоторых документов в топ значение какого-либо параметра сильно отличается и итоговое значение корреляции из-за этого сильно изменяется. Сглаживание позволяет уменьшить влияние подобных отклонений. Поэтому не нужно удалять документы из топ по каким-либо признакам (витальные, спектральная примесь и т.п), их влияние и так будет занижено в Сглаженных данных.
Изначально данные "чистились" от подобных отклонений, затем склаживались. Однако, для запросов с более 3-х слов в фразе кол-во таких отклонений очень большое и их удаление приводит к сомнетельным результатам.
Важно понимать, что наличие корреляции/зависимости параметра от позиции документа в топ не может являться гарантией улучшения позиций при его "оптимизации" на продвигаемой странице. Связь может быть случайной.---------- Добавлено 10.05.2015 в 02:16 ----------
В действительности я планировал скорее добавить анализ Топ 100 и Топ 200. Смысла уменьшать до топ 10 лично я не вижу, т.к. все данные по каждому документу есть в графиках и таблицах. Вы можете учитывать только данные для первых 10 результатов по запросу.
Считать корреляцию только по 10 первым документам нет смысла, слишком маленькая выборка + частые отклонения в топ 10. Однако, если такая возможность действительная необходима, реализовать ее не составит труда.---------- Добавлено 10.05.2015 в 02:17 ----------
1 идея в 24 часа для 1 пользователя т.к. хотелось бы, чтобы она была обдуманной + защита от спама.---------- Добавлено 10.05.2015 в 02:26 ----------
Примеси не чистятся, но данные сглаживаются и их влияние снижается. Если есть рабочий алгоритм как их можно определять с большой достоверностью при минимальных затратах ресурсов напишите его, постараюсь реализовать. Для меня сейчас не очевидно как это можно было бы сделать.
Конечно спрашивайте, в теме или лс - на все вопросы постараюсь дать ответ. Мне приятно, что разработка заинтересовала некоторых пользователей форума.
Не думаю, что есть смысл что-либо чистить т.к. объективно просчитать как поисковики учитывают тот или иной параметр в топ невозможно, а удаление документов из анализа может исказить результат.
Однако, вполне можно учитывать ссылочные факторы. Но для этого мне нужно выкачивать весь интернет, считать графы, веса на каждое слово в ссылках, темпы прироста, возраст с момента установки, спамность и т.д. - это очень затратное мероприятие + у поисковиков все равно накоплено гораздо больше данных, особенно за предыдущие годы (можно анализировать изменения в динамике).
Реализовать это можно, если пользователи смогут выделить мне пару сотен впс (можно дешевых) для скачивания/парсинга интернета + пару топовых серверов для просчета данных (может даже видеокарты для майнинга сойдут, они хорошо распаралеливают простые вычисления) и хранилище под гигансткую бд. В теории можно написать распределенный скрипт/программу и каждый сделает свой вклад ... но это уже другой разговор.