"Тематичность" текста по яндексу

[Удален]

12 апреля 2010, 12:24

1363

Сервис помогает оценить текст для привлечения трафика по низкочастотным запросам.

Писался для себя для оценки старых страниц форумов (удалять/сохранять) и текстов, приходящих на сайты через миралинкс/фри-миралинкс.

Тексты с индексом тематичности выше "1.0" хорошо индексируются (уникальность нужно проверять отдельно), привлекают трафик по низкочастотным запросам и таким образом полезны сайту.

В настоящий момент сервис знает более полумиллиона низкочастотных запросов по более чем 500 темам; наиболее хорошо сервис обучен темам медицины, здоровья и теме "Китай". По другим темам точность прогнозов будет чуть ниже, смотрите список определенных тем в левой колонке результатов проверки текста.

Дополнительная информация:

В левой колонке список поисковых запросов, тематичных тексту; маркером выделены слова, которых нет в анализируемом тексте.

В правой колонке маркером выделены слова, определяющие тематичность текста.

Под полем ввода текста есть поле для ввода URL. Понимает только страницы в 1251-й кодировке и в UTF8; для других кодировок делать пока поленился.

Могу немного рассказать о создании алгоритма.

В наблюдении больше 3 месяцев находились страницы форумов разной тематики (в основном медицинской и китайской тематики) общим числом более 30 000 в индексе поисковок. Ни одной внешней ссылки на эти страницы. За 3-6 месяцев на 14 000 страниц были переходы по низкочастотным запросам.

Анализировались соответствия текста страниц словам поисковых запросов, по которым были переходы. За основу было взято предположение, что некоторые слова являются "привлекательными" ("дарлинги"), а дополнительный вес им придают сопутствующие слова ("барлинги"). Визуальный пример анализа: http://pharm-forum.ru/index.php?act=Search&CODE=darling&sort=topic&trid=29

Была выявлена четкая закономерность между некоторыми характеристиками слов запроса и переходами на страницу из поисковок. Вычисляемый "индекс тематичности" страницы - это, по сути, ее индекс привлекательности: страницы с оценкой меньше единицы практически не имеют шансов получить посетителей; страницы с оценкой выше единицы имеют высокий шанс на посетителей.

В ряде случаев даже возможно предсказать число посетителей в месяц, и я вывел показания этой цифры для тех текстов, где такой прогноз более-менее достоверен.

Зависимость привлекательности от числа ключей на странице не линейная: намного больше значит "вес" каждого ключа, рассчитываемый по присутствию на странице "барлингов" и по частоте ключа в вордстате яндекса.

Адрес сервиса: http://coda.su/index.php

И в качестве маленького дополнения - мой старый заброшенный проект сравнения версий текста. Работает с огрехами, но иногда неплохо может помочь: http://wwwcrt.newhost.ru/

Для точности работы сервиса важна словарная база, которую потихоньку пополняю. Буду благодарен за адреса страниц с текстами, для которых мой сервис неверно определит тематику. Так же буду благодарен за любые сообщения об ошибках и пожеланиях.

Дизайна пока нет и до осени не будет. Осенью переезжаем на новые сервера; если к тому моменту проект не умрет от скуки, тогда и дизайн появится, и словарная база будет залита полная по всем тематикам (есть свой алгоритм сливания вордстата).

S2

611

Str256

12 апреля 2010, 12:39

#1

Т.е. я так понимаю, если тематики нет в базе - то на выходе полный бред? Почему бы вам не отладить сервис на сравнении с сайтами в ЯК? Когда при указании любой морды сайта в ЯК - будет определять его тематику - можно уже и в свет выпускать...

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

Google Updates - апдейты Что за ошибка в Учитывает ли Google скрытые/невидимые

[Удален]

12 апреля 2010, 12:58

#2

Str256:
я так понимаю, если тематики нет в базе - то на выходе полный бред?

Не совсем так.

Будет распознана ближайшая смежная тематика. Например, если в базе есть тема "ремонт", а текст о компьютерах и ремонт лишь упоминается, будет распознана тема "ремонт компьютеров".

Сами считайте из 500 1-словных тем сколько можносоставить смежных 2-словных. ;)

На сегодня мой алгоритм распознания довольно точно эмулирует алгоритм распознания яндекса.

Str256:
Почему бы вам не отладить сервис на сравнении с сайтами в ЯК?

Основные рубрики ЯК залиты в базу. По приоритетным для меня темам залит весь вордстат, по неприоритетным только основные направления.

Ошибки распознания в основном на "ручной" семантике, которая требует ручного анализа. Как угадать, что яндекс различает "пью" и "пить" как одно слово, но не различает разными словами "цвета" и "цветы", а имя "Алла" не отличает от "Аллах"? Только вручную находить анализом вордстата и заносить в базу семантики.

S2

611

Str256

12 апреля 2010, 13:04

#3

mrFatCat:
Будет распознана ближайшая смежная тематика. Например, если в базе есть тема "ремонт", а текст о компьютерах и ремонт лишь упоминается, будет распознана тема "ремонт компьютеров".

Я попробовал на одном сайте, выдало абсолютно не то. На других аналогично. Потому так и написал.

[Удален]

12 апреля 2010, 13:06

#4

Str256:
Я попробовал на одном сайте, выдало абсолютно не то.

Можно адреса страниц с неверным определением? Можно в личку.

mrFatCat добавил 12.04.2010 в 17:18

Подсмотрел в серверных логах самый первый запрос. ;) Дозалил ветку по "стендам". Тема, как я понимаю, не является рубрикой ЯК. :D

[Удален]

15 апреля 2010, 16:38

#5

Жаль что время редактирования первого поста кончилось.

Нужно уточнить: это не сервис определения тематики страницы; хозяин сайта лучше меня знает о чем его сайт.

Это сервис сопоставления "словарного запаса" проверяемой страницы и яндекса.

Попробую проиллюстрировать простым примером:

Все мы знаем, что некоторые тексты читать трудно, а некоторые читаются легко, без напряжения. Причина "легкости" чтения - в соответствии текста ожиданиям. Неосознанно за словом "красный" мы ждем "флаг" или "помидор", но никак не "компьютер" или "снег".

И яндекс "ждет" от текста слов, встречающихся в поисковых запросах.

Алгоритм, сравнивая лексическую широту текста с лексической широтой словосочетаний из вордстата яндекса, измеряет числом степень соответствия текста "ожиданиям яндекса".

А список ключей анализируемого текста, отображающийся в левой колонке результатов анализа страницы или текста, затем можно использовать анкорами ссылок на страницу.

mrFatCat добавил 15.04.2010 в 20:40

Добавил функцию ручного выбора темы анализируемой страницы из списка известных системе.

S2

611

Str256

15 апреля 2010, 16:56

#6

mrFatCat:
Тема, как я понимаю, не является рубрикой ЯК.

Является.

mrFatCat:
И яндекс "ждет" от текста слов, встречающихся в поисковых запросах.

Нет - ему всё равно какой запрос будет. Запрос будет проанализирован, и будет выдача из базы по определённому алгоритму.

Есть некий семантический портрет сайта принадлежащего определённой тематике, но это скорее для автоматического определения тематики используется. На практике, для выдачи, достаточно отдельных тематических страниц - на примере Вики. Ну и ссылочное, причём не обязательно чтобы текст анкоров встречался в содержании акцептора. Т.е. достаточно тематических слов в тексте ссылок, а не в тексте сайта - который может быть на флэше например. В топах, на сайтах бывает воды чрезмерно, но ссылочное решает всё.

борьба с платными ссылками Переадресация или склейка доменов Пример работы ссылочных факторов

[Удален]

15 апреля 2010, 17:33

#7

Str256:
ссылочное решает всё

Я много лет работаю с форумами, где счет страниц идет десятками тысяч, и ссылки ставятся далеко не на все страницы форума.

И трафик по низкочастотникам идет на страницы, не имеющие внешних ссылок.

Алгоритм писался первоначально в помощь модераторам для оценки старых тем форума: какие темы оставить навечно, а какие удалять. Модераторы просто видят в тайтлах цифру индекса тематичности, и удаляют те топики, где индекс меньше единицы.

Затем алгоритм помог мне на статичных сайтах в миралинксе для оценки поступающих на размещение статей. За 4 месяца и всего сотни размещенных статей трафик на сайт вырос почти вдвое без дополнительных вложений в сайт.

И не мне наверное вас учить, что трафик по низкочастотникам в целом более целевой. Если сайт продает чемоданы, по высокочастотнику "чемодан" навалят тысячи зрителей фильма "приклчения желтого чемоданчика", и процент целевых посетителей составит дай бог процентов 15 от всего трафика, а за этим низкий CTR или низкая конверсия посетителей другими методами... Благодаря правильному рассчету низкочастотников у меня сейчас доля целевых посетителей превышает половину...

S2

611

Str256

15 апреля 2010, 17:38

#8

mrFatCat:
И не мне наверное вас учить, что трафик по низкочастотникам в целом более целевой. Если сайт продает чемоданы, по высокочастотнику "чемодан" навалят тысячи зрителей фильма "приклчения желтого чемоданчика", и процент целевых посетителей составит дай бог процентов 15 от всего трафика, а за этим низкий CTR или низкая конверсия посетителей другими методами... Благодаря правильному рассчету низкочастотников у меня сейчас доля целевых посетителей превышает половину...

Это понятно. Для НЧ вполне годится.

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ