- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Сервис помогает оценить текст для привлечения трафика по низкочастотным запросам.
Писался для себя для оценки старых страниц форумов (удалять/сохранять) и текстов, приходящих на сайты через миралинкс/фри-миралинкс.
Тексты с индексом тематичности выше "1.0" хорошо индексируются (уникальность нужно проверять отдельно), привлекают трафик по низкочастотным запросам и таким образом полезны сайту.
В настоящий момент сервис знает более полумиллиона низкочастотных запросов по более чем 500 темам; наиболее хорошо сервис обучен темам медицины, здоровья и теме "Китай". По другим темам точность прогнозов будет чуть ниже, смотрите список определенных тем в левой колонке результатов проверки текста.
Дополнительная информация:
В левой колонке список поисковых запросов, тематичных тексту; маркером выделены слова, которых нет в анализируемом тексте.
В правой колонке маркером выделены слова, определяющие тематичность текста.
Под полем ввода текста есть поле для ввода URL. Понимает только страницы в 1251-й кодировке и в UTF8; для других кодировок делать пока поленился.
Могу немного рассказать о создании алгоритма.
В наблюдении больше 3 месяцев находились страницы форумов разной тематики (в основном медицинской и китайской тематики) общим числом более 30 000 в индексе поисковок. Ни одной внешней ссылки на эти страницы. За 3-6 месяцев на 14 000 страниц были переходы по низкочастотным запросам.
Анализировались соответствия текста страниц словам поисковых запросов, по которым были переходы. За основу было взято предположение, что некоторые слова являются "привлекательными" ("дарлинги"), а дополнительный вес им придают сопутствующие слова ("барлинги"). Визуальный пример анализа: http://pharm-forum.ru/index.php?act=Search&CODE=darling&sort=topic&trid=29
Была выявлена четкая закономерность между некоторыми характеристиками слов запроса и переходами на страницу из поисковок. Вычисляемый "индекс тематичности" страницы - это, по сути, ее индекс привлекательности: страницы с оценкой меньше единицы практически не имеют шансов получить посетителей; страницы с оценкой выше единицы имеют высокий шанс на посетителей.
В ряде случаев даже возможно предсказать число посетителей в месяц, и я вывел показания этой цифры для тех текстов, где такой прогноз более-менее достоверен.
Зависимость привлекательности от числа ключей на странице не линейная: намного больше значит "вес" каждого ключа, рассчитываемый по присутствию на странице "барлингов" и по частоте ключа в вордстате яндекса.
Адрес сервиса: http://coda.su/index.php
И в качестве маленького дополнения - мой старый заброшенный проект сравнения версий текста. Работает с огрехами, но иногда неплохо может помочь: http://wwwcrt.newhost.ru/
Для точности работы сервиса важна словарная база, которую потихоньку пополняю. Буду благодарен за адреса страниц с текстами, для которых мой сервис неверно определит тематику. Так же буду благодарен за любые сообщения об ошибках и пожеланиях.
Дизайна пока нет и до осени не будет. Осенью переезжаем на новые сервера; если к тому моменту проект не умрет от скуки, тогда и дизайн появится, и словарная база будет залита полная по всем тематикам (есть свой алгоритм сливания вордстата).
Т.е. я так понимаю, если тематики нет в базе - то на выходе полный бред? Почему бы вам не отладить сервис на сравнении с сайтами в ЯК? Когда при указании любой морды сайта в ЯК - будет определять его тематику - можно уже и в свет выпускать...
я так понимаю, если тематики нет в базе - то на выходе полный бред?
Не совсем так.
Будет распознана ближайшая смежная тематика. Например, если в базе есть тема "ремонт", а текст о компьютерах и ремонт лишь упоминается, будет распознана тема "ремонт компьютеров".
Сами считайте из 500 1-словных тем сколько можносоставить смежных 2-словных. ;)
На сегодня мой алгоритм распознания довольно точно эмулирует алгоритм распознания яндекса.
Почему бы вам не отладить сервис на сравнении с сайтами в ЯК?
Основные рубрики ЯК залиты в базу. По приоритетным для меня темам залит весь вордстат, по неприоритетным только основные направления.
Ошибки распознания в основном на "ручной" семантике, которая требует ручного анализа. Как угадать, что яндекс различает "пью" и "пить" как одно слово, но не различает разными словами "цвета" и "цветы", а имя "Алла" не отличает от "Аллах"? Только вручную находить анализом вордстата и заносить в базу семантики.
Будет распознана ближайшая смежная тематика. Например, если в базе есть тема "ремонт", а текст о компьютерах и ремонт лишь упоминается, будет распознана тема "ремонт компьютеров".
Я попробовал на одном сайте, выдало абсолютно не то. На других аналогично. Потому так и написал.
Я попробовал на одном сайте, выдало абсолютно не то.
Можно адреса страниц с неверным определением? Можно в личку.
mrFatCat добавил 12.04.2010 в 17:18
Подсмотрел в серверных логах самый первый запрос. ;) Дозалил ветку по "стендам". Тема, как я понимаю, не является рубрикой ЯК. :D
Жаль что время редактирования первого поста кончилось.
Нужно уточнить: это не сервис определения тематики страницы; хозяин сайта лучше меня знает о чем его сайт.
Это сервис сопоставления "словарного запаса" проверяемой страницы и яндекса.
Попробую проиллюстрировать простым примером:
Все мы знаем, что некоторые тексты читать трудно, а некоторые читаются легко, без напряжения. Причина "легкости" чтения - в соответствии текста ожиданиям. Неосознанно за словом "красный" мы ждем "флаг" или "помидор", но никак не "компьютер" или "снег".
И яндекс "ждет" от текста слов, встречающихся в поисковых запросах.
Алгоритм, сравнивая лексическую широту текста с лексической широтой словосочетаний из вордстата яндекса, измеряет числом степень соответствия текста "ожиданиям яндекса".
А список ключей анализируемого текста, отображающийся в левой колонке результатов анализа страницы или текста, затем можно использовать анкорами ссылок на страницу.
mrFatCat добавил 15.04.2010 в 20:40
Добавил функцию ручного выбора темы анализируемой страницы из списка известных системе.
Тема, как я понимаю, не является рубрикой ЯК.
Является.
И яндекс "ждет" от текста слов, встречающихся в поисковых запросах.
Нет - ему всё равно какой запрос будет. Запрос будет проанализирован, и будет выдача из базы по определённому алгоритму.
Есть некий семантический портрет сайта принадлежащего определённой тематике, но это скорее для автоматического определения тематики используется. На практике, для выдачи, достаточно отдельных тематических страниц - на примере Вики. Ну и ссылочное, причём не обязательно чтобы текст анкоров встречался в содержании акцептора. Т.е. достаточно тематических слов в тексте ссылок, а не в тексте сайта - который может быть на флэше например. В топах, на сайтах бывает воды чрезмерно, но ссылочное решает всё.
ссылочное решает всё
Я много лет работаю с форумами, где счет страниц идет десятками тысяч, и ссылки ставятся далеко не на все страницы форума.
И трафик по низкочастотникам идет на страницы, не имеющие внешних ссылок.
Алгоритм писался первоначально в помощь модераторам для оценки старых тем форума: какие темы оставить навечно, а какие удалять. Модераторы просто видят в тайтлах цифру индекса тематичности, и удаляют те топики, где индекс меньше единицы.
Затем алгоритм помог мне на статичных сайтах в миралинксе для оценки поступающих на размещение статей. За 4 месяца и всего сотни размещенных статей трафик на сайт вырос почти вдвое без дополнительных вложений в сайт.
И не мне наверное вас учить, что трафик по низкочастотникам в целом более целевой. Если сайт продает чемоданы, по высокочастотнику "чемодан" навалят тысячи зрителей фильма "приклчения желтого чемоданчика", и процент целевых посетителей составит дай бог процентов 15 от всего трафика, а за этим низкий CTR или низкая конверсия посетителей другими методами... Благодаря правильному рассчету низкочастотников у меня сейчас доля целевых посетителей превышает половину...
И не мне наверное вас учить, что трафик по низкочастотникам в целом более целевой. Если сайт продает чемоданы, по высокочастотнику "чемодан" навалят тысячи зрителей фильма "приклчения желтого чемоданчика", и процент целевых посетителей составит дай бог процентов 15 от всего трафика, а за этим низкий CTR или низкая конверсия посетителей другими методами... Благодаря правильному рассчету низкочастотников у меня сейчас доля целевых посетителей превышает половину...
Это понятно. Для НЧ вполне годится.