Лингвистический алгоритм

F2
На сайте с 10.12.2011
Offline
22
2949

Есть технология определения контекстно похожих страниц. Первоначально была разработана для мониторинга и классификации похожих новостей. Разрабатывалась несколькими программистами более года, используются алгоритмы нечеткой логики, кластеризации и матричной факторизации. Оптимизирована для работы с ОЧЕНЬ большими объемами информации.

Хотелось бы узнать мнение профессионалов рынка SEO/SMM о ее актуальности и сферах применения.

Я вижу ее применение в следующих областях:

- контекстная внутренняя перелинковка страниц (автоматически без необходимости указывать ключевые слова - технология сама определяет под что оптимизирована страница и расставляет ссылки на похожие)

- точна такая же перелинковка между несколькими сайтами

- интеграция с биржами ссылок для улучшения качества (возможно даст конкурентное преимущество для некоторых бирж )

в общем открыты для партнерства и взаимовыгодного сотрудничества )

пример реализации (Тему продолжат) составление похожих сюжетов среди ~200000 новостей:

http://newskey.ru/news/152583

http://newskey.ru/news/95542

http://newskey.ru/news/91779

через RSS настраивается импорт нужных страниц, на их основе строится ядро, на страницах размещается вызов апи (JS/PHP) который по принципу контекстной рекламы индексирует страницы вызова и показывает на них релевантные ссылки...

+ всевозможные тонкие настройки - задание списков ключевых слов, распределение весов-приоритетов и тд...

Solmyr
На сайте с 10.09.2007
Offline
501
#1

По первой ссылке не понятно, почему ваш алгоритм решил что термин "собаки" релевантен данной статье.

F2
На сайте с 10.12.2011
Offline
22
#2
Solmyr:
По первой ссылке не понятно, почему ваш алгоритм решил что термин "собаки" релевантен данной статье.

все просто - в ней идет речь про экзамены и этот набор признаков как раз про них...

для каждой статьи определяется несколько таких смысловых наборов, возможно сделать тонкую настройку - например указав большой вес ЕГЭ, тогда результаты будут более релевантный этому термину.

L
На сайте с 26.04.2006
Offline
218
Lev
#3
Solmyr:
По первой ссылке не понятно, почему ваш алгоритм решил что термин "собаки" релевантен данной статье.

Наверно, потому что там ниже под заголовком "Тему продолжат" идет анонс статьи:

28.05.2011 в 14:18

Немцам придется сдавать экзамен на собачьи права
Правительство Нижней Саксонии после длительных дебатов приняло закон, согласно которому владельцы собак, не имеющие достаточного опыта содержания четвероногого питомца, будут обязаны сдать на "собачьи права", чтобы доказать свою компетентность собак...

Рекомендую бюро переводов в Москве (http://www.norma-tm.ru) - опыт с 1999 года. Списать долги? Для этого надо пройти банкротство физлиц (https://totbankrot.ru/)
Solmyr
На сайте с 10.09.2007
Offline
501
#4

Ну то есть алгоритм надо сначала улучшить, чтобы таких ляпов не было, а потом уже думать о коммерческом применении.

sir_Jack
На сайте с 04.04.2009
Offline
37
#5

Я так понял это похоже на Яндекс.Директ когда он определяет какую рекламу вешать на конкретную страницу... Или что-то вроде агрегации новостей (когда одинаковые новости из разных источников кластеризуются)

Ну а судя по комментам выше технология еще сыровата...

Да и не совсем понятно в чем Ваши преимущества? За сколько, например, она находит похожие новости в базе из 200 000 документов?

Или просто нужна идея как монетизировать год работы программистов? :)

L
На сайте с 26.04.2006
Offline
218
Lev
#6

Похоже, идет тупо работа с наиболее частыми словами, список которых еще расширяется за счет синонимов и базы каких-то смысловых взаимоотношений... Да, пожалуй, аналогия с яндекс-директом очевидна. Лишь бы это не был ранний Директ - который на странице детских компьютерных игр для девочек вывешивал рекламу "девочки по вызову" :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий