Комментарии - Yuri_K - Профиль вебмастера - Форум об интернет-маркетинге

Поиск похожих документов - примитивный алгоритм

8 декабря 2005, 07:37

Rusl:
А на основе каких алгоритмов, построен инструмент?

Для сравнения документов мы используем собственные разработки, в основе которых лежат семантические и лингвистические инструменты. Общий смысл сводиться к тому, чтобы не привязываться к конкретным словам которые содержаться в документе, а попытаться работать на уровне смысла информации. Для этого мы преобразуем документ в особый семантический индекс, который получается уникальным для каждого документа, и что самое главное - позволяет нам проводить сравнение самых разных документов - ну например многостраничного сайта и документа MS Word.

Ну и вторая фишка это лингвистические базы. В семантическом индексе информация содержится в особой абстрагированной форме. Это значит, что если 2-а документа написаны про одно и тоже, но разными авторами разными словами и в разных стилях (например научном и литературном) то наш компаратор все равно покажет высокую степень проксимити (похожести), т.к. конкретные речевые конструкции для него имеют мало значения.

Если кому-то действительно интересны подобные продукты, то рекомендую воспользоваться ICQ или личкой, чтобы связаться со мной.

Ну а просто посмотреть, почитать, поиграться с семантическими демками можно на вот этом сайте - только он еще недоделанный, поэтому без претензий

хттп://comparator.intellexer.com/

Там же есть online демка, вернее игрушка компаратора. Но она не позволяет аплодить свои документы. Демка, которая позволяет аплодить свои документы выдается только особо заинтересованным товарищам, после личного общения по ICQ.

Какой процент людей пользуется платными результатами поиска?

7 декабря 2005, 15:22

Во во... Очень много факторов которые влияют на кликабельность. Хотябы качество самого текстового объявления....

Поиск похожих документов - примитивный алгоритм

7 декабря 2005, 15:20

Сложные и навароченные тулы для сематического (по смыслу) сравнения документов с возможностью задавать степень proximity (похожести) интересуют?

Но за деньги... зато в виде SDK. Или готового солюшена. Даже демка есть.

Какой процент людей пользуется платными результатами поиска?

7 декабря 2005, 15:08

Согласен с тем что нет закономерности. Наблюдаю в adwords разные группы слов, для разных языков и разных регионов. Для каждого запроса все индивидуально. И для каждго региона по каждому запросу тоже все индивидуально.

Кластеризация результатов

7 декабря 2005, 15:05

Вот прикольный солюшен, которые действительно кластеризует результаты выдачи. Он для AOL разрабатывался.

http://clusty.com/

Мы недавно закончили разработку своего, поэтому я тут немного в теме...

Гугля-аналитик

17 ноября 2005, 07:31

greenwood:
вроде все неплохо ..но как все мелко .. ни хрена не видно ..
может пока тестируется ..

Обратите внимание, графики сделанны на Flash ... следовательно доступны все флешовые фишки типа Zoom + скролинг...

Разработка поисковой системы

1 ноября 2005, 07:36

Vyacheslav Tikhonov:
И что там смотреть?

Готовые продукты....

Разработка поисковой системы

28 октября 2005, 08:45

Посмотрите здесь.

Может это поможет.

www.intellexer.com

Bourbon update - давайте все-таки разберемся что это за зверь.

12 июля 2005, 09:54

creation:
Есно :)
текст же дорвейный и оптимизирован под кейворды, следовательно хорошо сжимается и его энтропия небольшая...
Пропусти такую же каребурду, где нет повторений слов, а буквы, из которых состоят слова распределены равномерно. Уверен что для анализатора это будет очень содержательный текст :)

Конкретный анализатор, который я показываю он не кейвордовый. Там заявленно много всякого разного, но суть коротенько в том, что анализируются концепты каждого предложения, взамосвязи между концептами внутри предложения и отношения между предложениями...

Поэтому бессмысленный, сгененированный, текст, в котором таких реляций нет, судя по сему будет давать всякую белеберду на выходе...

Если вопрос в том, есть-ли тулы для выявления бессмысленных сгенерированных текстов - ответ есть... В копмлект SDK продукта, про который я рассказываю входит кластеризатор и компаратор - для поиска документов похожих на исходный. Можем поставить эксперимент... Взять несколько сгенерированных текстов и положить их до кучи к нормальному контенту - да проверить найдет или нет... На том сайте online компаратора пока нет.

Bourbon update - давайте все-таки разберемся что это за зверь.

12 июля 2005, 09:45

ссылка и в правду битая

Вот так будет лучше

http://www.intellexer.com/demo_summ.php

Гоняйте, пробуйте...

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам

Yuri_K