Yuri_K

Рейтинг
138
Регистрация
14.03.2005
Rusl:
А на основе каких алгоритмов, построен инструмент?

Для сравнения документов мы используем собственные разработки, в основе которых лежат семантические и лингвистические инструменты. Общий смысл сводиться к тому, чтобы не привязываться к конкретным словам которые содержаться в документе, а попытаться работать на уровне смысла информации. Для этого мы преобразуем документ в особый семантический индекс, который получается уникальным для каждого документа, и что самое главное - позволяет нам проводить сравнение самых разных документов - ну например многостраничного сайта и документа MS Word.

Ну и вторая фишка это лингвистические базы. В семантическом индексе информация содержится в особой абстрагированной форме. Это значит, что если 2-а документа написаны про одно и тоже, но разными авторами разными словами и в разных стилях (например научном и литературном) то наш компаратор все равно покажет высокую степень проксимити (похожести), т.к. конкретные речевые конструкции для него имеют мало значения.

Если кому-то действительно интересны подобные продукты, то рекомендую воспользоваться ICQ или личкой, чтобы связаться со мной.

Ну а просто посмотреть, почитать, поиграться с семантическими демками можно на вот этом сайте - только он еще недоделанный, поэтому без претензий

хттп://comparator.intellexer.com/

Там же есть online демка, вернее игрушка компаратора. Но она не позволяет аплодить свои документы. Демка, которая позволяет аплодить свои документы выдается только особо заинтересованным товарищам, после личного общения по ICQ.

Во во... Очень много факторов которые влияют на кликабельность. Хотябы качество самого текстового объявления....

Сложные и навароченные тулы для сематического (по смыслу) сравнения документов с возможностью задавать степень proximity (похожести) интересуют?

Но за деньги... зато в виде SDK. Или готового солюшена. Даже демка есть.

Согласен с тем что нет закономерности. Наблюдаю в adwords разные группы слов, для разных языков и разных регионов. Для каждого запроса все индивидуально. И для каждго региона по каждому запросу тоже все индивидуально.

Вот прикольный солюшен, которые действительно кластеризует результаты выдачи. Он для AOL разрабатывался.

http://clusty.com/

Мы недавно закончили разработку своего, поэтому я тут немного в теме...

greenwood:
вроде все неплохо ..но как все мелко .. ни хрена не видно ..
может пока тестируется ..

Обратите внимание, графики сделанны на Flash ... следовательно доступны все флешовые фишки типа Zoom + скролинг...

Vyacheslav Tikhonov:
И что там смотреть?

Готовые продукты....

Посмотрите здесь.

Может это поможет.

www.intellexer.com

creation:
Есно :)
текст же дорвейный и оптимизирован под кейворды, следовательно хорошо сжимается и его энтропия небольшая...
Пропусти такую же каребурду, где нет повторений слов, а буквы, из которых состоят слова распределены равномерно. Уверен что для анализатора это будет очень содержательный текст :)

Конкретный анализатор, который я показываю он не кейвордовый. Там заявленно много всякого разного, но суть коротенько в том, что анализируются концепты каждого предложения, взамосвязи между концептами внутри предложения и отношения между предложениями...

Поэтому бессмысленный, сгененированный, текст, в котором таких реляций нет, судя по сему будет давать всякую белеберду на выходе...

Если вопрос в том, есть-ли тулы для выявления бессмысленных сгенерированных текстов - ответ есть... В копмлект SDK продукта, про который я рассказываю входит кластеризатор и компаратор - для поиска документов похожих на исходный. Можем поставить эксперимент... Взять несколько сгенерированных текстов и положить их до кучи к нормальному контенту - да проверить найдет или нет... На том сайте online компаратора пока нет.

ссылка и в правду битая

Вот так будет лучше

http://www.intellexer.com/demo_summ.php

Гоняйте, пробуйте...

Всего: 262