Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
Если не сложно, подскажите, пожалуйста, откуда с TDT можно начать разбираться (кроме вышеупомянутых источников)?

Начинать можно отсюда и дальше уже изучать конкретную задачу:

Story Segmentation - Detect changes between topically cohesive sections

Topic Tracking - Keep track of stories similar to a set of example stories

Topic Detection - Build clusters of stories that discuss the same topic

First Story Detection - Detect if a story is the first story of a new, unknown topic

Link Detection - Detect whether or not two stories are topically linked

Судя по вашим заявлениям об этих системах (ASPSeek, mnogosearch, dataparksearch), несколько далёких от действительности (ну или от того, что я видел и тестил лично)...

Либо предоставьте ссылки, где мои "заявления" не соответствуют действительности, либо извинитесь. То, что я не люблю поисковиков на СУБД - это факт, однако чтобы говорить об этом подобным образом, нужны убедительные аргументы, которые меня опровергают.

Итак?

Значительно - это сколько ? И как проводилась проверка, входило ли в сравниваемое время время расчёта релеватности для проиндексированых документов ?

Прошу прощения за оффтопик. Zute, судя по всем вашим постам с обязательным упоминанием DataparkSearch, вы его разработчик?

Поиск переустановил. Тестируйте.

Какие-то проблемы с новым сервером - пока не могу на него попасть. Как попаду, поиск переустановлю.

Поднял поиск. Он там не доиндексировал.

Итак жду ответа, но если Вас не очень затруднит, то не размытого а конкрентного (да или нет) -- готовы протестировать новотеку и нашу систему на одних и тех же наборах данных?

Насколько я знаю, Игорь Ашманов и Николай Харин уже все протестировали, и сделали определенные выводы.

Так чего вы еще хотите? :)

Если хотите сравнить, сделайте веб-интерфейс и сравните. :)

Что слабо -- или с вашей стороны распальцовка без доказательств?

Во-первых, я на форуме нигде не пиарился, рассказывая в каждом посте, что Новотека единственная и неповторимая, и ничего круче нету, как это делаете вы. Я просто упомянул, что упомянутые задачи она решает, как - смотрите сайт.

Вашу систему я не тестировал - мне вполне хватило понять, что это пустышка, просмотрев те документы, которые вы с ней давали для ознакомления. Это, извините, просто детский сад! По-моему, вам Борис уже намекал про уровень изложения.

Во-вторых, я не люблю агрессивный маркетинг, которым вы тут который день, не очень успешно, впрочем, занимаетесь. Пиарьтесь не на тематических форумах, а на сайтах для манагеров. В философской плоскости, не опираясь ни на какие алгоритмы, вы здесь никому ничего не докажете.

Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.

Вот и зарабатывайте деньги на доверчивых простачках, а не рассказывайте сказки на форуме, на которым присутствуют представители основных IR-компаний и поисковиков, какую уникальную штуку вы придумали.

Алексей, а Ваши это какие?

Елы-палы! Ну что за человек, одна распальцовка!

Исключительно крутостью заказчиков пытается бить. :)

Почему-то в таких случаях у меня всегда возникает ощущение, что чем больше крика, тем меньше там сделано. Прошу меня извинить, если это не так.

Если это умеет делать движок новотеки, то пусть выложит exe для тестирования и я прогоню и его и свои данные через оба движка и донесу до общественности объективный результат.

Движок Новотеки это умеет делать, и не только это.

Что касается вашего "супералгоритма". Частотные характеристики слов никак не могут показывать важность слов в тексте, какие бы сказки вы тут не пытались рассказывать о "секретной" формуле, по которой их можно посчитать.

В каком-то приближении это может и получиться, но с помощью частотных характеристик найти даже бОльшую часть действительно похожих документов не представляется возможным. Максимум - процентов 50%, не более, и то при очень высокой однородности текста, например, тематического.

Кроме того, при увеличении количества важных терминов серьезно падает точность кластеризации, несмотря на возрастающую полноту, поэтому я полагаю, что два действительно похожих документа должны иметь не более двух общих терминов с примерно одинаковыми весами, которые наиболее точно определяют тематику документа. Подумайте об этом на досуге.

У вас же я что-то не увидел никаких ссылок ни на лексические цепочки, ни на другие алгоритмы, только рассказы о том, как вы изобретали "вечный двигатель".

Так а в чем же новизна этой технологии?

Всего: 847