Плагиат не пройдет! Или что могут современные поисковые технологии.

OZE
На сайте с 21.05.2006
Offline
152
OZE
#31
vitali_y:
ну у меня может всеже и не совсем простое... За других я не ответчик :). По скорости - это ну очень быстро порядка O(1). OZE вы получили ответы на вопросы?

нет, ответов от ТС я не получил

а сколько у вас занимает индексация 1Гб чистого текста?

размер базы при этом?

скорость поиска?

нужны конкретные цифры, а не имхо.

vitali_y
На сайте с 23.05.2007
Offline
33
#32

я конечно овечаю только за себя (программа StopKa) - у меня НИКАК - (к Leom - бывает же такое - одни и те же идеи примерно в одно и то же время - видно вселенная один живой механизм :)) - OZE на ваше фи - могу только сказать - у каждого алгоритма есть определенные преимущества и определенные недостатки. Прикинте документ где все слова заменены синонимами - подозреваю что мы вместе будем смеяться.

vitali_y
На сайте с 23.05.2007
Offline
33
#33

протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут

OZE
На сайте с 21.05.2006
Offline
152
OZE
#34
vitali_y:
я конечно овечаю только за себя (программа StopKa) - у меня НИКАК - (к Leom - бывает же такое - одни и те же идеи примерно в одно и то же время - видно вселенная один живой механизм :)) - OZE на ваше фи - могу только сказать - у каждого алгоритма есть определенные преимущества и определенные недостатки. Прикинте документ где все слова заменены синонимами - подозреваю что мы вместе будем смеяться.

такие документы есть, не смешно:)

OZE
На сайте с 21.05.2006
Offline
152
OZE
#35
vitali_y:
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут

если вы в Москве, то можно было бы встретиться

такой вопрос: а чем ваш продукт лучше Google.Desktop или Яндекс.Десктоп (или как там его)?

vitali_y
На сайте с 23.05.2007
Offline
33
#36

размеры кстати будут поменьше чем у Leom-а - ну это конечно что туда сохранять - пока я добился самого маленького индекса среди google desktop, yndex desktop, searchinfo, lucent, microsoft search - что тестировал точно и вспомнил на вскидку - индекст - конечно будет зависеть от содержимого 1 Gb текста - примнерно мегабайт 100-150-200...

vitali_y
На сайте с 23.05.2007
Offline
33
#37

Я в Минске. Насчет синонимов - если говорите что есть примеры - и не смешно - верю. Я думаю вообще это решаемо - с пом. базы синонимов языка и предварительной обработки. У меня в программе сейчас такого нет.

vitali_y
На сайте с 23.05.2007
Offline
33
#38

>>>

такой вопрос: а чем ваш продукт лучше Google.Desktop или Яндекс.Десктоп (или как там его)?

>>>

тут могу сказать - StopKa - достаточно быстро строит индекс - быстрее - чем yndex desktop, lucent, microsoft search - чуть медленнее searchinfo - с google desktop - не сравнивал - т.к. индексирует в idle режиме - еще есть возможность ускорить - пока я никуда не тороплюсь...

индекс по размерам как я уже говорил самый маленький - правда тут нужно искать золотую середину - ведь чем больше индекс - тем лучший результат поиска можно получать.

в остальном - по использованию оперативной памяти при индексировании - около 700 mb - yndex скушал что-то около 16 mb - тут несомненно победитель - stopka - 100 mb - searchinfo - 200-250 mb про остальных не помню

результат по запросам - примерно одинаковый у всех - тут я могу еще играться - очень трудно выразить человеческую релевантность цифрой - поэтому вероятно алгоритм у всех примерно тот же с различными вариациями - lucent - тут может чуть в худшей ситуации - но это imho

качество продукта - я думаю можно определить поддрержкой и наличием сопутствующих фич - как то поддерживаемые форматы докуметнов, проверка на плагиат, ну и т.п.

V
На сайте с 10.06.2007
Offline
26
#39
OZE:
т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?
а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?

получается, что они круче Яндекса 🚬 🚬 🚬

L
На сайте с 02.05.2004
Offline
35
#40
vitali_y:
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут

ну 10 минут гиг это долго очень :) (если конечно там не файлики по 100 байт)

А вообще за сколько гиг некорректный вопрос. Гораздо интерсней за сколько например 500 гиг текста проиндексится. Дело в том что у любой системы производительность падает с увеличением числа данных только вот порог у кажой системы свой.

Для нас например реально 600 гиг -- террабайт на одном компе и порядка 30-40 млн документов.

У остальных систем предел ну намного меньше. А для корпоративного клиента без объемов смысла нет и без реального масштабирования и многих других вещей.

Виталий -- очень советую провести тесты на 100 гигах на 500 гигах и т.д. и уверен найдешь очень много интересного для себя и очень много узких мест :)

Твоя целеустремленность очень хорошее качество. Только советую верно расчитать силы, чтобы после определенного этапа не захотелось все это забросить, потому как без команды и сперьезных денег сдвинуть с мертвой точки нереально продукты ориентированные на корпоративный рынок..........

Виталий -- ты кажется в Минске живешь? Напиши мне свой телефон на leo собака softinform точка com Мне любопытно будет с тобой пересечься. Мне вообще интересны люди с идеями -- сам когда то из таких вышел :)

Leo www.searchinform.ru (www.searchinform.ru)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий