Leom

Рейтинг
35
Регистрация
02.05.2004
Andrey Ogarok:
...., как в www.asknet.ru - фича: задаете вопрос (типа - когда родился Пушкин) и получаете ответ (в 1799 году). Для прикола сравните что дает Яндекс при вводе запроса когда родился Пушкин.
Так что для ответа на ваш вопрос надо определиться с целью создания системы, ее функциями и ТТХ изделия.

Андрей -- глянул -- интересная задумка, но пока я так понял что вы заточились сугубо под несколько вопросов. Я прав?

Ну например я дал запрос и к вам и к яндексу

Какие системы полнотекстового поиска есть в России

В итоге yandex:

----------------------

3. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в ...

Описаны некоторые детали реализации полнотекстового поиска и ранжирования в Яндексе: особенности архитектуры выполнения запроса; параметризация поиска ...

Мы благодарны организаторам семинара не только за возможность сравнить полнотекстовый поиск Яндекса с другими системами, но и за настойчивость и ...

company.yandex.ru/articles/romip2004.xml · 21 КБ

4. Компьютерные Вести On-line. Тестирование программ для полнотекстового поиска

Специалисты из университета Висконсина провели тщательное, можно сказать, научное тестирование 12 утилит для полнотекстового поиска на компьютере.

Программы для полнотекстового поиска тестировались по шести критериям: точность, эффективность, универсальность и безопасность поиска, удобство ...

www.kv.by/index2005191103.htm · 25 КБ

5.CNews: Анонсирована новая версия программы для полнотекстового поиска ...

Компанией "СофтИнформ" выпущена новая версия программы SearchInform - корпоративной системы, предназначенной для полнотекстового поиска, а также ...

www.cnews.ru/news/line/index.shtml?2007/01/09/230484 · 39 КБ

------------------------------------------------

Ссылка 3 и ссылка 5 напрямую отсылают к системам полнотекстового поиска которые есть в России.

Теперь смотри по вам и к сожалению на первой странице нет прямой ссылки ни на одну российскую систему.

Или может я неудобный вопрос задал? :)

А вообще коллега задумка интересная, если доведете ее до ума. Вы как я понял в Москве? Я там с учетом того что один из наших офисов в Москве бываю очень часто. И с удовольствием готов с Вами пересечься где нибудь вечером за пивом -- думаю общие темы найдем :) Если будет желание пишите мне на leo собака softinform точка com

Мехалоч:
осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄

Не яндекс точно не приобретет -- с одной стороны гордость не позволит, а с другой стороны мы уже давно вышли из стадии когда радовались каждому заказику и соответственно уже сегодня стоимость компании SearchInform (капитализация ) достаточно серьезная -- особенно если оценивать не только приходы а все заключенные контракты по которым мы должны проводить работы в 2008 году, так как во многих структрах бюджет сразу на следующий год закладывается.

Так что мы только поможем научить студентов заниматься не только копи-пайстэ :)

vitali_y:




Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb.
......................

140К документов и 700 мег это совсем мало.

А насчет ориентации на просто пользователей -- смотри чтобы не получилась работа в стол. Это просто совет не более того. Для тех кому надо 1-2 гига всего индексить и на локальном диске вполне устроит бесплатный яндекс или гугл.

В любом софте должно быть то что он решает намного лучше чем конкуренты.

vitali_y:
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут

ну 10 минут гиг это долго очень :) (если конечно там не файлики по 100 байт)

А вообще за сколько гиг некорректный вопрос. Гораздо интерсней за сколько например 500 гиг текста проиндексится. Дело в том что у любой системы производительность падает с увеличением числа данных только вот порог у кажой системы свой.

Для нас например реально 600 гиг -- террабайт на одном компе и порядка 30-40 млн документов.

У остальных систем предел ну намного меньше. А для корпоративного клиента без объемов смысла нет и без реального масштабирования и многих других вещей.

Виталий -- очень советую провести тесты на 100 гигах на 500 гигах и т.д. и уверен найдешь очень много интересного для себя и очень много узких мест :)

Твоя целеустремленность очень хорошее качество. Только советую верно расчитать силы, чтобы после определенного этапа не захотелось все это забросить, потому как без команды и сперьезных денег сдвинуть с мертвой точки нереально продукты ориентированные на корпоративный рынок..........

Виталий -- ты кажется в Минске живешь? Напиши мне свой телефон на leo собака softinform точка com Мне любопытно будет с тобой пересечься. Мне вообще интересны люди с идеями -- сам когда то из таких вышел :)

P.S.

Почему шинглы работают намного хуже и медленней я ответил в предыдущем своем сообщении. Далее в связи с отсутствием времени в теоретические споры вступать вряд ли буду.

Если кто то готов продемонстрировать готовый продукт а не голые рассуждения, который например перемелет 200--300К рефератов и будет находить плагиат, то посмотрю с огромным удовольствием -- конкуренция стимул развиваться :)

А теория мне не интересна -- я практик.

Если же кого то интересует практическое использование наших технологий или какое то сотрудничество то пишите на leo собака softinform точка com

Newm:

Я тоже не понял, почему это не получится на шинглах:).
Вот если бы прога ТС сказала, что второй абзац на 90-97% идентичен первому, тогда чистыми шингами не обойтись.
.

Потому как шинглы ну совсем не учитывают порядка слов в том же куске и ну очень чувствительны к вставке новых слов и смене мест слов.

Привожу пример

Слово код

Образования 1

международных 2

экономических 3

отношений 4

между 5

разными 6

странами 7

культурных 8

Оригинал:

образования международных экономических отношений между разными странами === (1,2,3,4, 5,6,7)

Измененный

Образование международных культурных и экономических отношений между странами== (1, 2,8 ,3 4,5,7)

Как видим всего то одно слово вставлено в предложение, а одно убрали а на самом деле это плагиат.

Тем разбиваем на шинглы по 3 слова как тут приводил некто не отвечающий за свои слова и хамящий (кузьмин)

Итак разбиваем обе части и оригинал и измененное на шинглы и создаем талицу кодов шинглов :

шингл ! код шингла

1,2,3 1

2,3,4 2

3,4,5 3

4,5,6 4

5,6,7 5

1,2,8 6

2,8,3 7

8,3,4 8

4,5,7 9

Теперь составляем фразы уже из шинглов :

Оригинал = Ш1, Ш2, Ш3, Ш4, Ш5

Измененный = Ш6, Ш7, Ш8, Ш3, Ш9

И что мы видим что из 5 шинглов похож только 1 -- значит не плагиат.

Теперь для чистоты эксперимента создаю в SearchInform индекс где всего 2 текстовых документа

- tepmplate.txt (оригинал )

- new.txt (измененный)

Запускаю индексаци. и у нас плказывает что то около 50% .

Шинглы бы показали 20%. Причем они бы показали 20% и там где похожести вообще нет. Приведу пример

Оригинал: Война между разными странами ведет к упадку экономики и готовит почву для диктатуры . (предлоги не учитываю)

Новый : Расстояние между разными странами часто влияет на близость языка их народов.

Получаем из 7 шинглов измененного один совпадает с оригиналом. Итого типа = 15% похожести. Хотя тут и рядом ничего похождего нет

Теперь смотрим у нас. Показывает что на новый template похож новый измененный всего на 10%.

Эксперимент данный могут с нашей системой провести все желающие -- откачав триальный SearchInform Desktop --- не надо даже плагиатинформ рнегить.....

Newm:

Хотя... Конечно встает вопрос о скорости обработки и на каких массивах данных. Но пока из того, что написано, либо ТС не представляет имеющихся алгоритмов, либо пытается развести лохов, либо не умеет грамотно представить хороший продукт.

Про скорость я вообще молчу :)

Индексация с шинглами будет ну очень медленной да и поиск потом тоже будет крайне неслабо тянуть времени, поэтому даже если бы шинглы давали хороший результат то применять их на практике в большиъ объемах нельзя просто. :)

OZE:
т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?
а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?

Отвечаю. Сорри не заметил в вопросах одного мудозвона который не отвечает за свои слова (Кузьмин) и в ответ хамит -- Ваш вопрос :)

Морфология да есть. Семантики нет -- мы языконезависимая технология где все что связано с языком монтируемо. В том что касается технических терминов с сокращениями и т.д. проблем нет -- все будет работать замечательно. Ну а формулы и например графики (синусоиды там всякие и т.д.) мы естественно игнорируем.

То есть если документ состоит просто из одних формул без текста, тогда мы не будем работать. Но в реальной жизни всеже даже в очень техническом тексте формул вряд ли будет более 20% -- в этом случае все будет хорошо.

Miha Kuzmin (KMY):
Leom, я уже года три не программирую. Но если вы не понимаете, что урезав шингл до трех слов, в данном примере будет 60-80% совпадений, то сочувствую.

Я Вам также. Я лично тоже не програмирую уже давно -- для этого у меня хватает программистов.

Если на Ваш взгляд так легко сделать, так давайте

- увеличим сумму спора например до 10К

- вы наймете программиста и он сделает по вашему алгоритму на шинглах

Слабо?

Если уверены на 100% то вы на этом сможете заработать, а если не отвечаете сами за свои слова, то смысла с вами спорить нет

Спорим?

Miha Kuzmin (KMY):
Leom, я, конечно, извиняюсь, но такую байду легко поднять теми же шинглами, корректируя их размер. Ничего интересного.

Давайте например на $2000 поспорим (сумма то не фантастика) что Вы не сделаете это на шинглах.

Тестировать очень просто берем ряд тестов как с Вашей так и с нашей стороны и прогоняем через обе системы (к примеру по 10-20) тестов.

И по результатам того что и как сработало смотрим.

Слабо? Сумму спора кстати можно и поднять если Вы готовы :)

OZE:
а как вы определяете что два куска текста одинаковые (простое сравнение, шинглы или что-то еще)?
и как быть с большими объемами информации?

Сравнение по md5 или шинглы отслеживают только если данные практически одинаковы. То есть по md5 например можно отследить только если 100% одинаково.

У нас же собственные технологии поиска документов похожих по содержанию которые запатентованы и ничего общего с шинглами не имеют и поэтому мы отследим даже такое (приведу пример маленького абзаца)

------- оригинал ------------------

Образование международных экономических объединений содействует развитию производственных отношений между этими странами, однако, это создает препятствия для экономических отношений со странами из других группировок, что ведет к концентрации торговых потоков внутри экономических объединений.

--- исправленная копия -----

Развитию производственных отношений между этими странами содействует образование международных экономических объединений. Это создает препятствия для экономических отношений со странами из других группировок, что несомненно ведет к концентрации торговых потоков внутри экономических объединений.

---------------------------------------------

Как видим мы переписали немного, но по сути это все равно плагиат. Так вот в нашей системе на оригинал говорит что похожесть = 100% а во втором случае что 78% -- что говорит о том что реально это всеже плагиат.

При желании можно все посмотреть в действии зарегитрировавшись вот здесь http://www.searchinform.ru/main/full-text-search-products-searchinform-plagiatinform-buy.html

Далее с Вами свяжется менеджер и все покажет и расскажет и если надо предоставит триальную версию для установки у вас.

Всего: 125