Leom

www.searchinform.com

Рейтинг

Регистрация

02.05.2004

Сколько стоит разработать и раскрутить поисковик?

18 июля 2007, 14:44

Andrey Ogarok:
...., как в www.asknet.ru - фича: задаете вопрос (типа - когда родился Пушкин) и получаете ответ (в 1799 году). Для прикола сравните что дает Яндекс при вводе запроса когда родился Пушкин.
Так что для ответа на ваш вопрос надо определиться с целью создания системы, ее функциями и ТТХ изделия.

Андрей -- глянул -- интересная задумка, но пока я так понял что вы заточились сугубо под несколько вопросов. Я прав?

Ну например я дал запрос и к вам и к яндексу

Какие системы полнотекстового поиска есть в России

В итоге yandex:

----------------------

3. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в ...

Описаны некоторые детали реализации полнотекстового поиска и ранжирования в Яндексе: особенности архитектуры выполнения запроса; параметризация поиска ...

Мы благодарны организаторам семинара не только за возможность сравнить полнотекстовый поиск Яндекса с другими системами, но и за настойчивость и ...

company.yandex.ru/articles/romip2004.xml · 21 КБ

4. Компьютерные Вести On-line. Тестирование программ для полнотекстового поиска

Специалисты из университета Висконсина провели тщательное, можно сказать, научное тестирование 12 утилит для полнотекстового поиска на компьютере.

Программы для полнотекстового поиска тестировались по шести критериям: точность, эффективность, универсальность и безопасность поиска, удобство ...

www.kv.by/index2005191103.htm · 25 КБ

5.CNews: Анонсирована новая версия программы для полнотекстового поиска ...

Компанией "СофтИнформ" выпущена новая версия программы SearchInform - корпоративной системы, предназначенной для полнотекстового поиска, а также ...

www.cnews.ru/news/line/index.shtml?2007/01/09/230484 · 39 КБ

------------------------------------------------

Ссылка 3 и ссылка 5 напрямую отсылают к системам полнотекстового поиска которые есть в России.

Теперь смотри по вам и к сожалению на первой странице нет прямой ссылки ни на одну российскую систему.

Или может я неудобный вопрос задал? :)

А вообще коллега задумка интересная, если доведете ее до ума. Вы как я понял в Москве? Я там с учетом того что один из наших офисов в Москве бываю очень часто. И с удовольствием готов с Вами пересечься где нибудь вечером за пивом -- думаю общие темы найдем :) Если будет желание пишите мне на leo собака softinform точка com

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 17:09

Мехалоч:
осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄

Не яндекс точно не приобретет -- с одной стороны гордость не позволит, а с другой стороны мы уже давно вышли из стадии когда радовались каждому заказику и соответственно уже сегодня стоимость компании SearchInform (капитализация ) достаточно серьезная -- особенно если оценивать не только приходы а все заключенные контракты по которым мы должны проводить работы в 2008 году, так как во многих структрах бюджет сразу на следующий год закладывается.

Так что мы только поможем научить студентов заниматься не только копи-пайстэ :)

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 17:04

vitali_y:

Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb.
......................

140К документов и 700 мег это совсем мало.

А насчет ориентации на просто пользователей -- смотри чтобы не получилась работа в стол. Это просто совет не более того. Для тех кому надо 1-2 гига всего индексить и на локальном диске вполне устроит бесплатный яндекс или гугл.

В любом софте должно быть то что он решает намного лучше чем конкуренты.

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 13:37

vitali_y:
протестируйте пожалуйста - линки вы найдете - у меня нет фирмы и своих программистов - поэтому пока продукт достаточно сырой - идей правда дофигища. гигабайт будет индексировать порядка 5-10 минут

ну 10 минут гиг это долго очень :) (если конечно там не файлики по 100 байт)

А вообще за сколько гиг некорректный вопрос. Гораздо интерсней за сколько например 500 гиг текста проиндексится. Дело в том что у любой системы производительность падает с увеличением числа данных только вот порог у кажой системы свой.

Для нас например реально 600 гиг -- террабайт на одном компе и порядка 30-40 млн документов.

У остальных систем предел ну намного меньше. А для корпоративного клиента без объемов смысла нет и без реального масштабирования и многих других вещей.

Виталий -- очень советую провести тесты на 100 гигах на 500 гигах и т.д. и уверен найдешь очень много интересного для себя и очень много узких мест :)

Твоя целеустремленность очень хорошее качество. Только советую верно расчитать силы, чтобы после определенного этапа не захотелось все это забросить, потому как без команды и сперьезных денег сдвинуть с мертвой точки нереально продукты ориентированные на корпоративный рынок..........

Виталий -- ты кажется в Минске живешь? Напиши мне свой телефон на leo собака softinform точка com Мне любопытно будет с тобой пересечься. Мне вообще интересны люди с идеями -- сам когда то из таких вышел :)

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 10:05

P.S.

Почему шинглы работают намного хуже и медленней я ответил в предыдущем своем сообщении. Далее в связи с отсутствием времени в теоретические споры вступать вряд ли буду.

Если кто то готов продемонстрировать готовый продукт а не голые рассуждения, который например перемелет 200--300К рефератов и будет находить плагиат, то посмотрю с огромным удовольствием -- конкуренция стимул развиваться :)

А теория мне не интересна -- я практик.

Если же кого то интересует практическое использование наших технологий или какое то сотрудничество то пишите на leo собака softinform точка com

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 09:58

Newm:

Я тоже не понял, почему это не получится на шинглах:).
Вот если бы прога ТС сказала, что второй абзац на 90-97% идентичен первому, тогда чистыми шингами не обойтись.
.

Потому как шинглы ну совсем не учитывают порядка слов в том же куске и ну очень чувствительны к вставке новых слов и смене мест слов.

Привожу пример

Слово код

Образования 1

международных 2

экономических 3

отношений 4

между 5

разными 6

странами 7

культурных 8

Оригинал:

образования международных экономических отношений между разными странами === (1,2,3,4, 5,6,7)

Измененный

Образование международных культурных и экономических отношений между странами== (1, 2,8 ,3 4,5,7)

Как видим всего то одно слово вставлено в предложение, а одно убрали а на самом деле это плагиат.

Тем разбиваем на шинглы по 3 слова как тут приводил некто не отвечающий за свои слова и хамящий (кузьмин)

Итак разбиваем обе части и оригинал и измененное на шинглы и создаем талицу кодов шинглов :

шингл ! код шингла

1,2,3 1

2,3,4 2

3,4,5 3

4,5,6 4

5,6,7 5

1,2,8 6

2,8,3 7

8,3,4 8

4,5,7 9

Теперь составляем фразы уже из шинглов :

Оригинал = Ш1, Ш2, Ш3, Ш4, Ш5

Измененный = Ш6, Ш7, Ш8, Ш3, Ш9

И что мы видим что из 5 шинглов похож только 1 -- значит не плагиат.

Теперь для чистоты эксперимента создаю в SearchInform индекс где всего 2 текстовых документа

- tepmplate.txt (оригинал )

- new.txt (измененный)

Запускаю индексаци. и у нас плказывает что то около 50% .

Шинглы бы показали 20%. Причем они бы показали 20% и там где похожести вообще нет. Приведу пример

Оригинал: Война между разными странами ведет к упадку экономики и готовит почву для диктатуры . (предлоги не учитываю)

Новый : Расстояние между разными странами часто влияет на близость языка их народов.

Получаем из 7 шинглов измененного один совпадает с оригиналом. Итого типа = 15% похожести. Хотя тут и рядом ничего похождего нет

Теперь смотрим у нас. Показывает что на новый template похож новый измененный всего на 10%.

Эксперимент данный могут с нашей системой провести все желающие -- откачав триальный SearchInform Desktop --- не надо даже плагиатинформ рнегить.....

Newm:

Хотя... Конечно встает вопрос о скорости обработки и на каких массивах данных. Но пока из того, что написано, либо ТС не представляет имеющихся алгоритмов, либо пытается развести лохов, либо не умеет грамотно представить хороший продукт.

Про скорость я вообще молчу :)

Индексация с шинглами будет ну очень медленной да и поиск потом тоже будет крайне неслабо тянуть времени, поэтому даже если бы шинглы давали хороший результат то применять их на практике в большиъ объемах нельзя просто. :)

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 08:35

OZE:
т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?
а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?

Отвечаю. Сорри не заметил в вопросах одного мудозвона который не отвечает за свои слова (Кузьмин) и в ответ хамит -- Ваш вопрос :)

Морфология да есть. Семантики нет -- мы языконезависимая технология где все что связано с языком монтируемо. В том что касается технических терминов с сокращениями и т.д. проблем нет -- все будет работать замечательно. Ну а формулы и например графики (синусоиды там всякие и т.д.) мы естественно игнорируем.

То есть если документ состоит просто из одних формул без текста, тогда мы не будем работать. Но в реальной жизни всеже даже в очень техническом тексте формул вряд ли будет более 20% -- в этом случае все будет хорошо.

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 08:26

Miha Kuzmin (KMY):
Leom, я уже года три не программирую. Но если вы не понимаете, что урезав шингл до трех слов, в данном примере будет 60-80% совпадений, то сочувствую.

Я Вам также. Я лично тоже не програмирую уже давно -- для этого у меня хватает программистов.

Если на Ваш взгляд так легко сделать, так давайте

- увеличим сумму спора например до 10К

- вы наймете программиста и он сделает по вашему алгоритму на шинглах

Слабо?

Если уверены на 100% то вы на этом сможете заработать, а если не отвечаете сами за свои слова, то смысла с вами спорить нет

Спорим?

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 08:18

Miha Kuzmin (KMY):
Leom, я, конечно, извиняюсь, но такую байду легко поднять теми же шинглами, корректируя их размер. Ничего интересного.

Давайте например на $2000 поспорим (сумма то не фантастика) что Вы не сделаете это на шинглах.

Тестировать очень просто берем ряд тестов как с Вашей так и с нашей стороны и прогоняем через обе системы (к примеру по 10-20) тестов.

И по результатам того что и как сработало смотрим.

Слабо? Сумму спора кстати можно и поднять если Вы готовы :)

Плагиат не пройдет! Или что могут современные поисковые технологии.

11 июня 2007, 07:36

OZE:
а как вы определяете что два куска текста одинаковые (простое сравнение, шинглы или что-то еще)?
и как быть с большими объемами информации?

Сравнение по md5 или шинглы отслеживают только если данные практически одинаковы. То есть по md5 например можно отследить только если 100% одинаково.

У нас же собственные технологии поиска документов похожих по содержанию которые запатентованы и ничего общего с шинглами не имеют и поэтому мы отследим даже такое (приведу пример маленького абзаца)

------- оригинал ------------------

Образование международных экономических объединений содействует развитию производственных отношений между этими странами, однако, это создает препятствия для экономических отношений со странами из других группировок, что ведет к концентрации торговых потоков внутри экономических объединений.

--- исправленная копия -----

Развитию производственных отношений между этими странами содействует образование международных экономических объединений. Это создает препятствия для экономических отношений со странами из других группировок, что несомненно ведет к концентрации торговых потоков внутри экономических объединений.

---------------------------------------------

Как видим мы переписали немного, но по сути это все равно плагиат. Так вот в нашей системе на оригинал говорит что похожесть = 100% а во втором случае что 78% -- что говорит о том что реально это всеже плагиат.

При желании можно все посмотреть в действии зарегитрировавшись вот здесь http://www.searchinform.ru/main/full-text-search-products-searchinform-plagiatinform-buy.html

Далее с Вами свяжется менеджер и все покажет и расскажет и если надо предоставит триальную версию для установки у вас.

1 2 3 4 5 6 7 8 ...13

Всего: 125

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Что делать, чтобы попасть в ответы Google Bard

Leom