Плагиат не пройдет! Или что могут современные поисковые технологии.

vitali_y
На сайте с 23.05.2007
Offline
33
#41

to Leom:

Телефон напишу - поговорить - мне тоже интересно.

Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb. Поэтому все что написано выше - подразумевает именно этот мой тест. В ближайшее время сделаю этот тест общедоступным. Конечно при большем объеме будут сложности - т.е. потенциально они могут возникнуть у меня уже при объеме порядка 10gb текста - что примерно будет соответствовать индексу в 2gb - тут уже сложность - поскольку у меня лишь 1 индексный файл в результате. На большие объемы я пока и не замахиваюсь - проблеммы с разростанием индекса - в принципе решаемы - наступит момент я их решу. Скорость индексирования при больших объемах у меня потенциально останется на том же уровне - рост количества документов тут не помеха. Есть у меня еще возможность ускорить индексирование - на данный момент я не ставлю себе такую задачу - быть тут первым. Ну и время поиска - будет сравнимо с чтением нужной индексной информации из файла индекса.

Поскольку даже самые фанатичные коллекционеры различных доков не собирают их больше 5 gb (сужу по себе) - тестирование на 100 gb для меня сейчас не приоритет. И соревноваться с вами тут я не собираюсь. А что возникнут при таких объемах тонкости - 100%. После того как реализую некоторые намеченные фичи - (у остальных подобное уже есть) - я сделаю это по своему - может кто посчитает что для него это то что нужно - можно будет объявить релиз. Сейчас это игрушка которой я что называется - "козыряю" - правда feedback пока небольшой - это нормально - даже хорошо.

Именно скорость индексирования searchinfo заставила меня искать пути как сделать мое индекирование сравнимым по скорости - в принципе на моем тесте ваша программа индексировала минут 5 у меня минут 6. Я тоже считаю скорость индексирования важным показателем - тут вам конечно респект.

To All:

Для любителей конкретных цифр - обещаю - напишу ревью - со сравнительным анализом - когда придет время - оринтироваться буду на 5 может 20 gb текста. Ну и старый тест на 700mb там будет. Повторю еще раз - имею возможность сделать его общедоступным - сделаю это в ближайшее время. Тут не раз упоминался trec.nist.gov - там я не нашел corpusa файлов для тестирования - так же нет такого корпуса в общедоступном - одинаковом для всех виде на схожем по тематике русском треке - типа это коммерческая информация - в общем - если есть заинтересованные - мой корпус бесплатен - первые заинтересовавшиеся - смогут его получить - :) с условием прежде скачать и посмотреть StopKa.

[Удален]
#42

осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄

L
На сайте с 02.05.2004
Offline
35
#43
vitali_y:




Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb.
......................

140К документов и 700 мег это совсем мало.

А насчет ориентации на просто пользователей -- смотри чтобы не получилась работа в стол. Это просто совет не более того. Для тех кому надо 1-2 гига всего индексить и на локальном диске вполне устроит бесплатный яндекс или гугл.

В любом софте должно быть то что он решает намного лучше чем конкуренты.

Leo www.searchinform.ru (www.searchinform.ru)
L
На сайте с 02.05.2004
Offline
35
#44
Мехалоч:
осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄

Не яндекс точно не приобретет -- с одной стороны гордость не позволит, а с другой стороны мы уже давно вышли из стадии когда радовались каждому заказику и соответственно уже сегодня стоимость компании SearchInform (капитализация ) достаточно серьезная -- особенно если оценивать не только приходы а все заключенные контракты по которым мы должны проводить работы в 2008 году, так как во многих структрах бюджет сразу на следующий год закладывается.

Так что мы только поможем научить студентов заниматься не только копи-пайстэ :)

vitali_y
На сайте с 23.05.2007
Offline
33
#45

Потенциально такая "работа в стол" меня не пугает - поскольку это хобби и здесь я хозяин.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий