Leom

Рейтинг
35
Регистрация
02.05.2004

zverywka и остальные кто этим занимается -- пишите мне -- с большим интересом посмотрю на то что вы сделали и с большой вероятностью трудоустрою про профилю :)

leo собака softinform точка com

Работа с хорошей продвинутой команде думаю в перспективе для вас может оказаться интерсным предложением.

Maxime:
Брехня, таки спамят. Если не спамят, то поисковик настолько убог, что даже спамерам не интересен :)

Вначале надо спросить бы про цели построения поисковика. Если вы имеете ввиду чтобы на нем был вагон пользователей и зарабатывать на рекламе, то да если он будет успешен то будут спамить. НО -- есть второе применение более интересное -- кокурентная разведка -- то есть такой вот вертикальный поисковик строится условно говоря для 20 аналитиков.

Пример практический -- блоги форумы, айти пресса где идет речь о конкурентах или о нужной теме -- встревать вовремя в нужную ветку -- поверь это интересует ну очень большое число компаний. Создание информационного пространства -- сильная вещь. Советую почитать новый роман Сергея Минаева " медиа сапиенс" прежде всего первую часть -- там хоть и фантастика но много полезного. Так вот наш инструмент для построения информационного пространства самое то.

Maxime:

А nutch и lucene через год заматереют сильнее, да производители выпустят новые линейки писюков помощнее, но вот вы свой код через год не откроете, да и в TREC участие тоже не примите... :)

А ну пусть матереют -- даже интересно будет, а то сейчас как то совсем в разы разница. Один независимый пользователь уже получил результаты (без его согласие не имею права разглашать его имя). Так вот Люцен индексировал 16 часов а мы 6 часов, хотя объем там был не самый большой -- чего то типа 3 млн страниц. Причем там 3 млн файлов в лоб на диске. Чисто открытие и закрытие 3 + млн файлов это уже часа 2 когда диск фрагментирован. Если же их скомпоновать хотя бы в архив то я почему то уверен что было бы 12 часов у Люцена и 2 часа у нас -- то есть разница была бы уже не в 3 а в 6 раз. Ну а при проектировании большой системы естественно маленбкие файлы в лоб на диске никто не хранит. А если запустить на например 10 млн. страниц то разница будет раз в 10 :)

Это все из стиля что вот надо преодолет 10км. В принципе можно и бесплатно прйоти за 2 часа пешком, а можно и взять такси и заплатить например $10. Если есть время и не надо что то делать быстро то конечно проще потратить 2 часа времени и сэкономить $10? особенно если час времени стоит $1/ Но вот если час времени стоит например $20 то уже дешевле заплатить за такси.

Или продолжая аналогию. 10-20км еще можно думать чтобы пройти пешком, а вот если надо пройти 1000км. -- то уже вариаций нет и хоть и дорого но надо будет платить за такси. Есть правда еще вариант самому разрабоатать двигатель и т.д. -- но не факт что это будет дешевле и вообще будет работать. А коммерческу. версию прежде чем покупать всегда можно бесплатно потестить :)

Crisp:
Зравствуйте!

Стоит такая задача:
Разработка ИПС словарного типа.
Дело в том, что в интернет много разной информации (подходы, алгоритмы, математические модели, нейронные сети и пр.), а времени на поиски и выбор нет. Нужен самый стандартный, и по возможности простой способ индексирования, составления БД и релевантного поиска.
Что посоветуете? Где можно взять материал?
Спасибо.

взять готовое -- www.searchinform.ru :)

shad:
- 5-10 миллионов документов

Это 1 сервак.

shad:

- сохраняется для каждого документа: 1 Кб текста + 5-10 Кб на изображение

Изображение без разницы. 1 кб -- значит текста всего 10 гиг. Все верно?

shad:

- первый год - незначительное (думаю, в часы пик не более 10000 в час).

Если всего 10 гиг текста то опять таки это 1 сервак справится, правда сразу нужно ставить сервак с сервером кэширования и в идеале чтобы сервер кэширования стоял на отдельной машине. Сервер кэширования будет 1 даже когда начнем наращивать число серваков.

shad:

- 2-3 месяца

Так много?

shad:


- все зависит от величины падения - скорость должна оставаться приемлимой для web-сервиса

Если на одном серваке будет идти индексирование и поиск то при этом поиск на уникальные запросы (которые еще не разу не задавались упадет очень серьезно. Но если всего то 10 гиг надо качнуть то это не более 2 часов при нормальном канале с учетом скоростей работы нашего краулера и порядка 1 часа на индексирование. Если цикл такой большой переиндексации (раз в 2 месяца) то можно откачивать по расписанию в то время когда минимальная нагрузка по небольгим кусочкам и их переиндексировать, тогда падения никто не заметит.

То есть результат совсем недорогой получается

10К сервер индексирования бех ограничений объема

10К сервер кэширования -- без него 10К запросов в час отрабатываться не будут. А вернее запросы то без проблем но вот если на каждый запрос надо строить еще и 1000 саммари а это уже 10 млн саммари, то без сервера кэширования нереально

9К -коннектор 10 млн документов

ИТОГО = 29К

Внедрение, настройка и поддержка в течении года бесплатны.

shad:

Только судя по ссылке вы мне похоже опять предлагаете полнотекстовый поиск по web-страницам. В моем случае речь идет о сборе информации, приведении ее к нужной форме, и только затем о параметризуемом поиске (со своими нюансами).
Универсальные решения для web-поиска здесь не подойдут.

У нас уже сейчас несколько запросов на такую кастомизацию, только от одной компании условия покруче на порядок -- 30 млн документов, 70 гиг текста и отработка для начала 15К запросов в час а в перспективе 70К запросов в час.

Инет сервер наш это ядро, которое имеет некоторое АПИ и вокруг которого уже строятся кастомизированные системы. Естественно кастомизация за доп деньги, если сумма лицензий не столь велика ( в данном случае сумма лицензий не очень большая). При сумме же лицензий свыше 100К кастомизация часто делается вообще бесплатно.

Shad вот для примера что хочет чтобы мы закастомизировали один из клиентов -- там запрос максимальный на 4 страницы -- приводить не буду, но есть типа операторы в запросе

- в документе есть первое “слово”, но нет второго

- в абзаце есть первое “слово”, но нет второго

- в документе есть оба “слова” расстояние между ними не более n слов

- в документе есть первое “слово”, около не встречается второе в радиусе n слов

- алгебраические запросы

- “(акции <2 ВТБ) <20 риск”

Текст удовлетворяет запросу, если в нем найдутся вхождения указанных слов так, что

1) между “акция” и “ВТБ” расстояние не больше 2

2) от одного из них до “риск” расстояние не больше 20

- “(фото <20 видео) <2 техника”

Текст удовлетворяет запросу, если в тексте найдутся вхождения “фото”, “видео” и два (возможно совпадающие) вхождения слова “техника” так, что:

1) “фото” и “техника”(1) на расстоянии не больше 2

2) “фото” и “техника”(2) на расстоянии не больше 2

3) Расстояние между группами (1) и (2) не больше 20

Т.е., эквивалентный запрос “(фото <2 техника) <20 (видео <2 техника)

- и еще много другого -- там спецификация которая сейчас обсуждается ну очень не слабая.

В принципе все это можно реализовать поставив коробочное решение и дергать через АПИ его функции. Честно скажем в ядре есть на данный момент далеко не все чтобы поддержать такие вот сложные запросы. Для этого если договоримся о цене и будет производиться тюниг ядра для конкретного клиента.

Но в любом случае Shad -- это будет намного дешевле и быстрей чем пытаться самим делать разработку -- я в технологиях полнотекстового поиска уже более 10 лет и однозначно скажу что если делать с нуля то первая версия будет никакая. Вернее она будет работать но на малых объемах и медленно.

shad:

. В моем случае речь идет о сборе информации, приведении ее к нужной форме, и только затем о параметризуемом поиске (со своими нюансами).

Расскажите подробней что понимаете под приведением к нужной форме -- если морфологию то она есть у любой нормальной поисковой системы.

И параметризуемый поиск с вашими нюансами это что? Я смотрю тендения пошла в СНГ на сложные поиски для аналитики :) Если не захотите сюда -=- скиньте в личку

leo собака softinform точка com

Мне в любом случае интересно проанализировать что вам надо и сможем ли мы вообще такое. Естественно это будет бесплатно для Вас. И коль вы в Минске то думаю абсолютног бесплатно смогу дать по телефону какие то полезные советы по тому что вам делать с ващими сложными запросами :)

L78:
С деньгами все понятно, но строить тоже самое что яндекс, рамблер, гугль, апорт, или вебальту бесперспективно, одна аренда под сервера и персонал 10000$ набежит+электричество и З/П около 40000$ в месяц...☝

Тоже самое и не получится :) И смысла не имеет строить конкурирующий поисковик по рунету. А вот строить тематический поисковик на базе нашего SearchInform Internet Server-a очень даже имеет, потому что поиск по тематическому поисковику всегда по определения будет лучше чем по общему хотя бы из за того что никто тематический поисковик спамить не будет.

А вот тут то уже и критично число серверов и т.д. которые очень даже стоят деньги. А наш основной конек это производительность, которая позволит имет намного меньше железа, чем если например использовать nutch lucene и т.д......... И в конечном итоге на больших объемах получается что дешевле заплатить пару сотен килобаксов за платное решение но сильно сэкономить на железе и в итоге стоимость железа + софта у нашего очень даже платного решения получится дешевле.

К примеру мы для себя построили тематический поисковик где около 1500 софт каталогов -- так вот это примерно 10 миллионов страниц. И все это крутится на одном серваке. Объем данных около 500 гиг. Полный цикл переиндексации примерно 4 дня. Естественно для коммерческого использования надо иметь минимум 3 таких сервака, чтобы один работал постоянно на индескирование а 2 на поиск. А туда еще по уму надо доавить вагон форумов, блогов, айти прессы и т.д. И будет уже это счастье как раз под 100 млн страниц, а это уж никак не 1 сервак...... ну это я так для инфы привел реалии, так как есть шанс что мы в следующем году поставим на хостинг площадке пару десятков серверов и сами будем запускать такой вот айти поисковик.

Но делать мы это будем реально чисто для облегчения работы своего отдела маркетинга и для повышения узнаваемости брэнда -- так как целей его раскрутить пока не ставим. Поэтому если кто то захочет сделать такой поисковик, зная как его грамотно раскрутить, то мы с большой радостью выступим просто поставщиком решения, не влазя в область раскрутки.

PHWizard:
Подскажите, пожалуйста, существуют ли базы документов (больше интересует для английского) с прописанными численными значениями похожести между документами в этой базе (с точки зрения здравого смысла), чтоб можно было тестить на них свои алгоритмы категоризации текстов?

Базы документов не знаю, а вот поиск документов похожиз по содержанию есть в SearchInform и для тестировки хватит даже free версии у которой единственное ограничение -- индексит не более 1 гига. Ну а платные версии легко и полтера могут проиндексить.

Смотрите www.searchinform.ru

shad:
Всем, здравствуйте.
Так сложилось, что передо мной сейчас стоит задача разработки отраслевой поисковой системы, предположительно довольно крупной. Сейчас нахожусь на стадии выбора разработчика.
.

www.searchinform.ru и посмотрите конкретно вот этот раздел про SearchInform Internet server

http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html

shad:

Нужен технический консультант с серьезным опытом в этой области, который поможет выбрать оптимальную архитектуру для этой системы и избежать подводных камней при разработке.
За консультации (через Skype), естественно, готов платить.

Если вы хотите разрабатывать сами, а не использовать готовые (к примеру наши) решения, то я пас -- консультациями не занимаюсь. А если у Вас цель решить задачу вертикального поисковика и есть бюджет проекта, то велкам -- пишите

leo собака softinform com.

При построении вертикального поисковика, чтобы расчитать и правильно все спроектировать Вы должны иметь хотя бы приблизительные ответы на ряд вопросов. Наиболее критичные из них вот :

- Кол-во индексируемых страниц:

- Объем индексируемой информации

- Количество запросов в час

- Частоту переиндексации

- допустимо ли падение скорости поиска в моменты переиндексации.

Если ответите на эти вопросы то я смогу прмяо в форуме сказать какая конфигурацмя будет нужна.

А вообще проще встретиться лично и визуально.

Встретится со мной легко можно в одном из 2 городов -- Минск, Москва. Если интересует посмотреть и потестить -- тоже велкам -- ставьте сервак в Инет под виндой и мы поможет Вам запустить наш SearchInform Internet Server. Это естественно абсолютно бесплатно. Также абсолютно бесплатно мы просчитываем оптимальную архитекутуру для решения задач и высылаем коммерческое предложение где все расписано, причем не требуем каких либо гарантий.

l4ngl3y:
Т.е. ты считаешь обсуждение твоего продукта просто базаром ??? То, что люди интересуются им это базар ??? Я думаю ты не работаешь на компанию уровня IBM или Microsoft что бы к тебе летели бета-тестеры ... и ждали когда же ты выпустишь следующую версию своего продукта ..... Здесь надо заинтересовать людей, показать что твой продукт действительно лучше .... чем остальные...

Зачем? Кому это надо не для чистой науки а для бизнеса как раз и начинают тестить сразу а не базары вести.

l4ngl3y:

Я вот кстате скачал демо-версию с сайта твоего .... поставил, посмотрел .... ничем особенным мне это не показалось... И документация только по запуску программы... мне кажется это издевательство ... ))

Тем кому это реально надо помогает сапорт. Просто боюсь что ты вообще не представляешь себе работу с корпоративным клиентом. Более того для решения конкретных задач обычно все делается по другому.

1) оставляются валидные телефоны и мыла

2) при разговоре с нашим менеджеом очерчивается круг задач, на базе которого наши спциалситы расчитывают сколько надло железа и нашиз лицензий для успешного решения поставленных задач.

3) Отсылается коммерческое предложение

4) согласуется стоимость (при больших объемах естественно идут скидки)

5) Только если потенциального заказчика устраивает в принципе цена он выделит человека который должен будет протестить.

Вариация вторая что тестит технологические партнер который это будет продвигать конечным заказчикам. Но он тоже прежде всего обратится к саппорту и выяснит что и как и обязательно оговорит условия что он будет иметь от продвижения, прежде чем начать тестить.

ты уж извини l4ngl3y но в бизнесе люди очень время ценят........

l4ngl3y а можно озвучить чем ты занимаешься и какой бизнес имеешь? Мне просто очень любопытно все ли я правильно о тебе предсказал.

И успехов тебе в чистой науке и разговорах о жизни :)

l4ngl3y:
Никто не просит приводить мат. модель алгоритмов, можно же его описать в общем, в чем его отличее от других ... есть ли вообще ранжирование.... и кто му же, если в алгоритмах релевантности ничего нового нет, что же мешает тебе тогда его здесь описать...
...

Время которое стоит достаточно дорого....... Я же сказал что я занимаюсь не наукой а бизнесом. И если хочешь потестить -- велкам -- тебе дадут ключ и т.д. А потом вот в форуме и опишешь с научной точки зрения. Слабо?

А просто базарить -- сорри времени нет. Тем более я уверен что тестить ты не будешь -- так как те кто хотел уже начали тестить а не базарить, то есть своим постом я цели достиг.

l4ngl3y:

И как следует из твоих слов, вы не проводили тестирование на релевантность поиска ???
Вы просто добились "быстрой индексации данных" ???

Скорость как, было написанно выше Maxime, не является основным кретерием ПС...

Ага мы вообще рандомом выдаем результат :) Какой ответ такой и вопрос.

Кстати а с Maxime вы не близнецы-братья? Просто у вас обоих большая любовь к букве "E". Типа

- пеар

- кретерий

Или сие новое слово в науке? :)

Ладно все уважаемый -- будет желание тестить пиши -- я же далее на посты про кретерии и пеар но без конкретики отвечать не буду :)

l4ngl3y:
Че то действительно не понятно ... вроде и протестить предлагаешь, и причем именно на этом сайте .... а в конечном итоге получается... что протестить то только можно тем кто имеет коммерческий смысл ...
Мне так кажется... что раз сюда написал, так и тестить надо давать не тем у кто с коммерческим смыслом интересуеется, а имеено тем кто интересуется с научной точки зрения... что за алгоритм придумали... чем он отличается... на чем написали.... и т.д. А уже потом люди протестившие его с научной точки зрения... твой продукт скажут ... полезен он или нет...

Алгоритмы никто никому рассказывать не будем. А протестить -- велкам -- более того поможем установить на ваш выделенный сервак на хостинг площадке.

Требования к серваку :

- не менее 2 гиг памяти

- windows

Всего: 125