zverywka и остальные кто этим занимается -- пишите мне -- с большим интересом посмотрю на то что вы сделали и с большой вероятностью трудоустрою про профилю :)
leo собака softinform точка com
Работа с хорошей продвинутой команде думаю в перспективе для вас может оказаться интерсным предложением.
Вначале надо спросить бы про цели построения поисковика. Если вы имеете ввиду чтобы на нем был вагон пользователей и зарабатывать на рекламе, то да если он будет успешен то будут спамить. НО -- есть второе применение более интересное -- кокурентная разведка -- то есть такой вот вертикальный поисковик строится условно говоря для 20 аналитиков.
Пример практический -- блоги форумы, айти пресса где идет речь о конкурентах или о нужной теме -- встревать вовремя в нужную ветку -- поверь это интересует ну очень большое число компаний. Создание информационного пространства -- сильная вещь. Советую почитать новый роман Сергея Минаева " медиа сапиенс" прежде всего первую часть -- там хоть и фантастика но много полезного. Так вот наш инструмент для построения информационного пространства самое то.
А ну пусть матереют -- даже интересно будет, а то сейчас как то совсем в разы разница. Один независимый пользователь уже получил результаты (без его согласие не имею права разглашать его имя). Так вот Люцен индексировал 16 часов а мы 6 часов, хотя объем там был не самый большой -- чего то типа 3 млн страниц. Причем там 3 млн файлов в лоб на диске. Чисто открытие и закрытие 3 + млн файлов это уже часа 2 когда диск фрагментирован. Если же их скомпоновать хотя бы в архив то я почему то уверен что было бы 12 часов у Люцена и 2 часа у нас -- то есть разница была бы уже не в 3 а в 6 раз. Ну а при проектировании большой системы естественно маленбкие файлы в лоб на диске никто не хранит. А если запустить на например 10 млн. страниц то разница будет раз в 10 :)
Это все из стиля что вот надо преодолет 10км. В принципе можно и бесплатно прйоти за 2 часа пешком, а можно и взять такси и заплатить например $10. Если есть время и не надо что то делать быстро то конечно проще потратить 2 часа времени и сэкономить $10? особенно если час времени стоит $1/ Но вот если час времени стоит например $20 то уже дешевле заплатить за такси.
Или продолжая аналогию. 10-20км еще можно думать чтобы пройти пешком, а вот если надо пройти 1000км. -- то уже вариаций нет и хоть и дорого но надо будет платить за такси. Есть правда еще вариант самому разрабоатать двигатель и т.д. -- но не факт что это будет дешевле и вообще будет работать. А коммерческу. версию прежде чем покупать всегда можно бесплатно потестить :)
взять готовое -- www.searchinform.ru :)
Это 1 сервак.
Изображение без разницы. 1 кб -- значит текста всего 10 гиг. Все верно?
Если всего 10 гиг текста то опять таки это 1 сервак справится, правда сразу нужно ставить сервак с сервером кэширования и в идеале чтобы сервер кэширования стоял на отдельной машине. Сервер кэширования будет 1 даже когда начнем наращивать число серваков.
Так много?
Если на одном серваке будет идти индексирование и поиск то при этом поиск на уникальные запросы (которые еще не разу не задавались упадет очень серьезно. Но если всего то 10 гиг надо качнуть то это не более 2 часов при нормальном канале с учетом скоростей работы нашего краулера и порядка 1 часа на индексирование. Если цикл такой большой переиндексации (раз в 2 месяца) то можно откачивать по расписанию в то время когда минимальная нагрузка по небольгим кусочкам и их переиндексировать, тогда падения никто не заметит.
То есть результат совсем недорогой получается
10К сервер индексирования бех ограничений объема
10К сервер кэширования -- без него 10К запросов в час отрабатываться не будут. А вернее запросы то без проблем но вот если на каждый запрос надо строить еще и 1000 саммари а это уже 10 млн саммари, то без сервера кэширования нереально
9К -коннектор 10 млн документов
ИТОГО = 29К
Внедрение, настройка и поддержка в течении года бесплатны.
У нас уже сейчас несколько запросов на такую кастомизацию, только от одной компании условия покруче на порядок -- 30 млн документов, 70 гиг текста и отработка для начала 15К запросов в час а в перспективе 70К запросов в час.
Инет сервер наш это ядро, которое имеет некоторое АПИ и вокруг которого уже строятся кастомизированные системы. Естественно кастомизация за доп деньги, если сумма лицензий не столь велика ( в данном случае сумма лицензий не очень большая). При сумме же лицензий свыше 100К кастомизация часто делается вообще бесплатно.
Shad вот для примера что хочет чтобы мы закастомизировали один из клиентов -- там запрос максимальный на 4 страницы -- приводить не буду, но есть типа операторы в запросе
- в документе есть первое “слово”, но нет второго
- в абзаце есть первое “слово”, но нет второго
- в документе есть оба “слова” расстояние между ними не более n слов
- в документе есть первое “слово”, около не встречается второе в радиусе n слов
- алгебраические запросы
- “(акции <2 ВТБ) <20 риск”
Текст удовлетворяет запросу, если в нем найдутся вхождения указанных слов так, что
1) между “акция” и “ВТБ” расстояние не больше 2
2) от одного из них до “риск” расстояние не больше 20
- “(фото <20 видео) <2 техника”
Текст удовлетворяет запросу, если в тексте найдутся вхождения “фото”, “видео” и два (возможно совпадающие) вхождения слова “техника” так, что:
1) “фото” и “техника”(1) на расстоянии не больше 2
2) “фото” и “техника”(2) на расстоянии не больше 2
3) Расстояние между группами (1) и (2) не больше 20
Т.е., эквивалентный запрос “(фото <2 техника) <20 (видео <2 техника)
- и еще много другого -- там спецификация которая сейчас обсуждается ну очень не слабая.
В принципе все это можно реализовать поставив коробочное решение и дергать через АПИ его функции. Честно скажем в ядре есть на данный момент далеко не все чтобы поддержать такие вот сложные запросы. Для этого если договоримся о цене и будет производиться тюниг ядра для конкретного клиента.
Но в любом случае Shad -- это будет намного дешевле и быстрей чем пытаться самим делать разработку -- я в технологиях полнотекстового поиска уже более 10 лет и однозначно скажу что если делать с нуля то первая версия будет никакая. Вернее она будет работать но на малых объемах и медленно.
Расскажите подробней что понимаете под приведением к нужной форме -- если морфологию то она есть у любой нормальной поисковой системы.
И параметризуемый поиск с вашими нюансами это что? Я смотрю тендения пошла в СНГ на сложные поиски для аналитики :) Если не захотите сюда -=- скиньте в личку
Мне в любом случае интересно проанализировать что вам надо и сможем ли мы вообще такое. Естественно это будет бесплатно для Вас. И коль вы в Минске то думаю абсолютног бесплатно смогу дать по телефону какие то полезные советы по тому что вам делать с ващими сложными запросами :)
Тоже самое и не получится :) И смысла не имеет строить конкурирующий поисковик по рунету. А вот строить тематический поисковик на базе нашего SearchInform Internet Server-a очень даже имеет, потому что поиск по тематическому поисковику всегда по определения будет лучше чем по общему хотя бы из за того что никто тематический поисковик спамить не будет.
А вот тут то уже и критично число серверов и т.д. которые очень даже стоят деньги. А наш основной конек это производительность, которая позволит имет намного меньше железа, чем если например использовать nutch lucene и т.д......... И в конечном итоге на больших объемах получается что дешевле заплатить пару сотен килобаксов за платное решение но сильно сэкономить на железе и в итоге стоимость железа + софта у нашего очень даже платного решения получится дешевле.
К примеру мы для себя построили тематический поисковик где около 1500 софт каталогов -- так вот это примерно 10 миллионов страниц. И все это крутится на одном серваке. Объем данных около 500 гиг. Полный цикл переиндексации примерно 4 дня. Естественно для коммерческого использования надо иметь минимум 3 таких сервака, чтобы один работал постоянно на индескирование а 2 на поиск. А туда еще по уму надо доавить вагон форумов, блогов, айти прессы и т.д. И будет уже это счастье как раз под 100 млн страниц, а это уж никак не 1 сервак...... ну это я так для инфы привел реалии, так как есть шанс что мы в следующем году поставим на хостинг площадке пару десятков серверов и сами будем запускать такой вот айти поисковик.
Но делать мы это будем реально чисто для облегчения работы своего отдела маркетинга и для повышения узнаваемости брэнда -- так как целей его раскрутить пока не ставим. Поэтому если кто то захочет сделать такой поисковик, зная как его грамотно раскрутить, то мы с большой радостью выступим просто поставщиком решения, не влазя в область раскрутки.
Базы документов не знаю, а вот поиск документов похожиз по содержанию есть в SearchInform и для тестировки хватит даже free версии у которой единственное ограничение -- индексит не более 1 гига. Ну а платные версии легко и полтера могут проиндексить.
Смотрите www.searchinform.ru
www.searchinform.ru и посмотрите конкретно вот этот раздел про SearchInform Internet server
http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html
Если вы хотите разрабатывать сами, а не использовать готовые (к примеру наши) решения, то я пас -- консультациями не занимаюсь. А если у Вас цель решить задачу вертикального поисковика и есть бюджет проекта, то велкам -- пишите
leo собака softinform com.
При построении вертикального поисковика, чтобы расчитать и правильно все спроектировать Вы должны иметь хотя бы приблизительные ответы на ряд вопросов. Наиболее критичные из них вот :
- Кол-во индексируемых страниц:
- Объем индексируемой информации
- Количество запросов в час
- Частоту переиндексации
- допустимо ли падение скорости поиска в моменты переиндексации.
Если ответите на эти вопросы то я смогу прмяо в форуме сказать какая конфигурацмя будет нужна.
А вообще проще встретиться лично и визуально.
Встретится со мной легко можно в одном из 2 городов -- Минск, Москва. Если интересует посмотреть и потестить -- тоже велкам -- ставьте сервак в Инет под виндой и мы поможет Вам запустить наш SearchInform Internet Server. Это естественно абсолютно бесплатно. Также абсолютно бесплатно мы просчитываем оптимальную архитекутуру для решения задач и высылаем коммерческое предложение где все расписано, причем не требуем каких либо гарантий.
Зачем? Кому это надо не для чистой науки а для бизнеса как раз и начинают тестить сразу а не базары вести.
Тем кому это реально надо помогает сапорт. Просто боюсь что ты вообще не представляешь себе работу с корпоративным клиентом. Более того для решения конкретных задач обычно все делается по другому.
1) оставляются валидные телефоны и мыла
2) при разговоре с нашим менеджеом очерчивается круг задач, на базе которого наши спциалситы расчитывают сколько надло железа и нашиз лицензий для успешного решения поставленных задач.
3) Отсылается коммерческое предложение
4) согласуется стоимость (при больших объемах естественно идут скидки)
5) Только если потенциального заказчика устраивает в принципе цена он выделит человека который должен будет протестить.
Вариация вторая что тестит технологические партнер который это будет продвигать конечным заказчикам. Но он тоже прежде всего обратится к саппорту и выяснит что и как и обязательно оговорит условия что он будет иметь от продвижения, прежде чем начать тестить.
ты уж извини l4ngl3y но в бизнесе люди очень время ценят........
l4ngl3y а можно озвучить чем ты занимаешься и какой бизнес имеешь? Мне просто очень любопытно все ли я правильно о тебе предсказал.
И успехов тебе в чистой науке и разговорах о жизни :)
Время которое стоит достаточно дорого....... Я же сказал что я занимаюсь не наукой а бизнесом. И если хочешь потестить -- велкам -- тебе дадут ключ и т.д. А потом вот в форуме и опишешь с научной точки зрения. Слабо?
А просто базарить -- сорри времени нет. Тем более я уверен что тестить ты не будешь -- так как те кто хотел уже начали тестить а не базарить, то есть своим постом я цели достиг.
Ага мы вообще рандомом выдаем результат :) Какой ответ такой и вопрос.
Кстати а с Maxime вы не близнецы-братья? Просто у вас обоих большая любовь к букве "E". Типа
- пеар
- кретерий
Или сие новое слово в науке? :)
Ладно все уважаемый -- будет желание тестить пиши -- я же далее на посты про кретерии и пеар но без конкретики отвечать не буду :)
Алгоритмы никто никому рассказывать не будем. А протестить -- велкам -- более того поможем установить на ваш выделенный сервак на хостинг площадке.
Требования к серваку :
- не менее 2 гиг памяти
- windows