Разрабатывается тематический поисковик - нужен тех. консультант

12
S
На сайте с 23.03.2004
Offline
89
3211

Всем, здравствуйте.

Так сложилось, что передо мной сейчас стоит задача разработки отраслевой поисковой системы, предположительно довольно крупной. Сейчас нахожусь на стадии выбора разработчика.

Нужен технический консультант с серьезным опытом в этой области, который поможет выбрать оптимальную архитектуру для этой системы и избежать подводных камней при разработке.

За консультации (через Skype), естественно, готов платить.

Если вы можете оказать такую услугу, или знаете того, кто может - пожалуйста, обращайтесь в личку.

Студентам-теоретикам просьба не беспокоиться. Нужны практики.

snoopckuu
На сайте с 26.02.2006
Offline
34
#1

shad, готов даже встретиться, так как вижу что Вы из Минска. :)

Контакты в профиле.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
A
На сайте с 16.05.2007
Offline
19
#2

Возможность использовать сервис по созданию тематических поисков (такой, как наш flexum.ru) а не изобретать велосипед самостоятельно Вы не рассматриваете?

S
На сайте с 23.03.2004
Offline
89
#3

Нет, спасибо.

Нужен жестко-параметризуемый поиск со своим crawler'ом.

PS: приглашение к сотрудничеству в силе.

L
На сайте с 02.05.2004
Offline
35
#4
shad:
Всем, здравствуйте.
Так сложилось, что передо мной сейчас стоит задача разработки отраслевой поисковой системы, предположительно довольно крупной. Сейчас нахожусь на стадии выбора разработчика.
.

www.searchinform.ru и посмотрите конкретно вот этот раздел про SearchInform Internet server

http://www.searchinform.ru/main/full-text-search-internet-solutions-products-internet-server.html

shad:

Нужен технический консультант с серьезным опытом в этой области, который поможет выбрать оптимальную архитектуру для этой системы и избежать подводных камней при разработке.
За консультации (через Skype), естественно, готов платить.

Если вы хотите разрабатывать сами, а не использовать готовые (к примеру наши) решения, то я пас -- консультациями не занимаюсь. А если у Вас цель решить задачу вертикального поисковика и есть бюджет проекта, то велкам -- пишите

leo собака softinform com.

При построении вертикального поисковика, чтобы расчитать и правильно все спроектировать Вы должны иметь хотя бы приблизительные ответы на ряд вопросов. Наиболее критичные из них вот :

- Кол-во индексируемых страниц:

- Объем индексируемой информации

- Количество запросов в час

- Частоту переиндексации

- допустимо ли падение скорости поиска в моменты переиндексации.

Если ответите на эти вопросы то я смогу прмяо в форуме сказать какая конфигурацмя будет нужна.

А вообще проще встретиться лично и визуально.

Встретится со мной легко можно в одном из 2 городов -- Минск, Москва. Если интересует посмотреть и потестить -- тоже велкам -- ставьте сервак в Инет под виндой и мы поможет Вам запустить наш SearchInform Internet Server. Это естественно абсолютно бесплатно. Также абсолютно бесплатно мы просчитываем оптимальную архитекутуру для решения задач и высылаем коммерческое предложение где все расписано, причем не требуем каких либо гарантий.

Leo www.searchinform.ru (www.searchinform.ru)
S
На сайте с 23.03.2004
Offline
89
#5
Leom:
- Кол-во индексируемых страниц:
- Объем индексируемой информации
- Количество запросов в час
- Частоту переиндексации
- допустимо ли падение скорости поиска в моменты переиндексации.

- 5-10 миллионов документов

- сохраняется для каждого документа: 1 Кб текста + 5-10 Кб на изображение

- первый год - незначительное (думаю, в часы пик не более 10000 в час).

- 2-3 месяца

- все зависит от величины падения - скорость должна оставаться приемлимой для web-сервиса

Только судя по ссылке вы мне похоже опять предлагаете полнотекстовый поиск по web-страницам. В моем случае речь идет о сборе информации, приведении ее к нужной форме, и только затем о параметризуемом поиске (со своими нюансами).

Универсальные решения для web-поиска здесь не подойдут.

L
На сайте с 02.05.2004
Offline
35
#6
shad:
- 5-10 миллионов документов

Это 1 сервак.

shad:

- сохраняется для каждого документа: 1 Кб текста + 5-10 Кб на изображение

Изображение без разницы. 1 кб -- значит текста всего 10 гиг. Все верно?

shad:

- первый год - незначительное (думаю, в часы пик не более 10000 в час).

Если всего 10 гиг текста то опять таки это 1 сервак справится, правда сразу нужно ставить сервак с сервером кэширования и в идеале чтобы сервер кэширования стоял на отдельной машине. Сервер кэширования будет 1 даже когда начнем наращивать число серваков.

shad:

- 2-3 месяца

Так много?

shad:


- все зависит от величины падения - скорость должна оставаться приемлимой для web-сервиса

Если на одном серваке будет идти индексирование и поиск то при этом поиск на уникальные запросы (которые еще не разу не задавались упадет очень серьезно. Но если всего то 10 гиг надо качнуть то это не более 2 часов при нормальном канале с учетом скоростей работы нашего краулера и порядка 1 часа на индексирование. Если цикл такой большой переиндексации (раз в 2 месяца) то можно откачивать по расписанию в то время когда минимальная нагрузка по небольгим кусочкам и их переиндексировать, тогда падения никто не заметит.

То есть результат совсем недорогой получается

10К сервер индексирования бех ограничений объема

10К сервер кэширования -- без него 10К запросов в час отрабатываться не будут. А вернее запросы то без проблем но вот если на каждый запрос надо строить еще и 1000 саммари а это уже 10 млн саммари, то без сервера кэширования нереально

9К -коннектор 10 млн документов

ИТОГО = 29К

Внедрение, настройка и поддержка в течении года бесплатны.

shad:

Только судя по ссылке вы мне похоже опять предлагаете полнотекстовый поиск по web-страницам. В моем случае речь идет о сборе информации, приведении ее к нужной форме, и только затем о параметризуемом поиске (со своими нюансами).
Универсальные решения для web-поиска здесь не подойдут.

У нас уже сейчас несколько запросов на такую кастомизацию, только от одной компании условия покруче на порядок -- 30 млн документов, 70 гиг текста и отработка для начала 15К запросов в час а в перспективе 70К запросов в час.

Инет сервер наш это ядро, которое имеет некоторое АПИ и вокруг которого уже строятся кастомизированные системы. Естественно кастомизация за доп деньги, если сумма лицензий не столь велика ( в данном случае сумма лицензий не очень большая). При сумме же лицензий свыше 100К кастомизация часто делается вообще бесплатно.

Shad вот для примера что хочет чтобы мы закастомизировали один из клиентов -- там запрос максимальный на 4 страницы -- приводить не буду, но есть типа операторы в запросе

- в документе есть первое “слово”, но нет второго

- в абзаце есть первое “слово”, но нет второго

- в документе есть оба “слова” расстояние между ними не более n слов

- в документе есть первое “слово”, около не встречается второе в радиусе n слов

- алгебраические запросы

- “(акции <2 ВТБ) <20 риск”

Текст удовлетворяет запросу, если в нем найдутся вхождения указанных слов так, что

1) между “акция” и “ВТБ” расстояние не больше 2

2) от одного из них до “риск” расстояние не больше 20

- “(фото <20 видео) <2 техника”

Текст удовлетворяет запросу, если в тексте найдутся вхождения “фото”, “видео” и два (возможно совпадающие) вхождения слова “техника” так, что:

1) “фото” и “техника”(1) на расстоянии не больше 2

2) “фото” и “техника”(2) на расстоянии не больше 2

3) Расстояние между группами (1) и (2) не больше 20

Т.е., эквивалентный запрос “(фото <2 техника) <20 (видео <2 техника)

- и еще много другого -- там спецификация которая сейчас обсуждается ну очень не слабая.

В принципе все это можно реализовать поставив коробочное решение и дергать через АПИ его функции. Честно скажем в ядре есть на данный момент далеко не все чтобы поддержать такие вот сложные запросы. Для этого если договоримся о цене и будет производиться тюниг ядра для конкретного клиента.

Но в любом случае Shad -- это будет намного дешевле и быстрей чем пытаться самим делать разработку -- я в технологиях полнотекстового поиска уже более 10 лет и однозначно скажу что если делать с нуля то первая версия будет никакая. Вернее она будет работать но на малых объемах и медленно.

shad:

. В моем случае речь идет о сборе информации, приведении ее к нужной форме, и только затем о параметризуемом поиске (со своими нюансами).

Расскажите подробней что понимаете под приведением к нужной форме -- если морфологию то она есть у любой нормальной поисковой системы.

И параметризуемый поиск с вашими нюансами это что? Я смотрю тендения пошла в СНГ на сложные поиски для аналитики :) Если не захотите сюда -=- скиньте в личку

leo собака softinform точка com

Мне в любом случае интересно проанализировать что вам надо и сможем ли мы вообще такое. Естественно это будет бесплатно для Вас. И коль вы в Минске то думаю абсолютног бесплатно смогу дать по телефону какие то полезные советы по тому что вам делать с ващими сложными запросами :)

vitali_y
На сайте с 23.05.2007
Offline
33
#7

shad, я то же из Минска - www.stopka.us - мой проект - если думаешь что могу быть полезен - обращайся.

_wind_
На сайте с 24.07.2006
Offline
110
#8
shad:
- 5-10 миллионов документов
- сохраняется для каждого документа: 1 Кб текста + 5-10 Кб на изображение
- первый год - незначительное (думаю, в часы пик не более 10000 в час).
- 2-3 месяца
- все зависит от величины падения - скорость должна оставаться приемлимой для web-сервиса

Только судя по ссылке вы мне похоже опять предлагаете полнотекстовый поиск по web-страницам. В моем случае речь идет о сборе информации, приведении ее к нужной форме, и только затем о параметризуемом поиске (со своими нюансами).
Универсальные решения для web-поиска здесь не подойдут.

Вот реализовал http://mobiprice.ru <- тематический поисковик по мобильникам (новым и бу). Если интересно, стучи в аську 66220115.

Сдать/снять квартиру без посредников (http://to-rent.ru), Доход для вебмастера (http://www.sape.ru/r.1cc08e9f90.php), Продам WMZ/WMR за телебанк с доплатой 1%
К
На сайте с 24.08.2007
Offline
8
#9

Да, пошли тематические поисковики

www.agropoisk.ru

www.oil-prom.ru

здорово...

TT
На сайте с 21.09.2007
Offline
0
#10

Много их уже

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий