itman

Рейтинг
64
Регистрация
26.05.2001
lagif:
itman, Мы с ними не бодаемся: силы не те. :D C Яндексом, скажем, уже понемногу сотрудничаем :)

Я чего-то не понимаю: чтобы зарабатывать на этом деле деньги нужно отбирать аудиторию. Тепмами, превышающими рост интернет-аудитории. То бишь отвлекая пользователей от других поисковиков. Это в моем понимании бодаться. А если не бодаться, то сервис закроется за недостатком финансирования.

Ну, ок, надеемся тогда, что в форуме появится тема: открыт новый украинский поисковик. И, вообще, удачи, она вам очень понадобится. Потому что это нешуточное занятие - бодаться с такими титанами как Гугль и Яндекс.

lagif:
Сейчас нагрузка очень маленькая: около 2000 запросов в день. Боюсь предположить, что будет, когда контора начнет поиск ракручивать... но - тормоза уже чувствуются, даже при том, что http-сервер стоит на другой машине.

Собственно, 40-50 млн. страниц - очень много. Нам не справиться с таким количеством, поэтому глубина прочтения одного сайта у нас пока ограничена (как и количество однотипных динамических страниц).
А URL - он и не скрыт. Просто непопулярен, и мне лично сейчас это очень выгодно :D Будем надеяться, что о поиске вскоре узнают :)

Ну понятно, что это решение для 2-3 запросов в минуту.

Чтобы отвечать на несколько запросов в секунду придется поставить примерно 30 гигов ОЗУ :-)

Мета, на первый взгляд, в несколько раз меньше Яндекса.

Число сайтов не является показательным. С точки зрения yandex.ua в УАнете примерно 40-50 млнов страниц. Запихнуть на один сервер в принципе можно, но будет тормозить, особенно если индексация тоже на том же сервере вертится :-)

lagif:
Vyacheslav Tikhonov, Индекс... скажем так, больше гига... сайтов - сейчас под 60 тыс. (это еще не весь уанет), страниц... примерно раз в 20 больше (когда все утсаканится и индекс будет более полным - можно будет сказать точней). Естественно, контент занимает больше, чем индекс. :)
Сейчас критически не хватает оперативки...

akor, локально - имелся в виду поиск по локальному сайту, а не по Сети или ее сегменту... для таких целей mysql подойдет вряд ли.
pelvis, все верно, но хранить в БД только это - недальновидно, имхо...

Наблюдение: по запросам на первом месте одна порнуха... :(

Ну как можно скрестить крокодила с бегемотом, у них же совершенно разные способы хранения индекса??? Поясните, плз, почему нужно обязательно индексировать многосёрчем?

Djoni:
При индексации MnoGosearch пишет одни и теже слова по одним и тем же URL в БД.. из за этого база разростается супербыстро.. я не понял механиз работы Mnogosearch.. но помоему это не есть оптимально :( Чем больше БД тем длиннее поиск

это в SQL-моде. инвертированный индекс разложен в таблицу с полями url_id, word_id или с полями url_id, word в новых версиях. разумеется неоптимально и подходит только для маленьких баз. Об этом и весь разговор. А в datapark и aspseek список вхождений каждого слова хранится как блоб или занимает последовательный кусок файла.

сорри, но это я не смотрел. в Яндекс.сервер, уверен, алгоритм сделан хорошо :)

POLL:
Понятно, ну так если сравнивать поиск на htdig & aspseek - где алгоритм реализован лучше (результат выдачи соответствует строке запроса)?

Просто надо сказать большое спасибо разработчикам gcc 2.95, собственно из-за которых код и стал настолько стандартным. А также разработчикам GNU в целом за нетредсейфную реализацию строк. Тут все дело в том, что к моменту появления более свежих версии gcc проект "разбежался"

А насчет постановки Яндекс.сервера. Не пробовал, но слышал отзывы, точнее стоны.

POLL:
Я имел в виду Яndex.Server Standart (5100 руб; под Sun Solaris 9 и выше)


Не, проблемы там не в этом. Основные траблы в самих старых прогах (в данном случае в aspseek). Что такое правильный синтаксис c++ они видать не знают. Править, как бы готовые исходники - по мойму это бред.
Я столько прог перекомпилил на sunos, преодолел кучу трабл...
Но с таким, чтоб надо было в готовых исходниках копаться/ковыряться сталкиваюсь впервые :-) это не опенсорс 🙅

не уверен опять-таки, что за 500 баксов - это будет поисковка под солярку. под солярку вроде как все достаточно дорого, хотя быть может я и ошибаюсь.

А какие проблемы с 10-ой соляркой? она, вроде как достаточно стандартная и всякие там новомодные функции вроде snprintf и прочая там есть. основные проблемы там должны быть с версией компилятора и mysql api. если честно, то я думаю, что это возможно, но бесплатно я бы заниматься этим не стал.

POLL:
Все может быть :-) ,
но вы уверены что смогете его скомпилить под 10 солярой и желательно компилить не gcc, а сс.

свой падчик небось написали?
к тому же, за 500 баксов можно и покруче поисковую системку поставить. так что ваше предложение - "не в тему" 🚬

спорим на 500 баксов, что я его соберу под 5пятый mysql и он даже заработает? 😎

Всего: 444