Тематическая поисковая система (до 1000 сайтов) - как делать?

Z
На сайте с 03.01.2004
Offline
32
#41
Vyacheslav Tikhonov:
Zute, судя по всем вашим сообщениям в этом форуме, вы и есть разработчик dpsearch?

Дажавю, вы это уже спрашивали, нет, с тех пор ответ не поменялся.

VT
На сайте с 27.01.2001
Offline
130
#42
Дажавю, вы это уже спрашивали, нет, с тех пор ответ не поменялся.

Тогда я не совсем понимаю, почему вы везде его пиарите.

Z
На сайте с 03.01.2004
Offline
32
#43
Vyacheslav Tikhonov:
Тогда я не совсем понимаю, почему вы везде его пиарите.

Пиарю?! Похоже у вас странное представление о глаголе пиарить. По мне пиарить - это как раз ваши три ссылки в подписи. А так, я вроде по делу написал, я раньше использовал mnogosearch, от него перешел к dpsearch.

Завязывайте тролить, это уже не смешно...

VT
На сайте с 27.01.2001
Offline
130
#44

Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)

Завязывайте тролить, это уже не смешно

Не стоит его так агрессивно и назойливо продвигать, участники форума уже давно в курсе насчет dpsearch.

P.S. Свою подпись сейчас уберу - это не критично.

Z
На сайте с 03.01.2004
Offline
32
#45
Vyacheslav Tikhonov:
Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)
Не стоит его так агрессивно и назойливо продвигать, участники форума уже давно в курсе насчет dpsearch.

Не странно:

1. Как минимум 1280 страниц, где упоминается Vyacheslav Tikhonov и mywebsearh - и кто здесь пиарит ?

2. а сколько из этих результатов это одни и те же страницы, но с разными идентификаторами сессий в урл - а что вы собственно подсчитали этим ?

С
На сайте с 31.10.2005
Offline
10
#46
Vyacheslav Tikhonov:
Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)

Из них лишь 48 уникальных (не дупов). И многие либо не связаны с рекомендациями Zute данного поисковика, либо содержат несколько поисковых движков (типичный пример).

VT
На сайте с 27.01.2001
Offline
130
#47
Из них лишь 48 уникальных (не дупов)

Ок, оффтопик закрыли.

I
На сайте с 26.05.2001
Offline
64
#48
Zute:
См. dataparksearch, это клон mnogosearch, работает пошустрее, если использовать cache mode, от которого отказались в mnogosearch, и развивается. Есть FreeBSD порт, www/dpsearch

но изначально все равно все в БД кладется?

если да, то это не очень хорошо. то есть это хорошо для специфических порталов, где неприемлема задержка между временем изменением страницы и отображением индекса. но где эти порталы? сейчас все уже давно привыкли и смирились с разрывом между обновлением и индексированием. тем более, если такой разрыв небольшой 1-2 часа вообще никто особо и не заметит.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
I
На сайте с 26.05.2001
Offline
64
#49

Ок, сорри, я действительно не очень понял. Действительно, решения продавать намного выгоднее - это все-таки уникальная разработка. Хотя у меня и есть опыт негатива подобного рода. Я делал года четыре назад софт для одного каталога. Все очень мило было сделано средствами MySQL full text search + PHP + perl с поддержкой русской морфологии и подкруткой релевантности. До 100 тысяч страниц на хорошем железе вполне быстро работало. Очень быстро сделал за смешные деньги можно сказать бесплатно. в результате даже от этого бесплатно мне заплатили половину и продукт не внедрили. А каталог этот ищет до сих пор по вбиваемым руками ключевым словам. Так что востребованность даже такого сервиса дело довольно ненадежное. Хотя, если есть неплохоие заказчикИ, то нужно хвататься за это дело :-)

Ну это была лирика. Теперь давайте посмотрим на последнюю версию многосёрч (3.2.35) собственно таблица индекса:

CREATE TABLE dict (

url_id int(11) DEFAULT '0' NOT NULL,

word varchar(32) DEFAULT '' NOT NULL,

intag int(11) DEFAULT '0' NOT NULL,

KEY url_id (url_id),

KEY word_url (word)

);

легко видеть, что а) слово лежит в индексе (сикоко ж такой индекс места блин будет занимать???? б) в индексе нет координатной информации

я не знаю, может, конечно, они в поле word пихают, но вряд ли, это было бы ламерством каким-то. а координатный индекс вещь ОЧЕНЬ НУЖНАЯ и полезная. если страниц будет 200-300 тысяч некоординатный индекс дает низкую релевантность. цитаты опять-таки не найдешь.

Кстати, а Вы на nutch не смотрели?

vrom:
Сорри, я не четко выразился.
Я не планирую ничего разрабатывать.
Я планирую просто продавать СЕРВИС на основе замечательного GPL-продукта mnogosearch (или какого-то другого).
Этот сервис включает в себя законченное решение
- сайт на TYPO3 (www.typo3.org) - тоже кстати GPL
с каталогом сайтов
- mnogoseach установленный и настроенный и прикрученный к этому каталогу
- установку этого всего на сервере и полный комплекс пусконаладочных работ
- дизайн если требуется...
- ... прочее
GPL это не противоречит... более того - именно так развивается TYPO3.. за счет таких сервисов.
vrom
На сайте с 15.12.2005
Offline
84
#50
Кстати, а Вы на nutch не смотрели?

Не смотрел

http://lucene.apache.org/nutch/

Он на java (а я с java не знаком) и сделан не русскими (то есть возможны проблемы с кодировками).

И суппорт за $50 в мес. не получишь :)

Это две причины, третья - я еще несколько лет назад ставил mnogoseach на одном портале - быстро встал и заработал на shared хостинге! - качество поиска конечно под вопросом... но работал и до сих пор работает.

а координатный индекс вещь ОЧЕНЬ НУЖНАЯ и полезная.

Дык есть же вроде:

http://www.mnogosearch.org/doc/msearch-howstore.html#sql-stor

Storage mode - blob

If "blob" is selected, words are located in a single table of structure (word, secno, intag), where intag is a binary array of coordinates. All word appearances for the current section are grouped into a single binary array. This mode is highly optimized for search, indexing is not supported. You should index your data with "multi" mode and then run "indexer -Eblob" to convert "multi" tables into "blob". Note: this mode work only with MySQL for now, but will be extended to work with other databases in the future.

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий