Тематическая поисковая система (до 1000 сайтов) - как делать?

I
На сайте с 26.05.2001
Offline
64
#51

Кстати, вопрос к знатокам dpSearh. Скачал версию, посмотрел create.txt практически то же, что и у mnogosearch. Но сайт http://www.43n39e.ru powered by dataparksearch пытается убедить, что у него есть опция поиска по близости!!!!! итак, следственный эксперимент. запрос test на первое место попадает сайт со словами drinking water подряд. ищем теперь по запросу Drinking Water и видим, что обманывают нас граждане насчет координатного поиска. Кстати, а если возможность настроить dpsearch чтобы он точные вхождения учитывал с большим весом. то, что это не сделано по дефолту наводит на грустные мысли.

PS: пардон не все тут так просто, там есть разные настройки по чему сортировать, использовать ли формы или нет, но все равно ранжирует ИМХО как-то не шибко хорошо.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
I
На сайте с 26.05.2001
Offline
64
#52

о, ну странно, я ненароком подумал, что эта кеше мода, когда сначала дампится в SQL, а потом уже в блоб. ну значит я неправ. ну а алгоритм ранжирования всегда малость подкрутить можно. см, кстати, предыдущий пост. ну а по части устанавливаемости и надежности тут слов нет, видимо, продукт добротный. и главное, что не заброшенный как аспсик. и поддержка разных языков оч хорошая.

vrom:
Не смотрел
http://lucene.apache.org/nutch/
Он на java (а я с java не знаком) и сделан не русскими (то есть возможны проблемы с кодировками).
И суппорт за $50 в мес. не получишь :)
Это две причины, третья - я еще несколько лет назад ставил mnogoseach на портале Грамота.Ру - быстро встал и заработал на shared хостинге! - качество поиска конечно под вопросом... но работал и до сих пор работает.
Дык есть же вроде:
http://www.mnogosearch.org/doc/msearch-howstore.html#sql-stor
Storage mode - blob
If "blob" is selected, words are located in a single table of structure (word, secno, intag), where intag is a binary array of coordinates. All word appearances for the current section are grouped into a single binary array. This mode is highly optimized for search, indexing is not supported. You should index your data with "multi" mode and then run "indexer -Eblob" to convert "multi" tables into "blob". Note: this mode work only with MySQL for now, but will be extended to work with other databases in the future.
Z
На сайте с 03.01.2004
Offline
32
#53
itman:
Но сайт http://www.43n39e.ru powered by dataparksearch пытается убедить, что у него есть опция поиска по близости!!!!! итак, следственный эксперимент. запрос test на первое место попадает сайт со словами drinking water подряд. ищем теперь по запросу Drinking Water и видим, что обманывают нас граждане насчет координатного поиска.

В чём вас обманывают-то ? Хотели поиска по близости, так для первого результата в тексте слова Drinking и Water стоят рядом в одном месте. Где же тут дурят ? Что вы собственно хотели получить ?

Z
На сайте с 03.01.2004
Offline
32
#54
itman:
но изначально все равно все в БД кладется?

Для cache mode использутся и sql и свой индекс, причём при поиске sql-сервер не используется.

I
На сайте с 26.05.2001
Offline
64
#55
Zute:
В чём вас обманывают-то ? Хотели поиска по близости, так для первого результата в тексте слова Drinking и Water стоят рядом в одном месте. Где же тут дурят ? Что вы собственно хотели получить ?

сорри, посмотрел внимательно, действительно не обманывают. просто сниппет плохой выдают.

MaulNet
На сайте с 07.08.2005
Offline
348
#56

Недавно сама в голову пришла такая мысль. Хотелось бы знать, за сколько (естественно, примерно) $ такое могут реализовать.

Evg
На сайте с 12.07.2004
Offline
128
Evg
#57

>сделан не русскими (то есть возможны проблемы с кодировками).

Проблем не будет там utf :)

А вот прикручивать морфологию и править скрипт это язык знать. Все же 50 мегов кода в архиве. Однако скрипт на данный момент самый мощный.

Учитывая, что подобный скрипт в одиночку написать практичестки нереал (надо просто знать сколько вбухано в данный скрипт денег и кто его пишет...), то думаю на данный момент лучшей выбор.

http://www.i2r.ru/static/334/out_20657.shtml

Однако повозиться придется. Это скрипт другого уровня чем датасердс, много... и aspseek.

Скажем так, если aspseek трехпрограмник, то Nutch комп. корабля шатла. Это так сравнение :)

"Вожусь" с данным скриптом более года.

См.

http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system

http://www.nabble.com/Nutch-f362.html

Демо на русском могу скинуть в личку.

libarea.ru ( https://libarea.ru/ )
vrom
На сайте с 15.12.2005
Offline
84
#58
Недавно сама в голову пришла такая мысль. Хотелось бы знать, за сколько (естественно, примерно) $ такое могут реализовать.

Вы имеете в виду вот это?

-------------------

Этот сервис включает в себя законченное решение

- сайт на TYPO3 (www.typo3.org) - тоже кстати GPL

с каталогом сайтов

- mnogoseach установленный и настроенный и прикрученный к этому каталогу

- установку этого всего на сервере и полный комплекс пусконаладочных работ

- дизайн если требуется...

- ... прочее

GPL это не противоречит... более того - именно так развивается TYPO3.. за счет таких сервисов.

-------------------

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)
I
На сайте с 26.05.2001
Offline
64
#59

Кстати, вот еще что вспомнил, пардон что не сразу это было почти 10 лет назад, по поводу датапарка и хранения в базе. У них изначально был некий режим, вполне возможно, что это blob-mode, когда каждый инвертированный список хранился в блобе, так вот есть информация, что тогда были приличные проблемы с фрагментацией блобов. Может в современных версиях mysql-server все обстоит гораздо лучше. Господа, может это кто-нибудь прокомментировать?

А по поводу cache-mode: все-таки это как-то некошерно иметь две версии индекса, одна из которых занимает весьма много места. А много это что-то порядка 4-5 размеров текста.

Zute:
Для cache mode использутся и sql и свой индекс, причём при поиске sql-сервер не используется.
I
На сайте с 26.05.2001
Offline
64
#60

Вы все-таки малость преувеличиваете масштаб бедствия. :-) Современный поисковик, особенно если в нем не изобретать велосипед, а использовать готовые либы и технологии, вроде iconv, corba и j2se довольно-таки кондовая штука. Вот сейчас посмотрел всего два мега исходного джава кода. Абсолютные пустяки. Все остальное, это уже скомпилированные бинарные jar-файлы. А вот, кстати, о каком скрипте идет речь в Вашем сообщение?

Evg:
>сделан не русскими (то есть возможны проблемы с кодировками).
Проблем не будет там utf :)
А вот прикручивать морфологию и править скрипт это язык знать. Все же 50 мегов кода в архиве. Однако скрипт на данный момент самый мощный.
Учитывая, что подобный скрипт в одиночку написать практичестки нереал (надо просто знать сколько вбухано в данный скрипт денег и кто его пишет...), то думаю на данный момент лучшей выбор.
http://www.i2r.ru/static/334/out_20657.shtml
Однако повозиться придется. Это скрипт другого уровня чем датасердс, много... и aspseek.
Скажем так, если aspseek трехпрограмник, то Nutch комп. корабля шатла. Это так сравнение :)
"Вожусь" с данным скриптом более года.
См.
http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system
http://www.nabble.com/Nutch-f362.html
Демо на русском могу скинуть в личку.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий