Что такое cache mode? - Поисковые технологии - Практические вопросы оптимизации

Тематическая поисковая система (до 1000 сайтов) - как делать?

vrom · 2026-07-01T11:07:41.0000000Z

Вопрос: Как лучше делать англоязычную тематическую поисковую машину, совмещенную с каталогом ресурсов и баннерокрутилкой? Предполагаемые параметры: 1000 сайтов (можно считать 100 стараниц в среднем, типичная обновляемость сайтов - раз в 2-4 недели или даже реже). Посещаемость проекта 500-3000 в день (на первом этапе) - сколько хитов затрудняюсь сказать. Сейчас есть выделенный сервер (P4 1Gb RAM, 80 GB, Linux FC2) Уже поставил mnogosearch, phpadsnew. CMS будет TYPO3 (потому что в основном с ней работаю, главную страницу и страницу поиска естественно сделаю вне TYPO3) Больше всего смущает mnogosearch, опыта с ним у меня мало. Может быть, стоит использовать http://www.dataparksearch.org/ ? Естественно, рассматривается задача подружить каталог и поисковую машину (индексировать сайты из каталога). Заранее благодарю за ответы!

I

64

itman

23 декабря 2005, 22:08

#51

Кстати, вопрос к знатокам dpSearh. Скачал версию, посмотрел create.txt практически то же, что и у mnogosearch. Но сайт http://www.43n39e.ru powered by dataparksearch пытается убедить, что у него есть опция поиска по близости!!!!! итак, следственный эксперимент. запрос test на первое место попадает сайт со словами drinking water подряд. ищем теперь по запросу Drinking Water и видим, что обманывают нас граждане насчет координатного поиска. Кстати, а если возможность настроить dpsearch чтобы он точные вхождения учитывал с большим весом. то, что это не сделано по дефолту наводит на грустные мысли.

PS: пардон не все тут так просто, там есть разные настройки по чему сортировать, использовать ли формы или нет, но все равно ранжирует ИМХО как-то не шибко хорошо.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

23 декабря 2005, 22:12

#52

о, ну странно, я ненароком подумал, что эта кеше мода, когда сначала дампится в SQL, а потом уже в блоб. ну значит я неправ. ну а алгоритм ранжирования всегда малость подкрутить можно. см, кстати, предыдущий пост. ну а по части устанавливаемости и надежности тут слов нет, видимо, продукт добротный. и главное, что не заброшенный как аспсик. и поддержка разных языков оч хорошая.

vrom:
Не смотрел
http://lucene.apache.org/nutch/
Он на java (а я с java не знаком) и сделан не русскими (то есть возможны проблемы с кодировками).
И суппорт за $50 в мес. не получишь :)
Это две причины, третья - я еще несколько лет назад ставил mnogoseach на портале Грамота.Ру - быстро встал и заработал на shared хостинге! - качество поиска конечно под вопросом... но работал и до сих пор работает.
Дык есть же вроде:
http://www.mnogosearch.org/doc/msearch-howstore.html#sql-stor
Storage mode - blob
If "blob" is selected, words are located in a single table of structure (word, secno, intag), where intag is a binary array of coordinates. All word appearances for the current section are grouped into a single binary array. This mode is highly optimized for search, indexing is not supported. You should index your data with "multi" mode and then run "indexer -Eblob" to convert "multi" tables into "blob". Note: this mode work only with MySQL for now, but will be extended to work with other databases in the future.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

23 декабря 2005, 22:27

#53

itman:
Но сайт http://www.43n39e.ru powered by dataparksearch пытается убедить, что у него есть опция поиска по близости!!!!! итак, следственный эксперимент. запрос test на первое место попадает сайт со словами drinking water подряд. ищем теперь по запросу Drinking Water и видим, что обманывают нас граждане насчет координатного поиска.

В чём вас обманывают-то ? Хотели поиска по близости, так для первого результата в тексте слова Drinking и Water стоят рядом в одном месте. Где же тут дурят ? Что вы собственно хотели получить ?

Z

32

Zute

23 декабря 2005, 22:29

#54

itman:
но изначально все равно все в БД кладется?

Для cache mode использутся и sql и свой индекс, причём при поиске sql-сервер не используется.

I

64

itman

24 декабря 2005, 07:56

#55

Zute:
В чём вас обманывают-то ? Хотели поиска по близости, так для первого результата в тексте слова Drinking и Water стоят рядом в одном месте. Где же тут дурят ? Что вы собственно хотели получить ?

сорри, посмотрел внимательно, действительно не обманывают. просто сниппет плохой выдают.

348

MaulNet

25 декабря 2005, 12:34

#56

Недавно сама в голову пришла такая мысль. Хотелось бы знать, за сколько (естественно, примерно) $ такое могут реализовать.

128

Evg

25 декабря 2005, 16:25

#57

>сделан не русскими (то есть возможны проблемы с кодировками).

Проблем не будет там utf :)

А вот прикручивать морфологию и править скрипт это язык знать. Все же 50 мегов кода в архиве. Однако скрипт на данный момент самый мощный.

Учитывая, что подобный скрипт в одиночку написать практичестки нереал (надо просто знать сколько вбухано в данный скрипт денег и кто его пишет...), то думаю на данный момент лучшей выбор.

http://www.i2r.ru/static/334/out_20657.shtml

Однако повозиться придется. Это скрипт другого уровня чем датасердс, много... и aspseek.

Скажем так, если aspseek трехпрограмник, то Nutch комп. корабля шатла. Это так сравнение :)

"Вожусь" с данным скриптом более года.

См.

http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system

http://www.nabble.com/Nutch-f362.html

Демо на русском могу скинуть в личку.

libarea.ru ( https://libarea.ru/ )

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

84

vrom

25 декабря 2005, 19:05

#58

Недавно сама в голову пришла такая мысль. Хотелось бы знать, за сколько (естественно, примерно) $ такое могут реализовать.

Вы имеете в виду вот это?

-------------------

Этот сервис включает в себя законченное решение

- сайт на TYPO3 (www.typo3.org) - тоже кстати GPL

с каталогом сайтов

- mnogoseach установленный и настроенный и прикрученный к этому каталогу

- установку этого всего на сервере и полный комплекс пусконаладочных работ

- дизайн если требуется...

- ... прочее

GPL это не противоречит... более того - именно так развивается TYPO3.. за счет таких сервисов.

-------------------

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 декабря 2005, 07:26

#59

Кстати, вот еще что вспомнил, пардон что не сразу это было почти 10 лет назад, по поводу датапарка и хранения в базе. У них изначально был некий режим, вполне возможно, что это blob-mode, когда каждый инвертированный список хранился в блобе, так вот есть информация, что тогда были приличные проблемы с фрагментацией блобов. Может в современных версиях mysql-server все обстоит гораздо лучше. Господа, может это кто-нибудь прокомментировать?

А по поводу cache-mode: все-таки это как-то некошерно иметь две версии индекса, одна из которых занимает весьма много места. А много это что-то порядка 4-5 размеров текста.

Zute:
Для cache mode использутся и sql и свой индекс, причём при поиске sql-сервер не используется.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

I

64

itman

26 декабря 2005, 07:57

#60

Вы все-таки малость преувеличиваете масштаб бедствия. :-) Современный поисковик, особенно если в нем не изобретать велосипед, а использовать готовые либы и технологии, вроде iconv, corba и j2se довольно-таки кондовая штука. Вот сейчас посмотрел всего два мега исходного джава кода. Абсолютные пустяки. Все остальное, это уже скомпилированные бинарные jar-файлы. А вот, кстати, о каком скрипте идет речь в Вашем сообщение?

Evg:
>сделан не русскими (то есть возможны проблемы с кодировками).
Проблем не будет там utf :)
А вот прикручивать морфологию и править скрипт это язык знать. Все же 50 мегов кода в архиве. Однако скрипт на данный момент самый мощный.
Учитывая, что подобный скрипт в одиночку написать практичестки нереал (надо просто знать сколько вбухано в данный скрипт денег и кто его пишет...), то думаю на данный момент лучшей выбор.
http://www.i2r.ru/static/334/out_20657.shtml
Однако повозиться придется. Это скрипт другого уровня чем датасердс, много... и aspseek.
Скажем так, если aspseek трехпрограмник, то Nutch комп. корабля шатла. Это так сравнение :)
"Вожусь" с данным скриптом более года.
См.
http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system
http://www.nabble.com/Nutch-f362.html
Демо на русском могу скинуть в личку.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Тематическая поисковая система (до 1000 сайтов) - как делать?