Попробуйте более старую версию mnogosearch, которая тоже пошустрее новой работала - Поисковые технологии

ht://Dig vs. AspSeek vs. mnogoSearch

Sergey Petrenko · 2003-01-31T14:27:56.0000000Z

Кратким просмотром информации по поисковым решениям, указанным в сабже, удовлетвориться сложно. Все они позволяют индексировать http, все подключают ispell, можно использовать unicode, aspseek даже считает собственный вариант PageRank и позволяет использовать его в поиске. Вопрос в следующем - какие из перечисленных решений, по субъективному мнению присутствующих, лучше именно с точки зрения индексации большого количества страниц и поиска на русском языке?

128

Evg

23 ноября 2004, 20:23

#11

Судя по тому что читал из всех перечисленных самый мощный. А вообще надо поставить и протестить :)

libarea.ru ( https://libarea.ru/ )

107

mnt

26 ноября 2004, 03:09

#12

опыт использования, тестирования

cache mode, поиск c морфологией по >1 миллиона страниц.

индексация круглосуточная, каждые 30 минут по 10-1000 документов. из-за специфики сайта.

Сразу скажу, тестировал почти год для себя, поэтому подбирал всё по максиму добротное.

1. mnogosearch, cache mode.

в mnogosearch отказались от использования cache mode, поэтому использовал более старую версию с cache mode. Версию полностью использующую sql, не рекомендую никому использовать для больших сайтов - очень очень очень медленная.

результаты с cache mode:

очень медленная индексация, большая загрузка процессора, медленный поиск, очень и очень много глюков.

одновременно искать и индексировать в cache mode НЕЛЬЗЯ, вылазиет куча глюков.

2. dpsearch, cache mode.

пошустрее mnogosearch, глюков по меньше, но все равно много. большой минус - при выпуске очередной версии она может легко оказаться не со вместимой с более старой версией :)

идексация сравнимая с mnogosearch => медленная, одновременно искать и индексировать НЕЛЬЗЯ, вылазиет куча глюков как и в mnogosearch. Поиск побыстрее mnogosearch.

3. aspseek - с одной строны продукт больше не поддерживается, но с другой - этот продукт меня очень и очень порадовал, хотя ему уже несколько ЛЕТ!

на нём я и остановился.

скорость индексации выше чем у dpsearch и mnogosearch в 5-10 раз!, загрузка процессора минимальна!!!!

ОДНОВРЕМЕННО С ИНДЕКСАЦИЕЙ МОЖНО ПРОИЗВОДИТЬ ПОИСК. Есть много приятных фич, которых нет у dpsearch и тем более у mnogosearch.

Поиск превзошёл все ожидания, сейчас в базе > 1000000 документов, поиск занимает от ~0,001 до ~0,05 сек. в среднем. Такого не удавалось добиться ни с mnogosearch ни с datapark search, они просто загружали своей работой всю систему, без того загружаемую пользователями.

Кроме того, aspseek работает очень стабильно, с июня месяца поиск ни разу не вылетел, не завис - вообщем я доволен.

Насчет кода, mnogosearch написан, как и dataparksearch на C, код очень громозкий, не удобно что-либо исправлять, приходится напрягаться :)

aspseek написан на c++, код очень и очень приятный, понятный - сказка, что-либо исправлять под себя одно удовольствие. Всё таки классы это есть классы.

один минус компилится только с gcc 2.95.4 (x?)

дорого куплю ссылки с хороших жирных русскоязычных авто сайтов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

26 ноября 2004, 04:08

#13

Интересно, это какие фичи в aspseek ? У меня сложилось впечатление, что фич как раз таки в mnogoseaerch и dpsearch поболее будет. aspseek как раз по фичам на уровне старой версии mnogosearch, которая тоже пошустрее новой работала.

У apseek есмть еще один недостаток: без напильника будет работать только в Линуксе, да и то не на каждом...

Насчет несовместимости новых версий dpsearch - было один раз, но предлогалась процедура конвертации старой базы в новую. И поиск и индексация у меня идут одновременно, и всё работает без глюков...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

107

mnt

26 ноября 2004, 05:10

#14

Как писал Zute
Интересно, это какие фичи в aspseek ? У меня сложилось впечатление, что фич как раз таки в mnogoseaerch и dpsearch поболее будет. aspseek как раз по фичам на уровне старой версии mnogosearch, которая тоже пошустрее новой работала.

У apseek есмть еще один недостаток: без напильника будет работать только в Линуксе, да и то не на каждом...

Насчет несовместимости новых версий dpsearch - было один раз, но предлогалась процедура конвертации старой базы в новую. И поиск и индексация у меня идут одновременно, и всё работает без глюков...

я говорю с чем имел дело не один месяц и при очень инсивном использовании, это же касается и фич.

Насчет компиляции aspseek это всего один недостаток, который с лихвой окупается скоростью работы.

Если у Вас всё в порядке с dpsearch - ну считайте, что вам повезло и Вы ничего не заметили. Я его интенсивно экплуатировал в течении нескольких месяцев на нескольких сайтах - многих глюков в его работе натерпелся.

Как говорил автор dpsearch попробуйте новую версии - но в новой версии новые глюки и так из месяца в месяц. 😡

p.s. с aspseek я сплю спокойно 😂

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

A

196

absolut

26 ноября 2004, 10:07

#15

Полностью согласен. Я тестировал aspseek на 2 млн страниц на слабой машине (Celeron 1.4Ghz, 512Mb). До миллиона документов поиск проходил за 1 секунду максимум, при чем одновременно можно было делать около 10 запросов. Когда стало 2 млн, то поиск проходил за 1-15 сек. Думаю, если было бы 1Gb памяти, то поиск укладывался в 1 секунду.

Одно плохо - там нет ссылочного ранжирования.

андроид ТВ (http://qway.com.ua/android_tv) и экшн камеры (qway.com.ua/action-cameras) в Украине.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

128

Evg

26 ноября 2004, 10:32

#16

ИМХО, в последнее время DataparkSearch, MnogoSearch достаточно продвинулись вперед.

По стабильности работы между этими движками особой разницы не вижу. Однако по скорости поиска, в больших объемах индекса, следует признать, что пока aspseek впереди.

>Одно плохо - там нет ссылочного ранжирования.

А что вы под этим подразумеваете?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

26 ноября 2004, 11:04

#17

Как писал absolut
. Когда стало 2 млн, то поиск проходил за 1-15 сек. Думаю, если было бы 1Gb памяти, то поиск укладывался в 1 секунду.
Одно плохо - там нет ссылочного ранжирования.

Хотя память для aspseek и важна, при росте базы в один момент может перестеть работать обновление из-за нехватки этой самой памяти. На скорость больше влияет скорость винта и его загруженность, (чем больше памяти, тем лучше кэширование дисковых операций :) это же верно и для mnogosearch с dpsearch, хотя последний много чего может держать в памяти в предзагруженом состоянии, чтобы нагрузка на винт сильно не сказывалась.

Тестом для aspseek может быть поиск по слову (двум-трём :), наиболее часто встречающемуся на большинстве серверов, например, таким словом может быть слово "google" при поиске на dmoz.org.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

26 ноября 2004, 11:20

#18

Как писал mnt

я говорю с чем имел дело не один месяц и при очень инсивном использовании, это же касается и фич.

А назвать эти фичи можете ?

Например, mnogosearch dpsearch умеют сортировать результаты по релевантности, дате, популярности, важности, mnogosearch еще умеет сортировать по заданой секции документа.

в mnogosearch и dpsearch можно использовать регулярные выражения для вырезания той или иной части документа (для индексации или отдельного хранения).

с помощью dpsearch можно индексировать rss фиды, чтобы уменьшить трафик по ежедневному поиску обновлений сайта.

Что такого есть в aspseek ?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

107

mnt

27 ноября 2004, 03:00

#19

Как писал Zute

А назвать эти фичи можете ?

Например, mnogosearch dpsearch умеют сортировать результаты по релевантности, дате, популярности, важности, mnogosearch еще умеет сортировать по заданой секции документа.

в mnogosearch и dpsearch можно использовать регулярные выражения для вырезания той или иной части документа (для индексации или отдельного хранения).

с помощью dpsearch можно индексировать rss фиды, чтобы уменьшить трафик по ежедневному поиску обновлений сайта.

Что такого есть в aspseek ?

ну смотря что ты понимаешь под фичами 😂

Ты у Максима (dpsearch) поинтерисуйся зачем он понахлабучил "релевантности, дате, популярности, важности", когда нужно только "релевантность и дату". т.е. зачем он релевантность разбил на "релевантности, популярности, важности". Зачем-то отделяется ранг документа на основе контента/ссылок от ранга документа на основе интересов пользователя (когда они тыкают по ссылкам). Кстати, у dpsearch в cache mode ссылки то не учитываются ;).

Все остальные фичи легко реализуются через врапер.

Я фичи прежде всего отношу к тем штукам, которые влияют на поиск в более глобальном смысле, например поиск по шаблону, настройки влиящие очень сильно на скорость индексации, у aspseek всё более гибко настраивается.

вообщем, если тебе придется настраивать поиск на большом, огрооомном сайте с кучей страниц, не поленись и сравни dpsearch и aspseek. ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

27 ноября 2004, 10:40

#20

Как писал mnt

ну смотря что ты понимаешь под фичами 😂

Хм, насколько я помню, это именно ты заявил, что aspseek превосходит всех фичами. Так я слушаю, какими ?

Как писал mnt

Кстати, у dpsearch в cache mode ссылки то не учитываются ;).

По-моему, это религиозное заблуждение, всё прекрасно работает. Эта фича никак не связана с используемым методом хранения, ни в dpsearch, но в mnogosearch...

Как писал mnt

.... настройки влиящие очень сильно на скорость индексации, у aspseek всё более гибко настраивается.

Например, какие настройки и чего ?

Как писал mnt

вообщем, если тебе придется настраивать поиск на большом, огрооомном сайте с кучей страниц, не поленись и сравни dpsearch и aspseek. ;)

Угу, а ты попробуй на большом числе огромных сайтов с индексацией вглубь, т.е. не по 10-100 страниц с каждого, а скажем по 5-10 тыс...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, если ваша email-рассылка попала в спам

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

ht://Dig vs. AspSeek vs. mnogoSearch