Maxime

Рейтинг
65
Регистрация
29.03.2003
Как писал Sergeant Perecz
Это верно только для search.cgi или распространяется на PHP extensions тоже?

Не знаю, если php extensions CGI-запрос разбирают при помощи библиоткеки mnogosearch, то да, а если сами, то не известно.

Есть почтовые рассылки ru@mnogosearch.org и php@mnogosearh.org - их девелоперы наверняка читают. См. http://www.mnogosearch.org/list.html

Как писал LakeDaemon
Можно попробовать более позднюю версию: 3.2.10 работает вроде вполне устойчиво (во всяком случае, у меня), 3.2.12 не пробовал.

Для 3.2.10 и более ранних версий есть эксплоит, дающий возможность выполнения команд через дырку в search.cgi, правда работающий только под Linux, но всё равно лучше проапгрейдиться.

Версия 3.1.х не поддерживается, там правятся только баги, связанные с безопасностью. Поэтому лучше использовать версию 3.2.х, да и документация на 3.2 намного лучше и есть на русском (входит в дистрибутив)

1. здесь скорее всего дело не в mnogosearch, а в команде HTDBDoc, которая в любом случае возвращает ответ HTTP 200 вне зависимости от присутствия документа в базе.

2. Эт не проблема mnogosearch, вернее не совсем его. При выполнении команды HTDBList высасывается весь ответ сервера, а его выполение зависит от системы, хватит ли у неё ресурсов переварить такой ответ. Хотя возможно ещё на это влияет максимально возможный размер документа, по-моему в 3.1. он может изменяться только с перекомпиляцией.

3. чего нет, того нет.

В любом случае, советую пропробовать 3.2

Как писал melkov
Maxime, тут есть одна небольшая проблемка:

...

К сожалению, как этого избежать, пока не понятно.

Ровно так же как с meta keywords, meta description и прочая, куда всякий пишет кто во что горазд. Поэтому усилия надо направить на правку мозгов роботу, а не вебмастерам :) - сдаётся мне что эта идея с Host: мертворождённая...

Более-менее какую-либо защиту можно обеспечить только введя отдельный mirrors.txt (по аналогии с robots.txt), в котором описывать все возможные зеркала и требованием его идентичности на всех зеркалах.

Кстати, а с чего решено, что именно без проверки ? У меня об это ни гу-гу...

Как писал iseg
2. Как писал Саша, поисковая система не в состоянии в общем случае понять какое имя владелец сайт хочет видеть в качестве основного. То есть автоматический процесс каноникализации имени хоста всегда происходит с ошибками.

Мы пытались "научить" мастеров выдавать разный robots.txt для разных имен хостов и рекомендовали в неканонических случаях запрещать весь сайт от корня.

Однако по самым разным причинам это принесло больше вреда, чем пользы.

Отсюда предложение: использовать нестандартное расширения формата с целью указания канонического имени хоста.

3. Очевидно, директива Host в контексте термина Disallow (сразу после него) и, вообще, в контексте "запретительного" файла robots.txt не очень понятна.

Возможно нужно переименовать эту директиву в AllowHost или AllowOnlyHost или в CanonicalHostName или еще как-то.

Илья

Тогда намного логичнее директивой Host указывать каноническое имя веб сервера, в том виде, как его хочет видеть вебмастер. Это решит проблемы 2 и 3, да и позволит роботу автоматом конвертировать все линки в кононическое представление и сразу определять дупликаты.

mnogosearch и aspseek не требуют каких-либо заточек для работы с русским языком. Обе неплохо справляются с 1-1.5 млн. проиндексированных страниц. Хотя предел скорее всего зависит от железа :)

mnogosearch писан на С, aspseek на С++ - может это позволит сделать выбор.

Документацию на русском по mnoGoSearch можно найти на:

http://sochi.net.ru/~maxime/doc/mnogosearch/index-ru.html

А описание cache mode даётся на:

http://sochi.net.ru/~maxime/doc/mnogosearch/msearch-ru-cachemode.html

Всего: 237