Завязывайте тролить, это уже не смешно - Поисковые технологии

Тематическая поисковая система (до 1000 сайтов) - как делать?

vrom · 2005-12-17T13:56:38.0000000Z

Вопрос: Как лучше делать англоязычную тематическую поисковую машину, совмещенную с каталогом ресурсов и баннерокрутилкой? Предполагаемые параметры: 1000 сайтов (можно считать 100 стараниц в среднем, типичная обновляемость сайтов - раз в 2-4 недели или даже реже). Посещаемость проекта 500-3000 в день (на первом этапе) - сколько хитов затрудняюсь сказать. Сейчас есть выделенный сервер (P4 1Gb RAM, 80 GB, Linux FC2) Уже поставил mnogosearch, phpadsnew. CMS будет TYPO3 (потому что в основном с ней работаю, главную страницу и страницу поиска естественно сделаю вне TYPO3) Больше всего смущает mnogosearch, опыта с ним у меня мало. Может быть, стоит использовать http://www.dataparksearch.org/ ? Естественно, рассматривается задача подружить каталог и поисковую машину (индексировать сайты из каталога). Заранее благодарю за ответы!

Z

32

Zute

23 декабря 2005, 16:37

#41

Vyacheslav Tikhonov:
Zute, судя по всем вашим сообщениям в этом форуме, вы и есть разработчик dpsearch?

Дажавю, вы это уже спрашивали, нет, с тех пор ответ не поменялся.

VT

130

Vyacheslav Tikhonov

23 декабря 2005, 16:57

#42

Дажавю, вы это уже спрашивали, нет, с тех пор ответ не поменялся.

Тогда я не совсем понимаю, почему вы везде его пиарите.

Z

32

Zute

23 декабря 2005, 17:20

#43

Vyacheslav Tikhonov:
Тогда я не совсем понимаю, почему вы везде его пиарите.

Пиарю?! Похоже у вас странное представление о глаголе пиарить. По мне пиарить - это как раз ваши три ссылки в подписи. А так, я вроде по делу написал, я раньше использовал mnogosearch, от него перешел к dpsearch.

Завязывайте тролить, это уже не смешно...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

23 декабря 2005, 17:32

#44

Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)

Завязывайте тролить, это уже не смешно

Не стоит его так агрессивно и назойливо продвигать, участники форума уже давно в курсе насчет dpsearch.

P.S. Свою подпись сейчас уберу - это не критично.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

23 декабря 2005, 17:48

#45

Vyacheslav Tikhonov:
Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)
Не стоит его так агрессивно и назойливо продвигать, участники форума уже давно в курсе насчет dpsearch.

Не странно:

1. Как минимум 1280 страниц, где упоминается Vyacheslav Tikhonov и mywebsearh - и кто здесь пиарит ?

2. а сколько из этих результатов это одни и те же страницы, но с разными идентификаторами сессий в урл - а что вы собственно подсчитали этим ?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

С

10

Странник

23 декабря 2005, 17:53

#46

Vyacheslav Tikhonov:
Как минимум 108 страниц, где Zute упоминается вместе с dpsearch, выглядят по меньшей мере странно. :)

Из них лишь 48 уникальных (не дупов). И многие либо не связаны с рекомендациями Zute данного поисковика, либо содержат несколько поисковых движков (типичный пример).

VT

130

Vyacheslav Tikhonov

23 декабря 2005, 17:58

#47

Из них лишь 48 уникальных (не дупов)

Ок, оффтопик закрыли.

I

64

itman

23 декабря 2005, 21:21

#48

Zute:
См. dataparksearch, это клон mnogosearch, работает пошустрее, если использовать cache mode, от которого отказались в mnogosearch, и развивается. Есть FreeBSD порт, www/dpsearch

но изначально все равно все в БД кладется?

если да, то это не очень хорошо. то есть это хорошо для специфических порталов, где неприемлема задержка между временем изменением страницы и отображением индекса. но где эти порталы? сейчас все уже давно привыкли и смирились с разрывом между обновлением и индексированием. тем более, если такой разрыв небольшой 1-2 часа вообще никто особо и не заметит.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

Яндекс кобласит Упал доход Апдейты Google могут влиять

I

64

itman

23 декабря 2005, 21:45

#49

Ок, сорри, я действительно не очень понял. Действительно, решения продавать намного выгоднее - это все-таки уникальная разработка. Хотя у меня и есть опыт негатива подобного рода. Я делал года четыре назад софт для одного каталога. Все очень мило было сделано средствами MySQL full text search + PHP + perl с поддержкой русской морфологии и подкруткой релевантности. До 100 тысяч страниц на хорошем железе вполне быстро работало. Очень быстро сделал за смешные деньги можно сказать бесплатно. в результате даже от этого бесплатно мне заплатили половину и продукт не внедрили. А каталог этот ищет до сих пор по вбиваемым руками ключевым словам. Так что востребованность даже такого сервиса дело довольно ненадежное. Хотя, если есть неплохоие заказчикИ, то нужно хвататься за это дело :-)

Ну это была лирика. Теперь давайте посмотрим на последнюю версию многосёрч (3.2.35) собственно таблица индекса:

CREATE TABLE dict (

url_id int(11) DEFAULT '0' NOT NULL,

word varchar(32) DEFAULT '' NOT NULL,

intag int(11) DEFAULT '0' NOT NULL,

KEY url_id (url_id),

KEY word_url (word)

);

легко видеть, что а) слово лежит в индексе (сикоко ж такой индекс места блин будет занимать???? б) в индексе нет координатной информации

я не знаю, может, конечно, они в поле word пихают, но вряд ли, это было бы ламерством каким-то. а координатный индекс вещь ОЧЕНЬ НУЖНАЯ и полезная. если страниц будет 200-300 тысяч некоординатный индекс дает низкую релевантность. цитаты опять-таки не найдешь.

Кстати, а Вы на nutch не смотрели?

vrom:
Сорри, я не четко выразился.
Я не планирую ничего разрабатывать.
Я планирую просто продавать СЕРВИС на основе замечательного GPL-продукта mnogosearch (или какого-то другого).
Этот сервис включает в себя законченное решение
- сайт на TYPO3 (www.typo3.org) - тоже кстати GPL
с каталогом сайтов
- mnogoseach установленный и настроенный и прикрученный к этому каталогу
- установку этого всего на сервере и полный комплекс пусконаладочных работ
- дизайн если требуется...
- ... прочее
GPL это не противоречит... более того - именно так развивается TYPO3.. за счет таких сервисов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

84

vrom

23 декабря 2005, 22:01

#50

Кстати, а Вы на nutch не смотрели?

Не смотрел

http://lucene.apache.org/nutch/

Он на java (а я с java не знаком) и сделан не русскими (то есть возможны проблемы с кодировками).

И суппорт за $50 в мес. не получишь :)

Это две причины, третья - я еще несколько лет назад ставил mnogoseach на одном портале - быстро встал и заработал на shared хостинге! - качество поиска конечно под вопросом... но работал и до сих пор работает.

а координатный индекс вещь ОЧЕНЬ НУЖНАЯ и полезная.

Дык есть же вроде:

http://www.mnogosearch.org/doc/msearch-howstore.html#sql-stor

Storage mode - blob

If "blob" is selected, words are located in a single table of structure (word, secno, intag), where intag is a binary array of coordinates. All word appearances for the current section are grouped into a single binary array. This mode is highly optimized for search, indexing is not supported. You should index your data with "multi" mode and then run "indexer -Eblob" to convert "multi" tables into "blob". Note: this mode work only with MySQL for now, but will be extended to work with other databases in the future.

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Отчет о конференции User

Open AI тестирует память для ChatGPT

Что делать, если ваша email-рассылка попала в спам

Тематическая поисковая система (до 1000 сайтов) - как делать?