- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Кстати, вопрос к знатокам dpSearh. Скачал версию, посмотрел create.txt практически то же, что и у mnogosearch. Но сайт http://www.43n39e.ru powered by dataparksearch пытается убедить, что у него есть опция поиска по близости!!!!! итак, следственный эксперимент. запрос test на первое место попадает сайт со словами drinking water подряд. ищем теперь по запросу Drinking Water и видим, что обманывают нас граждане насчет координатного поиска. Кстати, а если возможность настроить dpsearch чтобы он точные вхождения учитывал с большим весом. то, что это не сделано по дефолту наводит на грустные мысли.
PS: пардон не все тут так просто, там есть разные настройки по чему сортировать, использовать ли формы или нет, но все равно ранжирует ИМХО как-то не шибко хорошо.
о, ну странно, я ненароком подумал, что эта кеше мода, когда сначала дампится в SQL, а потом уже в блоб. ну значит я неправ. ну а алгоритм ранжирования всегда малость подкрутить можно. см, кстати, предыдущий пост. ну а по части устанавливаемости и надежности тут слов нет, видимо, продукт добротный. и главное, что не заброшенный как аспсик. и поддержка разных языков оч хорошая.
Не смотрел
http://lucene.apache.org/nutch/
Он на java (а я с java не знаком) и сделан не русскими (то есть возможны проблемы с кодировками).
И суппорт за $50 в мес. не получишь :)
Это две причины, третья - я еще несколько лет назад ставил mnogoseach на портале Грамота.Ру - быстро встал и заработал на shared хостинге! - качество поиска конечно под вопросом... но работал и до сих пор работает.
Дык есть же вроде:
http://www.mnogosearch.org/doc/msearch-howstore.html#sql-stor
Storage mode - blob
If "blob" is selected, words are located in a single table of structure (word, secno, intag), where intag is a binary array of coordinates. All word appearances for the current section are grouped into a single binary array. This mode is highly optimized for search, indexing is not supported. You should index your data with "multi" mode and then run "indexer -Eblob" to convert "multi" tables into "blob". Note: this mode work only with MySQL for now, but will be extended to work with other databases in the future.
Но сайт http://www.43n39e.ru powered by dataparksearch пытается убедить, что у него есть опция поиска по близости!!!!! итак, следственный эксперимент. запрос test на первое место попадает сайт со словами drinking water подряд. ищем теперь по запросу Drinking Water и видим, что обманывают нас граждане насчет координатного поиска.
В чём вас обманывают-то ? Хотели поиска по близости, так для первого результата в тексте слова Drinking и Water стоят рядом в одном месте. Где же тут дурят ? Что вы собственно хотели получить ?
но изначально все равно все в БД кладется?
Для cache mode использутся и sql и свой индекс, причём при поиске sql-сервер не используется.
В чём вас обманывают-то ? Хотели поиска по близости, так для первого результата в тексте слова Drinking и Water стоят рядом в одном месте. Где же тут дурят ? Что вы собственно хотели получить ?
сорри, посмотрел внимательно, действительно не обманывают. просто сниппет плохой выдают.
Недавно сама в голову пришла такая мысль. Хотелось бы знать, за сколько (естественно, примерно) $ такое могут реализовать.
>сделан не русскими (то есть возможны проблемы с кодировками).
Проблем не будет там utf :)
А вот прикручивать морфологию и править скрипт это язык знать. Все же 50 мегов кода в архиве. Однако скрипт на данный момент самый мощный.
Учитывая, что подобный скрипт в одиночку написать практичестки нереал (надо просто знать сколько вбухано в данный скрипт денег и кто его пишет...), то думаю на данный момент лучшей выбор.
http://www.i2r.ru/static/334/out_20657.shtml
Однако повозиться придется. Это скрипт другого уровня чем датасердс, много... и aspseek.
Скажем так, если aspseek трехпрограмник, то Nutch комп. корабля шатла. Это так сравнение :)
"Вожусь" с данным скриптом более года.
См.
http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system
http://www.nabble.com/Nutch-f362.html
Демо на русском могу скинуть в личку.
Вы имеете в виду вот это?
-------------------
Этот сервис включает в себя законченное решение
- сайт на TYPO3 (www.typo3.org) - тоже кстати GPL
с каталогом сайтов
- mnogoseach установленный и настроенный и прикрученный к этому каталогу
- установку этого всего на сервере и полный комплекс пусконаладочных работ
- дизайн если требуется...
- ... прочее
GPL это не противоречит... более того - именно так развивается TYPO3.. за счет таких сервисов.
-------------------
Кстати, вот еще что вспомнил, пардон что не сразу это было почти 10 лет назад, по поводу датапарка и хранения в базе. У них изначально был некий режим, вполне возможно, что это blob-mode, когда каждый инвертированный список хранился в блобе, так вот есть информация, что тогда были приличные проблемы с фрагментацией блобов. Может в современных версиях mysql-server все обстоит гораздо лучше. Господа, может это кто-нибудь прокомментировать?
А по поводу cache-mode: все-таки это как-то некошерно иметь две версии индекса, одна из которых занимает весьма много места. А много это что-то порядка 4-5 размеров текста.
Для cache mode использутся и sql и свой индекс, причём при поиске sql-сервер не используется.
Вы все-таки малость преувеличиваете масштаб бедствия. :-) Современный поисковик, особенно если в нем не изобретать велосипед, а использовать готовые либы и технологии, вроде iconv, corba и j2se довольно-таки кондовая штука. Вот сейчас посмотрел всего два мега исходного джава кода. Абсолютные пустяки. Все остальное, это уже скомпилированные бинарные jar-файлы. А вот, кстати, о каком скрипте идет речь в Вашем сообщение?
>сделан не русскими (то есть возможны проблемы с кодировками).
Проблем не будет там utf :)
А вот прикручивать морфологию и править скрипт это язык знать. Все же 50 мегов кода в архиве. Однако скрипт на данный момент самый мощный.
Учитывая, что подобный скрипт в одиночку написать практичестки нереал (надо просто знать сколько вбухано в данный скрипт денег и кто его пишет...), то думаю на данный момент лучшей выбор.
http://www.i2r.ru/static/334/out_20657.shtml
Однако повозиться придется. Это скрипт другого уровня чем датасердс, много... и aspseek.
Скажем так, если aspseek трехпрограмник, то Nutch комп. корабля шатла. Это так сравнение :)
"Вожусь" с данным скриптом более года.
См.
http://wiki.media-style.com/display/nutchDocu/setup+a+map+reduce+multi+box+system
http://www.nabble.com/Nutch-f362.html
Демо на русском могу скинуть в личку.