- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d
Вот же ж странно, какая тема в технологиях не всплывёт, там itman уже понаотвечал :d
Было бы странно, если бы я отвечал всегда в духе: попробуйте яндекс-сервер, или яндекс-сервер это умеет. что в документации это не написано? ну дык он все равно умеет, недокументированная фича.
PS: бренд яндекс-сервер заменить на любой по вкусу
Если вы что-то не дочитали, то это не становится недокуентированным. Перечитайте описание команды DBAddr:
Команда DBAddr является описание хранилища данных в URL-подобном стиле. ... Может быть задано несколько хранилищ данных.
если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.
если я невнимательно прочитал, то, разумеется, приношу свои извинения, но дело не в этом, а в том, что настоящее распределенное индексирование ни многосёрч, ни датапарк не дают. собственно это и хотел сказать.
то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:
Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |
Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |
Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?
то есть нормальная распределенная индексация не светит 😕 Проводил тесты многосерча на след. конфигурации - P4 3.0 Prescott, 1 Gb RAM, IDE HDD 7200 Maxtor 8 Mb Cache. Имеем следующие результаты:
Записей в базе: 800 000 | 2 000 000 | 2 400 000 | 2 800 000 | 3 000 000 | 3 500 000 | 6 500 000 | 9 500 000 |
Время выполнения запроса: 0.100 | 0.150 | 0.200 | 0.250 | 0.350 | 0.500 | 0.700 | 0.950 |
Это результат индексации 4 порталов общим обьемом 56 000 страниц (если правильное поле смотрел). В перспективе индексация всего адресного пространства локальной сети вида 10.*.*.* плюс все ресурсы, хостящиеся у провайдера. Может подскажете, какие имеются варианты увеличения производительности, кроме разнесения поискового интерфейса и базы на разные машины, SCSI+RAID и смены базы на Oracle?
Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)
к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.
Подождите, а записей в базе, это именно в blob-mode? А 56000 тысяч HTML-страниц? Вы в блоб-моде индексируете? По поводу перехода на оракл: есть подозрение, что все только замедлится. По поводу распределенной индексации: вроде что-то натч умеет на эту тему, НО Я НЕ ПРОВЕРЯЛ :-)
к тому же индекс цитирования может, Вам, и не нужен и вполне хватит мерджа результатов с нескольких машин. Кстати, натч (nutch) насколько я понимаю достаточно шустро работает.
1. Это я тестил только в multi-mode. До блоба руки не дошли.
2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)
3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)
1. Это я тестил только в multi-mode. До блоба руки не дошли.
2. 56 000 - это, видимо, кол-во линков которые он обошел. Ну учитывая, что страницы генерят пхп скрипты, можно сказать что это было 56000 хтмлок =)
3. Натч попробовать можно, но только есть некоторые проблемы с полигоном для тестирования, ибо он на яве, а я с ней не очень дружу да и софт переставлять придется =)
Про мульти-моду был тут недавно флейм на тему хорошего представления данных в базе. Просто если все разложить "по-правильному" в реляционные таблицы, то общая эффективность будет невелика. Наибольшая скорость должна быть в cache-mode и ее аналогах.
Так вас именно распределённая индексация интересует, или распределённый поисковик ? Распределённая индексация поддерживается и mnogosearch и dataparksearch, в смысле можно запустить краулер-индексатор на нескольких машинах и всё будет сливаться в базу на одной машине.
http://www.searchinform.com/site/ru/index.htm
Если ищете не бесплатное, то данное решение будет для вас оптимальным