- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть (планируется) большая база текстов. крайне большая.
Раньше (очень давно) использовал Sphinx для полноценного морфологического поиска.
На что сейчас стоит обратить внимание.
В частности важный момент, чтобы база постоянно растет (идет парсинг постоянный свежих данных) и перестраивать кеш может быть затратным по времени занятием.
То есть:
имеется сервис, который сканирует(парсит сайты) данных в больших объемах.
Нужно осуществлять быстрый поиск по всей базе (Много-Много документов, данных, Гб) с учетом морфологии. с учетом постоянно поступающей (обработанной пауком) информации.
Или у сфинкса уже можно как-то быстро доделать индекс свежих записей?
Пару лет назад часто встречал статьи по ElasticSearch/Lucene в качестве поискового движка. Но на практике дела с ним не имел, поэтому на ваши вопросы ответить не могу.
Еще какой-то solr есть http://solr-vs-elasticsearch.com/
все эти 3 технологии смотрел.
сфинкс - старый и надежный + оч мало весит.
Они примерно равнозначны. Solar (на секундочку, Apache Solar) - не менее старая и надежная система. Elastic — намного более молодой и активный в развитии, имеет разные плюшки вроде встроенных геозапросов, вероятно для других доменов тоже что-то особенное есть.
Вживую общался с эластиком, чуть меньше года назад: документация могла бы быть и получше, библиотека для PHP урезана и имеет (имела?) баги, статей и примеров тоже не хватает. Это о наболевшем с геозапросами - с текстом серьезных затыков не было, но мы и делали соцсеть, ничего серьезного там не искалось.
Если есть положительный опыт со сфинксом, я бы не стал менять и поискал решение для индексации. Если были шероховатости - я бы пробовал эластик,
много работаем с elasticsearch. правда сами индексируемые поля не такие большие( до 200 символов). настроить можно всё что угодно. простейший способ морфологического поиска - ngram либо fuzziness.
fuzziness - поиск с "ашипками"
ngram - разбивает слово на блоки по n-символов и ищет по базе где встречается наибольшее кол-во блоков
библиотека для PHP урезана и имеет (имела?) баги
а зачем там библиотека, если язык запросов эластика - это json?
я блоговый поиск буду делать.
потому объем данных оч большой.
выбор технологий критичен
TF-Studio, прямо сейчас 100 М документов в индексе. общий объём данных 30 ГБ. среднее время запроса 30 мс на этом сервере
Или у сфинкса уже можно как-то быстро доделать индекс свежих записей?
Да. У сфинкса есть дельта-индекс, и его merge с основным индексом на миллион статей занимает порядка минуты на нормальном серваке. Тем более, во время мержа основной индекс остается доступен для запросов.
TF-Studio, прямо сейчас 100 М документов в индексе. общий объём данных 30 ГБ. среднее время запроса 30 мс на этом сервере
128 GB DDR4 ECC RAM - для чего используются?
или в случае сфинкса на что обратить внимание*?
именно на таких же схожих объемах.
128 GB DDR4 ECC RAM - для чего используются?
тут я точно сказать не могу, потому что на том же сервере сейчас 3 примерно одинаковых индекса, из которых только 1 используется. htop показывает ~40 ГБ свободного RAM. запросов в среднем 30 в секунду, в пиках до 200