- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
я извиняюсь, конечно, Вы abstract-то читали?
Все замечательно в том числе и новые ссылки, но вопрос: где готовый софт который можнго потестить? Теория, это все хорошо, но где сие работает на практике. А то вот мы тоже патент на поиск похожих получили еще пару лет назал а технологии которые пощупать можно появились только сейчас и в отличии от нашегот патента которыцй описывает очень общие вещи -- практическая математика как раз и дает хороший результат.
Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.
Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется. Для статичной базы можно вообще один раз все просчитать и все -- это неинтересно.......
Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?
Интересны в первую очередь если мы говорим не об исключении дублей как раз не совсем одлниаковые а похожие по тематике.
Судя по всему Вы говорите о статической базе которая не пополняется -- а я все время говорю о реальной прикладной системе которая активно пополняется.
Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно. Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто. Я могу сказать, даже в силу моего слабого представления, что индексы, используемые, скажем, в Яндексе, далеко не исчерпываются словарем слов документов с инвертированными списками, используемыми при простом фразовом поиске.
Точно также я бы поступил и с Вашей задачей быстрого поиска похожих. Построил характеристики документов, разложил бы на элементы, построил для них индексы (естественно, обновляемые при пополнении). Предполагаю, Вы сделали нечто подобное.
Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно.
Что имеется ввиду под предобработкой? Если индексация данных то естественно она идет, но более никакой предобработки.
Если интересует скорость то в той версии что выложена это 2 гига систых текстов в час, а в новой версии (оптимизированная математика) будет скорость индексации 5-6 гиг чистых текстов в часю При обновлении документов естественно обновляется и индекс.
Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто.
Индекс конечно же строится, но не для предопределенных запрсов а для любых.
"В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие." - ну такое у меня есть. Алгоритм работает поверх Яндекса (тестировался Рамблер, Мета, Гугл частично), позволяет находить дубликаты и похожие документы (после дубликатов). В связи с переделкой сайта сейчас не работает, если надо, поправлю и открою. В этом нет ничего настолько принципиального. Алгоритм основан на анализе частот и сможных параметров. Создавался в рамках одного проекта, потом попробовали на инет-поиске, работает, хоть и с оговорками. Интересует - пишите в личку.