- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Не могу придумать эффективный алгоритм поиска по нескольим словам с учетом релевантности
Исходные данные:
Есть таблица:
wordid, amount, articleid
где amount -- это некоторая норма релевантности слова документу
Задача -- нужно предложить быстрый и нересурсоемкий алгоритм для поиска по нескольким словам
Он должен выдавать документы наиболее релевантные одновременно двум словам а не по отдельности
Наиболее подходящей нормой общей релевантности на мой взгляд является минимум из релевантностей всех слов но подойдет мне кажется и любая мера построенная на выпуклой вверх функции например: log(amount1) + log(amount2) + ... + log(amountN)
Подскажите пожалуйста как это делается по уму???
А то мои алгоритмы очень медленно работают
amount в каких рамках? условия поиска - "и" или "или" ?
например, если amount от 0 до 1 и условие "и", то можно посмотреть amount1*amount2*amount3*...*amountN / (k^N) , где k - некий коэффициент, ...
P.S. для качества лучше "релевантность" по документу от всего запроса, т.е. и растояние между словами считать, а это уже не функция от amountN ...
А зачем еще делить?????
Норм наверное можно придумать множество
Мне интересен сам алгоритм выемки сортировки и прочее
Самый полный набор формул на любой вкус (от любителей теорвера до законченных детерминистов) в книжечке Modern IR.
Она на амазоне недорогая (юзанная от $32, новая - $50).
Перепечатывать формулы влом. Сорри.
Еще раз пофторяю что очень интересен сам алгоритм а не формулы
а по адресу ли?
Не знаю
В других тредах иногда люди косвенно дают понять что вроде как что то понимают в таких алгоритмах
Можно посмотреть Search and Ranking Algorithms for Locating Resources on the World Wide Web, здесь на уровне идеи рассмотрены базовые алгоритмы ранжирования, применяемые в сети.
Поисковые стратегии неплохо описаны в Information Retrieval by C. J. van RIJSBERGEN (книге 1979 года), разделе 5.
Там же можно посмотреть все формулы из теории вероятностей.
А вообще читайте труды Сэлтона.
Слава, а что ты сам думаешь насчет "иерархически соотносящихся ключевых слов" этого ван рийсбергена?
у меня сечас похожая задача крутится. Скажем, я ищу множество документов по предмету, в котором не разбираюсь. Скажем, по экологии. Выборку мне надо корректную сделать на 200к словоупотреблений.
Для меня понятно, что поиск в лоб по "экология" вернет в основном нерелевантные страницы. Нужно искать по этим самым "иерархически соотносящимся терминам". Можно ли их как-либо получить из множества документов, которые выдаются на запрос "экология" без словаря?
Понятно, что нормальный путь - просто взять словарь соответствующий, чем я и занимаюсь. Но можно ли обойтись без него. Если да, то - как?
Вот что дает наш "альтернативный словарям" Зум на запрос "экология". Привожу начало списка слов с весами. Если интересно, могу выслать более полный список слов и словосочетаний.
ОТХОД 16,1
НАУКА 13,2
ЗАГРЯЗНЕНИЕ 12,3
ЭКОЛОГ 11,1
ПРИРОДООХРАННЫЙ 10,9
ОКРУЖАТЬ 10,2
ВЫБРОС 10
НАУЧНЫЙ 8,99
ПРИРОДОПОЛЬЗОВАНИЕ 6,62
ЭКОЛОГИЧЕСКИ 5,88
ВЕЩЕСТВО 4,94
ВРЕДНЫЙ 4,93
РАЗРАБОТКА 4,92
ОЧИСТКА 4,67
ЯДЕРНЫЙ 4,5
ПЕРЕРАБОТКА 4,13
Что Галактика-ЗУМ приличная искалка я помню :)Ей бы базу побольшше наскрести :) Это по подшивке газет поиск был, или по большей базе?
Насчет интереса - интересно, конечно. Хотя вряд ли пригодится, потому как я украинские тексты обрабатываю. И ищу, блин 😡
Хотя может соображу чего-нибудь по аналогии. Буду признателен за тексты.
Кстати, интересно, как зум работает. Это с семантическими расстояниями как-то связано?