О чем тут спорить? Повторюсь, что есть неплохая идея алгоритма. Черт, как всегда, прячется в деталях.
В данном случае ясно, что со словосочетаниями ситуация сложнее (их нужно "вытягивать", усложняя алгоритм). Правда, остается еще, как минимум, задачка, как отделить эти словосочетания от простых "существительных", для которых алгоритм работает.
Так мы же говорим о достаточно длинном запросе, в котором ранжируем слова "по важности" для определения релевантных документов. Т.е. предполагается, что в запросе информация явно в избытке.
Чтобы далеко не ходить за примером, можно чуть изменить предыдущую фразу "чистая вода внтри водопровода".
Согласно данному алгоритму мы наибольший вес присваиваем словам, которые встречаются наименьшее количество раз. Очепятки как раз и являются примером таких слов, вообще говоря, они ничем не хуже "нормальных", но неизвестных словарю русского языка (aka Зализняку, академическому или расширенному) слов. Часто и документов с такими словами достаточно, если опечатка типичная, хотя в данном случае это и не так важно. Важно, что они малочастотны и неважны (а часто вредны) для смысла запроса.
Так что закон, работающий с обычными словами, должен работать и с опечатками.
Идея алгоритма хороша (думаю, что поисковики работают примерно так), но, как всегда, ее нужно доводить.
Вот пример:
чистая вода в водопроводе
чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,
релевантных документов наверху достаточно.
удалим самые частотные "в", "вода"
остается чистый водопровод и релевантные документы практически исчезают.
Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.
Другое соображение:
слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.
Значит, правило изменения веса слов должно носить не вполне монотонный характер.
Конечно, это не полный инструментарий. Нужно добавить статистику по запросам и получится то, что требуется. А вот это уже надо самим.
Посмотрел лаборатории.
Меня, по роду деятельности, больше всего заинтересовало "Воссоздание Множеств".
Судя по результатам, продукт основан на нейросети (семантической).
Работает неплохо.
Доля критики - ограниченность словаря.
Так, например, Кафельникова, Сафина, Хьюитта, Сампраса он знает, а Агасси - нет.
Плохо знает и Бен Ладена вместе с Бушем, а отдельно - знает довольно хорошо Bin Laden
В целом - понравилось.
Кстати, насколько я понял, этот инструмент может помочь в формировании списка ключевых терминов для создания хороших целевых страниц.
Для начала, мне кажется, можно познакомиться с несколькими топиками в этом форуме, где затрагивалась данная тема.
Например:
<A HREF="" TARGET=_blank>
Список, понятно, неполный.
[This message has been edited by AlexA (edited 26-04-2002).]
Это верно, подобных применений гипотетического метода тоже хватает (многое из арсенала Большого Брата). И адресная рассылка спама - одно из самых безобидных (хотя абсолютно адресный спам - уже не спам, не так ли?).
Но это все фантазии на тему скатерти-самобранки.
spark
по фоносемантике можно поговорить отдельно.
Неплохая, сама по себе, идея (так же, как идея о телепортации). Естественно, неоригинальная (сам пару-тройку лет назад подобным баловался). Неплохо было бы выдавать на один запрос (напр. "мыло") домохозяйке одну информацию, а сисадмину - другую. А еще лучше даже одному юзеру утром - одно, а вечером другое.
Да применений-то - масса.
Другое дело, как это сделать.
И чтобы дальше обсуждать, нужен хотя бы пример результата работы методики.
Т.е. давайте постановку задачи, методику проведения эксперимента, результаты, доказательство масштабируемости (см. funsad).
Может, наличие/отсутствие этих вещей и есть критерий отбраковывания мусора?
ewspam
И т.д.
Уважаемый ewspam, так кто же у нас рты затыкает?
Суть мне тоже понятна. Так же, как суть идеи левитации.
Но нужен метод, как это сделать.
Ну хотя бы какой-то результат, чтобы можно было обсуждать дальше.
Как излагать, см. funsad
Или вы, ewspam, с этим не согласны?
Мне кажется, что есть и в фоносемантике определенная доля смысла.
Другое дело, как использовать этот метод. На мой взгляд, то, что делает Шалак и Ко, это попытка сделать из довольно узкой методики панацею. Т.е. лечение аспирином аппендицита.
Конечно, и проблем в самом методе здесь хватает. Например, слово ХРАМ метод относит к неприемлемым (аналоги - ХРЕН, ХРЫЧ, ХРАП).
Но это - понятные издержки.
Опять же повторюсь, в основном, здесь проблема определения области применения.
Без точного попадания получается справедливой вышеприведенная spark оценка.