AlexA

Рейтинг
70
Регистрация
16.04.2001
Должность
корпорация Галактика
Интересы
Поисковые системы
Первоначальное сообщение от Vyacheslav Tikhonov

Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?
Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.

О чем тут спорить? Повторюсь, что есть неплохая идея алгоритма. Черт, как всегда, прячется в деталях.

В данном случае ясно, что со словосочетаниями ситуация сложнее (их нужно "вытягивать", усложняя алгоритм). Правда, остается еще, как минимум, задачка, как отделить эти словосочетания от простых "существительных", для которых алгоритм работает.


Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.

Так мы же говорим о достаточно длинном запросе, в котором ранжируем слова "по важности" для определения релевантных документов. Т.е. предполагается, что в запросе информация явно в избытке.

Чтобы далеко не ходить за примером, можно чуть изменить предыдущую фразу "чистая вода внтри водопровода".

Согласно данному алгоритму мы наибольший вес присваиваем словам, которые встречаются наименьшее количество раз. Очепятки как раз и являются примером таких слов, вообще говоря, они ничем не хуже "нормальных", но неизвестных словарю русского языка (aka Зализняку, академическому или расширенному) слов. Часто и документов с такими словами достаточно, если опечатка типичная, хотя в данном случае это и не так важно. Важно, что они малочастотны и неважны (а часто вредны) для смысла запроса.

Так что закон, работающий с обычными словами, должен работать и с опечатками.

Идея алгоритма хороша (думаю, что поисковики работают примерно так), но, как всегда, ее нужно доводить.

Вот пример:

чистая вода в водопроводе

чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,

релевантных документов наверху достаточно.

удалим самые частотные "в", "вода"

остается чистый водопровод и релевантные документы практически исчезают.

Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.

Другое соображение:

слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.

Значит, правило изменения веса слов должно носить не вполне монотонный характер.

Первоначальное сообщение от euhenio

-но ведь это "ассоциации" не по запросам, а по текстам страниц. Скорее так можно определить просто наиболее конкурентные словосочетания. Хотя они, конечно, и могут являтся наиболее спрашиваемыми...

Конечно, это не полный инструментарий. Нужно добавить статистику по запросам и получится то, что требуется. А вот это уже надо самим.

Первоначальное сообщение от funsad
Воссоздание множеств тоже довольно интересно. Например, оно прекрасно отработало на списке танцев, неплохо справилось с президентами США (хотя, при задании разных президентов, были сбои с уклоном в сторону автомобилей, видимо, из-за Форда и Линкольна), хорошо поработало со списком языков программирования и даже одолело список извращений, временами украшая его лишь клептоманией и борьбой (спорт есть такой).

Посмотрел лаборатории.

Меня, по роду деятельности, больше всего заинтересовало "Воссоздание Множеств".

Судя по результатам, продукт основан на нейросети (семантической).

Работает неплохо.

Доля критики - ограниченность словаря.

Так, например, Кафельникова, Сафина, Хьюитта, Сампраса он знает, а Агасси - нет.

Плохо знает и Бен Ладена вместе с Бушем, а отдельно - знает довольно хорошо Bin Laden

В целом - понравилось.

Кстати, насколько я понял, этот инструмент может помочь в формировании списка ключевых терминов для создания хороших целевых страниц.

Для начала, мне кажется, можно познакомиться с несколькими топиками в этом форуме, где затрагивалась данная тема.

Например:

<A HREF="" TARGET=_blank>

Список, понятно, неполный.

[This message has been edited by AlexA (edited 26-04-2002).]

Originally posted by spark:

и некоторые из этих применений не так безобидны, как засыпание почтовых ящиков спамом, увы.

Это верно, подобных применений гипотетического метода тоже хватает (многое из арсенала Большого Брата). И адресная рассылка спама - одно из самых безобидных (хотя абсолютно адресный спам - уже не спам, не так ли?).

Но это все фантазии на тему скатерти-самобранки.

spark

по фоносемантике можно поговорить отдельно.


сама идея кажется убогой: Скажи мне, что ты ищешь, и я скажу, кто ты.

Неплохая, сама по себе, идея (так же, как идея о телепортации). Естественно, неоригинальная (сам пару-тройку лет назад подобным баловался). Неплохо было бы выдавать на один запрос (напр. "мыло") домохозяйке одну информацию, а сисадмину - другую. А еще лучше даже одному юзеру утром - одно, а вечером другое.

Да применений-то - масса.

Другое дело, как это сделать.

И чтобы дальше обсуждать, нужен хотя бы пример результата работы методики.

Т.е. давайте постановку задачи, методику проведения эксперимента, результаты, доказательство масштабируемости (см. funsad).

Может, наличие/отсутствие этих вещей и есть критерий отбраковывания мусора?

ewspam


2 Gray: Ок. Раз Вы у нас судья и президент, умываю руки.


Но зачем тогда вообще об этом говорить. Пусть говорят те, у кого есть что сказать.


Если Вам она не подходит вообще, т.е. в корне, ничего не надо писать.


Тогда зачем писать в этот пост.

И т.д.

Уважаемый ewspam, так кто же у нас рты затыкает?


&gt; стоит ли принимать к обсуждению "голые" идеи, где нет ни &gt; макета, ни даже примера. Вы назвали идеи "голыми", ок. Но это не значит, что они "голые" для всех. Например, для меня основная суть понятна.

Суть мне тоже понятна. Так же, как суть идеи левитации.

Но нужен метод, как это сделать.

Ну хотя бы какой-то результат, чтобы можно было обсуждать дальше.

Как излагать, см. funsad


описываете постановку задачи, методику проведения эксперимента, результаты, доказательство масштабируемости.

Или вы, ewspam, с этим не согласны?


тут о фоносемантике и ваале незлым тихим словом упомянули. По-моему это размахивание шаманским бубном перед доверчивым заказчиком. Это слово белое и пушистое, а это - фиолетовое и продолговатое.

Мне кажется, что есть и в фоносемантике определенная доля смысла.

Другое дело, как использовать этот метод. На мой взгляд, то, что делает Шалак и Ко, это попытка сделать из довольно узкой методики панацею. Т.е. лечение аспирином аппендицита.

Конечно, и проблем в самом методе здесь хватает. Например, слово ХРАМ метод относит к неприемлемым (аналоги - ХРЕН, ХРЫЧ, ХРАП).

Но это - понятные издержки.

Опять же повторюсь, в основном, здесь проблема определения области применения.

Без точного попадания получается справедливой вышеприведенная spark оценка.

Всего: 166