- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy
Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".
На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy
Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".
Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?
А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю![]()
Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".
Фича, может быть, и полезная - посещаемость раздела покажет.
Два комментария:
1. К нечёткому поиску данная функция имеет только маркетинговое отношение. В чём же тут нечёткость? Это обычный поиск по шаблону (с wildcards).
Нечёткий поиск - нечто совершенно другое, когда вычисляется некая мера смысловой близости текста к запросу при том, что не все слова запроса вообще входят в релевантный текст.
2. Пунто - далеко не первый поисковик, который работает с опечатками, транслитерированием и т.п. Это давно делают Яндекс, Апорт. Смотри также модуль ОРФО в составе Microsoft Office.
Правда, все они сразу же проверяют варианты по словарю, чтобы снизить количество шума.
Другое дело, что поиск именно опечаток в обычном поисковике теоретически неверен и практически вреден, что легко доказать (опечатки статистически незначимы, то есть полноту не повышают, а их поиск создаёт значительный шум, то есть снижает точность).
ИА: 1. К нечёткому поиску данная функция имеет только маркетинговое отношение. В чём же тут нечёткость? Это обычный поиск по шаблону (с wildcards).
Нет Игорь тут Вы не правы. Это не просто поиск по шаблону, мы проверяем не только наличие опечаток или отсутствие букв, но также есть алгоритм проверки на ошибки письменные, слуховые. Ошибки типичные для русского человека при написании иностранных слов.
ИА: 2. Пунто - далеко не первый поисковик, который работает с опечатками, транслитерированием
И тут вынужден вас огорчить! Punto работает с транслитирированием с 10 апреля 2001 года это на месяц раньше чем Яндекс!
Одним из основных назначений нечеткого поиска является определение пользователем вероятности написания слова, когда имеются сомнения. Пример:
грегорианский или григорианский
Еще одно важное применений когда в длинном слове человек помнит начало и конец или только начало. Пример:
дидецилдиметиламмоний
разве Яндекс или Апорт выдадут в виде подсказки - дидецилдиметиламмонийхлорид?
На Punto.ru открылся раздел "нечеткого" поиска http://punto.ru/fuzzy
Это первая российская поисковка использующая алгоритмы "Нечеткого поиска".
Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?
А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю
Нет, в истории мы входить не спешим: просто обычно поисковик использует "маленький" спелл-чекер, то есть словарь спелл-чекера ограничен словами, для которых ивестны их грамматические формы.
Таких слов тысяч 300. Интереснее было бы иметь "большой" спелл-чекер - на весь словарь поисковой машины.
Это на случай, если не знаешь, например название лекарства. Я уже, даже, сам воспользовался. Записал название, а ссылок по нему нашел с гулькин нос. Оказалось, что спутал а с о, или что-то в этом духе. Никакой яндексовский спелл-чекер, разумеется, ничего мне не сказал, потому что его словарь лекарства не включает, а раздел punto - fuzzy помог его найти.
Раздел можно также использовать для поиска наиболее вероятных написаний пришедших к нам зарубежных слов: терминов, названий груп, итд..
Это нужно не часто, но иногда - полезно. А TREC, как несложно видеть, не слишком подходит для РУНЕТА, потому что объем документов большой, и шум от нечеткого поиска велик. А вот если действовать более тонко: то есть "включать" его только для запросов, выдавших малое количество результатов, то можно иногда приятно порадовать пользователя.
Например: ищется какая-то цитата, в которой есть слово "хеширование". Это слово, как известно, в русском каждый пишет, как ему нравится. В результате поиска нашлось мало и не то, потому что на нужной паге слово было хэширование, через э.
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.
Насколько я понял, между поисковым образцом и типом запроса можно выбрать количество n-грамм? То есть при выборе 2 для Запорожье выходят n-grams: за,ап,по,ор,ро,ож,жь,ье?
А созданием чего-либо типа TREC вы случайно не занимаетесь? Точно войдете в историю![]()
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.
По-видимому, у вас с Игорем Ашмановым разные представления о нечетком поиске.
Насколько я помню свой университетский курс по нечеткой логике, нечеткие системы (в моем случае управления) обычно имеют базу знаний и набор правил. На основании этого в зависимости от входов системы определяются выходы системы (то есть примерно то, о чем говорит Ашманов, база знаний позволяет расширять запрос словами, которые в нем не встречаются).
Я немного знаком с работами Зобеля, в частности, с реализацией лексикона в виде n-грамм, но там все довольно просто и нечетскости в таком виде не нашел.
Может быть, дадите понятие нечеткого поиска, если это не слишком затруднительно?
Коллеги, а каким user agent'ом и с каких IPх ходит пунто? А то что-то я ничего подобного не находил в логах сервера... Или они берут индексы у других ботов?
Аналогично и с поиском только части слов запроса и использованием синонимов: пока запрос возвращает тучу документов, то имеет смысл выдавать только документы, содержащие все слов (да еще и в точно тех формах, которые в запросе), а если запрос длинный, да вернул мало, то тут-то и надо его "расширять" различными способами.
По-видимому, у вас с Игорем Ашмановым разные представления о нечетком поиске.
Совсем необязательно. Просто нечеткий поиск нечеткому поиску рознь. В самом общем и абстрактном виде: есть набор документов, есть поисковый шаблон, есть понятие функции близости найденного документа поисковому шаблону.
С точки зрения этого определения ЛЮБАЯ поисковая машина осуществляет нечеткий поиск с ранжированием по функции близости.
А тот раздел, который открылся на сайте подразумевает только поиск по сходству в словаре поисковой машины, то бишь, поиск слов с опечатками, ошибками, и слов неизвестного написания.
В соответствии с определением, пользователь может задавать различные типы поискового шаблона и вводить максимально допустимое количество опечаток.
Кстати, обращаясь к классике, это ближе работам Левенштайна, Юкконена, Манбера и множества других авторов.
В дальнейшем в качестве улучшения качества словарно поиска, опять-таки мы планируем улучшить функцию ранжирования (чтобы, грубо говоря, замена а на о имела меньший вес).
Коллеги, а каким user agent'ом и с каких IPх ходит пунто? А то что-то я ничего подобного не находил в логах сервера... Или они берут индексы у других ботов?
Да мы просто периодически совершаем набеги на серверные яндекса с выгребанием жестких дисков :-)))
С точки зрения этого определения ЛЮБАЯ поисковая машина осуществляет нечеткий поиск с ранжированием по функции близости.
То есть если поисковая машина осуществляет поиск только по одной форме слова, введенной пользователем (а расстояние Левенштайна здесь точно равно нулю
), это тоже нечеткий поиск?