Punto.ru открылся раздел нечеткого поиска

Ashmanov
На сайте с 21.11.2000
Offline
66
#41

Originally posted by itman:
[ В смысле стандартный русский вордовый спеллер вы делали? (Это так, любопытство)
-------------
Скорее, мета-лингвистика, с ударами в бубен :-)). Кто впереди планеты всей: гугл, а в основу движка, если верить авторским статьям, заложены далеко не супер-идеи, а, скорее, идеи, основанные на здравом смысле.
Что ж, здравый смысл победил, да здравствует здравый смысл. Матлингвистика же, пока, увы отдыхает.

Да, стандартную проверку правописания для русского, а также тезаурус, переносы и стилистический корректор в Ворде делал я, будучи руководителем разработок в Информатике в 1991-1994 годах.

Насчёт того, что матлингвистика отдыхает - это просто непросвещённое мнение. Гугл не впереди планеты всей. Сейчас в мире поднимается новое поколение поисковиков круче Гугла. Он прогремят в наступающем году. У Гугла просто маркетинг хороший и связи.

У нас Яндекс весной/летом 2001 далеко обогнал Гугл по релевантности на русском пространстве (там, где можно сравнивать), а Апорт всегда был лучше по точности, не применяя только соображений "здравого смысла", а применяя прикладную лингвистику. И правильно делают. Поиск в Гугле в основном ориентируется на мнения вебмастеров друг о друге, а в Яндексе/Рамблере/Апорте - в основном на содержание, то ориентируется есть на пользователя. Это независимые векторы.

Там, где Гугл не может хорошо определить популярность ресурса среди вебмастеров и нужно искать по содержанию, он ищет просто отвратительно, поскольку индексный поиск у него так себе. А ещё поищите "похожие документы" в Гугле и вы увидите просто идиотские результаты.

А с матлингвистикой (прикладной лингвистикой)вы просто впрямую ещё не сталкивались, а если придётся заниматься поиском серьёзно, столкнётесь и ужаснётесь. Покажется, что ничего нельзя сделать с приемлемым качеством.

В прикладной лингвистике ситуация фрактальная - каждая маленькая проблемка на самом деле размером со все остальные - то есть бесконечна. Это касается выделения слов, опеределения конца предложения, транслитерации, исправления опечаток - даже таких мелочей. Если делать по-хорошему, уйдёт вся жизнь.

Про поиск, перевод я уж не говорю.

А вообще Пунто пока - студенческие упражнения, причём в старом стиле. За задор и устремлённость его разработчиков можно уважать, но я призываю смотреть дальше проблем текущего месяца.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
MD
На сайте с 27.05.2001
Offline
5
#42

Originally posted by spark:
А можно простому юзеру вставить свои пять копеек в эту битву железных канцлеров?

Классический пример из мери шелли "Поэма спеллчекера"

Не найдено в словаре пидоров
Заменить на сидоров

Не найдено в словаре минетчиков
Заменить на минометчиков.

Наконец-то я узнал, кто выступал основным соавтором этой поэммы в 1991-95 годах Большое спасибо.

Список рекомендованной литературы: http://www.net.cl.spb.ru/cetera/manifest.htm

Когда бьются титаны - юзера отдыхают за чтением манифеста =)

С уважением,Mashiah Davidson
Ashmanov
На сайте с 21.11.2000
Offline
66
#43

Originally posted by spark:
Не найдено в словаре минетчиков
Заменить на минометчиков.

Наконец-то я узнал, кто выступал основным соавтором этой поэммы в 1991-95 годах Большое спасибо.

Справедливости ради нужно сказать, что я тут НЕ выступал соавтором "поэммы". И ОРФО в составе Word - тоже. По той простой причине, что метрика нашей замены опечаток не позволяет заменить "минетчиков" на "минометчиков" - проверьте сами.

Это типичный случай высасывания из пальца якобы смешных якобы ошибок якобы программы.

Думаю, делается это обычно из лучших побуждений - для смеха.

Чаще всего для этого берут результаты плохого машинного перевода и слегка их подредактируют, чтоб ещё смешнее было.

Но тут-то я знаю, как оно работает. И всякий может проверить.

А смешливым людям всё равно над чем смеяться, палец покажи - надорвут животики. Ну и хорошо.

[This message has been edited by Ashmanov (edited 05-01-2002).]

B
На сайте с 19.05.2001
Offline
37
#44

Уважаемый Игорь! Спасибо что вступились за "нечеткий поиск". Кстати посмотрели манифест безграмотности обработали его AfterScan'ом все искусственные, намеренные ошибки вылезли сразу. У нас, вообще, есть коллекция смешных вариантов предлагаемых спелчекером на замену. Вот несколько:

Военно-Полевой=Военно-Половой

Волжско-Камская=Волжско-Хамская

Вич-Инфекцию=Кич-Инфекцию

джаз-бэндами=джаз-бандами

Засулич=Засучил

Жар-Птица=Жир-Птица

Курочка-Ряба=Курочка-Раба

народно-поэтическом=народно-неэтическом

рок-певцов=рои-певцов

почил в бозе=почил в бесе

spark
На сайте с 24.01.2001
Offline
130
#45

Originally posted by Ashmanov:

Это типичный случай высасывания из пальца якобы смешных якобы ошибок якобы программы.
Думаю, делается это обычно из лучших побуждений - для смеха.
Чаще всего для этого берут результаты плохого машинного перевода и слегка их подредактируют, чтоб ещё смешнее было.
Но тут-то я знаю, как оно работает. И всякий может проверить.

А смешливым людям всё равно над чем смеяться, палец покажи - надорвут животики. Ну и хорошо.


[This message has been edited by Ashmanov (edited 05-01-2002).]

Значит вы такого плохого мнения о профессиональных юмористах? Хочу вам напомнить, что пальцев (если не разувшись) - всего десять, и все они уже осмеиваются со времен аристофана. Хорошо, вы не были в соавторах, но вдохновили кого-то из Мэри Шелли (их там человек десять по-моему под одним ником) на новый жанр человеко-машинного творчества. По моему, музой быть еще более почетно и приятно, чем соавтором

Всяческих вам успехов и непредвиденных "побочных эффектов" от этих самых успехов.

I
На сайте с 26.05.2001
Offline
64
#46

Послушайте, уважаемый spark, но зачем же так злобствовать по поводу worda? В основу проверки офографии этой программы легли идеи десятилетней давности, если не двадцатилетней, уже давно все поняли, что можно делать по-другому, но ведь суть не в этом. Ну и что, что word предлагает много маловероятных вариантов замен, в том числе с разбиением слова пробелом/тире итд? Ведь он же только ПРЕДЛАГАЕТ. зато если Вы а на о спутаете он же ведь правильный вариант тоже ведь предложит? Значит пользоваться можно? А фишечки-то и идеальное качество дорого стоит, никто в него бабки просто вбухивать не будет, тем более, что людей, которые действительно ПОКУПАЮТ ворд в России немного.

Originally posted by spark:
Значит вы такого плохого мнения о профессиональных юмористах? Хочу вам напомнить, что пальцев (если не разувшись) - всего десять, и все они уже осмеиваются со времен аристофана. Хорошо, вы не были в соавторах, но вдохновили кого-то из Мэри Шелли (их там человек десять по-моему под одним ником) на новый жанр человеко-машинного творчества. По моему, музой быть еще более почетно и приятно, чем соавтором
Всяческих вам успехов и непредвиденных "побочных эффектов" от этих самых успехов.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#47

Originally posted by spark:
Значит вы такого плохого мнения о профессиональных юмористах? Хочу вам напомнить, что пальцев (если не разувшись) - всего десять, и все они уже осмеиваются со времен аристофана. Хорошо, вы не были в соавторах, но вдохновили кого-то из Мэри Шелли (их там человек десять по-моему под одним ником) на новый жанр человеко-машинного творчества. По моему, музой быть еще более почетно и приятно, чем соавтором
Всяческих вам успехов и непредвиденных "побочных эффектов" от этих самых успехов.

Spark, ну, вообще-то, Игорь сейчас сейчас вполне может довольно язвительно ответить и будет прав - критиковать всегда легче, тем более технологию изначально не очень четкую. Так что, в дальнейшем рекомендую воздержаться от подобного тона.

spark
На сайте с 24.01.2001
Offline
130
#48

Уважаемый Грей (Грэй?). С готовностью следую вашей рекомендации и даже готов принести свои извинения Игорю Ашманову, если его так же как и Вас задел мой тон. Но прошу, однако, уважаемого Итмана не проецировать на меня свои собственные эмоции, в частности "злобствование". Вы забыли, что я, как заявлено выше, юзер, и просто не знаю, сколькилетней давности эта программа, более того, услышал о ее несовершенствах первый раз от Вас двумя постами выше.

В любом случае, злобствование не входит в диапазон моих переживаний от общения с программистами. Обычно это: непонимание, удивление или восхищение. В отношении И.Ашманова скорее последнее. Более того, я мечтаю о том времени, когда школьные диктанты будут сдаваться учителю исключительно в формате МС Ворд.

AG
На сайте с 24.01.2002
Offline
1
#49

Раньше по треду видел две идеи применения "нечеткого поиска":

1. Для поиска лекарства по неполному/частичному названию

2. Для поиска химического соединения по тому же самому.

Это ни в какие ворота не лезет (практически никогда), поскольку вероятность летального исхода из-за того, что перепутались

1. кофеин/кодеин

2. аммония хлорид/хлорат

слишком велика.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий