- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Мой вопрос адресован в частности Игорю Ашманову.
Я посмотрел некоторые темы на этом форуме и невольно пришёл в выводу, что коммерческие системы достигли своего апогея развития в области лингвистики (по крайней мере, встречались цитаты представителей Yandex-а). К тому же Игорь сказал, в одном из споров, что использование тезаурусов и тому подобных семантических анализов в сетевых ИПС нерентабельно, да и в принципе даже вредно. Буду новичком в этой области, я не могу поспорить с "титанами". Но у меня другой вопрос.
С одной стороны ясно: координатный поиск, умная морфология, статистика, учёт структуры и гиперсвязей. Рост объёма массива документов приводит к тому, что на многие запросы выдаются сотни тысяч ответов, и именно расширять запрос пользователю уже не хочется.
С другой стороны, этот громадный объём документов позволяет с большей вероятностью найти наиболее релевантный документ по довольно детальному запросу (подготовленный пользователь может многое найти с помощью "тупого" к русскому языку Google), то есть найти как раз нужную информацию (а не документ в общем смысле).
В одной из статей И.Ашманов (например, "Информация и знания: невидимая грань") упоминает о такой возможности, как реализация системы поиска фактов из больших массивов или корпусов (там был термин "окно фактов").
Теперь собственно вопрос: кто-нибудь этим серьёзно занимается, или это пока "удел академических кругов"?
Что ждёт поисковые системы в будущем?
Будут ли они интегрированы с фактологическими (не документальными) системами прямого ответа на вопрос?
Мне, конечно, сложно судить, но, возможно, мое мнение кому-то покажется интересным :)
Похоже, что многие понимают, что поисковые системы в том виде, в котором они сейчас существуют, уже явно изжили себя. Основная проблема тут даже не в том, что объем Сети огромен, а в том, что поисковики не умеют выделять новую информацию из общего потока документов, не говоря уже о том, чтобы каким-то образом ее структурировать.
Достаточно посмотреть поисковую выдачу любой поисковой системы - здесь перемешаны документы разных годов, разных тематик, часто дублирующие друг друга или уже давно утратившие актуальность. Причем пользователям приходится каждый раз, чертыхаясь, ее разгребать.
Поэтому очевидно, что менять нужно сам подход, а не алгоритмы определения формальной релевантности. Мы же, к сожалению, пока видим только соперничество искалок в духе кто больше выкачает. И никого не интересует, что 95% выкачанной информации - просто мусор или повторы.
А ведь нужная информация сама должна находить человека, причем всегда доставляться своевременно и оперативно. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - мониторинговые системы.
В таких системах пользователю нужно будет лишь определить свой круг интересов и машина будет исправно снабжать его нужной информацией.
Надо сюда Ашманова затащить, но он, видимо, отдыхает где-то. Думаю, впрочем, что он выскажется примерно в том же духе.
Помоему выделить новую информацию не так уж и сложно.
необходимо только ввести функцию "искать в найденном"
где можно будет задавать параметры даты индексации документа.
Вообще мысль хорошая, мусора действительно много стало.
А представляете сколько его лет через 5 будет ? Ужас.
:(
необходимо только ввести функцию "искать в найденном"
где можно будет задавать параметры даты индексации документа.
К сожалению, это не совсем так. Дата индексации документа совершенно ничего не говорит о том, когда этот документ был создан, а показывает лишь дату обнаружения этого документа поисковиком. Это хорошо заметно, например, если подписаться на новые документы в Яндексе - часто он индексирует устаревшие документы, появившиеся несколько лет назад, но до которых только дошел его робот. Поэтому типичные поисковые системы здесь мало чем помогут.
Вот я появился. Был в Крыму, в Лисьей бухте.
Да, поиск новой информации - это одно дело. Важное.
Поиск сущностей больших, чем слова - другое.
Немного основных понятий общей теории всего:
Спор в соседнем топике про то, использовать ли SQL-базы для поисковых машин, как ни странно, не касается основного отличия SQL-баз от текстовых искалок. Видимо, потому, что БД узко понимают как место хранения чего-то там.
БД сделаны для аналитической работы с цифрами. В этом они сильны, для них написан толстый слой аналитики, гиперкубов и так далее. Если данные уже переведены в цифры, дальше их можно вывернуть наизнанку и напечатать на цветном принтере форматом А0 для представления начальству.
Но текст - это не цифры. Фактически, граница между текстом и цифрой ещё не преодолена. Вообще, конечно, тот факт, что Яндекс переводит текст в набор координат вхождений слов - и есть де-факто переход этой границы. Как только вместо линейной последовательности слов у нас появляется массив чисел (номера лексем с координатами), мы можем дальше навернуть любую аналитику.
Правда, Яндекс, по причине объёмов и нагрузок, делает только простейшие вычисления близости и плотности слов и т.п.
То есть яндексовский переход сакраментальной границы - скорее партизанский набег. С Гуглом ситуация примерно такая же. И те и другие ещё применяют соображения относительно структуры гипертекста (индексы цитирования), но это специфично для Интернета, так что пока об этом забудем.
А теперь представим себе, что:
а) в системе нет жёстких ограничений по времени и нагрузке,
б) в тексте обнаруживаются не просто слова, а объекты - персоны, даты, географические объекты, должности, посты и позиции, организации и фирмы, номера ГНИ, телефонов, авто, оружия и так далее, и тому подобное.
в) в БД заносятся цифровые данные о вхождениях объектов (координаты в тексте, включая даты документов).
Таким образом, из "аналогового" текста получаем цифры совместной встречаемости объектов.
Цифровой Рубикон перейдён.
Теперь достаточно применить те самые гиперкубы OLAP, чтобы получить генерацию сколько угодно глубинных отчётов о связях между объектами. В отличие от простейших соображений Яндекса/Рамблера о связях между словами в тексте получаем заключения о связях субъектов и объектов реального мира. Обязательна, конечно, временная координата.
"Тот самый господин, что обратился к нам в банк за кредитом в 5 млн. от ЗАО "Лабеан", оказывается, в 1991 году был женат на соучредителе фирмы, владевшей неким ЗАО "Ясокан", не вернувшим кредит в 2 млн долл. другому банку".
"Тот Петров, которого мы хотим сманить из Газпрома, в 1993-1995 работал в Стиплере, где в те же годы работала и Иванова, тоже в маркетинговой должности. Сейчас она - в Оракле, куда мы недавно пристроили Сидорова. То есть подобраться к Петрову можно через неё".
"Депутат Думы от Лютерально-аллергической партии Откатнов в 1985-1988 гг. работал бригадиром в стройотряде МИСИСа, где тогда же комсоргом работал Безинштейн, в настоящее время работающий топ-менеджером в американском инвестиционном фонде "Kick Back". В дочерней структуре этого фонда - экологической службе Гринбакс в настоящее время служит секретарём-референтом жена сына Откатного. В совет попечителей Фонда, в свою очередь, входят люди, близкие Чейни, вице-президенту США. Можно сделать и проверить предположения об ангажированности депутата".
Все эти выводы можно делать по открытой прессе.
Ясно, кому в первую очередь нужны подобные системы - МВД, ФСБ, ГРУ. А ещё рекрутерам, политологам, маркетологам.
Кое-что разрабатывают они сами, кое-что - для них коммерческие фирмы.
Основной камень преткновения - распознаватели объектов. Объекты все разные, поведения ветреного. Попробуйте хотя бы прикинуть алгоритм распознавания и нормализации всех форм записи даты в тексте. Ведь мало распознать - нужно свести к канонической форме.
Кроме того, объекты, очевидно, не плоские, а организованы в сложную тезаурусную структуру. Общее к частному, часть-целое, синонимы, гипонимы-гиперонимы, и так далее. Топ-менеджер, директор, президент, исполнительный директор. Владивосток, Приморье, Курилы, Дальний Восток.
Этим тоже занимаются разные фирмы. Мы занимались в Медиалингве, но пока перестали - занимаемся фильтрацией, спам фильтруем.
Люди, в общем, работают. В частности, Гарант в апреле объявил о выпуске библиотеки распознавания объектов. Есть мощная система мониторинга периодики у IBS, где никто не заморачивается особенно насчёт автоматического распознавания, а просто объекты мониторинга (30,000) помечаются руками (мышками) технического персонала.
Ну и так далее.
Заранее сорри за оффтопик.
Игорь, что ж к нам в Коктебель не заглянули? Мы ж звали всех в гости. Там же от Лисьей бухты рукой подать... Покалякали бы о трудах наших оптимизаторских... 🍻
Спор про то, использовать ли SQL-базы для поисковых машин, как ни странно, не касается основного отличия SQL-баз от текстовых искалок.
А в чем оно состоит? 😕
Дык, а как же их еще понимать? ИМХО их только так и надо понимать. А вся бизнес-логика должна быть реализована на сервере приложений.
БД сделаны для аналитической работы с цифрами. В этом они сильны, для них написан толстый слой аналитики, гиперкубов и так далее.
Вообще говоря, это уже не СУБД, а другой класс систем типа OLAP и data mining...
При всем уважении к Игорю Ашманову, мне кажется, что его представления похожи на наивные представления физиков 18 века - "дайте нам массы и скорости всех объектов вселенной и мы расчитаем ее состояния от создания до конца света". При некотором увеличении детальности старые модели перестают работать и вместо улучшения мы получаем ухудшение. Если отвлечься от философии, то с практической точки зрения 2 совершенно явные проблемы делают "перевод в цифры" в общем случае бессмысленным:
1. Неопределенность. Когда мы говорим о больших коллекциях и выделение объектов методами статистическими или NLP, то всегда возникает вероятность неправильного распознавания. Мы почти 10 лет в текстах достаточно определенной структуры выделяем объекты определенного типа и качество у нас 98%. Если учитывать 2 таких объекта, каждый выделяемый с таким качеством, то общее качество алгоритма будет 96% и т.д. Именно поэтому все современные попытки прикрутить в IR хотя-бы синтаксический анализ пока не привели к заметному результату - погрешности этого алгоритма вносят шум, который "на круг" превышает дополнительную информацию, которую они дают.
2. Метаинформация. Система хранит 2 вида информации - информацию коллекции (тексты) и некоторую метаинформацию о мире, в котором она работает. Метаинформация о языке - 100% надежна и мало меняется (вряд-ли закон Цапфа для русского языка отменится), именно поэтому все ее пользуются и она уже дает приличное качество поиска. Для интернета информация о связях страниц так-же устойчивая и полезная, но дает уже проценты. Информация о взаимоотношении терминов намного более изменчива. Помнится Эксалибур на какой-то демонстрации показывал свой словарь синонимов, где Ельцин и президент имели высокую связь, сейчас это скорее всего это не улучшает качество поиска, а через 20 лет может и мешать (например, появиться поп-звезда Ельцин). То есть словарь чаще меняется и может ухудшать качество поиска, если не соответсвует модели мира коллекции, а он всегда будет как-то не соответствовать. В интернет искалке поэтому он не применим. А если мы вводим более сложные понятия, типа объектов, то отслеживание их актуальности становится просто не посильной задачей. Даже в специализированной системе данный подход очень ограничен.
В результате эти "навороты" приводят в лучшем случае к незначительному изменению качества. Я конечно, понимаю, что для демонстрации на выставке они производят впечатление на потенциальных пользователей, но не более того.
Это все не значит, что будущего нет, конечно обработка становится все более изысканной и сложной, современные интернет и специализированные поисковики не используют скорее всего даже половины наработанного в исследовательских проектах даже если основываться на языковой метаинформации. Проблема в том, что качество не будет изменять скачками, оно будет достаточно плавно расти по мере роста производительности и зрелости технологий.
Безотносительно к смыслу спора - Игорь Ашманов присутствует на форуме и уже высказывался в этом топике. Разговор о нем в третьем лице мне кажется неуместным...
Дело в том, что такие системы существуют и уже работают. Тот же Ватсон и прочие. Работают с шумом - ну и что? Это же не интернет-искалка.
Я же говорю не о поиске документов, а об анализе совместной встречаемости объектов.
Какой уровень шума устроит аналитика или оперативника, если позволит ему найти новую связь между объектами? Я думаю, в некоторых обстоятельствах и 90% шума его устроит. Если система покажет ему 9 ложных связей, а одну - истинную - и при этом необнаружимую другими средствами - будет ли он доволен? Думаю, да. Ведь альтернативой является ручной просмотр всех документов по делу, а также документов по другим делам (а каких именно и по каким именно, неизвестно).
Более того, он и так целыми днями ходит по ложным следам.
Также вообще не вижу, чем погрешность при распознавании может мешать. Предположим, я хочу сделать отчёт о темперированной частоте упоминания наиболее известных политиков в региональных и центральных СМИ (я видел такой отчёт, сделанный руками за очень хорошие деньги).
Распознавание упоминания политика будет ошибаться, но довольно редко. Ложных срабатываний почти не будет, но часто будет возникать неопределённость - тот Петров или нет. Ну пусть даже в 5 или 10% случаев. На статистику, на качественную картину это не повлияет.
Кстати эту задачу можно решить и спомощью обычной искалки - давать по каждому СМИ запрос с именем политика и смотреть, сколько вхождений. Только долго получится.
И неаккуратно - будет пропущено много вхождений. Ведь у Зюганова кроме канонической формы есть добрая сотня реализаций в тексте. А вот если есть универсальный распознаватель персон, то каждого политика достаточно ввести в него в канонической форме, добавить должности по вкусу и пожалуйте анализировать.
Что касается актуальности, то часть данных и типов объектов почти не устаревает - география, например. А с высокомобильными типами объектов нужно и обращаться аккуратнее.
Здесь просто нужно разделять данные и алгоритмы - распознаватель персон отдельно, со всеми автоматическими подстановками должностей, отчеств и инициалов, а сами актуальные персоны с текущими должностями - отдельно, загружаются и редактируются по месту.
А с Экскалибуром - хороший пример. Экскалибур - традиционная полнотекстовая искалка, причём довольно слабая с точки зрения релевантности. Словарь синонимов в ней либо сделан ручками для показа, либо станартный - из так называемого Русского Семантического Сервера. А делал этот сервер как раз я сотоварищи. В нашем общеязыковом словаре, конечно, Ельцина не было.
Делать заключения об аналитических системах по Экскалибуру неправильно.
Кстати, сейчас в Экскалибуре (его новое имя - Конвера) есть и автоматическая классификация документов, и выделение объектов в тексте, и, кажется, отчёты по их совместной встречаемости - согласно их маркетинговым материалам. Работают ли новации - не знаю, не уверен.