- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
А вот Консультант плюс, думаю, считает, что пример таки удачный.
Они тщательно готовят данные (сотни тысяч многоязычных документов), обеспечивают максимальную актуальность их, продают аналитический сервис над ними и продают успешно, более чем на 100 млн. евро в год - в чём же здесь неудача?
Я не знаю, какой у Вас опыт работы с правовыми базами данных, а вот мы в настоящий момент мучительно долизываем оболочку такой базы для крупного заказчика.
Так вот, аналитических средств там полно, только они - не в рамках полнотекстового поискового движка. Об этом я и как раз говорю.
А почему они должны быть внутри него? Боюсь, интернет-искалки вам слегка застят здесь горизонт, а на них свет клином не сошёлся.
Например, одно из самых важных свойств правовой базы данных - связь с предыдущими редакциями документа. Потому что, например, некоторые законы выходят в виде этаких макрокоманд на "гиперссылках" - "пункт такой-то параграфа такого-то читать в следующей редакции...". И нужно сделать все "провязки", причём когда - заранее, а когда и динамически. Нужно иметь теоретико-множественные операции над коллекциями документов и так далее. Поиск там не только по атрибутам, а смешанный, да и атрибуты сами довольно расплывчатые.
В том-то и дело, что задача, подобная задаче поиска Яндекса или Рамблера - узкая, годная для Интернета. А вообще задач поиска - полно.
Вот Вам другой пример - двуязычный словарь. Думаете, там простой поиск? Ошибётесь.
Зайдите на раздел Словари на Рамблере или купите словарь МультиЛекс на диске и посмотрите, как ищется набор переводов и как он ранжируется. Алгоритм ранжирования там разный, но в обоих случаях довольно сложный, выверенный, учитывает и длину перевода, и вес исходного слова в заголовке, и форму его, и положение в заголовке, и количество примеров в статье и так далее. А типов полей в словарной статье больше ста двадцати! В МультиЛексе особенно изощрённое ранжирование.
А поиск замены в ОРФО (проверка правописания в Word), а поиск и ранжирование букв и целых слов при распознавании текста в Finereader?
Там вот данные - динамические, и ранжирование - целая наука. Только другая.
А насчёт того, что в Интернете информации есть - это иллюзия. Там много дряни и неполных данных. В этом - проблема!
А вот полного архива периодики нет, нет нормальных баз данных адресов или они платные, нет нормальных библиотек - библиотека Мошкова сильно неполна и кренится в сторону фэнтези, нет баз данных по людям, нет нормальных карт - только кривые и медленные (и Яндексу они вообще недоступны) и так далее. Нет сколько-нибудь полных описаний, картинок и ТТХ товаров. Нет нормальных энциклопедий, точнее парочка есть (Рубрикон, Британника), но большинству искалок они недоступны, а если и доступны (как в Яндекс-энциклопедиях), то ищется через них - плохо, потому что тут нужен именно словарный поиск (учитывающий поля и связи статей), а не интернетовский!
Про Deep Web слышали? В "скрытом Интернете" вроде бы в 500 раз больше информации, но интернет-искалки её не могут видеть...
Зато полно конференций, блогов, прочей рыхлой, грубой, сырой, неграмотной ерунды.
Интернетчики просто привыкли рыться в мусоре, Рамблер/Яндекс с Гуглом слегка помогают в этом, вот все и рады донельзя.
Спасибо всем выступающим! В продолжение темы возник следующий подвопрос по отечественным искалкам.
Проводя поиск в сети, пользователи (в основном) исповедуют технику предметного поиска, то есть составляют запросы, содержащие в основном именные группы. Зачем сетевому поисковику хранить в индексе координаты глаголов, а следовательно разрешать омонимию или гипотезы для незнакомых слов в сторону глаголов (в качестве примера уже упоминавщийся в других нитках запрос "день")? Или я заблуждаюсь насчёт "предметности" типовых поисковых запросов?
А самое важное слово "купить" забыли?
Не говоря уже об "отрмонтировать", "обменять", пр. В Яндекс-директе можно позадавать запросы из глаголов и посмотреть частотность. В общем, все глаголы просто по признаку речи выбросить нельзя. Заметим, что есть ещё названия литературных произведений.
Есть общий факт: Яндекс, Рамблер, Гугл и прочие (но не Апорт, скажем) дали "клятву полноты". Из этого вытекает большая часть лучших и худших свойств и все проблемы этих искалок.
Найдётся все.
купить 263949
скачать 1251531
но в основном Атомный Макс прав. Кроме нескольких инфинитивов глаголы используются только для поиска по точной цитате и на кубках Яндекса. Естественно ИМХО.
Игорь, насколько я понимаю, то что вы сейчас пропагандируете уже реализовано по отдельности Галактикой- ЗУМ в одном случае (поиск по фактам) и по крайней мере двумя киевскими разработчиками (мониторинг новостных серверов)uaport и finport. Смешно,но киевские проекты тоже под выборы делались.
Мы со своим Зумом давно точим зубы на этот массив данных. Мне кажется, что именно в этой ерунде можно и найти новые факты, и провести социометрию, гораздо более разумную, чем "индекс цитируемости" в Эксперте-НЭБ.
Думаю, в рамках одного из наших госпроектов ближе к концу года мы это реализуем.
Что касается координат глаголов, то экономить на спичках здесь смысла особого нет. Зачем обеднять сервис пусть даже на 0,01% запросов? Все поисковики и от стоп-словаря, наконец-то, отказались. Везде можно теперь найти "быть или не быть".[
Игорь:
А самое важное слово "купить" забыли?
Нет, не забыл :) На самом деле этим утверждением вы ответили на мой вопрос о предметности.
Значит, действительно, поисковики приучили продвинутых пользователей искать не информацию, а слова.
То есть вместо того, чтобы спрашивать о "продаже отечественных авто" или "продаже книг о программировании", пользователь вынужден в большинстве систем просить "купить книга программирование С Си С Си++" или "купить автомобиль ВАЗ ГАЗ НИВА"?
AlexA:
Что касается координат глаголов, то экономить на спичках здесь смысла особого нет.
В принципе, согласен с вами. Но в целом --- не могу. Если пользователь просит "to be or not to be", то пусть поисковик найдёт либо полное совпадение, либо воспользуется стоп-словарём, если в запросе всё-таки были нагруженные термины. По крайней мере, находить фразы "to was or not to was" (или просто "to be or") мне кажется бессмысленным. Сюда напрашивается база об устойчивых словосочетаниях, куда бы входили и географические названия, и фильмы, и книги, и т.д. и т.п. Но Игорь в другой нитке уже высказывался на эту тему в духе, что держать (и главное, поддерживать) словарь на десятки миллионов словосочетаний пока никто не хочет.
Может быть, действительно нельзя отказываться от сложного поискового языка запросов, если не реализовывать некоторый диалог-настройку поисковой системы под пользователя?
В другом треде я уже спрашивал мнения специалистов по IR, но повторю его еще раз - видите ли вы перспективы в квазиреляционном представлении WWW и в использовании языков, иммитирующих SQL (WebSQL и прочие)?
Заметим, что использование глаголов - вовсе не всегда есть неуклюжая привычка пользователя к искусственному назывному языку запросов. Часто это тот самый сакраментальный запрос на естественном языке.
Лично я, вводя "купить цифровую камеру", ровно это и имею в виду.
Я, правда, избалован применением поисковиков с естественно-языковым запросом, но сейчас и Рамблер, и Яндекс вполне справляются с такой конструкцией. Кроме того на сайте также может встретиться именно это предложение - например, что-то вроде "чтобы купить камеру - нажмите сюда". В любом случае "купить" есть на сайтах во множестве именно глагольных конструкций.
Например, на сайте Киноафиша.ру при описаниях фильма есть ссылки типа "Где смотреть".
Searches done in April 2003
Count Search Term :
1148896 digital camera
6244 buy digital camera
Разница существенная, не правда ли ?
Но раз такие запросы существуют, то нельзя упускать их из виду.
Рассуждение некорректное - словосочетание из любых трёх слов всегда на порядки менее частотно, чем из двух, причём неважно, как считается частота - по вхождениям на сайтах или по запросам. Закон Ципфа в разных своих проявлениях.
Как на самом деле добавление ещё одного слова смещает кликабельность, количество покупок - судить трудно. Замечу при этом, что интересно было бы посчитать эффективность по покупкам, потому что соотношение здесь уже не ципфовское, так как учитывает готовность к покупке и может резко измениться в пользу более конкретного запроса, только непонятно, как это сделать.
Ещё одно замечание к слову - например, словосочетание "куплю цифровую камеру" вообще по сути нельзя заменить общим сочетанием "цифровая камера", потому что его могут искать продавцы подержанных камер, а не покупатели. То есть это может быть попыткой найти объявления с данной фразой, а не естественно-языковым запросом.
Таким образом, я бы сказал, что общее словосочетание зачастую распадается на совершеннно семантически независимые кластеры запросов - или пользователей (куплю ц.к., купить ц.к., прочие), внутри которых эффективность для конкретных длинных запросов может быть существенно выше.
Можно предположить, что при задании общего запроса из одного или двух слов (по неграмотности или лени) эти кластеры пользователей роются в общей выдаче - каждый в поисках своего кластера результатов - пока наконец не сообразят дать более длинный запрос. А уж какой - тут как Бог даст.