- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Извините за вторжение.
Я с галактикой немного побаловался, получается действительно красиво.
Но у меня вопрос. Возможно ли решение обратной задачи. Мы имеем какое-то там семантическое поле и должны "вычислить" стержень, вокруг которого оно сформировано.
Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.
На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.
Естественно, с двигателями - это метафора
А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?
слова в словосочетании чаще всего стоят рядом?
Да, именно так. Возникающей ошибкой при этом принебрегаем. Ошибки возникают и из-за анафор.
Хорошо, а какие интервалы тогда разумно брать? Ведь есть несколько вариантов - в пределах предложения, абзаца, статьи...
Результат, видимо, будет тоже разный.
Вы, видимо, исследовали этот вопрос?
А хранение индексов и словарей где осуществляют? В файлах и используют BTrieve или что-нибудь подобное?
Поисковые системы обычно организуют на специальных структурах данных, при этом наиболее часто используются инвертированные (inverted files) или сигнатурные (signature files)файлы: http://instruct.uwo.ca/gplis/601/week2/table1.html
Способов хранения словаря, то есть лексикона, может быть сколько угодно (он обычно составляет не более нескольких процентов от объема текста), начиная от структур с бинарным поиском и кончая n-граммами.
Дело в том, что в естественных текстах как раз вот эти ваши производные слова из информационного портрета присутствуют в нормальных количествах, а искомое слово как правило - только в тайтле в лучших случаях.
На примере. В тексте об устройстве электродвигателя будут якоря, статоры, роторы, звезды и треугольники, а самого "электродвигателя" практически не будет. В большинстве же существующих поисковиков этот самый релевантный с моей точки зрения текст будет оттеснен на бесперспективные позиции каталогами электродвигателей и устройств. Все вышеприведенное не беда, если заранее знаешь, как двигатель устроен и набираешь сразу "статор". Но как быть, если устройства искомого объекта не знаешь? Текст, видимо, как раз для незнающего и предназначался.
Кратко говоря, на это в первую очередь и нацелен наш инстумент. Он помогает найти все ассоциированные с искомым объектом понятия, в т.ч., естественно, его свойства (описание).
С помощью получаемого информационного портрета (решения обратной задачи) легче решить поставленные вами 2 проблемы:
1. задачу оптимальной формулировки запроса к ПС для определения свойств объекта.
Для "электродвигателя" - нужно его описание, в отличие от сферы употребления, которая чаще всего и вылезает.
2. задачу собственно выделения из полученных текстов искомых свойств.
Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ
Вот пример:
запрос "гироскоп" (найдено 423 док.)
список слов
ГИРОСКОП
РАКЕТА
КОСМИЧЕСКИЙ
ЛАЗЕРНЫЙ
ПОЛЕТ
РАКЕТНЫЙ
НАВИГАЦИОННЫЙ
БОРТОВОЙ
ПРИБОР
ОРБИТА
ДАТЧИК
ДВИГАТЕЛЬ
САМОКАТ
ГИРОСКОПИЧЕСКИЙ
ОРБИТАЛЬНЫЙ
Пример, конечно, понятный. Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?
в продолжение ответа spark.
Другие примеры показаны в нашей " энциклопедии ".
Конечно, все зависит от базы (массива текстов). Здесь - СМИ, и лучше всего в ней видны "медицинские" объекты:
Педиатр, Наркоз, Виагра, Бронхит и т.д.
Хорошо, Вячеслав, мне это понятно:
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?
Позволяет ли сейчас система также получить свойство в виде ОПИСАНИЯ, например:
Гироскоп
ГИРОСКОП С ТРЕМЯ СТЕПЕНЯМИ СВОБОДЫ, ДВУХСТЕПЕННЫЙ ГИРОСКОП, твердотельный волновой гироскоп?
Кое-что из этого может: ДВУХСТЕПЕННЫЙ ГИРОСКОП, волновой гироскоп (двухсловные словосочетания). Остальное - тоже, но пока руки не дошли до конца довести. Проблема омографии чуть более болезненна.
Работаем...
А вот если бы система позволяла давать полное описание в виде связной статьи (в общем случае, конечно), ходить бы тогда нам в нобелевских лауреатах.
Увы, это - не ближайшая перспектива.
Вопрос простой - как лучше хранить этот инвертированный файл? Я н-р, хранил его до сих пор в БД. Целесообразно ли это? Какие есть другие варианты, когда у вас есть архив в несколько GB как в Галактике?
Это не так уж важно, на мой взгляд.
Расходы на хранение в простейшей реляционной таблице не так велики, а написать такую таблицу в файловой системе относительно несложно. Так что, зависит от ваших предпочтений. Если сделали в БД, так и оставайтесь там, выгоды от других решений не перевесят вложенный труд.