В любом случае будет интересно понаблюдать, что у него получится в Bing. Ему бы попасть к Антонио Джулли...
А зачем Вам книги? Ищите ответы на интересующие вопросы сразу в поисковике.
Типичный термин keyword segmentation или скорее query segmentation, если в контексте seo. Ищете в Google с приставкой filetype: pdf
Аналогично - term weight tf-idf, Google дает около 33 тыс публикаций по теме.
Еще один вариант, который лично мне очень нравится и часто помогает - просматривать тематические ролики на youtube и изучать последние презентации на slideshare, фиксировать термины и дальше искать уже по ним:
Просто так никто ничего не уничтожает. Вы уверены, что пост стерли?
Во-первых, контент не стирается, а переносится в более подходящие разделы. Во-вторых, - ткните пальцем, где были ошибочно перенесены темы, которые относятся к поисковым технологиям.
Для "паления тем" есть множество других разделов. Этот же предназначен для обсуждения поисковых алгоритмов, новых технологий поиска информации, перспективных разработок и т.д., поэтому все лишнее будет переноситься в соответствующие разделы.
Вопросы по поисковым технологиям все время повторяются, поэтому я не вижу в этом проблемы.
Будем стараться. Все, как обычно, упирается во время.
Прошелся по разделу и отправил часть нерелевантных тем в соответствующие разделы. Не уверен, что это поможет - скорее надо создать FAQ, что можно писать в раздел "Поисковые технологии" и что нельзя.
UP. Подставил стикеры на наиболее интересные темы раздела, чтобы все знали, о чем здесь можно спрашивать. Остальное будет удаляться.
Тема поисковых технологий умерла, даже не успев толком родиться. Мгновенно все заспамливается вопросами по оптимизации.
В настоящий момент в тестовой версии мы запустили решение, которое использует следующие подходы для sentiment analysis:
* Тонально окрашенные ключевые слова и фразы бывают контестно-зависимыми и контекстно-независимыми. Первые определяются по карте рисков.
* Контекстно-независимые слова и фразы имеют конечное число состояний и позволяют задавать исходные данные для машинного обучения
* Для определения тональности важен принцип “И” - если первая фраза имеет позитивной окраску, то вторая после “И” с большой вероятностью тоже.
* Важнейшая составляющая тональной окраски объекта - наличие слов, инвертирующих тональность, части при дополнительном предикате.
* Семантическую близость окрасок можно рассчитать с помощью расстояния между объектом и термом-окраской - оно всегда стремится к 0.
* Тонально окрашенные слова вне контекста называют полярными: позитив - хороший, отличный, лучший, негатив - плохой, ужасный, худший.
* Подходы для определения термов с тональной окраской: ручной, корпусно-зависимый и на основе словарей (а-ля wordnet).
Продвигаемся дальше.