Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

В любом случае будет интересно понаблюдать, что у него получится в Bing. Ему бы попасть к Антонио Джулли...

А зачем Вам книги? Ищите ответы на интересующие вопросы сразу в поисковике.

-по массиву текста выделить самые "важные" слова и словосочетания

Типичный термин keyword segmentation или скорее query segmentation, если в контексте seo. Ищете в Google с приставкой filetype: pdf

-определение "весов" конкретных слов в массиве текста

Аналогично - term weight tf-idf, Google дает около 33 тыс публикаций по теме.

Еще один вариант, который лично мне очень нравится и часто помогает - просматривать тематические ролики на youtube и изучать последние презентации на slideshare, фиксировать термины и дальше искать уже по ним:

написанное выше было стерто (уничтожено совсем) одним из модераторов.

зачем?

Просто так никто ничего не уничтожает. Вы уверены, что пост стерли?

зачем тогда вы стираете контент об этих перспективных разработках?

Во-первых, контент не стирается, а переносится в более подходящие разделы. Во-вторых, - ткните пальцем, где были ошибочно перенесены темы, которые относятся к поисковым технологиям.

интересно, а что вообще планировалось в этом разделе?
Это ведь коммерческий форум. Это что, раздел для паления тем?

Для "паления тем" есть множество других разделов. Этот же предназначен для обсуждения поисковых алгоритмов, новых технологий поиска информации, перспективных разработок и т.д., поэтому все лишнее будет переноситься в соответствующие разделы.

Важные темы теперь занимают почти половину 1 страницы рубрики.

Вопросы по поисковым технологиям все время повторяются, поэтому я не вижу в этом проблемы.

о как все поменялось! зашел - глянул - удивился, а то была прям помойка какая-то...
вы уж проводите такую уборку иногда...

Будем стараться. Все, как обычно, упирается во время.

Прошелся по разделу и отправил часть нерелевантных тем в соответствующие разделы. Не уверен, что это поможет - скорее надо создать FAQ, что можно писать в раздел "Поисковые технологии" и что нельзя.

UP. Подставил стикеры на наиболее интересные темы раздела, чтобы все знали, о чем здесь можно спрашивать. Остальное будет удаляться.

Тема поисковых технологий умерла, даже не успев толком родиться. Мгновенно все заспамливается вопросами по оптимизации.

В настоящий момент в тестовой версии мы запустили решение, которое использует следующие подходы для sentiment analysis:

* Тонально окрашенные ключевые слова и фразы бывают контестно-зависимыми и контекстно-независимыми. Первые определяются по карте рисков.

* Контекстно-независимые слова и фразы имеют конечное число состояний и позволяют задавать исходные данные для машинного обучения

* Для определения тональности важен принцип “И” - если первая фраза имеет позитивной окраску, то вторая после “И” с большой вероятностью тоже.

* Важнейшая составляющая тональной окраски объекта - наличие слов, инвертирующих тональность, части при дополнительном предикате.

* Семантическую близость окрасок можно рассчитать с помощью расстояния между объектом и термом-окраской - оно всегда стремится к 0.

* Тонально окрашенные слова вне контекста называют полярными: позитив - хороший, отличный, лучший, негатив - плохой, ужасный, худший.

* Подходы для определения термов с тональной окраской: ручной, корпусно-зависимый и на основе словарей (а-ля wordnet).

Продвигаемся дальше.

Всего: 847