Тематика документа

I
На сайте с 26.05.2001
Offline
64
#31

Что такое тип лексики?

pro-maker:
А для оценки близости по типам лексики LSI также используется?
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
Каширин
На сайте с 03.01.2004
Offline
1030
#32
nickspring:
те, например, по которым может определяется уникальность текста (алгоритм шинглов и пр.).

Коля, я понимаю, что шинглы - красивое слово ;) Но в нем уникальность определяют не слова, а их сочетание.

Dervish:
Каширин, кое-какие детали алгоритма вроде как описаны на сайте Яндекса

Не поленись, процитируй? 😆

Alex Kirillin:
Кость, я вполне готов. Это простая машинная задача.

Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.

pro-maker
На сайте с 08.12.2003
Offline
281
#33
itman:
Что такое тип лексики?

Новости, реклама, блоги/форумы, аналитика ...

I
На сайте с 26.05.2001
Offline
64
#34
Каширин:

Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.

Мне тоже кажется, что может уже давно. Я помню, что году в 2001 Саша Садовский, если я ничего не путаю, писал про модное направление "рубрикации на лету".

Pro-maker: мне кажется, что это частный случай классификации. Есть LSI, есть тезаурусы , можно синонимы находить. Это все позволяет преобразовывать документ, или его кусочки в частотные векторы или их аналоги. При этом синонимы отображаются в элементы с одинаковыми номерами. Возможно, что структура HTML, еще какие-то неконтентные характеристики, тоже учитываются и оцифровываются. Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#35
itman:
Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)

Сразу видно, ссылка прямо по тематике нашего раздела нашего форума :)

Спасибо, itman :)

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#36
itman:
Да нет, скорее всего, Яндекс на ходу классифицирует страничку, приписывая ее к нескольким категориям, а потом смотри, а есть ли среди этих категория пересечения. Если есть, то линки между страничками учитываются.

Возможно очень, что и так. Просто мне кажется более общим подход непосредственного сравнения на похожесть.

Плюсы:

-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.

-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.

-Введение рубрикатора это введение испорченного телефона, удвоение цепи ошибок:

стр1-->>рубрикатор, стр2-->> рубрикатор - это ДВЕ операции, на которых возможны ошибки

стр1-->>стр2 , это ОДНА операция, на которой возможна ошибка.

Хотя реально не мы управляем Яндексом и он поступает так, как нам и не снится :)

pro-maker
На сайте с 08.12.2003
Offline
281
#37
ХренРедькиНеСлаще:
кажется более общим подход непосредственного сравнения на похожесть.
Плюсы:
-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.
-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.

Похоже, что все по-другому.

1. Я.Каталог - тестовая коллекция отобранных автоматом документов. Качество классификации документов в ней отслеживается автоматом и проверяется повседневной работой модераторов каталога.

2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.

I
На сайте с 26.05.2001
Offline
64
#38
pro-maker:
Похоже, что все по-другому.

2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.

Пардон, а откуда такая информация??? При ранжировании может и с низким приоритетом, но речь же ведь шла вроде как об учете ссылок?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#39

Более, чем уверен, что тематика страницы Яндексом не определяется. Потому как первое, куда стоит пихать определение тематики - это контекстная реклама. Однако, мне в топике про листы в Exel'e постоянно пихают объявления по сталепрокату. Т.е. вроде бы листы, но совсем другие. Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.

Мне могут возразить, мол лист в Excel пересекаетсяся c листом стали через рубрику бизнес: лист -> культура(Ф. Лист), бизнес(прайс-листы, металлургия),... excel->финансы, бизнес, ..., сталь->бизнес (металлургия)..., да и в директе и поиске могут использоваться ну совсем разные алгоритмы.

Отвечаю: здравый смысл в этом конечно есть. Да вот только есть несколько но:

1) распихать хотя бы 5-10 тысяч самых популярных слов по всевозможным тематикам задача не самая простая. А без этого начального распихивания тематику конкретной страницы не определить

2) пересечения множеств строятся гораздо дольше, чем объединения

3) при использовании крупных рубрик (бизнес, дом, hi-tech и т.п.) точность будет крайне невысокая (см. пример выше), а при использовании точных рубрик (металлургия, климатическое оборудование и т.п.) большинство ссылок просто перестанет учитываться, чего явно на сегодняшний день не наблюдается.

minaton
На сайте с 18.09.2004
Offline
135
#40

AiK, Садовский сказал, что они умеют автоматом определять тематику и сайта, и отедльной страницы. Так что уж для сайта грубо оценить тематику можно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий