Что такое шинглы? - Общие вопросы оптимизации - Практические вопросы оптимизации

Тематика документа

pro-maker · 2020-07-28T15:09:55.0000000Z

Яндекс путем автоматического анализа содержимого документа ставит ему в соответствие один из разделов Яндекс.Каталога. Это гипотеза. Основана она на описании одного из элементов аддитивной модели релевантности, используемой Яндексом на дорожках РОМИП-2006, и на косвенных подтверждениях существования аналогичного механизма в поиске непосредственно Сашей Садовским на конференции-2006 ( за что ему большое спасибо! ). Я.Каталог представляет собой фасетную матрицу. Для оценки тематической близости интересна иерархия ветвей лексики рубрикатора. Предположительно, общие термины закреплены за начальными разделами, более частные (специализированные) - за вложенными разделами. Например, "веб-дизайн", по всей видимости, относится к "Каталог / Hi-Tech / Интернет / Создание сайтов / Web-дизайн". Можно ли изложенное анализировать самостоятельно? Один из вариантов. Войти в "Я.Директ / Дать объявление /", внести одно слово в "ключевые слова", посмотреть рекомендуемый раздел подсказки "рубрики каталога: выбрать". В частности, рекомендуются разделы для размещения рекламы по ключевикам: "дизайн сайтов": / Hi-Tech / Интернет / Создание сайтов / Web-дизайн / "дизайн": / Hi-Tech / Интернет / Создание сайтов / Web-дизайн / "разработка сайтов": / Hi-Tech / Интернет / Создание сайтов / Web-дизайн / "продвижение сайтов": / Hi-Tech / Интернет / Создание сайтов / Web-дизайн / "поисковая оптимизация": / Hi-Tech / Интернет / Создание сайтов / Прочее / "оптимизация": [нет соответствий] "seo": / Hi-Tech / Интернет / Создание сайтов / Прочее / "спам": / Hi-Tech / Безопасность / Защита от спама / "пиво": / Дом / Кулинария / Пиво / "вино": / Дом / Кулинария / Алкогольные напитки / П.С. Спасибо Spark -у и Диме Пашко ("Ашманов и Партнеры") за помощь.

I

64

itman

24 ноября 2006, 22:20

#31

Что такое тип лексики?

pro-maker:
А для оценки близости по типам лексики LSI также используется?

Приходите завтра, завтра будет! (http://itman666.livejournal.com)

1030

Каширин

24 ноября 2006, 22:33

#32

nickspring:
те, например, по которым может определяется уникальность текста (алгоритм шинглов и пр.).

Коля, я понимаю, что шинглы - красивое слово ;) Но в нем уникальность определяют не слова, а их сочетание.

Dervish:
Каширин, кое-какие детали алгоритма вроде как описаны на сайте Яндекса

Не поленись, процитируй? 😆

Alex Kirillin:
Кость, я вполне готов. Это простая машинная задача.

Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.

Упал доход Давайте всерьёз поговорим о РКН заблокирует сайт, если

281

pro-maker

24 ноября 2006, 22:44

#33

itman:
Что такое тип лексики?

Новости, реклама, блоги/форумы, аналитика ...

I

64

itman

24 ноября 2006, 23:17

#34

Каширин:

Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.

Мне тоже кажется, что может уже давно. Я помню, что году в 2001 Саша Садовский, если я ничего не путаю, писал про модное направление "рубрикации на лету".

Pro-maker: мне кажется, что это частный случай классификации. Есть LSI, есть тезаурусы , можно синонимы находить. Это все позволяет преобразовывать документ, или его кусочки в частотные векторы или их аналоги. При этом синонимы отображаются в элементы с одинаковыми номерами. Возможно, что структура HTML, еще какие-то неконтентные характеристики, тоже учитываются и оцифровываются. Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)

57

ХренРедькиНеСлаще

25 ноября 2006, 05:46

#35

itman:
Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)

Сразу видно, ссылка прямо по тематике нашего раздела нашего форума :)

Спасибо, itman :)

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.

57

ХренРедькиНеСлаще

25 ноября 2006, 05:58

#36

itman:
Да нет, скорее всего, Яндекс на ходу классифицирует страничку, приписывая ее к нескольким категориям, а потом смотри, а есть ли среди этих категория пересечения. Если есть, то линки между страничками учитываются.

Возможно очень, что и так. Просто мне кажется более общим подход непосредственного сравнения на похожесть.

Плюсы:

-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.

-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.

-Введение рубрикатора это введение испорченного телефона, удвоение цепи ошибок:

стр1-->>рубрикатор, стр2-->> рубрикатор - это ДВЕ операции, на которых возможны ошибки

стр1-->>стр2 , это ОДНА операция, на которой возможна ошибка.

Хотя реально не мы управляем Яндексом и он поступает так, как нам и не снится :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

281

pro-maker

25 ноября 2006, 09:19

#37

ХренРедькиНеСлаще:
кажется более общим подход непосредственного сравнения на похожесть.
Плюсы:
-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.
-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.

Похоже, что все по-другому.

1. Я.Каталог - тестовая коллекция отобранных автоматом документов. Качество классификации документов в ней отслеживается автоматом и проверяется повседневной работой модераторов каталога.

2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.

I

64

itman

25 ноября 2006, 09:27

#38

pro-maker:
Похоже, что все по-другому.

2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.

Пардон, а откуда такая информация??? При ранжировании может и с низким приоритетом, но речь же ведь шла вроде как об учете ссылок?

257

AiK

27 ноября 2006, 14:41

#39

Более, чем уверен, что тематика страницы Яндексом не определяется. Потому как первое, куда стоит пихать определение тематики - это контекстная реклама. Однако, мне в топике про листы в Exel'e постоянно пихают объявления по сталепрокату. Т.е. вроде бы листы, но совсем другие. Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.

Мне могут возразить, мол лист в Excel пересекаетсяся c листом стали через рубрику бизнес: лист -> культура(Ф. Лист), бизнес(прайс-листы, металлургия),... excel->финансы, бизнес, ..., сталь->бизнес (металлургия)..., да и в директе и поиске могут использоваться ну совсем разные алгоритмы.

Отвечаю: здравый смысл в этом конечно есть. Да вот только есть несколько но:

1) распихать хотя бы 5-10 тысяч самых популярных слов по всевозможным тематикам задача не самая простая. А без этого начального распихивания тематику конкретной страницы не определить

2) пересечения множеств строятся гораздо дольше, чем объединения

3) при использовании крупных рубрик (бизнес, дом, hi-tech и т.п.) точность будет крайне невысокая (см. пример выше), а при использовании точных рубрик (металлургия, климатическое оборудование и т.п.) большинство ссылок просто перестанет учитываться, чего явно на сегодняшний день не наблюдается.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

135

minaton

27 ноября 2006, 14:44

#40

AiK, Садовский сказал, что они умеют автоматом определять тематику и сайта, и отедльной страницы. Так что уж для сайта грубо оценить тематику можно.

IBC Russia (http://ibcrussia.com/)

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Тематика документа