- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Что такое тип лексики?
А для оценки близости по типам лексики LSI также используется?
те, например, по которым может определяется уникальность текста (алгоритм шинглов и пр.).
Коля, я понимаю, что шинглы - красивое слово ;) Но в нем уникальность определяют не слова, а их сочетание.
Каширин, кое-какие детали алгоритма вроде как описаны на сайте Яндекса
Не поленись, процитируй? 😆
Кость, я вполне готов. Это простая машинная задача.
Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.
Что такое тип лексики?
Новости, реклама, блоги/форумы, аналитика ...
Каждый раз, когда поднимается тема, может-не может Яндекс определять тематику - топик приходит к выводу, кто не может 😂 Что меня каждый раз веселит, потому что может еще с 2002 года. Как минимум.
Мне тоже кажется, что может уже давно. Я помню, что году в 2001 Саша Садовский, если я ничего не путаю, писал про модное направление "рубрикации на лету".
Pro-maker: мне кажется, что это частный случай классификации. Есть LSI, есть тезаурусы , можно синонимы находить. Это все позволяет преобразовывать документ, или его кусочки в частотные векторы или их аналоги. При этом синонимы отображаются в элементы с одинаковыми номерами. Возможно, что структура HTML, еще какие-то неконтентные характеристики, тоже учитываются и оцифровываются. Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)
Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)
Сразу видно, ссылка прямо по тематике нашего раздела нашего форума :)
Спасибо, itman :)
Да нет, скорее всего, Яндекс на ходу классифицирует страничку, приписывая ее к нескольким категориям, а потом смотри, а есть ли среди этих категория пересечения. Если есть, то линки между страничками учитываются.
Возможно очень, что и так. Просто мне кажется более общим подход непосредственного сравнения на похожесть.
Плюсы:
-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.
-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.
-Введение рубрикатора это введение испорченного телефона, удвоение цепи ошибок:
стр1-->>рубрикатор, стр2-->> рубрикатор - это ДВЕ операции, на которых возможны ошибки
стр1-->>стр2 , это ОДНА операция, на которой возможна ошибка.
Хотя реально не мы управляем Яндексом и он поступает так, как нам и не снится :)
кажется более общим подход непосредственного сравнения на похожесть.
Плюсы:
-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.
-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.
Похоже, что все по-другому.
1. Я.Каталог - тестовая коллекция отобранных автоматом документов. Качество классификации документов в ней отслеживается автоматом и проверяется повседневной работой модераторов каталога.
2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.
Похоже, что все по-другому.
2. Анонсирование учета тематики - информирование о переходе от отладки ("доделали", классифицируют документы на лету) к использованию в ранжировании с пока еще низким приоритетом влияния на результаты.
Пардон, а откуда такая информация??? При ранжировании может и с низким приоритетом, но речь же ведь шла вроде как об учете ссылок?
Более, чем уверен, что тематика страницы Яндексом не определяется. Потому как первое, куда стоит пихать определение тематики - это контекстная реклама. Однако, мне в топике про листы в Exel'e постоянно пихают объявления по сталепрокату. Т.е. вроде бы листы, но совсем другие. Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.
Мне могут возразить, мол лист в Excel пересекаетсяся c листом стали через рубрику бизнес: лист -> культура(Ф. Лист), бизнес(прайс-листы, металлургия),... excel->финансы, бизнес, ..., сталь->бизнес (металлургия)..., да и в директе и поиске могут использоваться ну совсем разные алгоритмы.
Отвечаю: здравый смысл в этом конечно есть. Да вот только есть несколько но:
1) распихать хотя бы 5-10 тысяч самых популярных слов по всевозможным тематикам задача не самая простая. А без этого начального распихивания тематику конкретной страницы не определить
2) пересечения множеств строятся гораздо дольше, чем объединения
3) при использовании крупных рубрик (бизнес, дом, hi-tech и т.п.) точность будет крайне невысокая (см. пример выше), а при использовании точных рубрик (металлургия, климатическое оборудование и т.п.) большинство ссылок просто перестанет учитываться, чего явно на сегодняшний день не наблюдается.
AiK, Садовский сказал, что они умеют автоматом определять тематику и сайта, и отедльной страницы. Так что уж для сайта грубо оценить тематику можно.