Пересчет ТИЦ и Яндекс.Каталог

A
На сайте с 07.01.2007
Offline
7
#41
ref:
Seventh Son, Видимо проблемы все-таки остаются, несмотря на то, что с тех пор прошло больше 3-х лет. Иначе как объяснить, что при приеме сайта в ЯК тиц частенько меняется радикальным образом, причем в обе стороны? Да и скрытая часть каталога должна бы за это время стать весьма мощной, если работает автомат. Цифр нет, но, навскидку, даже для сайтов в топе по своим тематикам большинство - без указания раздела.

Есть две разных задачи, их не надо путать

* видимая пользователем (пусть даже через тулбар) классификация

* классификация для внутренних целей (тематичность ссылок)

Во второй задаче интересна полнота, а ошибки для 1% сайтов не имеют большого значения.

А в первой задаче интересна точность.

http://blog.lexa.ru (http://blog.lexa.ru)
HoSStiA
На сайте с 18.02.2004
Offline
144
#42
alextutubalin:
* классификация для внутренних целей (тематичность ссылок)
... интересна полнота, а ошибки для 1% сайтов не имеют большого значения.

В современных условиях эта задача не может быть решена в принципе. Интернет стал глобальной социальной средой, и траффикообразующие ссылки, по которым люди без принуждения переходят на другие сайты, выставляются на ресурсах с размытой (универсальной) тематикой. Но от этого они не становятся менее тематичными, менее качественными. Учесть последнее поисковым системам нынешнего поколения не под силу, т.к. большинство таких ссылок не имет "человекоподобного" анкора. Анализировать текст всей страницы, как это делал бы человек, поисковикам пока не под силу.

A
На сайте с 07.01.2007
Offline
7
#43
HoSStiA:
В современных условиях эта задача не может быть решена в принципе. Интернет стал глобальной социальной средой, и траффикообразующие ссылки, по которым люди без принуждения переходят на другие сайты, выставляются на ресурсах с размытой (универсальной) тематикой.

Полностью согласен - slashdot effect сейчас очень сильно работает.

HoSStiA:

Но от этого они не становятся менее тематичными, менее качественными. Учесть последнее поисковым системам нынешнего поколения не под силу, т.к. большинство таких ссылок не имет "человекоподобного" анкора. Анализировать текст всей страницы, как это делал бы человек, поисковикам пока не под силу.

В каком смысле "не под силу" ? Контекстная реклама на страницы ставится вполне точно. Я бы сказал, что точность определения тематики - процентов 70-95 (вот такие вот широкие ворота), это при том, что нужно определять тематику двух текстов: объявления и страницы на котором оно размещается. Чтобы получить 81% произведения, нужно по каждому из текстов (объявления и страницы) сработать на уровне 0.9. Точность 0.8 дает и Автоконтекст (на русских текстах) и AdSense (на английских). Директ не меряли пока.

У нас на Новотеке полнота определения тематики новостей около 0.9, а точность до такой степени высокая, что не стыдно людям показывать новости в классификаторе. Т.е. я грубых ошибок просто не вижу, а мелочи - они и есть мелочи.

К задаче определения темы примыкает вторая - из страницы нужно выделить содержание (убрать анонсы других материалов и так далее). Задача тоже кажется вполне решаемой, прототип у нас работает :)

Задачи вроде автореферирования одного текста или дайджеста группы текстов - тоже решенные с вполне приличным качеством.

Да, я нигде не говорю, что компьютер "научился понимать смысл". Т.е. по статье про Apple IPhone он не сможет заключить рулит игрушка или сосет. Но вот рубрику "Электроника - Мобильные Телефоны" присвоить - несложная задача.

saidnavy
На сайте с 22.11.2005
Offline
235
#44
alextutubalin:
Ну как это нет ? На многотематическом сайте на новых URL-ах тематическая реклама показывается и она "в тему".

Да и вообще, не бог весть какая наука. У нас такая машинка есть, не вижу причин не сделать ее и Яндексу. Там нет ничего принципиально сложного, а они точно этим занимались еще года два назад.

Вы безбожно путаете Я.Директи Я.Каталог это два сервиса не взаимосвязанных, так же как описк и ЯК не связаны. Это разные звенья одной цепи.

A
На сайте с 07.01.2007
Offline
7
#45
saidnavy:
Вы безбожно путаете Я.Директи Я.Каталог это два сервиса не взаимосвязанных, так же как описк и ЯК не связаны. Это разные звенья одной цепи.

Повторяю то, что написал несколько выше: "если бы я рулил Яндексом", я бы конечно использовал автоматический определятор тематик при анализе ссылочного ранжирования.

А происходит оно сейчас или нет - мне неведомо.

ref
На сайте с 21.11.2004
Offline
91
ref
#46
alextutubalin:
я бы конечно использовал автоматический определятор тематик при анализе ссылочного ранжирования.

-определение тематичности ссылок для расчета тиц и

-определение тематики для показа контексной рекламы

две разные задачи.

(Кстати, насколько я знаю, тематику сайта, где гоняется ЯД, смотрят опять же модераторы!)

Первая задача существенно сложнее и ответственней, т.к. требуется привязка к разделам ЯК (которые так или иначе, достаточно субьективны), и результаты используются для ранжирования в ЯК.

В этом топике изначально обсуждалась первая задача (тематика для тиц-а), в то время как встречные аргументы звучат, почему то, по второй.

Теоретическая и практическая проработка вопросов также обычно сильно отличается.

alextutubalin:
А происходит оно сейчас или нет - мне неведомо.

Именно практическое использование автоматического распознавания тематики с привязкой к ЯК при расчете тиц и вызывает большие сомнения. Аргументы приводил ранее.

с уважением, Леонид
Dybra
На сайте с 23.10.2005
Offline
84
#47

Наверное сразу стоит разделить понятия "тематика сайта" и "тематика страницы". Для страницы автоматом определяется более-менее сносно (почти вся реклама), а вот для сайта это сделать автоматом очень сложно, поэтому только модератор (ЯК как пример)

Мы из ВЫКСЫ (http://wyksa.ru)!
ref
На сайте с 21.11.2004
Offline
91
ref
#48

Dybra, верно, я то про тематику сайта (тиц)...

A
На сайте с 07.01.2007
Offline
7
#49
Dybra:
Наверное сразу стоит разделить понятия "тематика сайта" и "тематика страницы". Для страницы автоматом определяется более-менее сносно (почти вся реклама), а вот для сайта это сделать автоматом очень сложно, поэтому только модератор (ЯК как пример)

А почему сложно ? Считаем средние частоты тематик (постраничные). Если что-то

вылезло - это и есть тематика сайта. И только если не вылезло, потребуется

вмешательство модератора.

Dybra
На сайте с 23.10.2005
Offline
84
#50
alextutubalin:
А почему сложно ? Считаем средние частоты тематик (постраничные). Если что-то
вылезло - это и есть тематика сайта. И только если не вылезло, потребуется
вмешательство модератора.

Сложность (как это не пародоксально) в определении самого термина "Тематика". Вопрос каждый месяц поднимается на форуме, но воз и ныне там. Дайте определение этого термина и поймете всю сложность. Плюс большую ложку дёгтя тут вносят разносторонние сайты, где тематика уже может делиться в каком-то отношении: допустим сайт 40% "авто", 30% "путешествия", 20% "техника" а остальное вообще не поймешь о чем, даже человеку сложно понять о чем это. Куда девать и относить такие сайты? Поэтому пока другого решения кроме ЯК я лично не вижу. Они определяют категории тематик (очень условно) и они же пытаются под эти условности "натянуть" Рунет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий