Тематика документа

I
На сайте с 26.05.2001
Offline
64
#41

Дело в том, что Яндекс большой. Директ может и не уметь тему определять, а большой текст, наооборот, может. Хотя я тут начал сомневаться в связи с листом-то. Хотя может быть тривиальной ошибкой классификатора в данном конкретном случае. На одном примере нельзя делать выводы.

AiK:
Более, чем уверен, что тематика страницы Яндексом не определяется. Потому как первое, куда стоит пихать определение тематики - это контекстная реклама. Однако, мне в топике про листы в Exel'e постоянно пихают объявления по сталепрокату. Т.е. вроде бы листы, но совсем другие. Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.
Мне могут возразить, мол лист в Excel пересекаетсяся c листом стали через рубрику бизнес: лист -> культура(Ф. Лист), бизнес(прайс-листы, металлургия),... excel->финансы, бизнес, ..., сталь->бизнес (металлургия)..., да и в директе и поиске могут использоваться ну совсем разные алгоритмы.
Отвечаю: здравый смысл в этом конечно есть. Да вот только есть несколько но:
1) распихать хотя бы 5-10 тысяч самых популярных слов по всевозможным тематикам задача не самая простая. А без этого начального распихивания тематику конкретной страницы не определить
2) пересечения множеств строятся гораздо дольше, чем объединения
3) при использовании крупных рубрик (бизнес, дом, hi-tech и т.п.) точность будет крайне невысокая (см. пример выше), а при использовании точных рубрик (металлургия, климатическое оборудование и т.п.) большинство ссылок просто перестанет учитываться, чего явно на сегодняшний день не наблюдается.
Приходите завтра, завтра будет! (http://itman666.livejournal.com)
I
На сайте с 05.09.2005
Offline
54
#42
AiK:
Более, чем уверен, что тематика страницы Яндексом не определяется.
....

Т.о. максимум что определяется, это то, что у страницы донора и страницы акцептора в списке наиболее значимых слов есть совпадения.

...

AiK, полностью согласен. Думаю, что на сегодняшний день определение "тематики" документа при ранжировании сводится к поиску совпадений слов или словосочетаний у страницы донора и анкора ссылки или страницы акцептора. Возможно, с учетом синонимов.

Возможно конечно, что на "тематичность" страницы влияют еще какие-то факторы, но думаю, что алгоритм определения тематики Яндексом весьма груб.

[Удален]
#43

Кстати, очень реален выглядит следующий механизм - при нахождении новой ссылке на странице сама страница проверяется на соответствие запросу. Если соответствие недостаточное, то вес сильно понижается, если достаточное - то все ок. Ибо, в принципе, для борьбы с неестественными ссылками именно тематику определять не нужно.

wolf
На сайте с 13.03.2001
Offline
1183
#44
Miha Kuzmin (KMY):
Кстати, очень реален выглядит следующий механизм - при нахождении новой ссылке на странице сама страница проверяется на соответствие запросу. Если соответствие недостаточное, то вес сильно понижается, если достаточное - то все ок. Ибо, в принципе, для борьбы с неестественными ссылками именно тематику определять не нужно.

По идее тогда надо проверять, исключив текст самой ссылки. А это уже лишние операции.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
AiK
На сайте с 27.10.2000
Offline
257
AiK
#45

minaton, тематика сайта - это несуществующее понятие во многих случаях. Возьми, к примеру, сайт любого неспециализированного СМИ и попробуй автоматом определить ему тематику. В лучшем случае ты его автоматом припишешь ко всем тематикам. Это в случае, если ты тематику сайта определяешь как совокупность тематик всех страниц. А теперь представь, что для того же сайта СМИ тебе нужно определить тематику морды. При условии, что СМИ маленькое и в каталоге не описано. Никак не определишь, потому что при каждом заходе робота он будет читать анонсы публикаций на разные темы. И таких типов сайтов, с размытой тематикой, довольно много... Хотя, конечно, против "Садовский сказал" не попрёшь :)

I
На сайте с 05.09.2005
Offline
54
#46
wolf:
По идее тогда надо проверять, исключив текст самой ссылки. А это уже лишние операции.

Это раньше они были лишними :) А теперь - введя новый алгоритм, яндекс видимо считает их необходимыми. :)

Не такая уж ресурсоемкая это операция...

minaton
На сайте с 18.09.2004
Offline
135
#47

AiK, все интернет-СМИ аккуратно записаны в Яндекс.Новостях, так что там вполне возможен индивидуальный подход :)

[Удален]
#48

wolf, исключить один пассаж с точным вхождением. Ссылка это будет, или нет, особо без разницы.

wolf
На сайте с 13.03.2001
Offline
1183
#49
Miha Kuzmin (KMY):
wolf, исключить один пассаж с точным вхождением. Ссылка это будет, или нет, особо без разницы.

Угу. И это надо сделать для каждой ссылки на каждом документе. Масштаб представляешь?

Sla_Dom
На сайте с 18.02.2006
Offline
252
#50

minaton,

minaton:
Так что уж для сайта грубо оценить тематику можно.

тематика определяется для конкретной страницы, т.е. елси ссылка идет со страницы сайта о кондиционеров на сайт авто тематики, но со статья авто тематики, то ссылка считается тематической. Если я правильно понял.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий