Надо определять тематику с высокой степенью точности. Сделать невидимый под-рубрикатор каталога Яка - Яндекс

Еще раз подумаем о том, что нас ожидает

Wade · 2005-11-03T11:20:51.0000000Z

Вот тут поднимались темы о том, что до анализаторов контента пока далеко, а между тем, по моим данным, без него не была бы возможна технология Google Ad Sense, к тому же, есть явные указания на то, что для Гугла важна *тематичность* ссылки, причем Гугл рассчитывает тематичность не по близости в своей Google dir, а именно за счет анализатора контента, и, если обнаружена степень схожести тематик чуть выше пороговой, то ссылка отдает куда больше (есть мнение, что если ссылка тематическая, то отдается и ПР и vote, а если нет - то только vote (не знаю перевод термина на русский, если кто знает - подскажите)). Насколько мне известно, у Я нет подобной технологии (или она находится в разработке), одно из самых ярких подтверждений этому, как я считаю - текущая значимость ссылок с раскрученных сайтов. Поэтому, видимо, новичкам следует напомнить, что морду хорошо бы изучить перед покупкой, проверить, кто на нее ссылается по версии Я, на тИЦ тоже глянуть, посмотреть на кол-во исходящих ссылок, а мы зададимся вопросом: если Я идет по стопам Гугла, то не очевидно ли, что хороший анализатор контента - следующий шаг в развитии? Ведь внедрение подобия Ad Sense не только позволит получить дополнительную прибыль, но и улучшить качество результатов поиска, автоматически скидывая с топовых позиций в выдаче сайты, накрученные продажными мордами. А раз так, не ожидает ли нас крутого поворота в скором времени? У меня есть чувство, что это произойдет в ближайшие полгода.

66

Wade

7 ноября 2005, 12:22

#21

wolf:
Точно определить тематику тяжело. В том же Адсенсе на каждом шагу встречается куча ляпов, когда показываются абсолютно нетематические объявления. Пускать такой грубый фактор в алгоритм - значит сильно попортить выдачу.

Согласен!

Думаю, что к тому же разработка подобного алгоритма для русского языка на порядок сложнее. Еще преполагаю, что разработки ведутся довольно давно и планомерно. Значит ждать внедрения стоит.

Вопрос в том - "Когда?". Через полгода или через 10 лет? Думаю, что и здесь нет однозначного ответа - когда алгоритм начнет определять тематику с высокой степенью точности этот алгоритм начнет постепенно увеличивать свой вес среди факторов, влияющих на позиции в выдаче. Таково мое мнение.

сроки продвижения сайта - текущая ситуация (http://seomodule.ru/content/sroki-prodvijeniya-saita) | полный матрикснет. мои выводы с доклада (кратко) (http://seomodule.ru/content/vitalii-shapoval-doklad-pro-trafik-s-konferentsii-rookee-video-prezentatsiya)

66

Wade

7 ноября 2005, 12:44

#22

Angelika:

Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты. Все остальное приведет к тому, что количество тематик будет сравнимо с количеством слов в русском языке.

Согласен, при этом логично будет сделать этот рубрикатор или близким, или равным рубрикатору Яка, если Я собирутся именно его использовать как показатель, но, возможно, они не пойдут на это, и дело будет обстоять как с вИЦ - слышу звон, да не знаю, где он...

"Т.е. каталог-то каталогом, платите - внесем, а вот алгоритм тематичности - внутренний секрет. Зачем это знать пользователю? А вебмастеру? Тоже незачем. Положитесь на нашу систему - она все сделает сама, и определит, хорош Ваш сайт или нет. Не согласны с нашей позицией? Извините. Мы - частная организация."

Думаю, логичнее для Я было бы сделать невидимый под-рубрикатор каталога Яка - подрубрики определяются автоматом, люди модерируют работу робота, но они не видны простым смертным.

Для тех, кого нет в ЯКе - делать его невидимыми членами, чтобы не выпадали из общей схемы.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

1183

wolf

7 ноября 2005, 12:50

#23

Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты.

Здесь есть очень слабое место. Документы на сайте могут иметь весьма различную тематику. Надо определять именно тематику документа, а не сайта.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

58

Angelika

7 ноября 2005, 12:51

#24

wolf:
Здесь есть очень слабое место. Документы на сайте могут иметь весьма различную тематику. Надо определять именно тематику документа, а не сайта.

Да. Имелись в виду, конечно, документы.

66

Wade

7 ноября 2005, 13:08

#25

wolf , Angelika , согласен. Значит, мы приходим к тому, что необходимо учитывать 2 разных параметра с разными весами, а значение последних вычислить в результате экспериментов и корректировать по ходу времени.

314

T.R.O.N

7 ноября 2005, 13:59

#26

Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты. Все остальное приведет к тому, что количество тематик будет сравнимо с количеством слов в русском языке.

А если , в качестве постулата ПС, выбрать, допустим, не более 5 рубрик, которым может принадлежать сайт.

А все остальные материалы с сайта, которые не соответствуют указанным рубрикам, пропускаются через фильтр. Несто похоже, что делается в электроннных переводчиках, когда выбранная тематика текста подключает тольок соответствующие словари (при этом значения многих слов меняется).

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

109

ITPuls

7 ноября 2005, 14:19

#27

T.R.O.N:
А если , в качестве постулата ПС, выбрать, допустим, не более 5 рубрик, которым может принадлежать сайт.
А все остальные материалы с сайта, которые не соответствуют указанным рубрикам, пропускаются через фильтр. Несто похоже, что делается в электроннных переводчиках, когда выбранная тематика текста подключает тольок соответствующие словари (при этом значения многих слов меняется).

Рациональное зерно в твоих мыслях мыслях присутствует.

С другой стороны, на проблему определения тематики можно посмотреть следующим образом: классификация некоего множества ("множество из слов" - это именно то понятие, под которым любая страничка доступна боту и нейронам сети головного мозга ИМХО) априори сопряжена с выделением подмножества слов и фраз, которые могут однозначно характеризовать эту страничку, или другими словами исходное множество. Дефинирование этого подмножества, как слишком малого или слишком большого количества понятий (терм) в любом случае обречено на неудачу, поскольку в первом случае исчезает сам принцип классификации, а во втором - одна и та же страница будет находится во многих темах одновременно.

Оптимальное решение - где-то по середине.

Это означает, что для определения тематики конткретной страницы - нужно найти пересечения синтаксической базы (базы слов) этой страницы, с базой, соответствующей заранее определенной тематике (скажим стандартная выборка из слов, однозначно характеризующая эту тематику). Там, где пересечений больше (совпадений) - та тематика и является искомой. При чем определение строго одной тематики - допустим одной рубрики - неправильно по сути - поскольку гораздо вернее (правильнее) относить страницу с разным коэффициентом веса к разным тематикам (пусть их будет 5 или 10 - но однозначно не одна). Таким образом - каждые из страниц или сайтов будут однозначно характеризоваться определенным коэффициентом принадлежности к определенному числу рубрик.

Далее очень просто просматривается принцип построения фильтра - отсеивающий покупные ссылки - синтаксическая база (база слов) ссылающейся страницы сравнивается с базой страницы, на которую ссылаются - и в случае, если пересечение достаточно велико (допустим 10 процентов) - тогда ссылка - не покупная, и ее можно засчитать с определенным весом (зависящим линейно от процента пересечения).

А что дальше? А дальше учет синтаксической базы всего сайта - который пресечет обмен тематическими статьями - о которых речь в наших кругах идет уже давно...

Демидов Николай

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

58

Angelika

7 ноября 2005, 14:26

#28

Это означает, что для определения тематики конткретной страницы - нужно найти пересечения синтаксической базы (базы слов) этой страницы, с базой, соответствующей заранее определенной тематики. Там, где пересечений больше (совпадений) - та тематика и является искомой. При чем определение строгой тематики - допустим одной рубрики - неправильно по сути - поскольку гораздо вернее (правильнее) относить страницу с разным коэффициентом веса к разным тематикам (пусть их будет 5 или 10 - но однозначно не одна).

Все это классно, но я берусь создать документ заранее заданной тематики, НИ РАЗУ не употребив заранее заданного ключевого слова. Спорим?

314

T.R.O.N

7 ноября 2005, 14:32

#29

Angelika,

Но ведь вопрос не в споре, а в сути.

Если изначально сайт делается для людей, то текст будет содержать все что нужно и тематика в большенстве случаев четко прослеживается.

109

ITPuls

7 ноября 2005, 14:33

#30

Angelika:
Все это классно, но я берусь создать документ заранее заданной тематики, НИ РАЗУ не употребив заранее заданного ключевого слова. Спорим?

Вы сейчас говорите о том, что по канату можно пройти, не упав (другими словами можно написать о яйцах, как плодах совместной жизни самца и самки птицы, ни разу не употребив это слово - я прошу прощение за это, в любом случае очень отдаленное сравнение). Это утверждение я в принципе не могу отвергнуть.

С другой стороны, я всегда могу воспользоваться словарем синонимов - который, опять же прошу простить, пресечет на корню ваш поход по канату...

Ну а если, с другой стороны, вам все же удастся говорить гипотетически о вещах, не называя их толком своими именами - то это уже в любом случае завуалировано не только для конечного читателя и не релевантно ничему...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Что делать, если ваша email-рассылка попала в спам

Еще раз подумаем о том, что нас ожидает