Еще раз подумаем о том, что нас ожидает

1 234
Wade
На сайте с 13.07.2005
Offline
66
#21
wolf:
Точно определить тематику тяжело. В том же Адсенсе на каждом шагу встречается куча ляпов, когда показываются абсолютно нетематические объявления. Пускать такой грубый фактор в алгоритм - значит сильно попортить выдачу.

Согласен!

Думаю, что к тому же разработка подобного алгоритма для русского языка на порядок сложнее. Еще преполагаю, что разработки ведутся довольно давно и планомерно. Значит ждать внедрения стоит.

Вопрос в том - "Когда?". Через полгода или через 10 лет? Думаю, что и здесь нет однозначного ответа - когда алгоритм начнет определять тематику с высокой степенью точности этот алгоритм начнет постепенно увеличивать свой вес среди факторов, влияющих на позиции в выдаче. Таково мое мнение.

сроки продвижения сайта - текущая ситуация (http://seomodule.ru/content/sroki-prodvijeniya-saita) | полный матрикснет. мои выводы с доклада (кратко) (http://seomodule.ru/content/vitalii-shapoval-doklad-pro-trafik-s-konferentsii-rookee-video-prezentatsiya)
Wade
На сайте с 13.07.2005
Offline
66
#22
Angelika:

Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты. Все остальное приведет к тому, что количество тематик будет сравнимо с количеством слов в русском языке.

Согласен, при этом логично будет сделать этот рубрикатор или близким, или равным рубрикатору Яка, если Я собирутся именно его использовать как показатель, но, возможно, они не пойдут на это, и дело будет обстоять как с вИЦ - слышу звон, да не знаю, где он...

"Т.е. каталог-то каталогом, платите - внесем, а вот алгоритм тематичности - внутренний секрет. Зачем это знать пользователю? А вебмастеру? Тоже незачем. Положитесь на нашу систему - она все сделает сама, и определит, хорош Ваш сайт или нет. Не согласны с нашей позицией? Извините. Мы - частная организация."

Думаю, логичнее для Я было бы сделать невидимый под-рубрикатор каталога Яка - подрубрики определяются автоматом, люди модерируют работу робота, но они не видны простым смертным.

Для тех, кого нет в ЯКе - делать его невидимыми членами, чтобы не выпадали из общей схемы.

wolf
На сайте с 13.03.2001
Offline
1183
#23
Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты.

Здесь есть очень слабое место. Документы на сайте могут иметь весьма различную тематику. Надо определять именно тематику документа, а не сайта.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Angelika
На сайте с 19.08.2005
Offline
58
#24
wolf:
Здесь есть очень слабое место. Документы на сайте могут иметь весьма различную тематику. Надо определять именно тематику документа, а не сайта.

Да. Имелись в виду, конечно, документы.

Wade
На сайте с 13.07.2005
Offline
66
#25

wolf , Angelika , согласен. Значит, мы приходим к тому, что необходимо учитывать 2 разных параметра с разными весами, а значение последних вычислить в результате экспериментов и корректировать по ходу времени.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#26
Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты. Все остальное приведет к тому, что количество тематик будет сравнимо с количеством слов в русском языке.

А если , в качестве постулата ПС, выбрать, допустим, не более 5 рубрик, которым может принадлежать сайт.

А все остальные материалы с сайта, которые не соответствуют указанным рубрикам, пропускаются через фильтр. Несто похоже, что делается в электроннных переводчиках, когда выбранная тематика текста подключает тольок соответствующие словари (при этом значения многих слов меняется).

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
ITPuls
На сайте с 25.08.2005
Offline
109
#27
T.R.O.N:
А если , в качестве постулата ПС, выбрать, допустим, не более 5 рубрик, которым может принадлежать сайт.
А все остальные материалы с сайта, которые не соответствуют указанным рубрикам, пропускаются через фильтр. Несто похоже, что делается в электроннных переводчиках, когда выбранная тематика текста подключает тольок соответствующие словари (при этом значения многих слов меняется).

Рациональное зерно в твоих мыслях мыслях присутствует.

С другой стороны, на проблему определения тематики можно посмотреть следующим образом: классификация некоего множества ("множество из слов" - это именно то понятие, под которым любая страничка доступна боту и нейронам сети головного мозга ИМХО) априори сопряжена с выделением подмножества слов и фраз, которые могут однозначно характеризовать эту страничку, или другими словами исходное множество. Дефинирование этого подмножества, как слишком малого или слишком большого количества понятий (терм) в любом случае обречено на неудачу, поскольку в первом случае исчезает сам принцип классификации, а во втором - одна и та же страница будет находится во многих темах одновременно.

Оптимальное решение - где-то по середине.

Это означает, что для определения тематики конткретной страницы - нужно найти пересечения синтаксической базы (базы слов) этой страницы, с базой, соответствующей заранее определенной тематике (скажим стандартная выборка из слов, однозначно характеризующая эту тематику). Там, где пересечений больше (совпадений) - та тематика и является искомой. При чем определение строго одной тематики - допустим одной рубрики - неправильно по сути - поскольку гораздо вернее (правильнее) относить страницу с разным коэффициентом веса к разным тематикам (пусть их будет 5 или 10 - но однозначно не одна). Таким образом - каждые из страниц или сайтов будут однозначно характеризоваться определенным коэффициентом принадлежности к определенному числу рубрик.

Далее очень просто просматривается принцип построения фильтра - отсеивающий покупные ссылки - синтаксическая база (база слов) ссылающейся страницы сравнивается с базой страницы, на которую ссылаются - и в случае, если пересечение достаточно велико (допустим 10 процентов) - тогда ссылка - не покупная, и ее можно засчитать с определенным весом (зависящим линейно от процента пересечения).

А что дальше? А дальше учет синтаксической базы всего сайта - который пресечет обмен тематическими статьями - о которых речь в наших кругах идет уже давно...

Демидов Николай
Angelika
На сайте с 19.08.2005
Offline
58
#28
Это означает, что для определения тематики конткретной страницы - нужно найти пересечения синтаксической базы (базы слов) этой страницы, с базой, соответствующей заранее определенной тематики. Там, где пересечений больше (совпадений) - та тематика и является искомой. При чем определение строгой тематики - допустим одной рубрики - неправильно по сути - поскольку гораздо вернее (правильнее) относить страницу с разным коэффициентом веса к разным тематикам (пусть их будет 5 или 10 - но однозначно не одна).

Все это классно, но я берусь создать документ заранее заданной тематики, НИ РАЗУ не употребив заранее заданного ключевого слова. Спорим?

T.R.O.N
На сайте с 18.05.2004
Offline
314
#29

Angelika,

Но ведь вопрос не в споре, а в сути.

Если изначально сайт делается для людей, то текст будет содержать все что нужно и тематика в большенстве случаев четко прослеживается.

ITPuls
На сайте с 25.08.2005
Offline
109
#30
Angelika:
Все это классно, но я берусь создать документ заранее заданной тематики, НИ РАЗУ не употребив заранее заданного ключевого слова. Спорим?

Вы сейчас говорите о том, что по канату можно пройти, не упав (другими словами можно написать о яйцах, как плодах совместной жизни самца и самки птицы, ни разу не употребив это слово - я прошу прощение за это, в любом случае очень отдаленное сравнение). Это утверждение я в принципе не могу отвергнуть.

С другой стороны, я всегда могу воспользоваться словарем синонимов - который, опять же прошу простить, пресечет на корню ваш поход по канату...

Ну а если, с другой стороны, вам все же удастся говорить гипотетически о вещах, не называя их толком своими именами - то это уже в любом случае завуалировано не только для конечного читателя и не релевантно ничему...

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий