- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Точно определить тематику тяжело. В том же Адсенсе на каждом шагу встречается куча ляпов, когда показываются абсолютно нетематические объявления. Пускать такой грубый фактор в алгоритм - значит сильно попортить выдачу.
Согласен!
Думаю, что к тому же разработка подобного алгоритма для русского языка на порядок сложнее. Еще преполагаю, что разработки ведутся довольно давно и планомерно. Значит ждать внедрения стоит.
Вопрос в том - "Когда?". Через полгода или через 10 лет? Думаю, что и здесь нет однозначного ответа - когда алгоритм начнет определять тематику с высокой степенью точности этот алгоритм начнет постепенно увеличивать свой вес среди факторов, влияющих на позиции в выдаче. Таково мое мнение.
Определение тематики может иметь смысл только в одном случае - сначала составляем рубрикатор, затем рассовываем по рубрикам сайты. Все остальное приведет к тому, что количество тематик будет сравнимо с количеством слов в русском языке.
Согласен, при этом логично будет сделать этот рубрикатор или близким, или равным рубрикатору Яка, если Я собирутся именно его использовать как показатель, но, возможно, они не пойдут на это, и дело будет обстоять как с вИЦ - слышу звон, да не знаю, где он...
"Т.е. каталог-то каталогом, платите - внесем, а вот алгоритм тематичности - внутренний секрет. Зачем это знать пользователю? А вебмастеру? Тоже незачем. Положитесь на нашу систему - она все сделает сама, и определит, хорош Ваш сайт или нет. Не согласны с нашей позицией? Извините. Мы - частная организация."
Думаю, логичнее для Я было бы сделать невидимый под-рубрикатор каталога Яка - подрубрики определяются автоматом, люди модерируют работу робота, но они не видны простым смертным.
Для тех, кого нет в ЯКе - делать его невидимыми членами, чтобы не выпадали из общей схемы.
Здесь есть очень слабое место. Документы на сайте могут иметь весьма различную тематику. Надо определять именно тематику документа, а не сайта.
Здесь есть очень слабое место. Документы на сайте могут иметь весьма различную тематику. Надо определять именно тематику документа, а не сайта.
Да. Имелись в виду, конечно, документы.
wolf , Angelika , согласен. Значит, мы приходим к тому, что необходимо учитывать 2 разных параметра с разными весами, а значение последних вычислить в результате экспериментов и корректировать по ходу времени.
А если , в качестве постулата ПС, выбрать, допустим, не более 5 рубрик, которым может принадлежать сайт.
А все остальные материалы с сайта, которые не соответствуют указанным рубрикам, пропускаются через фильтр. Несто похоже, что делается в электроннных переводчиках, когда выбранная тематика текста подключает тольок соответствующие словари (при этом значения многих слов меняется).
А если , в качестве постулата ПС, выбрать, допустим, не более 5 рубрик, которым может принадлежать сайт.
А все остальные материалы с сайта, которые не соответствуют указанным рубрикам, пропускаются через фильтр. Несто похоже, что делается в электроннных переводчиках, когда выбранная тематика текста подключает тольок соответствующие словари (при этом значения многих слов меняется).
Рациональное зерно в твоих мыслях мыслях присутствует.
С другой стороны, на проблему определения тематики можно посмотреть следующим образом: классификация некоего множества ("множество из слов" - это именно то понятие, под которым любая страничка доступна боту и нейронам сети головного мозга ИМХО) априори сопряжена с выделением подмножества слов и фраз, которые могут однозначно характеризовать эту страничку, или другими словами исходное множество. Дефинирование этого подмножества, как слишком малого или слишком большого количества понятий (терм) в любом случае обречено на неудачу, поскольку в первом случае исчезает сам принцип классификации, а во втором - одна и та же страница будет находится во многих темах одновременно.
Оптимальное решение - где-то по середине.
Это означает, что для определения тематики конткретной страницы - нужно найти пересечения синтаксической базы (базы слов) этой страницы, с базой, соответствующей заранее определенной тематике (скажим стандартная выборка из слов, однозначно характеризующая эту тематику). Там, где пересечений больше (совпадений) - та тематика и является искомой. При чем определение строго одной тематики - допустим одной рубрики - неправильно по сути - поскольку гораздо вернее (правильнее) относить страницу с разным коэффициентом веса к разным тематикам (пусть их будет 5 или 10 - но однозначно не одна). Таким образом - каждые из страниц или сайтов будут однозначно характеризоваться определенным коэффициентом принадлежности к определенному числу рубрик.
Далее очень просто просматривается принцип построения фильтра - отсеивающий покупные ссылки - синтаксическая база (база слов) ссылающейся страницы сравнивается с базой страницы, на которую ссылаются - и в случае, если пересечение достаточно велико (допустим 10 процентов) - тогда ссылка - не покупная, и ее можно засчитать с определенным весом (зависящим линейно от процента пересечения).
А что дальше? А дальше учет синтаксической базы всего сайта - который пресечет обмен тематическими статьями - о которых речь в наших кругах идет уже давно...
Все это классно, но я берусь создать документ заранее заданной тематики, НИ РАЗУ не употребив заранее заданного ключевого слова. Спорим?
Angelika,
Но ведь вопрос не в споре, а в сути.
Если изначально сайт делается для людей, то текст будет содержать все что нужно и тематика в большенстве случаев четко прослеживается.
Все это классно, но я берусь создать документ заранее заданной тематики, НИ РАЗУ не употребив заранее заданного ключевого слова. Спорим?
Вы сейчас говорите о том, что по канату можно пройти, не упав (другими словами можно написать о яйцах, как плодах совместной жизни самца и самки птицы, ни разу не употребив это слово - я прошу прощение за это, в любом случае очень отдаленное сравнение). Это утверждение я в принципе не могу отвергнуть.
С другой стороны, я всегда могу воспользоваться словарем синонимов - который, опять же прошу простить, пресечет на корню ваш поход по канату...
Ну а если, с другой стороны, вам все же удастся говорить гипотетически о вещах, не называя их толком своими именами - то это уже в любом случае завуалировано не только для конечного читателя и не релевантно ничему...