Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java
AlexKats:
блин, нет 1000000 тематик - 14 основных разделов, все остальное подразделы

Я говорю не о 100000 а о 100. 100 на 100 = 1000

14 категорий нет ссмысла делать

Т.к. сайты из разных подкатегорий имеют разное сходство

http://yaca.yandex.ru/yca/ungrp/cat/Computers/Networking/Integrators/

и

http://yaca.yandex.ru/yca/cat/Business/

а из того же раздела

http://yaca.yandex.ru/yca/cat/Computers/Multimedia/Wallpapers/

никак не вяжеться с бизнесом

http://yaca.yandex.ru/yca/cat/Business/

Banzaika:
Информация к размышлению:
товарищи! Вы когда смотрите в свой монитор, сколько цветов можете определить? 16 млн? или 5-10-20?
(По поводу определения Яндексом тематики сайтов....)

Хотите сказать что тема не какое то целое число. А вектор?

Т.е. имея эту матрицу можно найти такое пространство (где то 10 мерное), что можно представить контрольные тематики как точки и тематика сайта будет точкой? С точки зрения математики и красоты реализации все хорошо, но вот производительность...

хотя можно использовать манхетоновый базис.

AlexKats:
не просто, а за дело ... Вы может быть не обратили внимание, как вычистили дорвеи? ... многие из тех, кто стабильно получал бабки с этой темы - ищут работу, а на пользователях это как-то сказалось? - даже не заметили 😂

Просто это может испугать мастеров ставить природные ссылки. Погрешность определения внутрених очень высока.

Про тематику сайта я верю имея большой запас данных (переходы, линки, контент) можно натыкать на шару коефициентов потом их сбалансировать автоматом и получить хорошую точность. Могу написть алгоритм как все это я бы сделал.

AlexKats:
1. если процесс начинается сегодня, а не закончился условно к конференции ...
2. а чего им бояться? 😂

1. Видно по форуму, что не закончился, а только начился. Проводить процесс в котором зайдействован не один десяток прогеров и модераторов без проверок на выдаче - глупо. Тем более выборку яша начал активно наращивать в последнее время.

2. Если они санкции наложат просто так на половину сайтов. Просто так Яша никому не ставил санкции.

Тематику отдельных документов определить нельзя! Только сайтов.

1. Для определения тематики с хорошей точностью нет эталонной выборки (в ЯК нету внутрених страниц с тематикой). Конечно можно взять с ДМОЗ но их мало, а документов в рунете много. Это как учить ребенка читать китайские иероглифы по русскому букварю.

2. Документы могут быть смежных тематик.

3. Чтобы хорошо определять тематику одного текста мало. Если было бы можно не было бы ссылочного был бы токо вИЦ.(не совсем правильно выразился, думаю мою мысль поймут) Что у нас для документа есть? Токо текст.

4. Нафиг это яше нужно? Счас внутреними мало торгуют.

5. Документов в 1000 раз больше чем сайтов много. Сравнивать нужно с выборкой. Это займет много машинного времени.

P.S. Мне выгоднее чтобы Вы считали обратное (я размножаю статьи в 1000 копий чтобы яша их не склеил)

>матрица метрик между ними {Mi,j}

Нереально тематик где 100. Матрица с 4900 ( (100* 100)/2 - 100 ) параметрами взятыми не на шару. И при добавлении новой тематики им прийдеться заново вводить параметры.

Если, тематика это вектор. Например один из его параметров характеризует гуманитарный<->естественный уклон тематики. То это сложно очень.

Хотя такую матрицу можно получить автоматом. (*) этот вариант запомним.

>так же тематику всех отдельных документов

Не реально. В метрике по которой сравнивают сайты должно быть очень много свойств каждого обьекта.

Для сайта кроме текста мы имеем входящие ссылки, исходящие ссылки, запросы по которым в него идет траф. Для документа мы имеем тоже самое но в сотни раз меньшее, если документ не морда. Т.е. точно оценить нельзя. Тем более в Яндекс каталоге не присваиваеться тематика документам. т.е. у нас нету выборки (нам не с чем сравнивать).

Есть какаето функция для определения. Яндекс примерно сбалансировал все ее коефициеты. И начал автоматом раздавать тематики. Причем я думаю он раздавать начал так Наиболее вероятная тематика Автомобили (вероятность столько то).

Раздал всем тематики и уже у него выборка значительно расширелась. Прошел по второму кругу тематики раздал еще точнее. И так раз 10 пока точность будет его устраивать. А после этого начнуться санкции.

Теперь вспомним (*) коефиценты в этой матрице с ростом точности выборки будут балансироваться. Как и коефы в функции определения тематики. Т.е. нужно время.

Что я хочу сказать

1. Яша постепенно будет определять тематику сайтов. пол - полтора года понадобиться чтобы с точность 99% определить 90% сайтов.

2. Яша не будет определять тематику внутрених. И будет бояться автосанкции делать либо будет делать намного слабее.

Что можно.

Можно ставить внутрение ссылки.

Можно статьи в клике от морды.(даже если определят тематику внутрених)

Можно тематические морды.

Примеры в личку

На какой основе размещение платное или бесплатное (для вас)? Обмен?

P.S. Предлагаю аналогичные услуги.

Согласен цена вопроса 2вмз за удачную публикацию.

70 вмз за уникализацию статьи (1000 копий)

Сегодня - завтра закончу базу для добавления RSS русских там около сотни. буржуйских где то 250.

Всего: 2639