списком документов для скачивания для заказов, котировок и пр., правильные названия данных, столбцов и т.д.
могу отправить на разработанные нами сайты.
они соответствуют закону. и удобны для посетителя и для администратора:
http://www.gradm.ru
http://www.sokoladm.ru
http://www.koradm.ru
везде раздел "муниципальный заказ"
было уже приведено. вот еще раз:
Новые сайты автоматически классифицируются тематическим и стилистическим классификатором. (обучающая выборка - весь текущий каталог). После этого считается взвешенная тематическая цитируемость. (эта процедура называется "перевзвешивание дерева"). Учитывается размер сайта.
обсуждением здесь - /ru/forum/2847
Ну в каталоге ладно. В любом случае, там должна быть ручная проверка модератором. Вопрос был в определении тематики для сайтов НЕ из каталога.
У меня примеров нет. Я пытаюсь понять логику и сделать для себя практические выводы. И Вы пишите про то же, что я, когда говорите про "обычное словарное пересечение по текстам"? Я об этом же и писал.
на логике и на высказывании Сегаловиче (см.выше).
а как иначе яндекс может определить тематику нового сайта? посадить тысячу сотрудников, чтобы они это делали вручную???
по 2. я почитал обсуждение (весьма старое, кстати), высказывание откуда Вы цитировали - /ru/forum/2847, там так этот вопрос и не выяснили 😕
а по 1...
вот если рассуждать логически, что для определения тематики берется семантическое ядро соответствующего каталога, то яндекс должен действовать так:
- составить для каждого раздела список ключевых слов, какая-то часть из которых должна встречаться на сайте такой тематики
- проверить наличие и частотность ключевых слов на определяемом сайте
- сравнить эти два показателя
Причем, очевидно, должно быть не просто определение, соответствует ли сайт тематике, а на сколько процентов соответствует. и на сколько процентов соответствует другим тематикам. Так?
Ну и если следовать этой логике, то сервис по определению тематики должен действовать аналогичным образом.
Определить наличие и частотность ключевиков могут достаточно много сервисов в сети. сложность только с частотностью сайтов из каталога. вернее даже, не сложность, а дольшее время выполнения и больший трафик.
P.S. Кстати, было бы интересно посмотреть, если бы кто-то провел такую индексацию каталога и вывесил бы данные, какие ключевики с какой частотой характерны для той или иной категории. :d
Может, кто займется?
ОК, понятно. так и предполагал. но собственно вопрос в том как он это делает? очевидно, по какому-то семантическому ядру, существующему для каждой категории?
ну и вопрос, как практически можно узнать, какие сайты яндекс считает тематически близкими моему? нет ли какого сервиса, программки для определения этого?