Вы того Афанасьева в виду имеете, которого искали тут?
Ну, как тебе сказать... Щекино-Азот, НовомосковскБытХим... Всё рядышком...
Никак... Я же говорю - при прочих равных. Зафиксировано всё, что можно зафиксировать. Единственное - анкор-файлы для документов A, В и С разные по размеру и набору терминов, но термины из эксперимента в них присутсвуют в единственном экземпляре.
Частотные характеристики по корпусу посчитать не сложней, чем посчитать, к примеру, IDF. И уж совсем не нужно делать это на лету.
Значит, что про при прочих равных дают больший вклад в релевантность.
Например, тексты ссылок
"термин1 термин2 термин3 ... терминN"
на реципиентов A, B и C различаются только терминомN, все остальные совпадают.
Реципиенты A, B и C имеют пропорциональный вклад по всем совпадающим терминам.
И только, к примеру, термин3 у реципиента C дает вклад заметно больший, не укладывающийся в общую схему, причем этого термина нет в других беклинках (впрочем, это справедливо для всех терминов из эксперимента)
С кириллическими пока маловато наблюдений. Не так просто найти практически совпадающие по набору терминов ссылки с одного донора на разных реципиентов. С некириллицей проще - ссылки с URL.
1. Термины некириллические
2. В одних и тех же
3. 12 слов
Т.е. имеет место кумулятивный эффект? Хорошая текстовая релевантность усиливает действие ссылочного по этому запросу. Так, что ль?
Так, продолжаем работать клещами. :) От контента чего?
Мих, ты сегодня как-то загадочен и немногословен. :) Отдельно от чего?
Ну, дык. Как говаривал старина Евклид, "в геометрии нет легких путей". Думаю, ежели б у яндексоидов имелось достаточно вычислительных мощностей, они б такой алгоритм забабахали - фиг раскусишь. А так внедряют потихоньку всякие ресурсоемкие фишки. По одной. А когда ресурсов оказывается недостаточно, начинается расколбас.