Gray
причем, перекос изрядный. Даже для известных ему доменов яндекс почему-то самыми релевантными считает страницы "найденые по ссылке".
Особенно раздражает, когда эти ссылки оказыаются "битыми", а сайт их когда-то поставивший - мертвым.
Страница удаляется из базы, а через некоторое время все возвращается на круги своя. Влиять на чужие сайты, поставившие на тебя ссылки - невозможно.
Вопрос снимается, если анализировать позицию одного и того же сайта, который "всплывает" по определенному запросу. Только дело это хлопотное, и оказывают влияние технические траблы и распределение активности по дням недели, фазам луны и прочим неизвестным факторам :)
У меня где-то за месяц есть, но только по интересующему меня запросу, и позиции не все первых 10.
Наибольшее влияние оказывает не сам документ, а количество нерелевантных документов выше по списку. Как вы это в формуле учитывать будете?
Вообще, я в таких вопросах склонен принимать на веру слова Садовского.
Сказал человек 8-15 раз, для прикидок достаточно.
Поищите, тема обсуждалась на этом форуме для Гугля И Яндекса.
AlexA
Вот есть такая релевантная ссылка
http://www.artint.ru/projects/frqlist/frqlist-en.asp
The average word length is 5.28 characters.
The average sentence length is 10.38 words.
1000 most frequent lemmas cover 64.0708% of word forms in texts.
2000 most frequent lemmas cover 71.9521% of word forms in texts.
3000 most frequent lemmas cover 76.6824% of word forms in texts.
5000 most frequent lemmas cover 82.0604% of word forms in texts.
Частотный словарь русский, 1М слов, можно скачать в зипе 32К слов с частотами более одного случая на миллион.
Игорь, извините а нельзя ли как-нибудь обозначить этот объем? Желательно не в мегабайтах а в тысячах слов, но и в байтах сойдет.
Немного выше по топику я ссылался на некий частотный словарь, и AIK решил, что это моя выборка. У меня записей под руками не было, поэтому полностью расшифрую его сейчас.
Комплексный частотный словарь русской научной и технической лексики: 3047 слов, Денисов П.Н., Морковкин В.В., Сафьян Ю.А. - М., 1978
Массив 400 000 словоупотреблений
200 частей - выборки по 2000 словоупотреблений
отбирались слова с частотой не менее 10
тексты отбирались по 11 (по-моему) разделам.
Посмотрите на год издания, вспомните перфокарты и грохочущие "Мински", и снимите шляпу.
Может не текстов мало, а методика их отбора должна быть другой?
У меня вот есть смутные подозрения, что тематическую направленность текста можно определять, например, по частоте буквы П :) Это так, для примера.
Есть такой бумажный источник:
Калакуцкая Л.П.
Склонение фамилий и личных имен в русском литературном языке
М. 1984
Поищите, может найдете и в сети.
я не уверен, что это то, что Вам нужно, но гляньте здесь
http://prosto.pp.ru/Docum/DocumShow.asp?DocumID=260
И в мыслях не было. Пример из жизни. Видел эту фразу дословно переведенной в каком-то из графических редакторов с руссифицированным интерфейсом.
Тот случай, когда переводчики переусердствовали.
Слава, привет.
По-моему, Пинг переехал, как и предполагалось.
Были провалы 21 и 26 числа и один раз "склеилась" статистика за 2 дня.
Потом все нормализовалось.
Я понимаю ваше ревностное отношение, но не хотелось бы его хоронить раньше времени. :)
Профессор, дай бог, чтоб тебе никогда не пришлось с изменением названия компании столкнуться. Полгода на фиг.
Да, наверное глюк. У меня теперь тоже.