Комментарии - spark - Профиль вебмастера - Форум об интернет-маркетинге

Яндекс. Качество поиска в угоду коммерции.

25 октября 2002, 11:54

Gray

не имеющие никакого отношения к теме, только потому, что в тексте одной или двух ссылок на них присутствует данное слово

причем, перекос изрядный. Даже для известных ему доменов яндекс почему-то самыми релевантными считает страницы "найденые по ссылке".

Особенно раздражает, когда эти ссылки оказыаются "битыми", а сайт их когда-то поставивший - мертвым.

Страница удаляется из базы, а через некоторое время все возвращается на круги своя. Влиять на чужие сайты, поставившие на тебя ссылки - невозможно.

Функция посещений в зависимости от позиции.

23 октября 2002, 11:50

Вопрос снимается, если анализировать позицию одного и того же сайта, который "всплывает" по определенному запросу. Только дело это хлопотное, и оказывают влияние технические траблы и распределение активности по дням недели, фазам луны и прочим неизвестным факторам :)

У меня где-то за месяц есть, но только по интересующему меня запросу, и позиции не все первых 10.

Наибольшее влияние оказывает не сам документ, а количество нерелевантных документов выше по списку. Как вы это в формуле учитывать будете?

Вообще, я в таких вопросах склонен принимать на веру слова Садовского.

Сказал человек 8-15 раз, для прикидок достаточно.

Поищите, тема обсуждалась на этом форуме для Гугля И Яндекса.

Продолжение - "класификатор"

23 октября 2002, 10:55

AlexA

Начать можно с более частотных слов, даже со словоформ.

Вот есть такая релевантная ссылка

http://www.artint.ru/projects/frqlist/frqlist-en.asp

The average word length is 5.28 characters.

The average sentence length is 10.38 words.

1000 most frequent lemmas cover 64.0708% of word forms in texts.

2000 most frequent lemmas cover 71.9521% of word forms in texts.

3000 most frequent lemmas cover 76.6824% of word forms in texts.

5000 most frequent lemmas cover 82.0604% of word forms in texts.

Частотный словарь русский, 1М слов, можно скачать в зипе 32К слов с частотами более одного случая на миллион.

Продолжение - "класификатор"

22 октября 2002, 07:46

Когда я этим занимался в МедиаЛингве, получалось, что статистики, достаточной для отеделения устойчивых словосочетаний от свободных сочетаний слов, просто не наберёшь на существующем объёме электронных текстов.

Игорь, извините а нельзя ли как-нибудь обозначить этот объем? Желательно не в мегабайтах а в тысячах слов, но и в байтах сойдет.

Немного выше по топику я ссылался на некий частотный словарь, и AIK решил, что это моя выборка. У меня записей под руками не было, поэтому полностью расшифрую его сейчас.

Комплексный частотный словарь русской научной и технической лексики: 3047 слов, Денисов П.Н., Морковкин В.В., Сафьян Ю.А. - М., 1978

Массив 400 000 словоупотреблений

200 частей - выборки по 2000 словоупотреблений

отбирались слова с частотой не менее 10

тексты отбирались по 11 (по-моему) разделам.

Посмотрите на год издания, вспомните перфокарты и грохочущие "Мински", и снимите шляпу.

Может не текстов мало, а методика их отбора должна быть другой?

У меня вот есть смутные подозрения, что тематическую направленность текста можно определять, например, по частоте буквы П :) Это так, для примера.

ispell + правила построения форм имен собственных

21 октября 2002, 12:55

Есть такой бумажный источник:

Калакуцкая Л.П.