wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO
finva:
таким образом, делаем вывод, что в контенте стоп-слова учитываются, а в ссылках нет.
этим можно объяснить результат номер 4 в вышеприведенной ссылке

Нельзя. Ибо найден он по тексту ссылки

AlexKats:
почему? они становятся значимыми только в контексте, а точнее в окружении - протокол http, домен без www, справочник html - в остальных случаях это служебные приставки к файлам, описывающие их свойства

Скорее логика другая - если в одно предложение входят http, html и(или) www, то они считаются служебными, т.к. это предложение идентифицируется, как адрес страницы.

wolf:
1. На v4r203.html ссылаются текстами
"http www srcc msu su num meth zhurnal tom 2003 v4r203 html"
и "html"

2. На v4r202.html - есть только ссылка с текстом
"http www srcc msu su num meth zhurnal tom 2003 v4r202 html"

Имеем в первом случае - самый частотный термин анкор-текстов - "html" с частотностью 2, во втором случае частотность самого частотного термина (их несколько) - 1.

Гм, похоже, я несколько поторопился. Оказывается, слово "html" из текстов ссылок "http www srcc msu su num meth zhurnal tom 2003 v4r202 html" и "http www srcc msu su num meth zhurnal tom 2003 v4r203 html", похоже, не учитывается:

http://www.yandex.ru/yandsearch?text=html+%3C%3C+url%3D%22srcc.msu.su%2Fnum-meth%2Fzhurnal%2Ftom_2003*%22&stype=www

Правда, отмечаю весьма странное поведение оператора "<<":

http://www.yandex.ru/yandsearch?text=v4r202+html&tb=1 (см. 4 место)

http://www.yandex.ru/yandsearch?text=v4r202+html+%3C%3C+url%3D%22srcc.msu.su%2Fnum-meth%2Fzhurnal%2Ftom_2003%2Fv4r202.html%22&stype=www

pro-maker:
А дубликаты с тем же анкором, если смотреть анкоры с тем же текстом?

Да, дубликаты нарушили чистоту. Тьфу на них, окаянных. :)

ХренРедькиНеСлаще:
Еще один факт, ссылок больше на страницу v4r203
http://www.yandex.ru/yandsearch?text...stype=www&rd=0
http://www.yandex.ru/yandsearch?text...stype=www&rd=0

А теперь посмотрим, каким текстом идут сслки на подопытные страницы:

1. На v4r203.html ссылаются текстами

"http www srcc msu su num meth zhurnal tom 2003 v4r203 html"

и "html"

2. На v4r202.html - есть только ссылка с текстом

"http www srcc msu su num meth zhurnal tom 2003 v4r202 html"

Имеем в первом случае - самый частотный термин анкор-текстов - "html" с частотностью 2, во втором случае частотность самого частотного термина (их несколько) - 1.

Если принять уже ранее высказывавшуюся гипотезу о наличии антиспамого коэффициента при определении релевантности анкор-файла запросу, обратно пропорционального частоте самого частотного термина, либо нормировку tf по частоте самого частотного термина, то неудивительно, почему первый документ проигрывает по запросу (v4r203|v4r202), но одерживает убедительную победу по запросу "html":

http://www.yandex.ru/yandsearch?ras=1&date=&text=html&spcctx=notfar&zone=all&linkto=&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=20&to_month=11&to_year=2006&mime=all&Link=&rstr=&site=srcc.msu.su&numdoc=10&ds=

ХренРедькиНеСлаще:
Например, последняя ссылка про отдых в таком виде как сейчас у них работать не будет (и не работает сейчас).
http://www.yandex.ru/yandsearch?text...*%22&stype=www

Еще как работает:

http://www.yandex.ru/yandsearch?text=%22%EE%F2%E4%FB%F5%2C+%EE%E0%FD%2C+%E5%E3%E8%EF%E5%F2%22+%3C%3C+url%3D%22www.rutur.com%22&stype=www

http://www.yandex.ru/yandsearch?text=anchor%23link%3D%22www.rutur.com%22%5B%22%EE%F2%E4%FB%F5%2C+%EE%E0%FD%2C+%E5%E3%E8%EF%E5%F2%22%5D&stype=www

aleks:
Kostya, я мог бы еще кучу чего написать, но смысла не вижу.. все равно у них такая позиция на публике, а время оно ведь не казенное

Хе-хе. Ладно... Спорить устал... Рубрикатор ВашДома так и не прорюхали... Да, пожалуй, и на одном-двух из почти сотни подшефных проектов, особливо на тех, что переходили в своё время из рук в руки, как кубанская станица во время гражданской войны, что-нить октопать да удастся - ну и флаг вам в руки, копайте. Только подумайте, к примеру, почему мы своих клиентов мордами, к примеру, не перевязали? Уж, чай, не для того, чтоб не поднять вам бюджетецы на морды ненароком ... ;) Хватит с вас и бидебиде... 😂

pro-maker:
Зачем тогда поддерживать своим участием такие круглые столы?

Затем, что надежда умирает последней, и всякий раз в глубине души надеешься, что, может быть, в этот раз всё будет по-другому, и твоя позиция кого-нибудь убедит...

Вспоминаю круглый стол на первой конфе, когда дискутировали с представителями поисковиков. По наивности думал, что сейчас обо всем договоримся, как нам легально с их точки зрения работать можно будет... Куда там...

Gray:
Сергей, ты не прав. Вывод из круглого стола очень четкий - гранды и мэтры оптимизации живут сегодняшним днем.

Серёг, а ты типа не знал? Все живут так. Ну, разве что окромя Текарта с Бипланом... 😂

biplane:
хотя уже начинаю сомневаться.. может это только я такой.. "шибка умный"... а на всех остальных такие "манипуляции на уровне октябренка" действуют?

Андрей, зато теперь все потенциальные клиенты знают, что мордоворот намба ван в Рунете - Саша Митник. И понесут бюджеты к нему, а не к лечившим пивом больную голову в курилке спецам. ;)

А вообще изначально было понятно, что ни к какому выводу круглый стол не придет. Все всё понимают, и каждый давно выбрал свой путь. Попереливали чутка из пустого в порожнее и всего делов.

Dervish:
берем некоторые слова страницы, которые будем условно считать "основными"
эти слова не должны входить в список стопов, должны иметь наиболее большую плотность

Скорее, по логике должна быть некая функция от частоты встречаемости слова в документе и его веса по общей коллекции документов. И тоже самое для пар, троек и т.д. слов. Те, что пройдут некий "кворум" и будут индикаторами тематики.

Всего: 24501