Нельзя. Ибо найден он по тексту ссылки
Скорее логика другая - если в одно предложение входят http, html и(или) www, то они считаются служебными, т.к. это предложение идентифицируется, как адрес страницы.
Гм, похоже, я несколько поторопился. Оказывается, слово "html" из текстов ссылок "http www srcc msu su num meth zhurnal tom 2003 v4r202 html" и "http www srcc msu su num meth zhurnal tom 2003 v4r203 html", похоже, не учитывается:
http://www.yandex.ru/yandsearch?text=html+%3C%3C+url%3D%22srcc.msu.su%2Fnum-meth%2Fzhurnal%2Ftom_2003*%22&stype=www
Правда, отмечаю весьма странное поведение оператора "<<":
http://www.yandex.ru/yandsearch?text=v4r202+html&tb=1 (см. 4 место)
http://www.yandex.ru/yandsearch?text=v4r202+html+%3C%3C+url%3D%22srcc.msu.su%2Fnum-meth%2Fzhurnal%2Ftom_2003%2Fv4r202.html%22&stype=www
Да, дубликаты нарушили чистоту. Тьфу на них, окаянных. :)
А теперь посмотрим, каким текстом идут сслки на подопытные страницы:
1. На v4r203.html ссылаются текстами
"http www srcc msu su num meth zhurnal tom 2003 v4r203 html"
и "html"
2. На v4r202.html - есть только ссылка с текстом
"http www srcc msu su num meth zhurnal tom 2003 v4r202 html"
Имеем в первом случае - самый частотный термин анкор-текстов - "html" с частотностью 2, во втором случае частотность самого частотного термина (их несколько) - 1.
Если принять уже ранее высказывавшуюся гипотезу о наличии антиспамого коэффициента при определении релевантности анкор-файла запросу, обратно пропорционального частоте самого частотного термина, либо нормировку tf по частоте самого частотного термина, то неудивительно, почему первый документ проигрывает по запросу (v4r203|v4r202), но одерживает убедительную победу по запросу "html":
http://www.yandex.ru/yandsearch?ras=1&date=&text=html&spcctx=notfar&zone=all&linkto=&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=20&to_month=11&to_year=2006&mime=all&Link=&rstr=&site=srcc.msu.su&numdoc=10&ds=
Еще как работает:
http://www.yandex.ru/yandsearch?text=%22%EE%F2%E4%FB%F5%2C+%EE%E0%FD%2C+%E5%E3%E8%EF%E5%F2%22+%3C%3C+url%3D%22www.rutur.com%22&stype=www
http://www.yandex.ru/yandsearch?text=anchor%23link%3D%22www.rutur.com%22%5B%22%EE%F2%E4%FB%F5%2C+%EE%E0%FD%2C+%E5%E3%E8%EF%E5%F2%22%5D&stype=www
Хе-хе. Ладно... Спорить устал... Рубрикатор ВашДома так и не прорюхали... Да, пожалуй, и на одном-двух из почти сотни подшефных проектов, особливо на тех, что переходили в своё время из рук в руки, как кубанская станица во время гражданской войны, что-нить октопать да удастся - ну и флаг вам в руки, копайте. Только подумайте, к примеру, почему мы своих клиентов мордами, к примеру, не перевязали? Уж, чай, не для того, чтоб не поднять вам бюджетецы на морды ненароком ... ;) Хватит с вас и бидебиде... 😂
Затем, что надежда умирает последней, и всякий раз в глубине души надеешься, что, может быть, в этот раз всё будет по-другому, и твоя позиция кого-нибудь убедит...
Вспоминаю круглый стол на первой конфе, когда дискутировали с представителями поисковиков. По наивности думал, что сейчас обо всем договоримся, как нам легально с их точки зрения работать можно будет... Куда там...
Серёг, а ты типа не знал? Все живут так. Ну, разве что окромя Текарта с Бипланом... 😂
Андрей, зато теперь все потенциальные клиенты знают, что мордоворот намба ван в Рунете - Саша Митник. И понесут бюджеты к нему, а не к лечившим пивом больную голову в курилке спецам. ;)
А вообще изначально было понятно, что ни к какому выводу круглый стол не придет. Все всё понимают, и каждый давно выбрал свой путь. Попереливали чутка из пустого в порожнее и всего делов.
Скорее, по логике должна быть некая функция от частоты встречаемости слова в документе и его веса по общей коллекции документов. И тоже самое для пар, троек и т.д. слов. Те, что пройдут некий "кворум" и будут индикаторами тематики.