Читал уже давно и могу сказать что за 2 года многое изменилось. Приведу конкретные цифры, раз так интересно.
Из 5606 сайтов в рандомной выборке в зоне .ru содержат хотя бы один блок с noindex 1549 сайтов. Итого это пропорция в 27,6% сайтов.
А и не будет, я вовсе не альтруист рассказывать то что является коммерческой информацией - а содержимое книги или описание алгоритма ей является.
Всем спасибо за дискуссию. Будут ещё вопросы/темы обсуждения, выше приглашаю в свой блог - ссылку я приводил выше. На форуме в ближайшее время я буду редким гостем.
Ну ну....Вон Лысенко в свое время из кукурузы пшеницу делал
а сегодня некоторые деятели посредством воздействия каких-то там волн из куриц рыб выращивают или там других животных. И тоже не бояться писать про это статьи и книги, и даже кино снимают ;) !!!
А гуголь совсем чокнулся - патенты там какие-то покупает по случаю, отделы там создает - и все только что бы покупные ссылки выявить...
И самое главное, что на этом поприще можно написать что угодно, ведь проверить то все равно никто не сможет :)
То есть вопрос с повсеместностью отпал, перешли к терминологии:) Как бы то ни было, тэг noindex или нет, а в Рунете его более чем.
Если про тот что упоминался в статье то там расположение блока ссылок на странице - это лишь один из малых критериев.
Ещё раз повторю - решение о классификации ссылки как естественной или неестественной принимается по совокупности множества признаков.
Будут в книге и никак не ранее.
При наличии дополнительных признаков практически прямая, опять же в книге.
ivb добавил 19.04.2009 в 14:20
Да - правильно, измерение.
ivb добавил 19.04.2009 в 14:23
Не ладно, и здесь Вы неправы - тэг noindex используется именно что повсеместно, вплоть до сайтов вроде kremlin.ru
Далее пример кода оттуда.
<td width="100%" valign="top" class="right5">
<div id="menu2"><noindex>
<ul id="Layer1FirstRootTopic" style="display:none">
<li>
<a href="/sdocs/themes.shtml" id="m69628" name="m69628">Главное</a>
</li>
У меня было проверено суммарно несколько десятков тысяч сайтов - более 30 000 рунета и noindex встречался там не менее чем у четверти.
ivb добавил 19.04.2009 в 14:25
По этой причине я и пишу и публикую свои исследования в открытом доступе за исключением непосредственно самих алгоритмов и правил которые появятся в книге и будет возможность для предметной дискуссии.
ivb добавил 19.04.2009 в 14:28
Тут было много вопросов ко мне и, коли так, то и мне бы хотелось услышать мнения участников дискуссии на пару вопросов:
1. Что такое естественная ссылка?
2. Что такое платная/SEO ссылка?
Могу ответить на это лишь контрвопросом - а есть ли более менее достоверный способ изменения качества выявления ссылок? Лично я такого пока не встречал. Более того маловероятно что Яндекс или Гугл когда-либо будут раскрывать подробности и их отсева.
Не совсем так. Мой алгоритм работает на классификации ссылок по 3-м спискам:
1. Белый список - те ссылки которые по набору критериев однозначно классифицируются как естественные
2. Черный список - те по которым собрано достаточно информации для однозначного отнесения к SEO ссылкам.
3. Серый список - пограничные случаи требующие сбора дополнительной информации.
Если говорить о моём алгоритме, то он практически на 100% выявляет блоки ссылок в футерах, равно как и во многих случаях ссылки в контексте.
Но это алгоритм, который я в общем-то с 2008 года никак не развивал, а тут речь идёт о книге.
2wladwlad
Боялся бы я показаться дилетантом не поднимал бы этой темы;) Не ошибается лишь тот кто ничего не делает и молчит.
А насчёт отсутствия взаимосвязи тематического цитирования и ранжирования как такового, вот у меня нет в этом однозначной уверенности по массе причин.
2burunduk
Меня мало интересует стандарт - меня интересует практика. Тэг noindex в русскоязычных сайтах используется повсеместно вне зависимости от того соответствует ли это списку тэгов W3C или нет и этот же тэг учитывается Яндексом.
См: http://apazhe.net/
Находим текст:
<p><noindex><a rel="nofollow" href="http://apazhe.net/stat/http://lenta.ru/news/2009/04/18/morrissey/">lenta.ru/news/2009/04/18/morrissey/</a></noindex></p>
Смотрим: http://www.mk.ru
Находим:
<!--begin of Rambler's Top100 code -->
<noindex><a href="http://top100.rambler.ru/top100/">
<img src="http://counter.rambler.ru/top100.cnt?209431" alt="" width=1 height=1 border=0></a></noindex>
<!--end of Top100 code-->
Ещё десяток сайтов привести или сами проверите?
Вопросов очень много, на все ответить не смогу физически. По возможности, отвечу тут:
- Я вполне в курсе что Яндекс, либо умеет выявлять платные ссылки, либо обладает наработками возможно и превосходящими мои. Скажу больше чтобы алгоритмы выявления работали эффективно нужны большие базы мета-информации которые есть только у крупных поисковиков. Я же акцентируюсь на контентном анализе и разборе структуры HTML. Могу назвать "антисео для бедных" - это будет недалеко от правды.
Существенная разница в том то ни в Яндексе, ни в Гугле такую книжку не напишут по массе причин.
- для выявления подавляющего числа платных ссылок в футерах достаточно применять довольно простой алгоритм определения их по блокам внешних ссылок. Да, я не сомневаюсь что Яндекс может "прихлопнуть" их в любой момент, но учитывая что Яндекс довольно специфично ранжирует Рунет, то выдача у него резко испортится. Специфичность ранжирования проявляется, например, в том что у Яндекса сильный дисбаланс в сторону завышения ТиЦ новостных изданий и занижения ТиЦ некоммерческих и государственных сайтов.
- По тэгу noindex - имелся в виду тэг внутри страницы. Например <noindex><a href="http://ссылка">текст</a></noindex>. Наличие подобных тэгов на странице, в разных местах страницы, может давать сразу несколько признаков играющих за или против СЕОшности ссылок.
- В статье которую я писал в 2008 году отражено было в лучшем случае 10% от используемых правил. Собственно в книге предполагается изложение с примерами.
- Вместо показа алгоритма будет книжка где будет написано достаточно чтобы каждый мог такой алгоритм построить своими руками, или по крайней мере знать что для этого нужно.
Вы всё сильно упрощаете - это лишь один из признаков, ничего не гарантирующий в одиночку, а, адаптируемый под алгоритмы автоматической классификации по множественным признакам. В реальности таких признаков десятк и сотни.
Если и когда будет возможность показать работу алгоритма в онлайне - это можно будет проверить. Пока же его проверки весьма ресурсоёмки, более чем.
По вопросам:
1. Ссылки в сайдбаре 5 или больше - это не гарантированный показатель их естественности, а один из признаков который может вовсе не перевешивать другие признаки - ссылку на коммерческий ресурс, несоответствия тем сайтов, вхождение наиболее коммерческих слов и так далее.
2. По расстоянию от блоков с текстом "Реклама". Здесь всё просто - на ряде сайтов платным ссылкам предшествует текст их отнесения к рекламе. Задача проверки по этому правилу в определении что этот текст :
a. Является название блока
б. Относится к данному блоку ссылок/конкретной ссылке
Заключение неспамных ссылок в noindex действительно противоречит принипам ссылочного ранжирования и тем не менее есть масса сайтов которые торгуя ссылками скрывают в noindex те ссылки которые они продвигать не хотят.
Конкретно эта статья была обзорной, про контекстные ссылки там сознательно не упоминалось в частности и потому как выявлять их действительно сложнее чем блоки. Основная проблема определения ссылки именно в контексте - в способности определить является ли сайт реципиент коммерческим или нет и насколько текст ссылки соответствует его тематике. Относительно подробностей, то это когда текст книги будет уже ближе к готовности.
загляните в футеры таких сайтов как mk.ru, zavtra.ru, medlinks, astronet.ru, annews.ru и т.п.
ivb добавил 18.04.2009 в 15:11
Ну так я то не Ашманов:) Мои алгоритмы работают с упором не на текст, а взаимосвязи объёктов на странице и веб'е. Хотите посмотреть один из примеров их использовния - http://www.skyur.ru. Сервис по автоматическому созданию RSS лент из новостных веб страниц.
Другие примеры того чем я занимался, как то тематическая и геоклассификация сайтов смотрите у меня в блоге - http://ivan.begtin.name/category/метапост/
Пишите ещё, люблю иронию.