ivb

Рейтинг
0
Регистрация
19.02.2008
burunduk:
почитайте на досуге

а то что касается сайтов гос. учреждений, так это самые отстойные сайты рунета :)

Читал уже давно и могу сказать что за 2 года многое изменилось. Приведу конкретные цифры, раз так интересно.

Из 5606 сайтов в рандомной выборке в зоне .ru содержат хотя бы один блок с noindex 1549 сайтов. Итого это пропорция в 27,6% сайтов.

burunduk:

burunduk добавил 19.04.2009 в 18:41
т.е. опять нет ответа :)

А и не будет, я вовсе не альтруист рассказывать то что является коммерческой информацией - а содержимое книги или описание алгоритма ей является.

Всем спасибо за дискуссию. Будут ещё вопросы/темы обсуждения, выше приглашаю в свой блог - ссылку я приводил выше. На форуме в ближайшее время я буду редким гостем.

Ну ну....Вон Лысенко в свое время из кукурузы пшеницу делал

а сегодня некоторые деятели посредством воздействия каких-то там волн из куриц рыб выращивают или там других животных. И тоже не бояться писать про это статьи и книги, и даже кино снимают ;) !!!

А гуголь совсем чокнулся - патенты там какие-то покупает по случаю, отделы там создает - и все только что бы покупные ссылки выявить...

И самое главное, что на этом поприще можно написать что угодно, ведь проверить то все равно никто не сможет :)

webcat:

ivb - использовать можно все что угодно, но это не изменяет одного - этот Тег не принят международным стандартом. А веб как известно - международен.

То есть вопрос с повсеместностью отпал, перешли к терминологии:) Как бы то ни было, тэг noindex или нет, а в Рунете его более чем.

webcat:

И хочу задать еще раз вопрос, а если мои ссылке в скрипте сидят не внизу документа, а наверху или в другом месте и только в боаузере их видно внизу - что это футтер - или нет, для вашего алгоритма?

Если про тот что упоминался в статье то там расположение блока ссылок на странице - это лишь один из малых критериев.

Ещё раз повторю - решение о классификации ссылки как естественной или неестественной принимается по совокупности множества признаков.

burunduk:
набор критериев в студию :)

Будут в книге и никак не ранее.

burunduk:
а какая связь между блоком ссылок в подвале и их продажности

При наличии дополнительных признаков практически прямая, опять же в книге.

ivb добавил 19.04.2009 в 14:20

basilic:
Надеюсь болдом опечатка?

Да - правильно, измерение.

ivb добавил 19.04.2009 в 14:23

burunduk:

не надо, говорить о повсеместном использовании, ладно.
используется он только на тех ресурсах где уровень вебмастеров оставляет желать лучшего или они просто обленились до последней степени

Не ладно, и здесь Вы неправы - тэг noindex используется именно что повсеместно, вплоть до сайтов вроде kremlin.ru

Далее пример кода оттуда.

<td width="100%" valign="top" class="right5">

<div id="menu2"><noindex>

<ul id="Layer1FirstRootTopic" style="display:none">

<li>

<a href="/sdocs/themes.shtml" id="m69628" name="m69628">Главное</a>

</li>

У меня было проверено суммарно несколько десятков тысяч сайтов - более 30 000 рунета и noindex встречался там не менее чем у четверти.

ivb добавил 19.04.2009 в 14:25

wolf:
То, что нет более достоверного, совсем не значит, что надо пользоваться недостоверным. Это во-первых. А, во-вторых, то, что лично Вы не встречали, совсем не значит, что его нет в природе. Наработки поисковых машин были, остаются и будут оставаться закрытыми.

По этой причине я и пишу и публикую свои исследования в открытом доступе за исключением непосредственно самих алгоритмов и правил которые появятся в книге и будет возможность для предметной дискуссии.

ivb добавил 19.04.2009 в 14:28

Тут было много вопросов ко мне и, коли так, то и мне бы хотелось услышать мнения участников дискуссии на пару вопросов:

1. Что такое естественная ссылка?

2. Что такое платная/SEO ссылка?

wolf:
ivb, а адекватность Вашей методики оценивалась?

Могу ответить на это лишь контрвопросом - а есть ли более менее достоверный способ изменения качества выявления ссылок? Лично я такого пока не встречал. Более того маловероятно что Яндекс или Гугл когда-либо будут раскрывать подробности и их отсева.

wolf:
но ведь есть масса естественных ссылок, которые попадут под Ваши определения, равно как и масса неестественных, которые не попадут.

Не совсем так. Мой алгоритм работает на классификации ссылок по 3-м спискам:

1. Белый список - те ссылки которые по набору критериев однозначно классифицируются как естественные

2. Черный список - те по которым собрано достаточно информации для однозначного отнесения к SEO ссылкам.

3. Серый список - пограничные случаи требующие сбора дополнительной информации.

Если говорить о моём алгоритме, то он практически на 100% выявляет блоки ссылок в футерах, равно как и во многих случаях ссылки в контексте.

Но это алгоритм, который я в общем-то с 2008 года никак не развивал, а тут речь идёт о книге.

2wladwlad

Боялся бы я показаться дилетантом не поднимал бы этой темы;) Не ошибается лишь тот кто ничего не делает и молчит.

А насчёт отсутствия взаимосвязи тематического цитирования и ранжирования как такового, вот у меня нет в этом однозначной уверенности по массе причин.

2burunduk

Меня мало интересует стандарт - меня интересует практика. Тэг noindex в русскоязычных сайтах используется повсеместно вне зависимости от того соответствует ли это списку тэгов W3C или нет и этот же тэг учитывается Яндексом.

2burunduk

См: http://apazhe.net/

Находим текст:

<p><noindex><a rel="nofollow" href="http://apazhe.net/stat/http://lenta.ru/news/2009/04/18/morrissey/">lenta.ru/news/2009/04/18/morrissey/</a></noindex></p>

Смотрим: http://www.mk.ru

Находим:

<!--begin of Rambler's Top100 code -->

<noindex><a href="http://top100.rambler.ru/top100/">

<img src="http://counter.rambler.ru/top100.cnt?209431" alt="" width=1 height=1 border=0></a></noindex>

<!--end of Top100 code-->

Ещё десяток сайтов привести или сами проверите?

Вопросов очень много, на все ответить не смогу физически. По возможности, отвечу тут:

- Я вполне в курсе что Яндекс, либо умеет выявлять платные ссылки, либо обладает наработками возможно и превосходящими мои. Скажу больше чтобы алгоритмы выявления работали эффективно нужны большие базы мета-информации которые есть только у крупных поисковиков. Я же акцентируюсь на контентном анализе и разборе структуры HTML. Могу назвать "антисео для бедных" - это будет недалеко от правды.

Существенная разница в том то ни в Яндексе, ни в Гугле такую книжку не напишут по массе причин.

- для выявления подавляющего числа платных ссылок в футерах достаточно применять довольно простой алгоритм определения их по блокам внешних ссылок. Да, я не сомневаюсь что Яндекс может "прихлопнуть" их в любой момент, но учитывая что Яндекс довольно специфично ранжирует Рунет, то выдача у него резко испортится. Специфичность ранжирования проявляется, например, в том что у Яндекса сильный дисбаланс в сторону завышения ТиЦ новостных изданий и занижения ТиЦ некоммерческих и государственных сайтов.

- По тэгу noindex - имелся в виду тэг внутри страницы. Например <noindex><a href="http://ссылка">текст</a></noindex>. Наличие подобных тэгов на странице, в разных местах страницы, может давать сразу несколько признаков играющих за или против СЕОшности ссылок.

- В статье которую я писал в 2008 году отражено было в лучшем случае 10% от используемых правил. Собственно в книге предполагается изложение с примерами.

- Вместо показа алгоритма будет книжка где будет написано достаточно чтобы каждый мог такой алгоритм построить своими руками, или по крайней мере знать что для этого нужно.

Psycho:
Да. То есть, если сайт какие-либо ссылки заключил в noindex, значит остальные ссылки на нём можно считать спамными, правильно?

Вы всё сильно упрощаете - это лишь один из признаков, ничего не гарантирующий в одиночку, а, адаптируемый под алгоритмы автоматической классификации по множественным признакам. В реальности таких признаков десятк и сотни.

Psycho:

Да, я таких футеров повидал на своём веку немало. :) Однако это же ещё не всё... Ну и на список "естественных" тоже хотелось бы глянуть.
Причём хотелось бы увидеть именно разделение, сделанное на основании автоматических алгоритмов.

Если и когда будет возможность показать работу алгоритма в онлайне - это можно будет проверить. Пока же его проверки весьма ресурсоёмки, более чем.

Psycho:

Ещё на 2 вопроса нет ответа?

Ну и всё-таки хотелось бы пояснение по

По вопросам:

1. Ссылки в сайдбаре 5 или больше - это не гарантированный показатель их естественности, а один из признаков который может вовсе не перевешивать другие признаки - ссылку на коммерческий ресурс, несоответствия тем сайтов, вхождение наиболее коммерческих слов и так далее.

2. По расстоянию от блоков с текстом "Реклама". Здесь всё просто - на ряде сайтов платным ссылкам предшествует текст их отнесения к рекламе. Задача проверки по этому правилу в определении что этот текст :

a. Является название блока

б. Относится к данному блоку ссылок/конкретной ссылке

Psycho:
ivb, ну давайте начнём: заключение "неспамных" ссылок в noindex не противоречит самим принципам ссылочного ранжирования?
Размещение ссылочного блока в сайдбаре как, например, на буржунет.ру - это признак того, что ссылки там "естественные"?
Если используется 5 ссылок в одном блоке, то это естественные ссылки (да что там, можно и одну ссылку в блоке оставить - она будет естественной?)?
А вот это я вообще не понял

Заключение неспамных ссылок в noindex действительно противоречит принипам ссылочного ранжирования и тем не менее есть масса сайтов которые торгуя ссылками скрывают в noindex те ссылки которые они продвигать не хотят.

Psycho:

Это каким образом их можно выявить? Они не соответствуют ни одному из перечисленных Вами признаков "спам-ссылок", кроме, пожалуй, размещения вне тэга noindex, но про это я уже писал.

Конкретно эта статья была обзорной, про контекстные ссылки там сознательно не упоминалось в частности и потому как выявлять их действительно сложнее чем блоки. Основная проблема определения ссылки именно в контексте - в способности определить является ли сайт реципиент коммерческим или нет и насколько текст ссылки соответствует его тематике. Относительно подробностей, то это когда текст книги будет уже ближе к готовности.

Psycho:

Ах да, в статье описан принцип и результат работы скрипта. Но как человек, не разбирающийся в СЕО (по его собственным словам), может отделить "естественные" ссылки от "неестественных"? Неплохо было бы предоставить списки таких ссылок на суд публики. :)

загляните в футеры таких сайтов как mk.ru, zavtra.ru, medlinks, astronet.ru, annews.ru и т.п.

ivb добавил 18.04.2009 в 15:11

basilic:
ivb, так расскажите пожалуйста про эксперименты по тематической классификации, помимо всего, может быть ваши алгоритмы сбивались без отсева неестетсвенных ссылок из-за недоработок алгоритма? А то получается следующее, я без очков телевизор смотреть не могу, поэтому нафиг выбрасываем семейный телевизор на свалку.
PS у Ашманова вроде как проблем с классификацией не возникало (ну не жаловался он в эфир об этом :))

Ну так я то не Ашманов:) Мои алгоритмы работают с упором не на текст, а взаимосвязи объёктов на странице и веб'е. Хотите посмотреть один из примеров их использовния - http://www.skyur.ru. Сервис по автоматическому созданию RSS лент из новостных веб страниц.

Другие примеры того чем я занимался, как то тематическая и геоклассификация сайтов смотрите у меня в блоге - http://ivan.begtin.name/category/метапост/

Пишите ещё, люблю иронию.

12
Всего: 14