ApokalipsYs

ApokalipsYs
Рейтинг
106
Регистрация
27.04.2006
inetessentials:
Леня, посмотрел твой доклад и так и не понял о чем он все-таки был...
Толи про внутряк, толи про ссылочное, но про перелинковку какбэ ни о чем...
И говорить о сервисе, но неопказывать его какбэ моветон...
Мож я чего не понял, но жестко... можно комменты плиз по пунктам?

p/s/ а вообще, я в чем-то выиграл, что на 3-й день не пришел :)

Отвечаю по пунктам :)

Секция была посвящена инструментарию в поисковой оптимизации. В рамках этой секции я рассказал о своем опыте в разработке инструментов для работы с внутренними и поведенческими факторами.

Подобный инструментарий, на мой взгляд, должен быть реализован в виде систем, автоматизирующих анализ внутренних и поведенческих факторов. Чтобы анализ получился эффективным его необходимо проводить комплексно, т.к. анализ многих факторов происходит взаимосвязано.

В докладе я рассказал о разработке аналитической системы, позволяющей перекачивать сайт целиком и проводить глубокий анализ многих факторов, используя большие серверные мощности. Мой интерес сосредоточен на работе с крупными порталами и интернет-магазинами, что, безусловно, отразилось на архитектуре системы.

Система анализа внутренних факторов работает по следующему алгоритму:

  • Робот обходит весь сайт и закачивает его к себе.
  • Анализируются ссылочные связи (для каждой страницы):
  • Анализируется контент (для каждой страницы)
  • HTML анализ (для каждой страницы)
  • Общий анализ
  • Сравнительный анализ

Это не весь функционал, в тех или иных случаях приходится задействовать дополнительные модули, иногда приходится их дописывать.

Так же я рассказывал о системе анализа поведенческих факторов и системе выстраивания карт перелинковки.

Насчет моветона не соглашусь, речь ведь шла не о коммерческом ПО :)

Все эти системы разрабатывалась для внутреннего пользования, модули выглядят примерно вот так 🚬 :

Посмотреть на Яндекс.Фотках

Посмотреть на Яндекс.Фотках

Посмотреть на Яндекс.Фотках

Честно говоря, не ожидал, что возможность пользования системой вызовет такой интерес. То, что на скриншотах, конечно, запускать в коммерческое пользование нельзя, я думаю по понятным причинам, т.е. без документации никто не разберется.

Поэтому тем, у кого есть интерес к системе, я могу предложить консалтинг нашими силами на основе анализа.

А коммерческая версия появится через 4-5 месяцев, разработка уже началась.

А если что не понятно в видеозаписи - скоро набьем текст доклада, выложу.

Прошу прощения, забыл уточнить, всех докладов SEO-секции

Вакансия закрыта

Поздравляю с праздником :)

В десятке:
Если довериться дедуктивному методу и внимательно посмотреть на первый пост, то можно придти к непростому, но закономерному выводу, что это - agima.ru ☝🚬

Благодарю, что-то я совсем обленился :)

Порадовало:

# Ценообразование напрямую зависит от позиций Вашего сайта;

# Срок вывода сайта в ТОП10 составляет от 2-ух недель;

# Мы обеспечиваем стабильные позиции, даже при смене алгоритмов поисковых систем;

Вы представляете рекламное агентство, или вам нужен оптимизатор для продвижения сайтов компании?

Семинар отличный, спасибо Мише!

aalexeev:
ApokalipsYs как я понял предлагает сделать что то подобное, чтобы вместе проанализировать. Можно перевести такой или подобный список, отсеять неактуальные для россии факторы и посмотреть на них. В паблик кстати все необязательно выкладывать я считаю нафига это

Вы всё правильно поняли, спасибо за ссылку, изучаю.

Я напротив считаю, что подобное можно сделать только в паблике при совместном участии множества специалистов.

То, что получится в итоге, я планирую опубликовать на SEONEWS.

wolf:

А написано по текстовым факторам, конечно, очень наивно. Например, я так понял, автор не подозревает о существовании tf*idf

Сергей, мне кажется, даже подозревая об их существовании, применять их на практике довольно проблематично :)

Я почитал про tf*idf

  • TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ti в пределах отдельного документа.
  • IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов.

В презентации к своему докладу "Внутренние факторы, влияющие на индексирование и ранжирование" вы пишете:

idf=log(p), где p - обратная частота термина в коллекции
Примеры p:
ICF = TotalLemms/CF
IDF = D/DF

Где TotalLemms - общее число вхождений всех лемм в коллекции
CF - число вхождений леммы в коллекцию,
D - число документов в коллекции,
DF - число документов, в которых встречается лемма

Насколько я понял, леммы здесь - парадигматические формы одного слова, например (окна, окно, окном, окну, окнами и т.п.)

Соответственно ICF, насколько я понимаю, идентичен отношению сумме форм конкретного ключевого слова в коллекции к числу вхождений конкретной формы этого ключевого слова в коллекции.

IDF - отношение количества всех документов коллекции, к количеству документов содержащих конкретную словоформу

Правильно я вас понял, что коллекция здесь - условное понятие, которое может подразумевать как область конкретного сайта, так и область всей индексной базы Яндекса.

Далее вы пишете:

Функция нормирования tf - нормирование числа вхождений леммы в документ (TF)

1) по длине документа (DL)
Пример:

tf = TFнорм = TF/(TF+k1+k2*DL),

k1=1, k2=1/350 - из формулы слагаемого за встречаемость слов документа алгоритма текстового ранжирования Яндекса на РОМИП-2006 (модификация формулы Okapi BM25)

1. TF/(TF+k1+k2*DL) не может быть больше 1 и меньше нуля, следовательно всегда 0<tf<1

2. Судя по графикам, было бы разумно, если бы tf колебался между 0,85 и 0,98.

3. Средняя tf уменьшается, при увеличении DL

Для чего эта функция могла использоваться в Яндексе? Вероятно так определялась оптимальная плотность вхождения словоформы в документ, за счёт чего страницы сайтов могли понижаться или повышаться в релевантности.

На первый взгляд напрашивается вывод.

Плотность словоформ при увеличении длины документа растет линейно и непропорционально, т.е. при меньшем количестве слов, плотность ключевых слов выше.

Вероятно раньше, поставив чистый эксперимент можно было определить, какой tf выбирал Яндекс. Но сейчас видимо формулы другие, а учитывая механизм самообучения Матрикснета разумно предположить, что Яндекс может изменять подобные значения от алгоритма к алгоритму и связывать их со множеством других значений.

ApokalipsYs добавил 01.07.2010 в 12:51

naleks:

Попробуйте закрыть приличные "полотна" текста, а не кусочек кода на большой выборке
wolf:
Закрывали. Весьма успешно

Тоже закрывали, тоже успешно.

В качестве небольшого наблюдения можно посмотреть топ10 Яндекса по запросу "продвижение сайтов":

1. bdbd.ru - ~3000 симв. закрыто в <noindex>

3. seo-dream.ru - ~5500 симв. закрыто в <noindex>

Я думаю, <NOINDEX> может быть отрицательным фактором при подобном использовании(оранжевым подсвечены области, выделенные в <NOINDEX>):

Но интересно узнать, определяется ли подобное автоматически.

Всего: 405