Делюсь наблюдениями о "хороших" текстах - статья

wolf
На сайте с 13.03.2001
Offline
1183
#101
wolf:
Еще раз рекомендую узнать, для каких объемов текста сформулирован закон Ципфа.

Кстати, вот господам изыскателям некоторые цифирки (пусть и из научпопа, но сойдёт для уровня дискуссии) для наглядности:

Проблема представительности
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

А то тут люди на десятке-другом словоупотреблений измерения делают и выводы по ним :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
UN
На сайте с 16.10.2007
Offline
58
#102
Wasya:
Но из расчетов отчетливо вижу, что в топ-10 по НК запросам только 65% сайтов получают условную оценку "хорошо", а в топ-3 по ВК - 72%. Оценку - "плохо" в топ-10 по НК получают 12%, а в топ-3 по ВК - 8%.

Не знаю, как для вас, а для меня динамика очевидна.

Какая любопытная "динамика":

А почему Вы топ-10 для НК берете, топ-3 для ВК? Наверное все же правильнее оба топа смотреть для одной группы запросов?

Судя по Вашему рисунку, для НК оценка "хорошо":

топ-10 - 65%

топ-5 - 66%

топ-3 - 65,5%

- колебания в рамках 1%

для ВК аналогичные колебания в рамках 2%.

- это не "динамика", а махинация со статистикой :)

На самом деле последний график в Вашем труде как раз доказывает, что, как минимум, в диапазоне топ10 по тем запросам, которые Вы смотрели (вк нк ск) корреляции позиций сайтов с законом Ципфа не найдено.

yanus
На сайте с 21.01.2009
Offline
348
#103
G00DMAN:
Это при исследовании черных ящиков такой сложности? Да Вы, батенька, наивняк... ;)

так а я и не настаиваю, что анализировать ПС нужно как лабораторку. я говорил о том, что для исследований нужен системный методичный подход, а не по принципу - "у меня есть в кладовке старый телескоп, а не заняться ли мне лингвистикой, чтобы понять, почему вчера утром чесалась правая пятка".

yanus добавил 16.06.2010 в 13:06

Fresher:
вы давно видать не были в системе, покажите мне публичный сервис по текстовой оценке топ 10, лучше чем у рук?

я в системе бываю регулярно. что касаемо оценки текстов мне намного удобней seolib.

если говорить о анализе текстов топа в "руках", то для начала "руки" используют текущий контент сайта, а не кеш поисковиков. на этом, в принципе, можно и закончить.

но если уж очень хочется посравнивать, то в сеолибе можно свободно выбрать регион. в "руках" можно задать несколько регионов в проекте, но вот какой из них будет анализироваться большой вопрос.

в сеолибе можно выбрать другой поисковик (гугл, рамблер и тд), в "руках" нет.

в сеолибе можно вручную вбить 10 сайтов для анализа плюс свой сайт. преимущество, конечно, спорное, но помните как когда-то обсуждалось как смотреть позиции без учета ссылочного? кто даст гарантию, что сейчас нельзя если не отключить, то минимизировать ссылочную составляющую?

в сеолибе можно учитывать тег "noindex" в руках нет. после "гонений на портянки" многие оставили текст старый для гугла, а для яндекса прикрыли часть текста этим тегом. не учитывать это глупо

orbea
На сайте с 30.11.2009
Offline
24
#104
yanus:

в сеолибе можно учитывать тег "noindex" в руках нет. после "гонений на портянки" многие оставили текст старый для гугла, а для яндекса прикрыли часть текста этим тегом. не учитывать это глупо

yanus, насчет noindex - неправда. Если сильно хочется, то будет работать все. Скрин приложил 🚬

jpg r_screen.jpg
[Удален]
#105

yanus, у сеолиба достойный модуль, и безусловно есть много своих преимуществ.

Но информация по тексту в руках более полная, помимо всего -

у нас производится подсчет размера текста в символах, словах, пассажах),

Можно также получить информацию о релевантных пассажах (наш модуль различает словоформы и прямые вхождения),

сравнить кол-во "всего вхождений" и "точных вхождений", получить информацию по самому частотному слову на сайте.

Также в едином интерфейсе можно просмотреть распределение слов по сайту, оценить конверсионную составляющую, плюс наиболее точно получить информацию об уникальности контента на сайте.

Ну и про ноиндекс уже написали выше.

yanus
На сайте с 21.01.2009
Offline
348
#106
orbea:
yanus, насчет noindex - неправда. Если сильно хочется, то будет работать все.

мои извинения - не заметил:)

I
На сайте с 08.05.2003
Offline
151
#107

А как у руках определяются морфологические формы? Что-то свое используется, или что-то заимствованное?

PS: Топик стал похож на меряние в банях размерами и возможностями сеолиба и рук. Попкорна мне не хватает :)

С уважением, Иванов Павел. B2Basket.ru - Сервис автоматизации размещения на всех популярных маркетплейсах (http://b2basket.ru)
G00DMAN
На сайте с 19.04.2008
Offline
122
#108
Inoff:
А как у руках определяются морфологические формы? Что-то свое используется, или что-то заимствованное?

Вы думаете, что сеонисты сегодня готовы к разработкам собственных морфологических анализаторов? Вроде же ничто в отрасли на это не намекает, задача достаточно затратная и наверняка не окупаемая. Ну и уже есть два анализатора от Яндекса - более грубый, но быстрый mystem и более точный, но медленный АОТ. Все пользуются одним из, на мой взгляд мистема вполне достаточно.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
rpuwa
На сайте с 17.03.2007
Offline
65
#109

Чем больше пеара рук, тем меньше хочется их юзать. А по началу желание было

Наш герой Гриша: "С возвращением, серч!"; «Сначала тебя игнорируют, затем над тобой смеются, затем с тобой борются, затем ты побеждаешь» (с)М. Ганди
[Удален]
#110

Это видно, особо если посмотреть предыдущие сообщения клоуна, написавшего пост выше. Так же, как и другие агрегаторы, и прочее и прочее. Это природа все. На детях отдыхает. Слишком умные родители были, судя по подписи, из индии.

p.s. а кому я желаю больше всего зла? Если это сделать его клиентом? 😂

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий