wolf

wolf
Рейтинг
1183
Регистрация
13.03.2001
Должность
интернет-маркетинг, SEO

Wasya, Вы бы съездили на тренинг к нанимателю, там Вас и не такому научат :)

orbea, внимательно прочёл. На провокацию срача поддаваться не буду, объективный Вы наш :)

Не удержусь лишь от соблазна так же порекомендовать Вам ознакомиться по значением одного термина: http://ru.wikipedia.org/wiki/%D0%94%D0%B5%D0%BC%D0%B0%D0%B3%D0%BE%D0%B3%D0%B8%D1%8F :) Это к вопросу о Вашем разговоре о якобы деле

metaContent:
Вы верите в то, что поисковикам важнее всего именно "близость текста к естественному" или, наоборот - заоптимизированному? Хотя никто не запрещает оптимизацию естественного текста, даже рекомендации Яндекса про это есть.

зы уж чего только сеошники себе не придумывают.

Ну, отсеивать откровенный машинно-сгенерированный текст и прочий синонимайзинг Яндексу же надо. Но это не проблема SEO, это проблема индустрии made-for-sape

bukvofil:
Можно Вам вопрос? Вот могут ли два или три обычных программера создать проект для анализа естественности текста? Без хватания звёзд? Просто исходя из реалий и основных тенденций оптимизации текстов последних 5 лет? Без особых упоров на теоретическую науку, только на практику? Как Вы считаете?

Создать они могут что угодно. Весь вопрос в качестве оценки. Подозреваю, при данных вводных условиях оно будет очень низкое.

Вообще, попытка применения закона Ципфа - это не что иное, как популизм. Термин среди сеошников уже известный, реализация простая - фигли париться с распределением частей речи, связностью падежей, чисел, родов и склонений в словосочетаниях и т.д. и т.п. Это ж серьезная лингвистическая база нужна, а тут зарядил несколько студентов с неполным химическим, они худо-бедно формулку запрограммируют.

orbea:
Так вот, имея функцию D(v) – дисперсия как функция объёма, можно с фиксированной точностью (не гулким лаем во дворе) давать оценки близости анализируемого текста к естественному.

Походу, Руки вместо химиков стали подтягивать студентов, уже не запинающихся при произнесении математических терминов и прочитавших полкнижки по матстатистике. Но смысл остается прежним, ибо им про Фому, а они всё про Ёрёму :) От произнесения магического для нематематиков слова "дисперсия" смысл не меняется - применять закон Ципфа на объемах текста масштаба веб-страницы (и даже веб-сайта) - головотяпство со взломом.

Оценки-то давать можно, как угодно. Только вот грош им цена в базарный день получается. А не "фиксированная точность"

АлексДрем:
Наверное пора запускать проекты в продвижение.
Саппорт вряд ли даст рекомендации, Руки все таки инструмент для оптимизатора, а не его мозги.
Наверное стоит ввести новую услугу для клиентов - консультации отдела аналитиков. Вопрос, сколько брать за час консультаций?

Пришло время монетизировать Миху? :)

LeonCrab:
Согласен, что применять закон Зипфа (Ципфа) к документу не совсем логично, но что мешает оценивать естественность текста по закону Зипфа (Ципфа) в пределах сайта, а не ограничиваться конкретным документом?

То же, что и к отдельному документу - слишком малое количество словоупотреблений.

wolf:
Еще раз рекомендую узнать, для каких объемов текста сформулирован закон Ципфа.

Кстати, вот господам изыскателям некоторые цифирки (пусть и из научпопа, но сойдёт для уровня дискуссии) для наглядности:

Проблема представительности
Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

А то тут люди на десятке-другом словоупотреблений измерения делают и выводы по ним :)

Miha Kuzmin (KMY):
А мне почему-то вспомнилась ситуация

Уже засел за мемуары? 😂

Всего: 24501