Сервис проверки естественности текста.

123
natalya84i
На сайте с 06.02.2011
Offline
96
#11

Интересный сервис, но почему-то сайт целиком отказался проверять, хотя он на русском :)

Азбука блогера (https://mycrib.ru/)
OPTIMER
На сайте с 05.01.2006
Offline
492
#12
loki6982:
другими словами степень соответствия закону Ципфа

во

хорошо, что вы пишите, что будет соответствие не алгоритмам яндекса, а ципфа, понятно, что тяжело сделать то, что хочет Яндекс, нужны и знания, и умения...

а если говорить вообще, то лучше делать сервис, который будет вообще весь сайт на качество проверять, опираясь не только на его контент, но и его структуру чекать, и т.п.

т.к. проверил два сайта, которые пишет хорошо, но на самом деле Яндекс считает плохо)

но это уже дело не ципфа, а Яндекса)

Тоесть, хочется чего-то нового от сервиса такого рода.
Изюминки.
Новизны.
Изящности.))

ps сайт еще немного долго грузится, но это пофиг

оО Раскрутка сайтов без абон. платы, единоразово от 100.000 руб.
Urbanoid
На сайте с 20.03.2010
Offline
152
#13

А как определяется "авторитетность" сайта?

O
На сайте с 10.10.2010
Offline
52
#14
tolika:
Задумка, конечно, интересная.

1. Кстати, по "авторитетным" заявлениям некоторых исследователей, поисковики проводят статистический анализ "естественности" сочетаемости слов (пар слов) (биграмм). Ведутся ли разработки в этом направлении?


2. Во многих технических и научных текстах "переспам" некоторыми терминами просто неизбежен (например, инструкция по применению аспирина) - как поисковики относятся к таким "естественно переспамленным" текстам?

3. При определении релевантности текста (ключевого слова) запросу, частотность ключа (imho) должна быть выше среднестатистической... Или это необязательное условие?

============================================================
В качестве эксперимента отредактировал ГС своего блога согласно вашим рекомендациям. Через месяц отпишусь.

Спасибо за комментарии, постараемся ответить на поставленные вопросы.

1.Данные «авторитетные» исследователи ссылаются, очевидно, на публикацию: «Поиск неестественных текстов». Источник: http://download.yandex.ru/company/A_Kustarev_A_Raigorodsky_poisk_neestestvennih_textov_statia.pdf.

Следует обратить внимание, что авторы статьи позиционируют данный метод как один из возможных вариантов определения «естественности текста» и никоим образом не утверждают, что он используется ПС Яндекс.

2.Согласно закону Ципфа частотность встречаемости слов должна ложиться на некую плавную кривую (диаграмма Ципфа ) Мы поставили несколько экспериментов на технических (математических) текстах. Результаты показали «70%» соответствия, при достаточных объемах.

3.По нашему мнению это не обязательное условие.

P.S. ТС сейчас отсутствует, приходиться отвечать за него :)

site+
На сайте с 19.11.2009
Offline
148
#15
loki6982:
Ребят это-же явно рекламные тексты . А рекламные текста не может быть естественной:). Что доказывает что теория работает 😂

А если взять эту (вторую) страницу топика целиком, то тоже "Оценка качества: 42% (плохо)"....

Выходит тут боты штампуют посты, а мы читаем, находим смысл...

Размещение статей на 300+ сайтах всего за 80$! Инновационное предложение! ( /ru/forum/874956 )
O
На сайте с 10.10.2010
Offline
52
#16
site+:
А если взять эту (вторую) страницу топика целиком, то тоже "Оценка качества: 42% (плохо)"....
Выходит тут боты штампуют посты, а мы читаем, находим смысл...

Здесь больше половины рекламных текстов.

У меня на (второй) странице получилось 59% :)

site+
На сайте с 19.11.2009
Offline
148
#17
Oxem:

У меня на (второй) странице получилось 59% :)

Это потому что уже вместе с моим постом, он внес немного естественности ;)

P
На сайте с 25.05.2007
Offline
103
#18

Идея хорошая, и что важнее - при беглой проверке реальной ситуации не противоречит)

2 вопроса к вам:

- планируется ли вариант исключения из текстов страницы участков, закрытых от индексации?

- если не секрет, что за словарь словоформ используется? И насколько он полон?

coolakov.ru/tools (http://coolakov.ru/tools/): определение конкурентов (http://coolakov.ru/tools/most_promoted/), кластеризация запросов (http://coolakov.ru/tools/razbivka/) и т.д.
[Удален]
#19

Cервис не развит, вообще на нулевом этапе...

1. Эта естественность по Ципфу работает для большИх объемов, а не для страницы (да и для яндекса надо проверять совокупно все тексты сайта вместе).

2. Какая цель проверки? оптимизировать страницы? сделать читабельными? для начала я б вообще выкидывал все тексты имеющие словарь менее 400 слов - там и определять нечего.

3. была или есть(но уже доработанная до идеала) у яндекса такая прога - stemmer... там куча строк и правил по приведению текста в ед. число им. падежа (кто успел, тот спи...л ее, она некоторое время лежала в открытом доступе).. вот после обработки ей и надо проверять, но и это не все...

4. после приведения всех слов к ед числу им. падежа, необходимо их привести (в зависимости от тематики текста) к главному(основному) синониму(такую прогу яндекс вроде выкупил у cognitive в 2008 году) и тогда можно сравнивать с другими текстами в этой тематики, и, если будет совпадение более 70-80%, то уже легко найти источники рерайта, перевода, синонимайза - текст будет неоригинальным и не будет высоко ранжироваться яндексом... хотя тут требуется еще и сравнение ссылок (внутренних и внешних) на страницу - легко можно будет просчитать топ

5... много еще чего можно писать, но лень...

Зы сервис сырой, хотя бы не кривую по ципфу указали, а 2 кривых, внутри которых надо оказаться.. да и такую хрень я в икселе несколько лет назад делал, статистику через istio.com собираешь и смотришь на кривую - но работать это будет только по запросу в кавычках - по точной фразе

O
На сайте с 10.10.2010
Offline
52
#20
pimandr:
Идея хорошая, и что важнее - при беглой проверке реальной ситуации не противоречит)
2 вопроса к вам:
- планируется ли вариант исключения из текстов страницы участков, закрытых от индексации?
- если не секрет, что за словарь словоформ используется? И насколько он полон?

Спасибо за интерес, проявленный к нашему сервису.

-Да, такая возможность будет реализована. Мы постоянно дорабатываем и улучшаем наш сервис.

-Используемый словарь - это наша личная разработка. При обработке текста погрешность в районе 10%

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий