Оценивает ли Яндекс качество текста?

12
Dryoma
На сайте с 24.12.2007
Offline
12
1668

Тут выкладывали интервью с Еленой Колмановской, где она упомянула про проект рефераты от Яндекса. Я попробовал погенерировать тексты --- они без смысла, но, вообще говоря, с точки зрения структуры предложения они грамотные. Так если Яндекс разбирается в том как устроен реферат (это почти тоже самое, что статья про какое-то слово), может быть он проверяет соответсвие индексируемых сайтов этим принципам? В таком случае, очевидно, формула текстовой релевантности не ограничивается tf*idf даже для однословных запросов.

Я никаких экспериментов по этому поводу не проводил, но замечал в ходе других экспериментов, что одинаковые (кол-во слов, кол-во ключей, кол-во наиболее частотного слова, отсутствие внешних ссылок) сайты порой ведут себя немного по-разному. Это можно было бы списать на качество текста.

xant
На сайте с 17.12.2008
Offline
65
#1

Они там в яндексе проехались по филфакам региональных пединститутов, насобирали студенток и посадили их оценивать качество текстов. Примерно так, да?

Эксклюзивные сайты и веб-2.0 приложения под ключ. Дорого.
Dryoma
На сайте с 24.12.2007
Offline
12
#2

Тексты на referats.yandex.ru пишет машина по каким-то правилам. Гипотетически, выполнение этих же правил может быть проверно машиной для проиндексированных сайтов. В каком месте тут нужны студентки филфаков региональных пединститутов?

xant
На сайте с 17.12.2008
Offline
65
#3
Dryoma:
Тексты на referats.yandex.ru пишет машина по каким-то правилам. Гипотетически, выполнение этих же правил может быть проверно машиной для проиндексированных сайтов. В каком месте тут нужны студентки филфаков региональных пединститутов?

Вы не задумывались, что для написания "хорошего" текста нужно намного меньше правил, чем для оценки качества текста? Вы вообще в школе когда-нибудь изложения писали?

Dryoma
На сайте с 24.12.2007
Offline
12
#4
xant:
Вы не задумывались, что для написания "хорошего" текста нужно намного меньше правил, чем для оценки качества текста?

я так не думаю

xant:
Вы вообще в школе когда-нибудь изложения писали?

что было в школе я давно забыл

B
На сайте с 01.11.2000
Offline
86
#5
xant:
Вы не задумывались, что для написания "хорошего" текста нужно намного меньше правил, чем для оценки качества текста? Вы вообще в школе когда-нибудь изложения писали?

при чем здесь написание текста? речь идет, насколько я понимаю, о возможности оценки Яндексом грамотности построения предложений, используя алгоритм Ярефератов

S
На сайте с 26.10.2008
Offline
26
#6

Так вопрос про качество (оригинальность, уникальность, содержательность) или просто про грамотность?

U
На сайте с 07.12.2008
Offline
4
#7
Dryoma:
они без смысла, но, вообще говоря, с точки зрения структуры предложения они грамотные.

Есть еще статистический анализ. Если сгенерированные словосочетания почти не встречаются на других сайтах - подозрительно!

Так что генерировать не нужно - просто берите чужие тексты и меняйте слова на синонимы. Или не меняйте. Слухи о "страшном вреде неуникальности" сильно преувеличены, т.к. весь интернет состоит из неуникальных текстов - они повторяются на миллионах сайтов.

Если ваш текст слишком уникален - это спам!

БИРЖА ОБЪЯВЛЕНИЙ (http://www.saape.ru/r.53ceb45d84.php), ваше мнение о ней (/ru/forum/315234)
Dryoma
На сайте с 24.12.2007
Offline
12
#8
snov:
Так вопрос про качество (оригинальность, уникальность, содержательность) или просто про грамотность?

Под качественными я имею в виду грамотные + более менее стилистически выдержанные тексты (с какими-нибудь вводным словами, наречиями, возможно должна быть какая-то структура, типа введение, основная часть и заключение и т д --- я не знаю как это формализовать). Например текст

"Мы продаем оконные кондиционеры, мобильные кондиционеры ... и так далее еще 30 слов, 15 из которых --- кондиционеры... ."

может быть и грамотный, но не качественный.

Godrasta
На сайте с 03.09.2007
Offline
182
#9

вот вы подймайте как машина будет оценивать грамотность и качество текста ?

там же в интервью говорят, что сначала сайт определяют по каким-то признакам, что он подозрительный, а потом люди уже смотрят и оценивают...

так оно и есть

Тимон
На сайте с 08.06.2007
Offline
74
#10

Если говорить о синтаксической оценке текста, то тут ничего сложного нет - структуру предложения (подлежащее, сказуемое, группа однородных прилагательных и т.д.) выделить можно. Можно даже пойти дальше и вести оценку текста как в Word'е .т.е. используя тезаурус. Вопрос в затратах - хз, насколько это ресурсоемко.

Вопрос также и в том, а повышает ли такая глубокая оценка точность оценки релевантности текста? Тут можно долго гадать, пока мы не попробуем провести практический эксперимент. Яндекс наверняка проводит, так что ему виднее, где накручивать, а где достаточно TF*IDF

«Я слышу - и забываю, я вижу - и помню, я чувствую - и понимаю» (с) Конфуций Теперь я занимаюсь продвижением сайтов здесь (http://www.i-vi.ru/) :) SEO фтоппку! Учим правила фотосъема! (http://www.fotonotes.ru/) - мои заметки о фото
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий