Оцените качество текста

Unabashed
На сайте с 17.11.2006
Offline
70
#31

shi, к генерации текста они очень даже могут быть при чем. Как и графы, бинарные деревья и базы данных, а также прочая лабуда. Это вопрос реализации. Я просто обратил внимание Solo_by на то, что он в том посте смешал понятие используемой математической модели и метода генерации текста. А Вы флудите.

[Удален]
#32

Ворд забраковал все тексты.

I
На сайте с 07.10.2008
Offline
71
#33
Kalessin:
Ворд забраковал все тексты.

ворд много на что мотюкается.

и на тексты написанные вручную он тоже мотюкается.

и на тексты, взятые из индекса яши он тоже мотюкается.

да и вообще, кто сказал, что если я делаю сайт, пишу к нему статьи сам, то я должен в идеале знать правила языка? и что, если я не там поставлю запятые, то такой сайт не надо брать в индекс? бред

[Удален]
#34

Как же тогда робот вычисляет сгенерированный текст?

L9
На сайте с 05.04.2008
Offline
40
#35
bedboys:
морфологию смотрит (реализовать это не сложно)

Cадовский, залогинтесь.

I
На сайте с 07.10.2008
Offline
71
#36
Kalessin:
Как же тогда робот вычисляет сгенерированный текст?

думаю над этим вопросом многие ломают головы. наверняка знать никто не может.

морфологию смотрит (реализовать это не сложно)

чего ж тогда он банит доры с морфологически правильным текстом?

скажете за слив трафа? а если траф не сливается?

[Удален]
#37

нашел кое-что: http://rcdl2009.krc.karelia.ru/doc/full_text/306_308_Section09-3.pdf Нужен дорген,который это всё учитывает.

Kalessin добавил 06.12.2009 в 14:54

тут еще интересно http://yavbloge.ru/dorvei

.:nbd:.
На сайте с 04.11.2008
Offline
98
#38

Яндекс банит не за морфологию, точнее, не только за морфологию. Там учитывается множество разных факторов, причем, некотороя часть этих негатифных факторов может быть компенсирована другой частью позитивных факторов. Короче говоря, не все так просто. Но генерировать тексты, которые в состоянии прожить в индексе несколько больше (чем Марковка), сравнительно просто.

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)
SJ
На сайте с 16.03.2008
Offline
78
#39
Solo_by:
А вообще я против обсуждения генерации текста в паблике, им место в аськах и хайдах) Так что давайте прекратим.

Это правильно ;)

sokol_jack добавил 07.12.2009 в 17:23

ikolibri:
чего ж тогда он банит доры с морфологически правильным текстом?

Что для вас "морфологически правильный текст"? Текст, где род\число\падеж\... слов согласованны?

Это же еще не человеческий текст :)

Статистика. Вот что хорошо и плохо. У Яндекса есть небольшой такой :p индекс на хз сколько документов. И уж например (упрощенно) посчтитать н-граммы встречаемости "пар" слов определенных для него всего лишь вопрос компьютерных ресурсов. И найти артефакты, где в одном тексте есть много "пар" слов, которые не встречаются в 99% остальных текстов (а их не один миллион!) - не настолько неразрешимая задача.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Solo_by
На сайте с 19.06.2009
Offline
220
#40
sokol_jack:

Статистика. Вот что хорошо и плохо. У Яндекса есть небольшой такой :p индекс на хз сколько документов. И уж например (упрощенно) посчтитать н-граммы встречаемости "пар" слов определенных для него всего лишь вопрос компьютерных ресурсов. И найти артефакты, где в одном тексте есть много "пар" слов, которые не встречаются в 99% остальных текстов (а их не один миллион!) - не настолько неразрешимая задача.

Может и так) С этим у меня уж точно никаких проблем нет. Про маркова где-то на РОМИП за этот год был научный труд о том как их распознать, оочень полезная информация. Многое становится ясно.

Я сейчас смотрю в сторону нейронных сетей ;)

А насчет ресурсов Яндекса, в этом вся и соль. В первые апы он проверяет текст по малозатратным для ресурсов критериям, а уже на 4-5 проверяет и стиль текста, и таматику, и бог знает что ещё. Вообщем факторы, которые присутствуют в копирайте, но которые непросто отследить, и которых мало или вовсе нет в генереном контенте. Поэтому, лучше текст - живучей дор.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий