webpavilion

webpavilion
Рейтинг
35
Регистрация
10.10.2009
saykel:
Насколько я понял здесь про некую глобальную константу тиц, которая дается на растерзания вебмастерам? ..
Ну мысль не плохая а как с доказательствами...

статью прочитайте.

Больше полугода пользуюсь https://gomockingbird.com/mockingbird/ очень удобно, попробуйте. До этого рисовал макеты в Inkscape, долго и нудно.

G00DMAN:
...потому что самому сделать аналогичный сложновато. :)

ну для настоящего мастера своего дела это не сложнее чем написать классификатор файлов по их расширению, vitali_y уже справился, жаль только что его поделка глубока альфа но все же потенциалом "попахивает" :)

насколько я знаю в МГУ раздавали первую версию анализатора она же была в свободном доступе, яндекс же купил версию 2+ отличаются они (со слов разработчиков) алгоритмом синтаксического разбора и расширенным набором связей в получаемом дереве.

первая версии после плясок с бубном запускается (и работает) в *nux. жаль конечно что исходников не достать...

G00DMAN:
А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(

алгоритм глуп и не универсален, жестко привязан к имеющейся базе.

Текст обработанный синонимайзером бьется на нграммы, частотность полученных nграмм сверяется с "эталонной" в БД.

Если частота в результирующем тексте близка к нулю полученная нграмма считается неестественной и либо откатывается к исходной либо подбирается другой синоним и все с начала.

прикинь щас лично сам медвед целую пару выносил нам моск в гз универа


# # прикинь 102
# прикинь щас 78
прикинь щас лично 6
щас лично сам 9
сам медвед целую 0
целую пару выносил 0
выносил нам моск 1
нам моск в 0
моск в гз 0
в гз универа 1
kapow_expert:
Будет ли ситуация с 3-граммами такая же?

с увеличением размерности nграм растет объем БД, уменьшается количество замен. с 3-граммами будет еще хуже. по мне так это тупиковая ветвь в технологиях спама.

kapow_expert, дело не в объеме словарей или размерности нграмм, на качество в первую очередь влияет используемый алгоритм. под качеством подразумевается не количество замен а "человечность" получаемого текста.

Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen

vitali_y, к чему выносить свое невежество на показ? если вы считаете что все вокруг пользуются молотками, это не значит что так и есть.

проблема захламленности рунета генерированными текстами на данный момент не может быть решена полностью, глупо это отрицать.

vitali_y:
а зачем это делать? зачем захламлять индекс? с какой целью?

Для продажи ссылок и манипуляции выдачей.

vitali_y:
и зачем бороться с этим?

Думаю банальная экономия ресурсов.

При желании я мог бы генерить тысячи ГС с синонимизированным контентом автоматизировав процесс до нажатия одной кнопки. Я не жадны и продал свои наработки еще сотне умельцев. Допустим 500 человек по 3000 сайтов по 3000 страниц с 3000 тысячами знаков на каждой. ~12TB мусорного контента в день. сервера для обработки подобного объема информации стоят немалых денег а пользы от полученного результата нет.

Stripe:
80% на 20% это все-таки Парето, а не Ципф, сохраняйте копирайты ))

вовсе не он. в вводной статье все расписано, я почти месяц сидел в настоящей бумажной библиотеке.

G00DMAN, спасибо, все вышеприведенное давно зачитано до дыр. Вы случайно не подскажите где коллекции с РОМИПа добыть?

Всего: 59