Скиньте ссылочку на чудогенератор плиз - Doorways & Cloaking - Практические вопросы оптимизации

Генератор правильного текста.

vitvvs · 2009-03-12T21:52:52.0000000Z

Недавно написал свой дорген, из плюсов: вордпресовская перелинковка(даже в html версии), морфологически правильная и в тоже время семантически правильная (тексты читаются как в яндекс весна) генерация текста, отложенная генерация на серверном уровне на своем ядре cms, генерация проектов в zebrum cms и тд. Генерация проектов под xrumer как 4 так и 5. Генерация расписания под него же. Если интересно могу показать в личку как работает сам генератор текста . Продавать пока не буду. Ищу вменяемых предложений для дальнейшей реализации проекта взамен на ваши пожелания и идеи. Интересует проф мнение для дальнейшей доработки скрипта Просьба сразу не плеваться а посмотреть как работает скрипт.

LW

3

LadyWaks

13 марта 2009, 16:50

#61

Eladi:
Посмотрите на Google, он как 5 лет назад ел морковку так и сейчас ест.

И не только гугл, и яндекс и рамблер. И судя по своим наблюдениям, дело далеко не в контенте, и способах его генерации. А точнее, не только в контенте.

Обычный Марков, не адалт, отлично кушается яндексом, тот же самый алгоритм, но адалт, заходит намного хуже. (для яндекса, для гугла особых отличий не видно)

Но интересно посмотреть на иные способы генерации текста. Пожалуйста пример скиньте. :)

Статьи нейросети для сайта Как повысить авторитетность автора Яндекс кобласит

V

146

vitvvs

13 марта 2009, 16:52

#62

Eladi:
Посмотрите на Google, он как 5 лет назад ел морковку так и сейчас ест. И двигается флагман рынка в другом направлении.

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию. Это не тривиальная задача, в которой много исключений. Определение грамотно составленного текста не гарантирует, полезность этого текста для пользователя. И наоборот полезный для пользователя контент, может быть и не грамотным. Хотя это в принципе решать Яндексу, он лучше всех знает, что полезней для пользователя :)

а разве яндекс не учитывает морфологию? насколько мне известно вы ошибаетесь.

ознакомьтесь http://download.yandex.ru/company/iworld-3.pdf

M

35

mimicunit

13 марта 2009, 17:11

#63

vitvvs:
а дорген какой юзаете для этого?

самописный

php+mysql

еще не юзаю, пишу 😎

можно посмотреть пример вашего текста?

E

22

Eladi

13 марта 2009, 17:15

#64

vitvvs:
а разве яндекс не учитывает морфологию? насколько мне известно вы ошибаетесь.
ознакомьтесь http://download.yandex.ru/company/iworld-3.pdf

Конкретно они открыто не говорят, что и как они учитывают. Из того документа, ясно что

все же основная масса языков требует хотя бы минимального
уровня лингвистической обработки. Не вдаваясь в подробности, приведу только
список задач, решаемый лингвистическими или окололингвистическими приемами:
• автоматическое определение языка документа
• токенизация (графематический анализ): выделение слов, границ предложений
• исключение неинформативных слов (стоп-слов)
• лемматизация (нормализация, стемминг): приведение словоизменительных
форм к «словарной». В том числе и для слов, не входящих в словарь системы
• разделение сложных слов (компаундов) для некоторых языков (например,
немецкого)
• дизамбигуация: полное или частичное снятие омонимии
• выделение именных групп

и что они вероятнее всего не делают:

Еще реже в исследованиях и на практике можно встретить алгоритмы
словообразовательного, синтаксического и даже семантического анализа. При
этом под семантическим анализом чаще подразумевают какой-нибудь
статистический алгоритм (LSI, нейронные сети), а если толково-комбинаторные
или семантические словари и используются, то в крайне узких предметных
областях.

Да лемматизация упоминается, ну это и в принципе и ожидаемо, при поиске необходимо приводить в фразы в «словарную» форму. Но это не означает что Яша будет оценивать фразу "безногие девушка приползет" и пессимизировать (фильтровать, банить) за это. Семантика, скорее всего в далекой и неясной перспективе.

"Imagination is more important than knowledge" Albert Einstein

M

35

mimicunit

13 марта 2009, 17:19

#65

что-б поисковики отличали статистический правильный бредо-текст от нормального ручного нужно немеряно ресурсов тратить

цепи Марков - это частный случай теории графов, а графы - это и есть статистический метод

V

146

vitvvs

13 марта 2009, 17:24

#66

Eladi:
Конкретно они открыто не говорят, что и как они учитывают.
Да лемматизация упоминается, ну это и в принципе и ожидаемо, при поиске необходимо приводить в фразы в «словарную» форму.

http://yandex.ru/yandsearch?text=%D0%B3%D0%BE%D0%BB%D1%8B%D0%B5+%D0%B1%D0%B0%D0%B1%D1%8B&stparhome=bno

http://yandex.ru/yandsearch?text=%D0%B3%D0%BE%D0%BB%D1%8B%D1%85+%D0%B1%D0%B0%D0%B1&stparhome=bno

может так вам будет понятней, или так

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5+%D0%BE%D0%BA%D0%BD%D0%B0&stparhome=byes

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D1%85+%D0%BE%D0%BA%D0%BE%D0%BD&stparhome=byes

136

bigturtle

13 марта 2009, 17:25

#67

и мне тоже пример текста если можно. Спасибо

E

22

Eladi

13 марта 2009, 17:45

#68

vitvvs:

может так вам будет понятней, или так

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5+%D0%BE%D0%BA%D0%BD%D0%B0&stparhome=byes

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D1%85+%D0%BE%D0%BA%D0%BE%D0%BD&stparhome=byes

Обе выдачи соответствуют леммам словосочетания "пластиковые окна". Лучше, понятное дело, употреблять все леммы или наиболее употребляемые при генерации контента. Семантика ТЕКСТА СТРАНИЦЫ особой роли не играет.

125

Nominder

13 марта 2009, 17:48

#69

Скиньте ссылочку на чудогенератор плиз. Посмотреть примеры.

V

146

vitvvs

13 марта 2009, 17:56

#70

Eladi:
Обе выдачи соответвуют леммам словосочетания "пластиковые окна". И в первом и втором случае процентное соотношение частоты нормальной формы "пластиковые окна" выше, но это уже другая тема 🚬

ты притворяешься?

леммы (лексемы) не относятся к морфолгии?

vitvvs добавил 13.03.2009 в 21:01

Выше на этой странице ты писал

Eladi:

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию.

теперь на мой пример ты отвечаешь

Eladi:
Обе выдачи соответствуют леммам словосочетания "пластиковые окна". Лучше, понятное дело, употреблять все леммы или наиболее употребляемые при генерации контента. Семантика особой роли не играет.

ты в с своем уме? При чем здесь семантика, мы говорим о морфологии.

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, чтобы попасть в ответы Google Bard

Генератор правильного текста.