Генератор правильного текста.

LW
На сайте с 10.02.2009
Offline
3
#61
Eladi:
Посмотрите на Google, он как 5 лет назад ел морковку так и сейчас ест.

И не только гугл, и яндекс и рамблер. И судя по своим наблюдениям, дело далеко не в контенте, и способах его генерации. А точнее, не только в контенте.

Обычный Марков, не адалт, отлично кушается яндексом, тот же самый алгоритм, но адалт, заходит намного хуже. (для яндекса, для гугла особых отличий не видно)

Но интересно посмотреть на иные способы генерации текста. Пожалуйста пример скиньте. :)

V
На сайте с 31.01.2008
Offline
118
#62
Eladi:
Посмотрите на Google, он как 5 лет назад ел морковку так и сейчас ест. И двигается флагман рынка в другом направлении.

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию. Это не тривиальная задача, в которой много исключений. Определение грамотно составленного текста не гарантирует, полезность этого текста для пользователя. И наоборот полезный для пользователя контент, может быть и не грамотным. Хотя это в принципе решать Яндексу, он лучше всех знает, что полезней для пользователя :)

а разве яндекс не учитывает морфологию? насколько мне известно вы ошибаетесь.

ознакомьтесь http://download.yandex.ru/company/iworld-3.pdf

M
На сайте с 28.05.2008
Offline
35
#63
vitvvs:
а дорген какой юзаете для этого?

самописный

php+mysql

еще не юзаю, пишу 😎

можно посмотреть пример вашего текста?

E
На сайте с 22.09.2007
Offline
22
#64
vitvvs:
а разве яндекс не учитывает морфологию? насколько мне известно вы ошибаетесь.
ознакомьтесь http://download.yandex.ru/company/iworld-3.pdf

Конкретно они открыто не говорят, что и как они учитывают. Из того документа, ясно что

все же основная масса языков требует хотя бы минимального
уровня лингвистической обработки. Не вдаваясь в подробности, приведу только
список задач, решаемый лингвистическими или окололингвистическими приемами:
• автоматическое определение языка документа
• токенизация (графематический анализ): выделение слов, границ предложений
• исключение неинформативных слов (стоп-слов)
• лемматизация (нормализация, стемминг): приведение словоизменительных
форм к «словарной». В том числе и для слов, не входящих в словарь системы
• разделение сложных слов (компаундов) для некоторых языков (например,
немецкого)
• дизамбигуация: полное или частичное снятие омонимии
• выделение именных групп

и что они вероятнее всего не делают:

Еще реже в исследованиях и на практике можно встретить алгоритмы
словообразовательного, синтаксического и даже семантического анализа. При
этом под семантическим анализом чаще подразумевают какой-нибудь
статистический алгоритм (LSI, нейронные сети), а если толково-комбинаторные
или семантические словари и используются, то в крайне узких предметных
областях.

Да лемматизация упоминается, ну это и в принципе и ожидаемо, при поиске необходимо приводить в фразы в «словарную» форму. Но это не означает что Яша будет оценивать фразу "безногие девушка приползет" и пессимизировать (фильтровать, банить) за это. Семантика, скорее всего в далекой и неясной перспективе.

"Imagination is more important than knowledge" Albert Einstein
M
На сайте с 28.05.2008
Offline
35
#65

что-б поисковики отличали статистический правильный бредо-текст от нормального ручного нужно немеряно ресурсов тратить

цепи Марков - это частный случай теории графов, а графы - это и есть статистический метод

V
На сайте с 31.01.2008
Offline
118
#66
Eladi:
Конкретно они открыто не говорят, что и как они учитывают.
Да лемматизация упоминается, ну это и в принципе и ожидаемо, при поиске необходимо приводить в фразы в «словарную» форму.

http://yandex.ru/yandsearch?text=%D0%B3%D0%BE%D0%BB%D1%8B%D0%B5+%D0%B1%D0%B0%D0%B1%D1%8B&stparhome=bno

http://yandex.ru/yandsearch?text=%D0%B3%D0%BE%D0%BB%D1%8B%D1%85+%D0%B1%D0%B0%D0%B1&stparhome=bno

может так вам будет понятней, или так

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D0%B5+%D0%BE%D0%BA%D0%BD%D0%B0&stparhome=byes

http://yandex.ru/yandsearch?text=%D0%BF%D0%BB%D0%B0%D1%81%D1%82%D0%B8%D0%BA%D0%BE%D0%B2%D1%8B%D1%85+%D0%BE%D0%BA%D0%BE%D0%BD&stparhome=byes

bigturtle
На сайте с 12.10.2008
Offline
75
#67

и мне тоже пример текста если можно. Спасибо

E
На сайте с 22.09.2007
Offline
22
#68

Обе выдачи соответствуют леммам словосочетания "пластиковые окна". Лучше, понятное дело, употреблять все леммы или наиболее употребляемые при генерации контента. Семантика ТЕКСТА СТРАНИЦЫ особой роли не играет.

Nominder
На сайте с 09.01.2008
Offline
87
#69

Скиньте ссылочку на чудогенератор плиз. Посмотреть примеры.

V
На сайте с 31.01.2008
Offline
118
#70
Eladi:
Обе выдачи соответвуют леммам словосочетания "пластиковые окна". И в первом и втором случае процентное соотношение частоты нормальной формы "пластиковые окна" выше, но это уже другая тема 🚬

ты притворяешься?

леммы (лексемы) не относятся к морфолгии?

vitvvs добавил 13.03.2009 в 21:01

Выше на этой странице ты писал

Eladi:

Если Яндекс начнет учитывать морфологию и что еще сложнее семантику предложений страницы и сайта в целом, уйдет вниз определенное множество сайтов, и среди них белые, которые несут полезную информацию.

теперь на мой пример ты отвечаешь

Eladi:
Обе выдачи соответствуют леммам словосочетания "пластиковые окна". Лучше, понятное дело, употреблять все леммы или наиболее употребляемые при генерации контента. Семантика особой роли не играет.

ты в с своем уме? При чем здесь семантика, мы говорим о морфологии.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий