Сравниваем показатели с массивом текста нужной тематики - Doorways & Cloaking

Дорген, генерация текста

Chikey.ru · 2009-11-03T07:11:14.0000000Z

Сел писать модуль генерации текста и че то завис.. Как лучше 1. Брать кусок какого то готового ТЕМАТИЧНОГО текста и через определеннный промежуток разбавлять кеями. 2. НЕТЕМАТИЧНЫЙ текст брать. 3. Генерить абсолютную ересь по словарю слов + киворды время от времени. 4. Чисто кеи, а текст брать синонимизированный 5. ваш вариант. Если есть идеи и способы отпишите плиз, так или иначе дорген планируется сделать бесплатным (это будет модификация тиражера)..

S

10

spzero

3 ноября 2009, 12:25

#21

Ну одна проверка текста Яндекса точно известна, она написана в списке вакансий http://company.yandex.ru/job/vacancies/dev_linguistic_cpp.xml :

Имеется массив текстов на естественном языке размером ~1 Тб. Число различных словоформ в текстах ~ 200 млн. Нужно собрать словарь из 20 млн. самых частотных биграмм (пар рядом стоящих слов) за разумное время (не более недели) на минимально достаточной конфигурации оборудования.

Опишите оптимальный, по вашему мнению, сценарий решения этой задачи и необходимые инструменты. Оцените затраты реcурсов (количество машин, оперативная память, дисковое пространство под временные файлы и т.п.) и время счета.

Так что за хреновую частоту пар слов можно получить фильтр.

84

Gorodetskiy

3 ноября 2009, 12:36

#22

spzero:
Так что за хреновую частоту пар слов можно получить фильтр.

Та ну, басни это все. Тот же РБ на стыках выдает ересь...

Да и простая морфологическая подмена без всяких там проверок лезет на ура.

S

10

spzero

3 ноября 2009, 12:40

#23

Gorodetskiy:
Та ну, басни это все. Тот же РБ на стыках выдает ересь...

Да и простая морфологическая подмена без всяких там проверок лезет на ура.

Ну может быть, РБ просто давно не использую.

CR

146

Chikey.ru

3 ноября 2009, 14:26

#24

спасибо за обсуждения вопроса, господа умные головы! В трэде есть парочка очень интересных идей, но я сделал такой вот вывод. Делать алгоритм генерации текста надо с целью чтобы он вошел в индекс. А значит суметь обмануть яндекс, где 100+ программистов писали алгоритмы в сотрудничестве с профессорами русского языка, получали за это деньги и совершенстовали свою ПС. Думаю, это слишком не перспективно, в конце концов руско говорящих всего 50 млн ов в сети как максимум, а английский язык и проще раза в 2 и представителей о- несколько миллиардов.

нбд, городецкий и остальные, я думаю так, "обогнать" яшу можно, но не на пхп, и не мне, и не нам и незачем =)

55

spambot

3 ноября 2009, 14:30

#25

По поводу маркова того же самого

можно вести статистику сочетаний слов например

круглый сыр 50 раз

груглый мяч 500 раз

и генерить нормируя по вероятности встречи т.е. чтобы в генеренном тексте круглый мяч встречался в 10 раз чаще чем круглый сыр.

тока на входе нужно прилично хорошей текстовки. например пару гиг чистого описательного текста без диалогов. (кто таким поделиться ;) ? )

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)

98

.:nbd:.

3 ноября 2009, 14:32

#26

lib.ru?

Диалоги из текста можно удалить =)

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)

SJ

78

sokol_jack

3 ноября 2009, 18:47

#27

Gorodetskiy:
Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной.

Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.

Хм, поумничаю, пожалуй, а назови, пожалуйста, хоть один не статический фильтр яндекса косательно текста? :)

Да что угодно...

Количество "воды" в тексте. Количество несогласованных связок слов. Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено. Количество слов, частота использования которых "обычно" ниже определенной границы.

Конечно, если в распоряжении имеется огромная статистика и методы ее анализа - то можно попробовать сделать из этого что-то путевое, но пока приходится отталкиваться от нуля.

У Яндекса есть индекс. Мало?!

Ну, тут можно допустить и погрешность, я считаю. Опять таки, довольно точный метод определения в разы замедлит генерацию.

Кому что больше нравится.

sokol_jack добавил 03.11.2009 в 21:48

vitvvs:
может стоит поговорить об этом не в паблике?

Готов днями обсуждать в аське.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

84

Gorodetskiy

3 ноября 2009, 19:57

#28

spambot:
кто таким поделиться ?

Говори почту, а лучше сразу кошелек.

sokol_jack:
Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.

Ну, грубо говоря, не очень быстро, но в то же время этого должно хватать. Цифра взята с потолка или же такая машинка имеется? Дело в том, что доры на таком тесте держались бы в индексе не один месяц (если иметь в распоряжении текст такого качества, то и остальное, думаю, не хромало бы). Но в топе я что-то такого текста не встречал. Или вы не по адалту?

sokol_jack:
Количество "воды" в тексте.

Ну, водность это таки статический показатель. Имеется массив эталонного текста для данной тематики (скорее всего с разных мест собирался), и ваш текст. Сравниваем показатели, и если разница не критична - пускаем в индекс.

sokol_jack:
Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено.

Ну... давай еще вспомним про замену русских букв на английские :D Это скорее не фильтры, а так, барьер против "особо умных".

sokol_jack:
Количество слов, частота использования которых "обычно" ниже определенной границы.

Ну, опять таки, сравнение происходит с массивом текста нужной тематики.

sokol_jack:
У Яндекса есть индекс. Мало?!

Ну, естественно про это сразу подумал, но метод заполучить ее не вижу. Понятен метод как на этапе подбора бд словосочетаний определить частотность, но это займет очень много времени.

sokol_jack:
Кому что больше нравится.

Да дело не в нравится, а в том, если текст будет соответствовать хотя бы нижней планке того, что мы тут обсуждаем, то моменты с неправильной вставкой омонимов не сыграют никакой роли.

sokol_jack:
Готов днями обсуждать в аське.

Эт да. А то все в подполье ушли...

борьба с платными ссылками У новых каналов YT Упал доход

540

humbert

3 ноября 2009, 20:43

#29

В который раз открою тайну:

1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.

2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )

Страница есть в индексе Google выдворил сайт, но Как лучше использовать старый

55

spambot

3 ноября 2009, 21:34

#30

humbert:
В который раз открою тайну:
1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.
2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.

1 - ну и сколько ты трафа имеешь на те свои неуник ГС? что-то порядка 1 уника в день на 1к страниц ;)

2 - дык ради трафа и думают над генерацией текста, или по твоему ради славы автора очередного бредогена? 😆

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Дорген, генерация текста