Дорген, генерация текста

1 234 5
S
На сайте с 01.01.2009
Offline
10
#21

Ну одна проверка текста Яндекса точно известна, она написана в списке вакансий http://company.yandex.ru/job/vacancies/dev_linguistic_cpp.xml :

Имеется массив текстов на естественном языке размером ~1 Тб. Число различных словоформ в текстах ~ 200 млн. Нужно собрать словарь из 20 млн. самых частотных биграмм (пар рядом стоящих слов) за разумное время (не более недели) на минимально достаточной конфигурации оборудования.

Опишите оптимальный, по вашему мнению, сценарий решения этой задачи и необходимые инструменты. Оцените затраты реcурсов (количество машин, оперативная память, дисковое пространство под временные файлы и т.п.) и время счета.

Так что за хреновую частоту пар слов можно получить фильтр.

Gorodetskiy
На сайте с 17.07.2008
Offline
84
#22
spzero:
Так что за хреновую частоту пар слов можно получить фильтр.

Та ну, басни это все. Тот же РБ на стыках выдает ересь...

Да и простая морфологическая подмена без всяких там проверок лезет на ура.

S
На сайте с 01.01.2009
Offline
10
#23
Gorodetskiy:
Та ну, басни это все. Тот же РБ на стыках выдает ересь...

Да и простая морфологическая подмена без всяких там проверок лезет на ура.

Ну может быть, РБ просто давно не использую.

CR
На сайте с 21.11.2008
Offline
146
#24

спасибо за обсуждения вопроса, господа умные головы! В трэде есть парочка очень интересных идей, но я сделал такой вот вывод. Делать алгоритм генерации текста надо с целью чтобы он вошел в индекс. А значит суметь обмануть яндекс, где 100+ программистов писали алгоритмы в сотрудничестве с профессорами русского языка, получали за это деньги и совершенстовали свою ПС. Думаю, это слишком не перспективно, в конце концов руско говорящих всего 50 млн ов в сети как максимум, а английский язык и проще раза в 2 и представителей о- несколько миллиардов.

нбд, городецкий и остальные, я думаю так, "обогнать" яшу можно, но не на пхп, и не мне, и не нам и незачем =)

spambot
На сайте с 12.12.2008
Offline
55
#25

По поводу маркова того же самого

можно вести статистику сочетаний слов например

круглый сыр 50 раз

груглый мяч 500 раз

и генерить нормируя по вероятности встречи т.е. чтобы в генеренном тексте круглый мяч встречался в 10 раз чаще чем круглый сыр.

тока на входе нужно прилично хорошей текстовки. например пару гиг чистого описательного текста без диалогов. (кто таким поделиться ;) ? )

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)
.:nbd:.
На сайте с 04.11.2008
Offline
98
#26

lib.ru?

Диалоги из текста можно удалить =)

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)
SJ
На сайте с 16.03.2008
Offline
78
#27
Gorodetskiy:
Если при вставке каждого слова проверять его на совместимость с предыдущим, и, стоит учесть, что процент "неверных" подстановок будет большой, что заставит проверять еще и еще - скорость генерации будет довольно медленной.

Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.

Хм, поумничаю, пожалуй, а назови, пожалуйста, хоть один не статический фильтр яндекса косательно текста? :)

Да что угодно...

Количество "воды" в тексте. Количество несогласованных связок слов. Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено. Количество слов, частота использования которых "обычно" ниже определенной границы.

Конечно, если в распоряжении имеется огромная статистика и методы ее анализа - то можно попробовать сделать из этого что-то путевое, но пока приходится отталкиваться от нуля.

У Яндекса есть индекс. Мало?!

Ну, тут можно допустить и погрешность, я считаю. Опять таки, довольно точный метод определения в разы замедлит генерацию.

Кому что больше нравится.

sokol_jack добавил 03.11.2009 в 21:48

vitvvs:
может стоит поговорить об этом не в паблике?

Готов днями обсуждать в аське.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
Gorodetskiy
На сайте с 17.07.2008
Offline
84
#28
spambot:
кто таким поделиться ?

Говори почту, а лучше сразу кошелек.

sokol_jack:
Сто слов в секунду - медленно? Тогда тупой рандом рулит - быстро и иногда (очень иногда) - в тему.

Ну, грубо говоря, не очень быстро, но в то же время этого должно хватать. Цифра взята с потолка или же такая машинка имеется? Дело в том, что доры на таком тесте держались бы в индексе не один месяц (если иметь в распоряжении текст такого качества, то и остальное, думаю, не хромало бы). Но в топе я что-то такого текста не встречал. Или вы не по адалту?

sokol_jack:
Количество "воды" в тексте.

Ну, водность это таки статический показатель. Имеется массив эталонного текста для данной тематики (скорее всего с разных мест собирался), и ваш текст. Сравниваем показатели, и если разница не критична - пускаем в индекс.

sokol_jack:
Количество "неправильных" предложений - например, несколько подлежащих и сказуемых невообразимо наплетено.

Ну... давай еще вспомним про замену русских букв на английские :D Это скорее не фильтры, а так, барьер против "особо умных".

sokol_jack:
Количество слов, частота использования которых "обычно" ниже определенной границы.

Ну, опять таки, сравнение происходит с массивом текста нужной тематики.

sokol_jack:
У Яндекса есть индекс. Мало?!

Ну, естественно про это сразу подумал, но метод заполучить ее не вижу. Понятен метод как на этапе подбора бд словосочетаний определить частотность, но это займет очень много времени.

sokol_jack:
Кому что больше нравится.

Да дело не в нравится, а в том, если текст будет соответствовать хотя бы нижней планке того, что мы тут обсуждаем, то моменты с неправильной вставкой омонимов не сыграют никакой роли.

sokol_jack:
Готов днями обсуждать в аське.

Эт да. А то все в подполье ушли...

humbert
На сайте с 16.03.2006
Offline
540
#29

В который раз открою тайну:

1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.

2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.

Парсинг прайс-листов, наполнение интернет-магазина товаром. (https://humbert.ru) Любая CMS (Битрикс, OpenCart, Prestashop и даже Woo Commerce )
spambot
На сайте с 12.12.2008
Offline
55
#30
humbert:
В который раз открою тайну:
1. Яндекс не банит неуник - полно сателлитов, сделаных мной на неуникальном контенте в индексе Я. Большинство более 10к страниц в индексе годами висят.
2. можно вообще без текста как такового обойтись, трафа будет на порядок меньше, зато висят в индексе долго.

1 - ну и сколько ты трафа имеешь на те свои неуник ГС? что-то порядка 1 уника в день на 1к страниц ;)

2 - дык ради трафа и думают над генерацией текста, или по твоему ради славы автора очередного бредогена? 😆

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий