Ищу базу самых используемых слов ( rus )

firacet
На сайте с 23.07.2008
Offline
68
696

Добрый день.

Как-то была у меня база самых часто используемых русских слов, отсортирована по частоте использования. Но где-то потерял. Если кто знает где лежит, поделитесь плыз!

А чего в этом разделе, ну так буду использовать ее для базы которая позволит генерировать морф. правильный уникальный текст )

firacet добавил 17.07.2009 в 20:51

Все, тема закрыта, нашел у себя на винте )))))

Спасибо!

Сбылись мечты народный: Мир-Труд-Май
spambot
На сайте с 12.12.2008
Offline
55
#1
firacet:

Все, тема закрыта, нашел у себя на винте )))))
Спасибо!

ну выкладывай тогда тут че уж там ;)

Every time you attempt to parse HTML with regular expressions, the unholy child weeps the blood of virgins, and Russian hackers pwn your webapp. (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)
firacet
На сайте с 23.07.2008
Offline
68
#2
spambot:
ну выкладывай тогда тут че уж там ;)

Держи: http://site-test.ru/words.num.zip

firacet добавил 17.07.2009 в 21:49

Нда )) Морфологически ( по машинным меркам ) текст правильный но такой бредотекст получается )) Марков ито красивее генерит ))))

Для генерации использовал базу часто используемых слов и второй вариант, слова из книг, вот что получилось :

Оригинал: Они медленно двинулись к огромному пролому возле бывших ворот. Основание стен заросло колючим кустарником, лишь у пролома кто-то аккуратно срезал ветки, оставив узкую, но проходимую тропинку.

Из базы слов :

1) Они практически перестроились к симпатичному пульту свойски проездных ворот. падло мюзикл подорвалось бравым кустарником, следовательно у массива кто-то принципиально признавал ветки, растащивши узкую, но усиленную тропинку.

2) Они серовато столкнулись к сексуальному свинцу бедно промежуточных ворот. падло мюзикл подорвалось бравым кустарником, следовательно у массива кто-то принципиально признавал ветки, растащивши узкую, но усиленную тропинку.

3) Они весною притихли к замечательному лею озорно неровных ворот. примирение плац далось придирчивым кустарником, пока у торта кто-то дурно ломил ветки, предотвратив узкую, но карманную тропинку.

4) Они сидя перестали у старинному процессу шёпотом четвероюродных ворот. Полученье утюгов дохнуло диалектным кустарником, ниже ай хода кто-то совместно разглядывал ветки, заложив узкую, поскольку земельную тропинку.

Из базы книг :

1) Они понемногу пришли к беглому карандашу презрительно промысловых ворот. расписанье статус зашевелилось эскулаповым кустарником, либо у свода кто-то приглушенно переходил ветки, заложив узкую, но взаимную тропинку.

2) Они тихо отступили к гибкому отказу блаженно последних ворот. открытье аппарат повернулось мгновенным кустарником, ведь у грота кто-то эргот получал ветки, связавши узкую, но гибкую тропинку.

3) Они территориально положились к взаимному хвощу тотчас организационных ворот. прободенье стон увеличилось маленьким кустарником, то у режима кто-то внешне подносил ветки, обретя узкую, но гибкую тропинку.

4) Они стоя зажмурились изнутри уксусному пролому вплоть английских ворот. Примирение плац далось придирчивым кустарником, пока увы гроша кто-то нечисто оборонял ветки, приложив узкую, отчего лаконичную тропинку.

HD
На сайте с 13.04.2009
Offline
20
#3

Спасибо за скромную базу =) давно искал подобную, а потом пропала необходимтость. Вроде как такое называется IDF или обратный индекс.

Чёрный балахон не спасёт тебя от страшных снов! Имею ответы на ваши вопросы. Пишите.
spambot
На сайте с 12.12.2008
Offline
55
#4
firacet:

Нда )) Морфологически ( по машинным меркам ) текст правильный но такой бредотекст получается )) Марков ито красивее генерит ))))

есть мысль эту базу использовать при синонимизации

чтобы отсеивать редкоупотребляемые синонимы. (и заодно редкие слова тоже не синонимизировать).

V
На сайте с 31.01.2008
Offline
125
#5

есть частотный словарь

в sql базе 18 метров

vitvvs добавил 18.07.2009 в 00:03

firacet:

Нда )) Морфологически ( по машинным меркам ) текст правильный но такой бредотекст получается )) Марков ито красивее генерит ))))
Для генерации использовал базу часто используемых слов и второй вариант, слова из книг, вот что получилось :

я уже с этими граблями столкнулся, не спасет тебя частотный словарь

если хочешь постучи в аську пообщаемся

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий