База данных популярных имён по странам

12
Agressive_Pig
На сайте с 15.07.2008
Offline
98
2699

Народ, кто-нибудь знает, существует ли в природе база данных самых распространённых имён (Василий, Пётр, Феофан...) с разбивкой по странам?

Долго гуглил, в итоге нашёл всего одну базу https://www.heise.de/ct/ftp/07/17/182/

в ней 40 000 имен для 80 стран. Хорошо, но стран в районе 200. Может кто-нибудь знает аналогичные базы?

S1
На сайте с 17.04.2011
Offline
79
#1
Agressive_Pig:
Народ, кто-нибудь знает, существует ли в природе база данных самых распространённых имён (Василий, Пётр, Феофан...) с разбивкой по странам?
Долго гуглил, в итоге нашёл всего одну базу https://www.heise.de/ct/ftp/07/17/182/
в ней 40 000 имен для 80 стран. Хорошо, но стран в районе 200. Может кто-нибудь знает аналогичные базы?

40000 имен - мало. У меня используется база только русских имен, сейчас посмотрел - 58291 имен :) Была где-то база по английским, но там около 16000 было. Но готовых баз я не встречал.

_
На сайте с 24.03.2008
Offline
381
#2

>50к...

ммм... а можете из середины штук 100 "дернуть", интересно что там за столько имен

AdelinaHost
На сайте с 21.11.2012
Offline
169
#3
_SP_:
>50к...
ммм... а можете из середины штук 100 "дернуть", интересно что там за столько имен

Станислав

Стас

Стасик

ADELINAhost - На рынке с 2012 года! - Шаред Хостинг, VPS, Выделенные Сервера, VPN . (https://lyrics.az)
Локации: Россия, США, Англия, Германия, Франция, Нидерланды, Украина, Сингапур, Австралия, Япония, Австрия (https://www.adelinahost.com/ru)
_
На сайте с 24.03.2008
Offline
381
#4
AdelinaHost:
Станислав
Стас
Стасик

Я 100 попросил :).

Не верю я что-то в 50+к "стасиков" с одной стороны, и не имена это с другой.

(так можно докатиться и до "котика" и до "рыбки" с "зайчиком")

Agressive_Pig
На сайте с 15.07.2008
Offline
98
#5

Скорее всего вы обсуждаете эту базу: https://mydata.biz/ru/catalog/databases/names_db

Российские имена (51 529 строк)

Эхх... придется руками... иностранцев парсить

S1
На сайте с 17.04.2011
Offline
79
#6

Верно. За основу была взята та база, и обогащена короткими (уменьшительно-ласкательными) именами. Ниже - фрагмент такой базы с фильтром по "ста" :) Раз уж мы выше "Станиславов" начали обсуждать. И еще один скриншот - как это работает. С помощью трех баз работает система определения полного имени и пола для корректного затем формирования склонения имени для персонального обращения.

jpg names1.jpg
jpg names2.jpg
_
На сайте с 24.03.2008
Offline
381
#7

Мм... ничё так.

Но яб не сказал, что это популярные русские имена. Это скорее русскоязычное написание различных имен.

(никогда не слышал об русских Ыстам-ах :)).

А как проставляли пол ? Ыстам - это почему мужское :) ?

S1
На сайте с 17.04.2011
Offline
79
#8
_SP_:
Мм... ничё так.

Но яб не сказал, что это популярные русские имена. Это скорее русскоязычное написание различных имен.
(никогда не слышал об русских Ыстам-ах :)).
А как проставляли пол ? Ыстам - это почему мужское :) ?

Пол - был в той базе, ссылка на которую приведена выше. Обогащений было два:

- я, кажется, с сайта русского языка качал уменьшительно ласкательные имена, и привязывал их к базе. при этом волюнтаристически принимал решение, что Саша - это Александр, а не Александра, Валя - Валентина, но не Валентин и так далее.

- имена, которые появлялись новые в рамках уже обычной операционной деятельности.

_
На сайте с 24.03.2008
Offline
381
#9
Stan_1:
Пол - был в той базе, ссылка на которую приведена выше.

Это понятно, вопрос в другом: откуда он там взялся.

Собственно откуда взялся пол для "Ыстам" не столь важно, а вот откуда для "Александр" важнее.

И если это безымянная тетя проставляла, то сколько ошибок содержится в базе ?

Stan_1:

- я, кажется, с сайта русского языка качал уменьшительно ласкательные имена, и привязывал их к базе. при этом волюнтаристически принимал решение, что Саша - это Александр, а не Александра, Валя - Валентина, но не Валентин и так далее.
- имена, которые появлялись новые в рамках уже обычной операционной деятельности.

Вы в своих действиях вполне правы, яб тоже так действовал при схожих задачах.

На самом деле яндекс еще ведь чем-то делился. Вообще хорошоб спарсить из документов базу, но опять-таки вопрос в том, где найти пол...

Ммм... может БД с паспортами бывают.... точнее даже точно бывают...

S1
На сайте с 17.04.2011
Offline
79
#10
_SP_:
И если это безымянная тетя проставляла, то сколько ошибок содержится в базе ?

Вопрос справедливый, но для моей задачи не сильно принципиальный. Поэтому не заморачивался.

_SP_:

На самом деле яндекс еще ведь чем-то делился. Вообще хорошоб спарсить из документов базу, но опять-таки вопрос в том, где найти пол...
Ммм... может БД с паспортами бывают.... точнее даже точно бывают...

Когда были выборы в регионах - Навальный "палил" базу паспортов старую, которая была доступна на сайте миграционной службы, почти на 80 млн. паспортов :) Но увы - после "пала" ее естественно закрыли. Жалею, что не скачал в свое время :(

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий