Делаем базу синонимов.

12
R
На сайте с 07.07.2009
Offline
43
3794

Вобщм я новичек, денег на синонимайзер нет =)))

есть база синонимов txt 10mb, формата

слово|синоним,синоним,синоним

делаю из нее

|синоним|синоним|синоним|

одного типа (склонения,наклонения,рода,числа итп) для читабельности текста.

от базы останется 5-10% но зато будет качественный читабельный текст. Делается под говноклеп, заядлым seoшникам ржать в этой теме ненадо =))

Вобщм если кому нибудь нужен бесплатный синонимайзер с базой, примите участие в чистке базы, скину небольшую часть базы (работы на день), в конце чистки получите целую.

Не теряй время с сапой (http://www.sape.ru/r.PmzkTSLtsC.php), обманывать Яндекс бесперспективно. Пользуйся белой раскруткой (http://miralinks.ru/users/registration/from:33429) и не знай проблем.
S
На сайте с 13.03.2009
Offline
49
#1

10 мб знаменитая база. После приведения её к формату "слово|синоним" в файле образуются около 700 тыс строк. После морфологического прогона - около 12 млн. строк. Помнится когда был маленький, а в Московском планетарии еще не было пинбольного клуба - во дворе оного стоял хитрый девайс, который должны были вращать все желающие. Аттракцион был создан с целью дать понять окружающим насколько большое число один миллион. Не знаю сколько его вращали до меня. Судя по глянцевому состоянию металла этого чудо прибора - вращали уже не один год. Число на циферблате показывало что-то около 300 тыс. оборотов.

Уважаемый ТС, ваш труд будет колоссален. Даже если вы наберете десяток помощников, то кряхтеть придется не один месяц. А стоит ли оно того? До кучи добавлю, что процентов 70 слов из словаря SynMaster и aprok в эту базу не входят, а это одни из лучших баз. Что же тогда получится в результате?

R
На сайте с 07.07.2009
Offline
43
#2

Я не умею делать морфологии (как я понял это прогон слова по родам,склонениям,лицам итп), буду благодарен если подскажешь как сделать.

За 2 дня (вобщем 15-20часов) сделал 30%, получилось 3800 слов (многие повторяются). В конечном итоге должно быть всего примерно 10к слов, из которых 2-3к уникальных, делаю все для читаемости текста, удаляя многозначные слова (например слово "зеленый" используется как цвет и как значение "молодой,новенький").

Например была строчка:

мордочка|мордашка,личико,физиономия,мордашечка,рожица,лицо,морда

нельзя же сказать "твоя личико" или "кошачья лицо", в ласковом обращении нельзя поменять "мордочка" на "морда" - в итоге остается

мордочка|мордашка

стараюсь оставлять преимущественно однозначные в любом контексте слова, например "моложе|младше"

так что кому нибудь еще это нужно? Будете помогать? =)

S
На сайте с 22.10.2008
Offline
65
#3

Вместо того чтоб базу править, пойди лучше в направлении тематических баз. Те общетематические что уже есть, так с нуля не обогнать.

В фарме надёжность важна: много партнёрок, но Ева – одна! / evasupport@jabber.org (http://www.gofuckbiz.com/showthread.php?t=15526) / Помощь детям (http://www.gofuckbiz.com/showthread.php?t=36832)
E
На сайте с 21.06.2008
Offline
74
#4

ТС, хорошая работа - только время на это жалко!!!

Ссылки тут интересные . (to-ali.com)
R
На сайте с 07.07.2009
Offline
43
#5

чеж поделать.. денег на синонимайзер нет, а так делиться никто не будет..

если у кого нибудь есть база |синоним|синоним|синоним| а не |слово|синоним|синоним|, не жадничайте, поделитесь)

[Удален]
#6

Если денег нет, зайди сюда http://ulyka.ru/ и пользуйся, там хорошие базы уже прикручены.

R
На сайте с 07.07.2009
Offline
43
#7

вроде неудобный.. зачемто в хтм надо.. непоняточка

S
На сайте с 13.03.2009
Offline
49
#8

html это фича. Не нужен html - не используй теги.

AntonBoy
На сайте с 30.10.2008
Offline
58
#9

800 символов? Мало для удобной и правильной работы :(( а сервис хорош

VkVetal
На сайте с 14.04.2009
Offline
6
#10

Как говорится, изобретаем по новой велосипед. Советую посетить мою тему, и не по жадничать денег, купить нормальную базу, цена на нее игрушечная.

Ручной сборки База синонимов! (/ru/forum/356885) ICQ 593 168 951
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий