Cинонимизация - Написание собсвтенного движка и словаря

T5
На сайте с 25.10.2010
Offline
0
1097

Привет Народ.

В данный момент работаю над созданием собственного словаря и синонимайзера ( АНГЛИЙСКОГО ЯЗЫКА, русский уже сделал ), но у на основе всего этого собираюсь запустить пару проектов. Нужны советы, идеи, подсказки или просто ваше мнение. Возможно данная тема уже поднималась, но все таки хотелось бы занового ее обсудить.

Работу поделил на несколько частей.

1. Сначало написал парсер и собрал все статьи с сайта ezinearticles.com. Там их около 4 миллионов. Для сравнения это больше, чем практически весь рунет. Кинопоиск, Википедия и tophotels.ru и даже миллиона не наберут.

2. На второй стадии написал говнопрограмку для анализа популярности слов и фраз. Сервера трещали по швам, но все таки сделал. Это было сделано, чтобы подбирать синонимы к самым популярным фразам, а не ко всему подряд.

3. В данный момент пару человек работает над составлением синонимов к базе слов/фраз. Думаю займет около месяца, а может и больше, если нужно будет еще проверять их на живых текстах. На данном этапе учитываются т.н. стоп слова. Использую этот список, хоть не уверен, насколько он достоверен: http://www.link-assistant.com/seo-stop-words.html .

4. На следующем этапе, как вы понимаете, уже нужно будет лепить говносайтики. В рунете результаты были не шибко сильные, но все таки были. В среднем по 5 тысяч посетителей в день на говносайтик. Хоть последний еще в процессе. Мне кажется он раскочегариться и до 15 тысяч. Средний процент замены в на русском языке составлял 33%, но это и с учетом добавления небольшого количества ошибок, на пример, замена енн - ен или наоборот.

Вообщем, товарищи, отзовитесь и посоветуйте что-нибудь. Не хочется, просто так пару месяцев говнокодить.

Прежде всего меня интересует, какого процента замены стоит добиваться? Стоит ли добавлять ошибки? Англоязычный гугл намного умнее, чего он не простит?

Любые интересные идеи очень и очень приветствуются. Взамен, как вы понимаете, для тех кто может предложить что-нибудь дельное, в дальнейшем смогу синонимизировать тексты бесплатно или написать скрипт где вы сами сможете через веб это делать.

SJ
На сайте с 16.03.2008
Offline
78
#1

Тю. А что тут нового можно придумать?

Работа не с отдельными словами, а словосочетаниями.

Морфология. n-граммы для учета частотности в "нормальном" языке слов\словосочетаний.

Построение графа предложений и его изменение при синонимизации.

Или у вас как всегда все банально - x меняем на y, и все?

Английский язык в общем проще, чем русский, поддается синонимизации.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
T5
На сайте с 25.10.2010
Offline
0
#2

Английский язык я знаю достаточно хорошо, все таки 10 лет в Лондоне прожил и скажу что синонимы подбирать точные, там сложнее, поскольку слова там чаще или практически всегда имееют несколько значений.

При анализе моя программа считает фразы состоящий из 2-6 слов. n-граммы я не использую. Просто разница в скросости получается не такой значительной.

Советы больше нужны не технического характера реализации всего этого, а больше со стороны SEO. Допустим, какой процент замены необходим для попадания в основной индекс гугла?

B
На сайте с 07.02.2005
Offline
161
#3

taranti555, 33% это мало ИМХО. Синонимы будут и к отдельным словам, и к устойчивым двух-трех словникам? Я например макросы при массовой дистрибуции проверяю шинглом длиной 5 с процентом совпадений 7, если не получаю 10-20 читаемых вариантов - значит, надо добавлять. Какой при этом процент замены - не знаю, не считал. ) Могу Вам показать, если нужно, "хороший" с моей точки зрения макрос.

Еще совет коммерческий: напишите не просто скрипт, а плагин для WordPress, чтобы рерайтил на лету в момент публикации - думаю, можно будет продавать.

Напишите в личку - Ваша пока не работает.

T5
На сайте с 25.10.2010
Offline
0
#4

А в шинглах стоп слова учитываешь?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий