Палю тему: Алгоритм написания качественного синонимизатора.

12
cromizer
На сайте с 27.08.2008
Offline
29
2382

Для тех, кто до сих пор не знает, где взять полезную информацию, рассказываю - http://company.yandex.ru/articles/

Для тех, кто только начал заниматься SEO - эти публикации должны стать настольной книгой. А так же для совсем одарённых, особенно кто не умеет пользоваться поиском, но кричит что Я гуру в SEO - http://help.yandex.ru/webmaster/

Итак поехали:

1. Парсим кучу тематического контента, выдёргиваем из страницы только текст статьи и определяем тошноту этой статьи, из него создаёт словарик для определённой тематики.

2. Получившийся список слов и словосочетаний прогоняем через словарь синонимов (словарь синонимов я собрал из 5 или 7 разных словарей, которые нашёл в сети), а так же через толковый словарь (с кратким толкованием).

Далее тратим 1 - максимум 2 часа, на то, что бы вычистить базу от мусора типа старословянских слов и тд. - Сразу поясню - чистить базу синонимов изначально нет смысла, так как это очень долго (18 Мб в TXT) и можно по запаре вычистить нужные слова.

Для чего краткий толковый словарь? (Его я тоже постепенно начал собирать и пополнять, когда столкнулся с известными названиями и именами. Пример ниже.) А для того, что бы разбавить и уникализировать часть слов для которых нет синонимов или те, которые довольно редко встречаются и используются в тексте. Так как по этим словам можно довольно быстро найти дубль.

Например: Новость про Аршавина и Барселону - если мы посмотрим тошноту новости, то увидим, что основные слова, по которым можно нати дубль - Аршавин, Барселона, Зенит и тд. Если мы растолкуем эти слова (Аршавин - игрок Санкт-Петербургской футбольной команды и тд), то мы уходим из зоны риска попасть под фильтр определения нечётких дублей.

Про алгоритмы определения нечётких дублей читать http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf или http://download.yandex.ru/company/paper_65_v1.rtf

3. Далее. Мы можем работать с предложениями разбивая большие на маленькие и наоборот. А так же можем использовать уже готовые решения http://www.rvb.ru/soft/catalogue/catalogue.html

4. Так же при применении составленного словаря к только что украденному тексту используем http://company.yandex.ru/technology/mystem/ или phpmorphy (работает чётко) - определяем число, род и падеж и тд у слова или словосочетания в тексте, переводим в именит. падеж, ед. число... и находим красивый чистый синоним, далее переводим его в нужную форму и вставляем в текст.

5. В результате мы получаем текст на 40-80% отличный от оригинала + уникальный.

Со временем базы накапливаются и становятся более качественными и когда баз получается штук 10, мы их сравниваем и находим дубли - вот эти дубли начинают составлять обще тематический словарик, который можно использовать для генерации статей для постинга на левые сайты.

Я думаю после такого разжёвывания - через 1-3 недели на форуме начнутся продажи скрипта этого синонимизатора. А ещё через недельку начнётся обмен и торговля собранными словарями.

Сразу скажу - я не продаю этот софт, на него я потратил слишком много сил, времени и денег.

seo-шаман
WwWork
На сайте с 07.02.2006
Offline
150
#1
cromizer:

Сразу скажу - я не продаю этот софт, на него я потратил слишком много сил, времени и денег.

хы, а зачем тогда писали? я прекрасно понимаю сколько нужно потратить на такой софт времени и сил, посему представляю его цену... в общем тем кому надо будут его купить - купят, а те кто могут писать, уже давно написали свои.

--

на скорую руку, ещё проще - берётся словарь синонимов с определённой структурой, пишется под него десктопное или серверное ПО (кому как удобнее) которое берёт текст и ищет сходные слова из этого текста в словарике синонимов. По сути задачка для первого курса какого ньть факультета для программеров.

cromizer
На сайте с 27.08.2008
Offline
29
#2
WwWork:
хы, а зачем тогда писали? я прекрасно понимаю сколько нужно потратить на такой софт времени и сил, посему представляю его цену... в общем тем кому надо будут его купить - купят, а те кто могут писать, уже давно написали свои.

--
на скорую руку, ещё проще - берётся словарь синонимов с определённой структурой, пишется под него десктопное или серверное ПО (кому как удобнее) которое берёт текст и ищет сходные слова из этого текста в словарике синонимов. По сути задачка для первого курса какого ньть факультета для программеров.

Да так то оно так, такого софта как грязи. У меня идёт морфологический, семантический анализ и построение коркодансов для текстов, которые будут обрабатываться для дальнейшего постинга.

Сейчас доделываю возможность смыслового поиска на основе построения смысловых связей и структурирование текста на темы и подтемы, для дальнейшего, более качественного построения предложений.

S
На сайте с 09.03.2007
Offline
54
#3
cromizer:

Я думаю после такого разжёвывания - через 1-3 недели на форуме начнутся продажи скрипта этого синонимизатора. А ещё через недельку начнётся обмен и торговля собранными словарями.

хрень. все уже через это прошли в свое время, только не делали на радости кросспостов по всему форуму. для создания говнотекстов синонимайзер не нужен, а осилить правильный синонимайзер под силу только серьезной конторе со штатом толковых программистов и мощным серверным оборудованием, ну и приличным бюджетом под это дело.

Good guy goes to Heaven. Bad guy goes to Pattaya.
cromizer
На сайте с 27.08.2008
Offline
29
#4
SEOdream:
хрень. все уже через это прошли в свое время, только не делали на радости кросспостов по всему форуму. для создания говнотекстов синонимайзер не нужен, а осилить правильный синонимайзер под силу только серьезной конторе со штатом толковых программистов и мощным серверным оборудованием, ну и приличным бюджетом под это дело.

😂 - ты уверен в своих словах? ты читал о возможностях? и ты видел результаты работы?

или ты на столько самоуверен, что не можешь смериться с тем, что человек, у которого рейтинг на форуме 10 и он на нём 1 день, может выложить, то что не смог сделать никто на форуме, или смог, но молчит.

Перечитай ещё раз пост повнимательнее, там расписано, что реализовано и посмотри результат http://bolezney.ru/vnutr_ojerenie.html

А то, что написать синонимизатор может только серьёзная контора со штатом программеров - хрень полная. Программеров может быть хоть 10, но если у них нет знания и понимания того, как можно сделать семантический расклад текста, или как составить смысловое дерево или как использовать морфологию - то они никогда не напишут. А технически софт пишется за 15 дней (мне его столько писали, на основании чёткого ТЗ).

И мой тебе совет - не суди без повода и не принимай поспешных решений, основываясь на эмоциях. Ты же оптимизатор - где логическое мышление? Или сайты ты продвигаешь так же как и делаешь выводы?

И

WwWork
На сайте с 07.02.2006
Offline
150
#5

можно посмотреть тут или в личке на результат

Было/стало

ёгурт
На сайте с 24.10.2006
Offline
89
#6

а какое время обработки? ну например исходный текст 10.000 символов

Нас банят с улыбкой.
G4
На сайте с 11.03.2006
Offline
125
#7

Я тоже че то про результаты не понял, очень интересно в паблик или в личку несколько примеров по разным тематикам или хотя бы по одной тематике было/стало

Выкупаем места на крупных фильмовых и игровых сайтах!!ДОРОГО!!. Стучите 58five275.
cromizer
На сайте с 27.08.2008
Offline
29
#8
WwWork:
можно посмотреть тут или в личке на результат
Было/стало

Сейчас найду исходник одной из статей. И выложу.

S
На сайте с 09.03.2007
Offline
54
#9
cromizer:
😂 - ты уверен в своих словах? ты читал о возможностях? и ты видел результаты работы?
или ты на столько самоуверен, что не можешь смериться с тем, что человек, у которого рейтинг на форуме 10 и он на нём 1 день, может выложить, то что не смог сделать никто на форуме, или смог, но молчит.
И мой тебе совет - не суди без повода и не принимай поспешных решений, основываясь на эмоциях. Ты же оптимизатор - где логическое мышление? Или сайты ты продвигаешь так же как и делаешь выводы?

Нах мне с чем-то "смеряться" и судить кого-то... Мнение мое высказано выше, и да, я настолько самоуверен, чтоб делиться своим мнением с коллегами на форуме 🚬 Мы тут делом заняты, т.е. добычей трафа и срубанием с этого бабла :2cents: :2cents::2cents: . Академические исследования, конечно, тоже интересны, но только если они принесут в конце-концов ощутимую прикладную пользу.

Синонимайзер русского языка- это совсем не то, что синонимайзер английского. Чтоб русский текст отсинонимировать даже вручную, творческий подход нужен. Я видел много разработок на эту тему, и все они пошли в топку именно из-за того, что уперлись в особенности русского языка.

cromizer
На сайте с 27.08.2008
Offline
29
#10
ёгурт:
а какое время обработки? ну например исходный текст 10.000 символов

Я не мерил в символах, я в размере txt файла мерял =)

Время тратится изначально на подготовку словаря:

1. Подбор ключевых слов для поиска контента

2. Ищет, выкачивает - тут уже всё зависит от кол-ва которое необходимо

3. Парсит html to text - быстро

4. Составляет словарик и строит коркондансы - в среднем 10-30 минут в зависимости от кол-ва текста, которое ему дали.

5. По базе синонимов и толкованию - словарь прогоняет меньше минуты.

6. Ручная корректировка словарика - максимум, что у меня занимала 2 часа

7. А тут всё зависит от выбора, что сначала сделать - морфологический или синтаксический анализ.

8. Примерно файл в 1 Мб обрабатывает в течении 1 - 30 минут - из за сложности построения некоторых предложений. Программа ещё не умеет, строить смысловые связи, да я ещё и не придумал как это правильно сделать, а описания такого алгоритма я не нашёл. Думаю это сможет ускорить работу с текстом. И составлять более грамотные текста с использованием предложений из разных файлов.

На выходе получаем файл с текстом:

Было:

Интенсивность ожирения бывает различной. Жировые отложения нарастают на туловище, затылке, бедрах, плечах, в тазовой области. Из-за скопления жира ограничена подвижность диафрагмы, что уменьшает жизненную емкость легких и затрудняет приток крови к сердцу. Жировые отложения на сердце также мешают его деятельности.

Стало:

Бывает интенсивность увеличение веса разной. На туловище и затылке увеличиваются скопления жира, а так же бедрах, плечах и в тазовой области. Свободное движение диафрагмы препятствуется жировыми отложениями. Скопления жира на сердце препятствуют его деятельности. Это ограничивает поток крови к сердцу и снижает объем органов дыхания.

Не смог найти оригинал. Запустил софтину на пару предложений. В данном случае текста получились нормальные, так как по "медицинской" тематике собран большой словарик. В тематике "кредиты", тоже почти всё более мение. В тематике спорт, порой делает смешные предложения.

cromizer добавил 27.08.2008 в 14:23

SEOdream:
Нах мне с чем-то "смеряться" и судить кого-то... Мнение мое высказано выше, и да, я настолько самоуверен, чтоб делиться своим мнением с коллегами на форуме 🚬 Мы тут делом заняты, т.е. добычей трафа и срубанием с этого бабла :2cents: :2cents::2cents: . Академические исследования, конечно, тоже интересны, но только если они принесут в конце-концов ощутимую прикладную пользу.

Программа и там приносит мне ощутимую пользу, позволяет гораздо быстрее, мне и контент-менеджеру, обновлять сайт при отсутствии информации для обновления. А так же генерировать статьи для постинга в каталогах статей .

SEOdream:
Синонимайзер русского языка- это совсем не то, что синонимайзер английского. Чтоб русский текст отсинонимировать даже вручную, творческий подход нужен. Я видел много разработок на эту тему, и все они пошли в топку именно из-за того, что уперлись в особенности русского языка.

Я тоже видел немерено разработок, но все они заканчивались либо просто на тупой замене слов, максимум что использовалось морфологический разбор.

Правда видел я одну разработку, которая строила текста на основе шаблонов

[профессионал в области] - шаблон характера сабжа

[(полиграфии) и (производства печатной продукции)] - принадлежность характера

[давно] - положительное наречие

[зарекомендовавший себя как] - причастный оборот

[надежный партнер] - положительный характер

которые строились после анализа 1 какой нить статьи, и использую словарь (идея составления словаря - мною была взята от сюда) и морфологию строился текст. Но, почему то, проект был заброшен, хотя мысль довольно интересная и возможно, по скорости работы гораздо быстрее моей. Но имеющая ряд ограничений по синтаксису. Хотя 100% яндекс и все остальные ПС будут хавать этот текст.

Сложность заключается в определении изменения части речи, в зависимости от того или иного слова или фразы при синтаксическом изменении.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий