Гениальный синонимайзер

Dzhem
На сайте с 24.04.2008
Offline
77
11299

Возвращался только что с магазина, по-пути возникла абалденная идея.

Пока сидел за компом и выпил пару кружек пива - полностью сформулировался в голове весь алгоритм скрипта.

Рассказываю суть идеи:

В просторах Великого и Могучего Интернета встречал нимало синонимайзеров, да даже сам писал, который синонимирует, но так - что текст читать не хочется. Встречал синонимайзеры, которые почти грамотно синонимируют, но уточняю, почти...

И вот пришла в голову идея, написать такую штучку. вводишь текст, ключевики, сколько должно быть ключевиков, в % или в штуках, выбираешь на сколько % уникализировать текст и жмешь ок.

И бац - тебе результат.

Есть идея, как сделать все это таким образом, чтоб выданный пользователю текст был идеален, про сам алгоритм естественно рассказывать не буду, это коммерческая тайна, но в общем суть изложил. Синонимайзер, который синонимизирует нужное вам количество слов, работает с ключевиками и выдает абсолютно адекватный и грамотный результат.

Проект естественно будет полу-платным, то есть без вложения в него денег будет ограничение в количестве слов для синонимации. Естественно те кто будут учавствовать в развитии проекта будут получать на привилегии.

Отпишитесь пожалуйста, кто что об этом думает. Может такое уже есть в сети?!

Если идея гениальная - начинаю реализовывать. Тем, кто пожелает помочь в составлении синонимов - будет дан аккаунт с неограниченными возможностями.

Update: И так, зарегистрирован домен: http://allsynonyms.ru

АвтоДиректолог (https://autodirectolog.ru) - Правильное создание и ведение кампаний в Yandex Direct
Linyli
На сайте с 24.06.2008
Offline
47
#1

Насчет гениальности идеи сказать слжно - вы толком ничего не сказали, но пока вот какие вопросы:

1. Грамотность будет обеспечиваться исключительным качеством базы, или программа будет работать с синтаксисом и морфологией?

2. На что будет ориентироваться программа, выбирая места, куда вставить ключевики?

Dzhem
На сайте с 24.04.2008
Offline
77
#2
Linyli:
Насчет гениальности идеи сказать слжно - вы толком ничего не сказали, но пока вот какие вопросы:
1. Грамотность будет обеспечиваться исключительным качеством базы, или программа будет работать с синтаксисом и морфологией?
2. На что будет ориентироваться программа, выбирая места, куда вставить ключевики?

1. грамотность будет обеспечиваться и качеством базы, и морфологией. По поводу морфологии у меня уже имеется очень хороший скрипт, который выдает слово во всех падежах и со всеми склонениями. Его естественно буду использовать. По-поводу качества базы - при заполнении базы все синонимы будут проверяться в автоматическом режиме, на всевозможные ошибки, которые сможет проверить робот. Но так же все синонимы перед полным их утверждением пройдут проверку человеком, естественно.

2. Саму тайну рассказывать не буду что да как, но общая идея такова: вы ввели ключевик. Скрипт узнает в каких фразах, после каких слов очень часто встречается ваш ключевик. Находит в тексте подобное. меняет падеж ключевика, вставляет там где надо.

Grohman
На сайте с 23.05.2009
Offline
14
#3
Dzhem:
выбираешь на сколько % уникализировать текст и жмешь ок.
И бац - тебе результат.

Мм, Брейн, отличный план! А потом ты захватишь мир :)

Bazzinga! (http://bazzinga.org) - новый бесплатный сервис уникализации текстов. Подробности тут ().
Dzhem
На сайте с 24.04.2008
Offline
77
#4
Ua-hosting.org:
Абсолютно ничего не понятно, из ключевиков + синонимов строиться предложение.
Эт получается искусственный интеллект!!!
Получается задал ключевики, а тебе прога текст написала, это фантастика.
А вы случайно с пивом больше ничего не мешали?🍿
Без обид но это фантастика☝

Это не фантастика. И программа не генерирует текст. Программа синонимирует текст очень грамотно и грамотно расставляет ключевики.

Приведу простой пример:

Вы ввели текст, кусок текста таков:

Торги на российском рынке акций завершились сегодня незначительным ростом ведущих фондовых индексов. По итогам торговой сессии ММВБ подрос на 0,16% - до 1329,35 пункта. РТС поднялся до отметки 1391,94 пункта, что на 0,35% выше уровня закрытия предыдущего торгового дня. RTS Standard завершил день на отметке 9192,16 пункта (+0,13%). Объем торгов на ФБ ММВБ составил 59,21 млрд руб., в RTS Standard - 12,29 млрд руб.

Вы ввели ключевик - индекс

А теперь проводим эксперимент. Заходим в яндекс, вводим в поиске ваш ключевик "индекс" и смотрим результат нескольких страниц. Выбираем словосочетания из 2 слов. либо индекс 1 слово, либо 2. на первой странице видим только "почтовый индекс" на второй появились "Индекса РТС", "Индекс ММВБ" и т. д. программа смотрит... ключ на 1 месте. убирает ключ. ищет слово РТС и ММВБ в тексте. они найдены. перед ними ставит наш ключ. Но перед этим аналичирует слова которые ранее, чтоб выбрать нужный радеж.

Да, кстати. Искусственный интеллект давно уже придуман. Пожалуйста, тот же гугл... У него очень даже не плохой ИИ:)

Dzhem добавил 11.02.2010 в 20:35

Давайте не будем заводить дискуссию про то что получится или нет, я знаю что точно то что я выше описал - получится. Хочется узнать - нужен такой ресурс? Будет пользоваться популярностью среди оптимизаторов, копирайтеров или нет?

Ну и естественно буду рад если у кого появятся идеи как еще дополнительных фичей добавить

B
На сайте с 23.10.2006
Offline
170
#5

Чета ваша гениальная идея уж очень похожа на идею "под каждую тему материала своя база синонимов" только тематику вы предлагаете заменить ключевиками, которые ещё и самим нужно придумывать, да ещё и к яндексу с запросами ломиться, это все класно выглядит на коротких текстах, а вот на длинных, х..ня получится.

PS.

Чтобы небыло дискуссий дайте результаты инструмента посматреть, если они будут на высоте, то интерес будет.

Dzhem
На сайте с 24.04.2008
Offline
77
#6
bimcom:
Чета ваша гениальная идея уж очень похожа на идею "под каждую тему материала своя база синонимов" только тематику вы предлагаете заменить ключевиками, которые ещё и самим нужно придумывать, да ещё и к яндексу с запросами ломиться, это все класно выглядит на коротких текстах, а вот на длинных, х..ня получится.
PS.
Чтобы небыло дискуссий дайте результаты инструмента посматреть, если они будут на высоте, то интерес будет.

К яндексу ненадо обращаться. на это есть парсеры. единственное - да, надо будет собрать качественную, я б даже сказал очень качественную базу синонимов. Далее парсер проходит по этой базе, просто сам по себе, время от времени, парсит яшу, гугл, ищет словосочетания. С НЧ ключами все нормально, не волнуйтесь, тоже все обдумал.

Да, Вы правы, надо показать на деле, через день - два будут результаты.

B
На сайте с 23.10.2006
Offline
170
#7
Dzhem:
Далее парсер проходит по этой базе, просто сам по себе, время от времени, парсит яшу, гугл, ищет словосочетания. С НЧ ключами все нормально, не волнуйтесь, тоже все обдумал.

Вы с начала прикиньте:

количество слов в русском языке

250 000 - 300 000

пусть ваш парсер будет обрабатывать всего 50 000 слов, тоесть 50кХ50к парных словосочетаний (запариваться с тем что не все слова образуют пары не будем - т.к. и так базу сузили)

теперь учитываем что у каждого слова может быть 6 падежей и 3 времени, падежи срезаем в 2 раза до 3х, время трогать нельзя, итого имеем для пар

50000x3х3х50000х3х3=202 500 000 000 запросов придется сделать только к одной поисковой системе, можно конешно это все делать на библиотеке Мошкова или аналогах, но базка получится литературная, а не интернетная.

Дело в том что сам делал такой велосипед, он получился, но парсер работал в реальном времени, не накапливая базу, в итоге на синонимайз 2000 символов уходдило порядка 2-5 тысяч запросов к яндексу (много ступеней проверки человечности написанного было), но все равно всплывали иногда косяки с морфологией в местах стыка (пока разработку отложил)

Linyli
На сайте с 24.06.2008
Offline
47
#8
порядка 2-5 тысяч запросов к яндексу

А яндекс не банит за такие дела? Насколько я знаю, к яндекс.xml можно за сутки не больше 1000 запросов посылать, если не на договорной основе.

Dzhem
На сайте с 24.04.2008
Offline
77
#9
bimcom:
Вы с начала прикиньте:
количество слов в русском языке
250 000 - 300 000
пусть ваш парсер будет обрабатывать всего 50 000 слов, тоесть 50кХ50к парных словосочетаний (запариваться с тем что не все слова образуют пары не будем - т.к. и так базу сузили)
теперь учитываем что у каждого слова может быть 6 падежей и 3 времени, падежи срезаем в 2 раза до 3х, время трогать нельзя, итого имеем для пар
50000x3х3х50000х3х3=202 500 000 000 запросов придется сделать только к одной поисковой системе, можно конешно это все делать на библиотеке Мошкова или аналогах, но базка получится литературная, а не интернетная.
Дело в том что сам делал такой велосипед, он получился, но парсер работал в реальном времени, не накапливая базу, в итоге на синонимайз 2000 символов уходдило порядка 2-5 тысяч запросов к яндексу (много ступеней проверки человечности написанного было), но все равно всплывали иногда косяки с морфологией в местах стыка (пока разработку отложил)

зачем выявлять падежи и времена и потом обращаться к другим системам если можно обратиться а потом все это выявить? - это раз

далее программа словосочетания сам не будет составлять. зачем. это глупо. 5к на 50к умножать ненадо. эти результаты нам выдадут те же гугл и яша - это два.

и у нас не получится 202 500 000 000 запросов, а всего лишь 250 000 - 300 000. Ну будем считать что мы будем парсить 20 страниц, множим это все на 20. Неочень то и много. 2 дня, не больше. и все у нас пропарсено и готово в базе.

Я уже начал разработку. пишу пока по минимуму. Для начала результат парсинга будет не гуд конечно... так как база синонимов будет кривой. Но со временем эту базу обработаем. Но принцип работы самой программы можно будет увидеть, заодно и в помощь проекту можно будет добавлять синонимы :)

B
На сайте с 23.10.2006
Offline
170
#10
Linyli:
А яндекс не банит за такие дела? Насколько я знаю, к яндекс.xml можно за сутки не больше 1000 запросов посылать, если не на договорной основе.

VPS с сотней - другой IP адресов решает эту проблему элементарно.

Dzhem:
зачем выявлять падежи и времена и потом обращаться к другим системам если можно обратиться а потом все это выявить? - это раз
далее программа словосочетания сам не будет составлять. зачем. это глупо. 5к на 50к умножать ненадо. эти результаты нам выдадут те же гугл и яша - это два.

Я поделился опытом по наступанию на грабли, но как вы на них будите наступать никому не известно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий