Dzhem

Dzhem
Рейтинг
77
Регистрация
24.04.2008
Linyli:
Dzhem, так а с омонимами как? Омонимы - это такие слова, которые пишутся одинаково, а значение имеют разное. Соответственно, и синонимы у них разные.

Для начала их придется исключать из базы. После сбора достаточного количества текста слова будут не просто добавляться. Перед добавлением любое слово будет проходить проверку, для определения его истинного смысла. Для этого какраз-таки нужно очень большая текстов всяких которые буду парсить с поисковиков. Еще точный алгоритм не придумал, но чтото роде следующего: есть фраза: "Очень хочу есть, сейчас бы чего-нибудь вкусненького". Есть база с миллионами различного рода предложений. Программа ищет совпадение с нашим выражением в этой базе, не полное совпадение конечно, а совпадение по нескольким словам, примерно как отображается выдача яндекса, совпадения полного нет но слова встречаются. Так вот. Выбираются самые релевантные позиции в базе. к примеру "хочу съесть чего-нибудь вкусненького". есть - имеется, есть - съесть. Вытаскиваем из этой базы словоформы слова есть, (есть, съесть, ем) и т. д. по этим словоформам определяется истинное значение слова. По нем ищутся синонимы. Если истинное значение найти не удалось - не меняется.

Все что описано в этом топике мной - все реально реализуемо. И я добьюсь этой поставленной цели, чего бы она мне не стоила. Согласен, все трудности еще впереди. Но без них скучно :)

Dzhem добавил 13.02.2010 в 15:57

Удивительно:
Косой {кто} косой {чем} косо {как} косил {что делал} сено на косе {на чем}.
Вы думаете, это кто-то корректно обработает? :D

Искусственный Интеллект. Обработает, еще как обработает. когда вы в яндексе вводите выражение косой заяц вы же не получаете результат косил косой, хотя во втором больше совпадений:)

А говорите не обработает :)

Linyli:
Есть ли какие-то наработки в плане работы с омонимами? Насколько я могу судить, в разработке синонимайзеров это один из главных камней преткновения.

С базой еще не работал. Сделал систему добавления вводных слов в начале предложения, внутри предложения и в конце предложения, добавил по несколько выражений для теста, они обводятся светло-голубым цветом. Сейчас делаю систему авторизации. Неавторизованным пользователям будет ограничение в кол-ве текста, авторизовавшись ограничений не будет. Так же авторизованные пользователи могут добавлять, удалять слова с базы, но, естественно, я буду модерировать их действия. Таким образом у каждого пользователя будет возможность работы с базой. Будут так же модераторские учетные записи, модераторы смогут модерировать изменения, которые внесли другие пользователи. То что добавят сами модераторы - модерироваться не будет. На создание того что описал выше - думаю дня 2-3 уйдет. Далее пробегусь во всем форумам СЕОшников и буду рекламировать.

В успешности проекта уверен на 200%, через месяц уже равных ему проектов не будет, в этом абсолютно уверен. Модераторы, и все те, кто будет учавствовать в развитии проекта - будут получать в системе баллы. За каждое действие будет начислено то или иное количество баллов, ну или вычтено, - все будет зависить от модераторов. Далее баллы можно будет перевести в деньги и вывести, или же потратить их в проекте.

bimcom:
Я к тому что гениального ещё ничего нет, когда будет ? - не терпится посмотреть.

Как вы видите, работы ведутся. Потерпите, все будет :)

Кстати спасибо за поправку что проверяется по 1 только слову. Поправил.

bimcom:
Вставки пока не тестировал - т.к. для меня текст превращается в бред, Но вот алгоритм работы с заменами у них получше реализован.
Например:



Наверное это связано с тем что у смарта встроена обработка биграмм, и если память не изменяет то и триграмм текста, а у вас, похоже, по 1му слову.
PS.
Такое ощущение что у вас весь продукт - это заслуга базы смарта - т.к. сколько текста не попробовал 99% - получается одинаковое, даже в 1% хуже чем у смарта)

Я ж писал, база ихняя. Или вы хотели чтоб я за 2 дня составил сам базу приличную и очень хорошую?

Да, пока по 1 слову

Базу будем улучшать, надо время... в первую очередь - программный код

FANTiK123:
вот с этого сайта когда берешь текст результат выходит каракули, исправьте плиз

FANTiK123 добавил 13.02.2010 в 10:36
очень знакомая база....используется у вас :) от smartrewriter похоже она и вставка (синим которая выделяется) слов реализована именно из его продукта

Да, базу купил у разработчиков smartrewriter. Так же вставки тоже у них взял, но немного доработал, вставки качественней чем в smartrewriter. База будет пополняться и новыми словами и всеми их словоформами, то момента, пока в базе будут все слова, которые можно заменить на чтото.

Каракули сейчас гляну, решу вопрос, спасибо

Ну чтож, выкладываю))))

1. Оптимизировал код по полной программе, работает раз в 5 быстрее чем раньше.

2. Поставил каптчу, а то смотрю любители появились F5 жать и запросами долбить базу :)

3. Приделал морфологию. В данный момент работает только с ключевиками. добавляет все склонения, падежи и т. д. Вскоре будет применен для увеличения базы синонимов.

4. Появилась новая фишка: добавление дополнительных фраз в текст.

5. Поправил все проблемы с ключевиками, терь можно ключевики вводить, но пока ключи, состоящие из 1 слова, вводим через запятую

6. Увеличил ширину блоков, а то неудобно было :)

Вроде как все описал))) Продолжение ждите завтра.

Кто не знает адрес - вот: http://allsynonyms.ru/

bimcom:
Черт сейчас потыкал в кнопку ВПЕРЕД, так оно ещё и разные замены делает - если потыкать почаще можно на такой шлак наткнуться )

Подождите пару минут, сейчас база переконвертируется, потыкаем :)

Dzhem добавил 12.02.2010 в 17:02

bimcom:
Не правильно :) лучше купить 100 маленьких, но узкотематических.

Вопрос в том - где их купить... Я готов тратиться на этот проект)))

Dzhem добавил 12.02.2010 в 17:05

Переключил синонимайзер на новую базу))) Намного лучше)))

Надо залить еще несколько баз и сделаю систему исключения слов с базы, а то некоторые слова жесть просто, к примеру база - основа есть портал - кушить портал.

Dzhem добавил 12.02.2010 в 17:32

На пару часиков отрублю синонимайзер. доработаю выдачу и залью еще базы :)

Dzhem добавил 12.02.2010 в 19:42

Улучшил алгоритм работы скрипта, теперь намного быстрее работает, поправил несколько багов, завтра - послезавтра усовершенствую алгоритм синонимации, чтоб синонимировалось почти все.

Пока отключил ключевики, толку от них все равно нет пока что, только на вопросы наталкивает.

На сегодня вот результат, можете синонимировать))) База нормальная, правда требует тоже очистки и добавления новых слов.

Завтра сообщу про новые результаты :)

Готов купить еще базы синонимов, только очень качественные. кто знает где - сообщите плиз. Желательно конечно купить одну громадную хорошую базу

Linyli:
Кстати, к разговору о том, что составление базы обойдется в миллион. Это совершенно не так. Купить хорошую базу синонимов (которую всегда можно допилить под свои требования), или даже заказать ее составление профессионалу - совсем не такое дорогое удовольствие.

А это идея, купить базу, спасибо))) Сейчас пороюсь в интернет))

Dzhem добавил 12.02.2010 в 16:47

Купил базу. Правда небольшая, но вроде как хорошая, качественная. Сейчас залью, отпишусь

Linyli:
Так а в чем тогда результат на данный момент?
Подсветка ключевиков - это хорошо, конечно, но практического смысла в этом нет.

Терпение.... :)

Всего: 100