Dzhem

Dzhem
Рейтинг
77
Регистрация
24.04.2008
bimcom:
Вы с начала прикиньте:
количество слов в русском языке
250 000 - 300 000
пусть ваш парсер будет обрабатывать всего 50 000 слов, тоесть 50кХ50к парных словосочетаний (запариваться с тем что не все слова образуют пары не будем - т.к. и так базу сузили)
теперь учитываем что у каждого слова может быть 6 падежей и 3 времени, падежи срезаем в 2 раза до 3х, время трогать нельзя, итого имеем для пар
50000x3х3х50000х3х3=202 500 000 000 запросов придется сделать только к одной поисковой системе, можно конешно это все делать на библиотеке Мошкова или аналогах, но базка получится литературная, а не интернетная.
Дело в том что сам делал такой велосипед, он получился, но парсер работал в реальном времени, не накапливая базу, в итоге на синонимайз 2000 символов уходдило порядка 2-5 тысяч запросов к яндексу (много ступеней проверки человечности написанного было), но все равно всплывали иногда косяки с морфологией в местах стыка (пока разработку отложил)

зачем выявлять падежи и времена и потом обращаться к другим системам если можно обратиться а потом все это выявить? - это раз

далее программа словосочетания сам не будет составлять. зачем. это глупо. 5к на 50к умножать ненадо. эти результаты нам выдадут те же гугл и яша - это два.

и у нас не получится 202 500 000 000 запросов, а всего лишь 250 000 - 300 000. Ну будем считать что мы будем парсить 20 страниц, множим это все на 20. Неочень то и много. 2 дня, не больше. и все у нас пропарсено и готово в базе.

Я уже начал разработку. пишу пока по минимуму. Для начала результат парсинга будет не гуд конечно... так как база синонимов будет кривой. Но со временем эту базу обработаем. Но принцип работы самой программы можно будет увидеть, заодно и в помощь проекту можно будет добавлять синонимы :)

bimcom:
Чета ваша гениальная идея уж очень похожа на идею "под каждую тему материала своя база синонимов" только тематику вы предлагаете заменить ключевиками, которые ещё и самим нужно придумывать, да ещё и к яндексу с запросами ломиться, это все класно выглядит на коротких текстах, а вот на длинных, х..ня получится.
PS.
Чтобы небыло дискуссий дайте результаты инструмента посматреть, если они будут на высоте, то интерес будет.

К яндексу ненадо обращаться. на это есть парсеры. единственное - да, надо будет собрать качественную, я б даже сказал очень качественную базу синонимов. Далее парсер проходит по этой базе, просто сам по себе, время от времени, парсит яшу, гугл, ищет словосочетания. С НЧ ключами все нормально, не волнуйтесь, тоже все обдумал.

Да, Вы правы, надо показать на деле, через день - два будут результаты.

Ua-hosting.org:
Абсолютно ничего не понятно, из ключевиков + синонимов строиться предложение.
Эт получается искусственный интеллект!!!
Получается задал ключевики, а тебе прога текст написала, это фантастика.
А вы случайно с пивом больше ничего не мешали?🍿
Без обид но это фантастика☝

Это не фантастика. И программа не генерирует текст. Программа синонимирует текст очень грамотно и грамотно расставляет ключевики.

Приведу простой пример:

Вы ввели текст, кусок текста таков:

Торги на российском рынке акций завершились сегодня незначительным ростом ведущих фондовых индексов. По итогам торговой сессии ММВБ подрос на 0,16% - до 1329,35 пункта. РТС поднялся до отметки 1391,94 пункта, что на 0,35% выше уровня закрытия предыдущего торгового дня. RTS Standard завершил день на отметке 9192,16 пункта (+0,13%). Объем торгов на ФБ ММВБ составил 59,21 млрд руб., в RTS Standard - 12,29 млрд руб.

Вы ввели ключевик - индекс

А теперь проводим эксперимент. Заходим в яндекс, вводим в поиске ваш ключевик "индекс" и смотрим результат нескольких страниц. Выбираем словосочетания из 2 слов. либо индекс 1 слово, либо 2. на первой странице видим только "почтовый индекс" на второй появились "Индекса РТС", "Индекс ММВБ" и т. д. программа смотрит... ключ на 1 месте. убирает ключ. ищет слово РТС и ММВБ в тексте. они найдены. перед ними ставит наш ключ. Но перед этим аналичирует слова которые ранее, чтоб выбрать нужный радеж.

Да, кстати. Искусственный интеллект давно уже придуман. Пожалуйста, тот же гугл... У него очень даже не плохой ИИ:)

Dzhem добавил 11.02.2010 в 20:35

Давайте не будем заводить дискуссию про то что получится или нет, я знаю что точно то что я выше описал - получится. Хочется узнать - нужен такой ресурс? Будет пользоваться популярностью среди оптимизаторов, копирайтеров или нет?

Ну и естественно буду рад если у кого появятся идеи как еще дополнительных фичей добавить

Linyli:
Насчет гениальности идеи сказать слжно - вы толком ничего не сказали, но пока вот какие вопросы:
1. Грамотность будет обеспечиваться исключительным качеством базы, или программа будет работать с синтаксисом и морфологией?
2. На что будет ориентироваться программа, выбирая места, куда вставить ключевики?

1. грамотность будет обеспечиваться и качеством базы, и морфологией. По поводу морфологии у меня уже имеется очень хороший скрипт, который выдает слово во всех падежах и со всеми склонениями. Его естественно буду использовать. По-поводу качества базы - при заполнении базы все синонимы будут проверяться в автоматическом режиме, на всевозможные ошибки, которые сможет проверить робот. Но так же все синонимы перед полным их утверждением пройдут проверку человеком, естественно.

2. Саму тайну рассказывать не буду что да как, но общая идея такова: вы ввели ключевик. Скрипт узнает в каких фразах, после каких слов очень часто встречается ваш ключевик. Находит в тексте подобное. меняет падеж ключевика, вставляет там где надо.

спасибо всем, получил ответы на свои вопросы)))

alienz:
Такие синонимайзеры для новостных порталов нельзя использовать из-за выходного текста. Такой бред пользователем просто не воспринимается. Я для себя выбрал ручной синонимайзер. Если надо - пиши в личку. С ним получайется действительно нормальный текст.
Присоединяюсь к вопросу про поисковики. :)

Дело не в том, понятный для людей текст или нет. А ручной синонимайзер я сам могу написать, но я сам не смогу тысячи новостей в день им синонимировать.

Вопрос в отношении поисковиков к подобному тексту, не совсем понятному пользователям.

Радист:
Невидимого текста хотите наиндексировать? Непрокатит.

хммм.... это как получается? А если я создам div 200px на 100px, поставлю ему скролл и помещу там к примеру 10 000 слов.... они не видны по сути.... но с другой сторону скролл прокрутив увидешь. Они что не будут индексироваться?

ciber:
Тошнит сильно текст и новости не уник. хотябы легкий рерайт не повредит.

основной ключевик у меня - скрипт.

в разных склонениях этого слова тошнота = 6.3 но при этом слов там более 700 сильно большая тошнота?

получается убрать часть ключевиков и тег <strong>?

Dzhem добавил 10.02.2010 в 19:37

atchpek:
Не нужна так сильно текст накачивать ключевиками... Ну 4 раза, ну 5 раз упомянули и хватит... А Вы в каждом предложении ещё и в strong... В strong всего 1 раз где-нибудь в футере заюзайте общую инфу о сайте с ключами и всё...

Спасибо большое, наконец-то получен ответ на все вопросы))) Сейчас же займусь этим :)

Knigorub:
А вы когда текст читаете, он вам нормальным кажется? Ничего глаз не режет?

Режет.... Банер саповский больно яркий :)

что убрать? стронги или контент?:)

Dzhem добавил 10.02.2010 в 18:57

там ключи: скрипт, скрипты, купить скрипт, купить сайт, скачать скрипт, заказать скрипт, php скрипт.

В каком количестве мне их применять? и выделять <strong>ом или не выделять? или может частично выделать? Подскажите если не сложно, как более правильней составить контент?

Всего: 100