зачем выявлять падежи и времена и потом обращаться к другим системам если можно обратиться а потом все это выявить? - это раз
далее программа словосочетания сам не будет составлять. зачем. это глупо. 5к на 50к умножать ненадо. эти результаты нам выдадут те же гугл и яша - это два.
и у нас не получится 202 500 000 000 запросов, а всего лишь 250 000 - 300 000. Ну будем считать что мы будем парсить 20 страниц, множим это все на 20. Неочень то и много. 2 дня, не больше. и все у нас пропарсено и готово в базе.
Я уже начал разработку. пишу пока по минимуму. Для начала результат парсинга будет не гуд конечно... так как база синонимов будет кривой. Но со временем эту базу обработаем. Но принцип работы самой программы можно будет увидеть, заодно и в помощь проекту можно будет добавлять синонимы :)
К яндексу ненадо обращаться. на это есть парсеры. единственное - да, надо будет собрать качественную, я б даже сказал очень качественную базу синонимов. Далее парсер проходит по этой базе, просто сам по себе, время от времени, парсит яшу, гугл, ищет словосочетания. С НЧ ключами все нормально, не волнуйтесь, тоже все обдумал.
Да, Вы правы, надо показать на деле, через день - два будут результаты.
Это не фантастика. И программа не генерирует текст. Программа синонимирует текст очень грамотно и грамотно расставляет ключевики.
Приведу простой пример:
Вы ввели текст, кусок текста таков:
Торги на российском рынке акций завершились сегодня незначительным ростом ведущих фондовых индексов. По итогам торговой сессии ММВБ подрос на 0,16% - до 1329,35 пункта. РТС поднялся до отметки 1391,94 пункта, что на 0,35% выше уровня закрытия предыдущего торгового дня. RTS Standard завершил день на отметке 9192,16 пункта (+0,13%). Объем торгов на ФБ ММВБ составил 59,21 млрд руб., в RTS Standard - 12,29 млрд руб.
Вы ввели ключевик - индекс
А теперь проводим эксперимент. Заходим в яндекс, вводим в поиске ваш ключевик "индекс" и смотрим результат нескольких страниц. Выбираем словосочетания из 2 слов. либо индекс 1 слово, либо 2. на первой странице видим только "почтовый индекс" на второй появились "Индекса РТС", "Индекс ММВБ" и т. д. программа смотрит... ключ на 1 месте. убирает ключ. ищет слово РТС и ММВБ в тексте. они найдены. перед ними ставит наш ключ. Но перед этим аналичирует слова которые ранее, чтоб выбрать нужный радеж.
Да, кстати. Искусственный интеллект давно уже придуман. Пожалуйста, тот же гугл... У него очень даже не плохой ИИ:)
Dzhem добавил 11.02.2010 в 20:35
Давайте не будем заводить дискуссию про то что получится или нет, я знаю что точно то что я выше описал - получится. Хочется узнать - нужен такой ресурс? Будет пользоваться популярностью среди оптимизаторов, копирайтеров или нет?
Ну и естественно буду рад если у кого появятся идеи как еще дополнительных фичей добавить
1. грамотность будет обеспечиваться и качеством базы, и морфологией. По поводу морфологии у меня уже имеется очень хороший скрипт, который выдает слово во всех падежах и со всеми склонениями. Его естественно буду использовать. По-поводу качества базы - при заполнении базы все синонимы будут проверяться в автоматическом режиме, на всевозможные ошибки, которые сможет проверить робот. Но так же все синонимы перед полным их утверждением пройдут проверку человеком, естественно.
2. Саму тайну рассказывать не буду что да как, но общая идея такова: вы ввели ключевик. Скрипт узнает в каких фразах, после каких слов очень часто встречается ваш ключевик. Находит в тексте подобное. меняет падеж ключевика, вставляет там где надо.
спасибо всем, получил ответы на свои вопросы)))
Дело не в том, понятный для людей текст или нет. А ручной синонимайзер я сам могу написать, но я сам не смогу тысячи новостей в день им синонимировать.
Вопрос в отношении поисковиков к подобному тексту, не совсем понятному пользователям.
хммм.... это как получается? А если я создам div 200px на 100px, поставлю ему скролл и помещу там к примеру 10 000 слов.... они не видны по сути.... но с другой сторону скролл прокрутив увидешь. Они что не будут индексироваться?
основной ключевик у меня - скрипт.
в разных склонениях этого слова тошнота = 6.3 но при этом слов там более 700 сильно большая тошнота?
получается убрать часть ключевиков и тег <strong>?
Dzhem добавил 10.02.2010 в 19:37
Спасибо большое, наконец-то получен ответ на все вопросы))) Сейчас же займусь этим :)
Режет.... Банер саповский больно яркий :)
что убрать? стронги или контент?:)
Dzhem добавил 10.02.2010 в 18:57
там ключи: скрипт, скрипты, купить скрипт, купить сайт, скачать скрипт, заказать скрипт, php скрипт.
В каком количестве мне их применять? и выделять <strong>ом или не выделять? или может частично выделать? Подскажите если не сложно, как более правильней составить контент?