Да так то оно так, такого софта как грязи. У меня идёт морфологический, семантический анализ и построение коркодансов для текстов, которые будут обрабатываться для дальнейшего постинга.
Сейчас доделываю возможность смыслового поиска на основе построения смысловых связей и структурирование текста на темы и подтемы, для дальнейшего, более качественного построения предложений.
Может быть я и поставлю её на продажу (дорого), но в виде модуля к одному программному продукту. Всё зависит от кол-ва заинтересованных.
+ Я не хочу, что бы засрали интернет спамом. Яндекс и так не справляется.
Уважаемый - видимо Вы ещё не проснулись и прочитали невнимательно сообщения в топике. Посты в теме немного отдалились, от вопроса, который был задан в теме. Я не генерирую сателиты с использованием данного софта, для меня это хобби или увлечение. Иногда я использую данный софт для обновления ряда качественных сайтов, когда нет ничего нового или этим некогда заниматься. А генерить сайты для сапы - не вижу смысла. Я и без них достаточно зарабатываю.
1. Вы, не оценив качество работы данного алгаритма сделали выводы.
2. Вы невнимательно прочитали то, что я там написал. Софт, помимо использования словоря синонимов, который собирается для тематики отдельно, делает ещё и синтаксический анализ текста, и происходит построение конкордансов для текстов, с которыми будет идти дальнейшая работа и на основе которого, идёт работа с варованым текстом.
Урл - на построенные текста я скину в личку.
И опять ваша невнимательность - я не продаю этот софт.
cromizer добавил 27.08.2008 в 09:47
Она у меня сделана. :)
Я видел эту тему. Я часто читаю форум. Правда вот только сегодня появилось желание зарегиться и то только потому что бы поругаться на флудеров в теме АП.
Касаемо программы - то самое основное это создание качественных словарей. Так как всё остальное это технические моменты, которые нормальный программер решит очень быстро. А вот сама идея сбора словарей - один из сложным моментов при создании синонимизатора. Главное придумать как их получать.
Да. Меня на это дело сподвигло одно очень денежное обстоятельство. Когда я скачав в инете какой то скрипт дорвея и насколько мне хватило знаний php его переделать и превести в вид болеее мение нормального сайта, сгенерив 6000 страниц - и он жил в течении 2-х недель и в день на контексте приносил по 40 уе - я начал более подробно изучать этот вопрос.
Я пока не добился того, что я действительно хочу - что бы робот сам сочинял текста - но я с каждым разом всё ближе и ближе к решению этого вопроса. Теперь для меня это стало хобби. Так как я ушёл от дорвеев и тд и занимаюсь теперь только SEO и созданием качественных сайтов. =)
Что за бред. Какой песок.... сахарный или строительный?
Если Вы дор делаете качественно, то всё будет в порядке.
Можно пару ссылок на доры в личку на сайты, которые в песке.
Тогда палю тему:
1. Парсим кучу тематического контента, выдёргиваем из страницы только текст статьи и определяем тошноту этой статьи, из него создаёт словарик для определённой тематики.
2. Получившийся список слов и словосочетаний прогоняем через словарь синонимов (словарь синонимов я собрал из 5 или 7 разных словарей, которые нашёл в сети), а так же через толковый словарь (с кратким толкованием). Далее тратим 1 - максимум 2 часа, на то, что бы вычистить базу от мусора типа старословянских слов и тд. - Сразу поясню - чистить базу синонимов изначально нет смысла, так как это очень долго (18 Мб в TXT) и можно по запаре вычистить нужные слова. Для чего краткий толковый словарь? А для того, что бы разбавить и уникализировать часть слов для которых нет синонимов или те, которые довольно редко встречаются и используются в тексте. Так как по этим словам можно довольно быстро найти дубль.
Например: Новость про Аршавина и Барселону - если мы посмотрим тошноту новости, то увидим, что основные слова, по которым можно нати дубль - Аршавин, Барселона, Зенит и тд. Если мы растолкуем эти слова (Аршавин - игрок Санкт-Петербургской футбольной команды и тд), то мы уходим из зоны риска попасть под фильтр определения нечётких дублей.
Про алгоритмы определения нечётких дублей читать http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf
3. Далее. Мы можем работать с предложениями разбивая большие на маленькие и наоборот. А так же можем использовать уже готовые решения http://www.rvb.ru/soft/catalogue/catalogue.html
4. Так же при применении составленного словаря к только что украденному тексту используем http://company.yandex.ru/technology/mystem/ или phpmorphy (работает чётко) - определяем число, род и падеж и тд у слова или словосочетания в тексте, переводим в именит. падеж, ед. число... и находим красивый чистый синоним, далее переводим его в нужную форму и вставляем в текст.
5. В результате мы получаем текст на 40-80% отличный от оригинала + уникальный.
Со временем базы накапливаются и становятся более качественными и когда баз получается штук 10, мы их сравниваем и находим дубли - вот эти дубли начинают составлять обще тематический словарик, который можно использовать для генерации статей для постинга на левые сайты.
Может чего и упустил - 8 утра как никак - сон требуется. 🚬
Я думаю после такого разжёвывания - через 1-3 недели на форуме начнутся продажи скрипта этого синонимизатора.
Есть такой скрипт называется Блогорама.
Если надо могу бесплатно дать, + есть скрипт автоматического парсинга rss и html страниц на предмет контента и постинг все этого под любые движки.
Если есь желающие пишите, выложу.
ссылки с блогов живут долго, если блог нормальный. Если автор спамер, то не думаю, что на долго хватит.
это вполне логично, так как поиск идёт по разным поисковым машинам. И Если вы ещё не вкурсе webmaster.ya.ru - тут всё написано, касаемо операторов линк и анкор. :)