Смысл в том что если памяти мало то на большом объеме ключей скрипт завалится набок.
Ну а вообще попробуй, если интересно
Ты нолик не заметил?
Насчет р-прожекта на гофаке и на форуме зенки выкладывали скрипт который умеет кластеризировать ключи, то есть собирать в пачки по смыслу также как это делает ПС.
А Пшенников это упомянул в своем докладе. Все однотипные ключи группируем в 1 строку в файле ключей и используем в режиме MULTIKEY.
Но не классически(ключ;атрибут1;атрибут2), а так:
ключ1;аналог ключа 1;аналог ключа 1
ключ2;аналог ключа2;аналог ключа 2
Ну и дорген должен уметь эти ключи размазывать по странице. pb умеет.
Теперь о том как кластеризировать.
Берем зенку или апарсер. На худой конец берем это(гугл режим работает).
Запуливаем свои запросы на парсинг и на выходе нужно получить:
ключ1*урл1ключ1*урл2ключ2*урл3ключ2*урл1ключ3*урл3ключ3*урл5ключ4*урл1ключ4*урл6..
Не менее десятка, иначе будет ругаться.
Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект, + к нему либу mefa на том же сайте.
И ему скармливаем скрипт:
library("cluster")library("mefa")data<-read.table("c:/inclust.csv", sep="*")x<-mefa(stcs(data))cl<-hclust(dist(x$xtab), method="ward.D")clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)
В скрипте есть путь файла на вход, путь файла на выход. Плюс указаны разделители.
После отработки r-скрипта получим файлик вида:
"25 кадр бросить курить онлайн";1"аудио как бросить курить";2"аудио книга как бросить курить";2"бросай курить картинки";1"бросил курить набрал вес";1"бросить курить 25 кадр отзывы";1"видео онлайн как бросить курить";3"как бросить курить онлайн";3"как бросить курить смотреть онлайн";3"кар как бросить курить";4"кинг корпорация бросайте курить";5"книга как бросить курить карр";4"корпорация бросайте курить";5"мам я бросил курить аккорды";1"метод шичко бросить курить";1"методы бросить курить";1"можно ли бросить курить сразу";1"отзывы бросивших курить";1"почему бросить курить";1"почему когда бросают курить толстеют";1"почему полнеют когда бросают курить";1"программа бросить курить";6"программа чтоб бросить курить";6"скачать ален карр бросить курить";4"скачать аудиокнигу как бросить курить";2"скачать программу бросить курить";6"фильм легко бросить курить скачать";3"шатунов я бросил курить";1
Циферка совпадает у всех ключей, попадающих в один кластер(все синонимы по мнению ПС)
Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать к кластер
Домашнее задание тем, кого эта тема заинтересовала: развернуть файл результата в файл ключей так чтобы все синонимы были в 1 строке и разделялись например через |
Ложка дегтя: при большом числе ключей r-project зохавывает по 30ГБ оперативы )
1. движок чтобы заряжать в него скрипты свои
2. после часа примерно
Через него(и не только через него) можно делать кластеризацию запросов. То есть собирать нечеткие дубли ключей в одну MULTIKEY строчку. Чтобы соплей не было.
К сожалению не получится. Словари есть только на русский/английский и немецкий.
Другие языки подключить не получится, по крайней мере я пока не придумал как, но поработаю в этом направлении. Возможно с изменением алгоритма под другие словари получиться сделать и итальянский.
Залил PB 2.12.1
Добавлен новый алгоритм генерации текста SyntaxTextGen.v1 - генерация через синтаксический/морфологический анализ текста. Активация через меню плагинов.
Языки: только русский и английский, так как морфологические словари есть только этим языкам, плюс вроде как есть еще немецкий, его попробую добавить чуть позже.
Все кому сделать триал активацию - скиньте имейлы в аську или в личку---------- Добавлено 20.04.2015 в 12:41 ----------Обновил PROParser 1.8.1.
Добавлен азербайджанский.
Добавлена фича "аккуратной чистки".
Аккуратная чистка более требовательна к тексту, поэтому на выходе его будет парситься меньше, но он будет чище.
Фича по умолчанию выключена:
---------- Добавлено 20.04.2015 в 12:48 ----------
На старте пока будет 30$. Но спасибо за поддержку, деймос!
Чтобы построить цепочки нужно чтобы было на основании чего их строить, не так ли?
Тот подход, который вы описываете применяется в одном из seo продуктов. Генерация без текстовки. Я пробовал применять туже либу что и в нем. Но отбросил, не понравились мне тексты, получающиеся в результате:
Вот примерные результаты по тематике "стройка":
Узнаете )?
Алгоритм собирает статистику и использует ее. Извините, но более подробно описывать работу алгоритма мне бы тут не хотелось.
Но у желающих будет возможность погонять алгоритм на своих текстовках. Думаю, сделаю 3х дневный триал период по запросу.
Анализируется исходная текстовка, по ней собирается статистика. Если в исходной текстовке про казино, то алгоритм будет подбирать про казино. Про куртизанок не станет. И наоборот. Если в исходной текстовке про куртизанок, то про казино не станет.
Полностью нет еще, есть часть.
Думаю скоро. Вот только вопрос в цене. Ценник в 30 енотов приемлем?
Синтаксический/морфологический анализ текста.
Учитывает тематику исходной текстовки.
[вырезано описание алгоритма]
Никакой базы синонимов нет. Не синонимизация, хотя получается похоже.