PandoraBox - вопросы и ответы + апдейты. Часть 2.

TopperHarley
На сайте с 24.03.2009
Offline
350
#1121

Насчет р-прожекта на гофаке и на форуме зенки выкладывали скрипт который умеет кластеризировать ключи, то есть собирать в пачки по смыслу также как это делает ПС.

А Пшенников это упомянул в своем докладе. Все однотипные ключи группируем в 1 строку в файле ключей и используем в режиме MULTIKEY.

Но не классически(ключ;атрибут1;атрибут2), а так:

ключ1;аналог ключа 1;аналог ключа 1

ключ2;аналог ключа2;аналог ключа 2

Ну и дорген должен уметь эти ключи размазывать по странице. pb умеет.

Теперь о том как кластеризировать.

Берем зенку или апарсер. На худой конец берем это(гугл режим работает).

Запуливаем свои запросы на парсинг и на выходе нужно получить:

ключ1*урл1
ключ1*урл2
ключ2*урл3
ключ2*урл1
ключ3*урл3
ключ3*урл5
ключ4*урл1
ключ4*урл6
..

Не менее десятка, иначе будет ругаться.

Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект, + к нему либу mefa на том же сайте.

И ему скармливаем скрипт:

library("cluster")
library("mefa")
data<-read.table("c:/inclust.csv", sep="*")
x<-mefa(stcs(data))
cl<-hclust(dist(x$xtab), method="ward.D")
clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)
write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)

В скрипте есть путь файла на вход, путь файла на выход. Плюс указаны разделители.

После отработки r-скрипта получим файлик вида:

"25 кадр бросить курить онлайн";1
"аудио как бросить курить";2
"аудио книга как бросить курить";2
"бросай курить картинки";1
"бросил курить набрал вес";1
"бросить курить 25 кадр отзывы";1
"видео онлайн как бросить курить";3
"как бросить курить онлайн";3
"как бросить курить смотреть онлайн";3
"кар как бросить курить";4
"кинг корпорация бросайте курить";5
"книга как бросить курить карр";4
"корпорация бросайте курить";5
"мам я бросил курить аккорды";1
"метод шичко бросить курить";1
"методы бросить курить";1
"можно ли бросить курить сразу";1
"отзывы бросивших курить";1
"почему бросить курить";1
"почему когда бросают курить толстеют";1
"почему полнеют когда бросают курить";1
"программа бросить курить";6
"программа чтоб бросить курить";6
"скачать ален карр бросить курить";4
"скачать аудиокнигу как бросить курить";2
"скачать программу бросить курить";6
"фильм легко бросить курить скачать";3
"шатунов я бросил курить";1

Циферка совпадает у всех ключей, попадающих в один кластер(все синонимы по мнению ПС)

Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать к кластер

Домашнее задание тем, кого эта тема заинтересовала: развернуть файл результата в файл ключей так чтобы все синонимы были в 1 строке и разделялись например через |

Ложка дегтя: при большом числе ключей r-project зохавывает по 30ГБ оперативы )

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
D
На сайте с 29.10.2009
Offline
128
#1122

у меня 4 гига, не захавает! )))

Шаблоны Pandorabox, Шаблоны Zennoposter (http://zennolab.com/discussion/threads/shablony-daymos-70096689.15233/) скайп daymos1
TopperHarley
На сайте с 24.03.2009
Offline
350
#1123

Ты нолик не заметил?

D
На сайте с 29.10.2009
Offline
128
#1124

заметил

TopperHarley
На сайте с 24.03.2009
Offline
350
#1125

Смысл в том что если памяти мало то на большом объеме ключей скрипт завалится набок.

Ну а вообще попробуй, если интересно

D
На сайте с 29.10.2009
Offline
128
#1126

интересно, обязательно сделаю.

Спасибо за ман

exarh
На сайте с 28.03.2010
Offline
503
#1127
TopperHarley:

А Пшенников это упомянул в своем докладе. Все однотипные ключи группируем в 1 строку в файле ключей и используем в режиме MULTIKEY.
Но не классически(ключ;атрибут1;атрибут2), а так:
ключ1;аналог ключа 1;аналог ключа 1
ключ2;аналог ключа2;аналог ключа 2

Ну и дорген должен уметь эти ключи размазывать по странице. pb умеет.

Теперь о том как кластеризировать.
Берем зенку или апарсер. На худой конец берем это(гугл режим работает).
Запуливаем свои запросы на парсинг и на выходе нужно получить:
ключ1*урл1

ключ1*урл2
ключ2*урл3
ключ2*урл1
ключ3*урл3
ключ3*урл5
ключ4*урл1
ключ4*урл6
..

Не менее десятка, иначе будет ругаться.
Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект, + к нему либу mefa на том же сайте.
И ему скармливаем скрипт:
library("cluster")

library("mefa")
data<-read.table("c:/inclust.csv", sep="*")
x<-mefa(stcs(data))
cl<-hclust(dist(x$xtab), method="ward.D")
clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)
write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)

В скрипте есть путь файла на вход, путь файла на выход. Плюс указаны разделители.
После отработки r-скрипта получим файлик вида:
"25 кадр бросить курить онлайн";1

"аудио как бросить курить";2
"аудио книга как бросить курить";2
"бросай курить картинки";1
"бросил курить набрал вес";1
"бросить курить 25 кадр отзывы";1
"видео онлайн как бросить курить";3
"как бросить курить онлайн";3
"как бросить курить смотреть онлайн";3
"кар как бросить курить";4
"кинг корпорация бросайте курить";5
"книга как бросить курить карр";4
"корпорация бросайте курить";5
"мам я бросил курить аккорды";1
"метод шичко бросить курить";1
"методы бросить курить";1
"можно ли бросить курить сразу";1
"отзывы бросивших курить";1
"почему бросить курить";1
"почему когда бросают курить толстеют";1
"почему полнеют когда бросают курить";1
"программа бросить курить";6
"программа чтоб бросить курить";6
"скачать ален карр бросить курить";4
"скачать аудиокнигу как бросить курить";2
"скачать программу бросить курить";6
"фильм легко бросить курить скачать";3
"шатунов я бросил курить";1

Циферка совпадает у всех ключей, попадающих в один кластер(все синонимы по мнению ПС)

Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать к кластер
Домашнее задание тем, кого эта тема заинтересовала: развернуть файл результата в файл ключей так чтобы все синонимы были в 1 строке и разделялись например через |
Ложка дегтя: при большом числе ключей r-project зохавывает по 30ГБ оперативы )

А Бабулер в соседней ветке, эту шнягу уже как 100 лет юзает и зовет ее - "сущность кеев".

Но техническая реализация у него гораздо проще!

Монетизируй (https://publishers.propellerads.com/#/pub/auth/signUp?ref_id=tnE) свой сайт с выгодой
TopperHarley
На сайте с 24.03.2009
Offline
350
#1128

Сущность кеев )))

Больше пафоса, БОЛЬШЕ!

Но по факту если в более простой реализации не задействована ПС то нафиг надо.

А вот если ПС участвует, то да, согласен, юзать р-прожект не обязательно. Но ведь и не напряжно - скачал - запустил, готово.

Если памяти хватило )

W1
На сайте с 09.04.2015
Offline
2
#1129

Выскакивает ошибка "Программа не активирована или сеть/сервер недоступны" Уже новый ключ активировал, брандмауэр выключил, все равно выскакивает! Что делать?

TopperHarley
На сайте с 24.03.2009
Offline
350
#1130
west-1999:
Выскакивает ошибка "Программа не активирована или сеть/сервер недоступны" Уже новый ключ активировал, брандмауэр выключил, все равно выскакивает! Что делать?

Программа не активирована, значит надо активировать. Закажите ключ на сайте.

Когда сервер ответит "ОК, ключ заказан", через 3..5 минут в почтовом ящике возьмите из письма файлик lic.txt и положите рядом с программой и она станет активирована.

Дольше писать чем делать. 1 клик на сервере и пара кликов в почтовом ящике )

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий