Попробуйте кластеризировать ключи, то есть собирать в пачки по смыслу также как это делает ПС - Doorways & Cloaking

PandoraBox - вопросы и ответы + апдейты. Часть 2.

TopperHarley · 2020-07-28T15:09:28.0000000Z

kashim: TopperHarley, мутный макрос, Завернуть в PREVIEW в вашем случае можно только НИК, и тогда дублироваться будет только ник. Примечание модератора . Предыдущая тема: /ru/forum/741752

350

TopperHarley

21 апреля 2015, 12:40

#1121

Насчет р-прожекта на гофаке и на форуме зенки выкладывали скрипт который умеет кластеризировать ключи, то есть собирать в пачки по смыслу также как это делает ПС.

А Пшенников это упомянул в своем докладе. Все однотипные ключи группируем в 1 строку в файле ключей и используем в режиме MULTIKEY.

Но не классически(ключ;атрибут1;атрибут2), а так:

ключ1;аналог ключа 1;аналог ключа 1

ключ2;аналог ключа2;аналог ключа 2

Ну и дорген должен уметь эти ключи размазывать по странице. pb умеет.

Теперь о том как кластеризировать.

Берем зенку или апарсер. На худой конец берем это(гугл режим работает).

Запуливаем свои запросы на парсинг и на выходе нужно получить:

ключ1*урл1
ключ1*урл2
ключ2*урл3
ключ2*урл1
ключ3*урл3
ключ3*урл5
ключ4*урл1
ключ4*урл6
..

Не менее десятка, иначе будет ругаться.

Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект, + к нему либу mefa на том же сайте.

И ему скармливаем скрипт:

library("cluster")
library("mefa")
data<-read.table("c:/inclust.csv", sep="*")
x<-mefa(stcs(data))
cl<-hclust(dist(x$xtab), method="ward.D")
clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)
write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)

В скрипте есть путь файла на вход, путь файла на выход. Плюс указаны разделители.

После отработки r-скрипта получим файлик вида:

"25 кадр бросить курить онлайн";1
"аудио как бросить курить";2
"аудио книга как бросить курить";2
"бросай курить картинки";1
"бросил курить набрал вес";1
"бросить курить 25 кадр отзывы";1
"видео онлайн как бросить курить";3
"как бросить курить онлайн";3
"как бросить курить смотреть онлайн";3
"кар как бросить курить";4
"кинг корпорация бросайте курить";5
"книга как бросить курить карр";4
"корпорация бросайте курить";5
"мам я бросил курить аккорды";1
"метод шичко бросить курить";1
"методы бросить курить";1
"можно ли бросить курить сразу";1
"отзывы бросивших курить";1
"почему бросить курить";1
"почему когда бросают курить толстеют";1
"почему полнеют когда бросают курить";1
"программа бросить курить";6
"программа чтоб бросить курить";6
"скачать ален карр бросить курить";4
"скачать аудиокнигу как бросить курить";2
"скачать программу бросить курить";6
"фильм легко бросить курить скачать";3
"шатунов я бросил курить";1

Циферка совпадает у всех ключей, попадающих в один кластер(все синонимы по мнению ПС)

Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать к кластер

Домашнее задание тем, кого эта тема заинтересовала: развернуть файл результата в файл ключей так чтобы все синонимы были в 1 строке и разделялись например через |

Ложка дегтя: при большом числе ключей r-project зохавывает по 30ГБ оперативы )

3

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )

MonkeyWrite[релиз]: программа для размножения LSI Parser + бонус Дорген PandoraBox - вопросы

D

128

daymos

21 апреля 2015, 12:55

#1122

у меня 4 гига, не захавает! )))

Шаблоны Pandorabox, Шаблоны Zennoposter (http://zennolab.com/discussion/threads/shablony-daymos-70096689.15233/) скайп daymos1

350

TopperHarley

21 апреля 2015, 12:56

#1123

Ты нолик не заметил?

D

128

daymos

21 апреля 2015, 13:01

#1124

заметил

350

TopperHarley

21 апреля 2015, 13:06

#1125

Смысл в том что если памяти мало то на большом объеме ключей скрипт завалится набок.

Ну а вообще попробуй, если интересно

D

128

daymos

21 апреля 2015, 13:30

#1126

интересно, обязательно сделаю.

Спасибо за ман

503

exarh

21 апреля 2015, 13:38

#1127

TopperHarley:

А Пшенников это упомянул в своем докладе. Все однотипные ключи группируем в 1 строку в файле ключей и используем в режиме MULTIKEY.
Но не классически(ключ;атрибут1;атрибут2), а так:
ключ1;аналог ключа 1;аналог ключа 1
ключ2;аналог ключа2;аналог ключа 2

Ну и дорген должен уметь эти ключи размазывать по странице. pb умеет.

Теперь о том как кластеризировать.
Берем зенку или апарсер. На худой конец берем это(гугл режим работает).
Запуливаем свои запросы на парсинг и на выходе нужно получить:

ключ1*урл1

ключ1*урл2

ключ2*урл3

ключ2*урл1

ключ3*урл3

ключ3*урл5

ключ4*урл1

ключ4*урл6

..

Не менее десятка, иначе будет ругаться.
Некоторые урлы будут повторяться, и тут сработает кластеризация. Чтобы ее выполнить по такому файлу нужно качнуть р-прожект, + к нему либу mefa на том же сайте.
И ему скармливаем скрипт:

library("cluster")

library("mefa")

data<-read.table("c:/inclust.csv", sep="*")

x<-mefa(stcs(data))

cl<-hclust(dist(x$xtab), method="ward.D")

clustnum<-cutree(cl,k=round(length(levels(data[,1]))/5),0)

write.table(clustnum, file='c:/out.csv', sep=';',col.names = FALSE)

В скрипте есть путь файла на вход, путь файла на выход. Плюс указаны разделители.
После отработки r-скрипта получим файлик вида:

"25 кадр бросить курить онлайн";1

"аудио как бросить курить";2

"аудио книга как бросить курить";2

"бросай курить картинки";1

"бросил курить набрал вес";1

"бросить курить 25 кадр отзывы";1

"видео онлайн как бросить курить";3

"как бросить курить онлайн";3

"как бросить курить смотреть онлайн";3

"кар как бросить курить";4

"кинг корпорация бросайте курить";5

"книга как бросить курить карр";4

"корпорация бросайте курить";5

"мам я бросил курить аккорды";1

"метод шичко бросить курить";1

"методы бросить курить";1

"можно ли бросить курить сразу";1

"отзывы бросивших курить";1

"почему бросить курить";1

"почему когда бросают курить толстеют";1

"почему полнеют когда бросают курить";1

"программа бросить курить";6

"программа чтоб бросить курить";6

"скачать ален карр бросить курить";4

"скачать аудиокнигу как бросить курить";2

"скачать программу бросить курить";6

"фильм легко бросить курить скачать";3

"шатунов я бросил курить";1

Циферка совпадает у всех ключей, попадающих в один кластер(все синонимы по мнению ПС)

Как видим по мнению гугла ключи "фильм легко бросить курить скачать" и "видео онлайн как бросить курить" - аналоги, их можно собрать к кластер
Домашнее задание тем, кого эта тема заинтересовала: развернуть файл результата в файл ключей так чтобы все синонимы были в 1 строке и разделялись например через |
Ложка дегтя: при большом числе ключей r-project зохавывает по 30ГБ оперативы )

А Бабулер в соседней ветке, эту шнягу уже как 100 лет юзает и зовет ее - "сущность кеев".

Но техническая реализация у него гораздо проще!

Монетизируй (https://publishers.propellerads.com/#/pub/auth/signUp?ref_id=tnE) свой сайт с выгодой

350

TopperHarley

21 апреля 2015, 13:50

#1128

Сущность кеев )))

Больше пафоса, БОЛЬШЕ!

Но по факту если в более простой реализации не задействована ПС то нафиг надо.

А вот если ПС участвует, то да, согласен, юзать р-прожект не обязательно. Но ведь и не напряжно - скачал - запустил, готово.

Если памяти хватило )

1

Реквизиты на сайте влияют Аномальное выпадение из гугла Нужен партнер по дорам!

W1

2

west-1999

21 апреля 2015, 14:05

#1129

Выскакивает ошибка "Программа не активирована или сеть/сервер недоступны" Уже новый ключ активировал, брандмауэр выключил, все равно выскакивает! Что делать?

350

TopperHarley

21 апреля 2015, 14:15

#1130

west-1999:
Выскакивает ошибка "Программа не активирована или сеть/сервер недоступны" Уже новый ключ активировал, брандмауэр выключил, все равно выскакивает! Что делать?

Программа не активирована, значит надо активировать. Закажите ключ на сайте.

Когда сервер ответит "ОК, ключ заказан", через 3..5 минут в почтовом ящике возьмите из письма файлик lic.txt и положите рядом с программой и она станет активирована.

Дольше писать чем делать. 1 клик на сервере и пара кликов в почтовом ящике )

Украли деньги с WebMoney валуй опять взялся за Долгожданная Page Weight Desktop

Что такое Power BI и зачем это нужно бизнесу

VK приобрела 70% в структуре компании-разработчика red_mad_robot

PandoraBox - вопросы и ответы + апдейты. Часть 2.