Нужен скрипт выборки ключевиков с жесткими правилами

JB
На сайте с 09.05.2014
Offline
239
1233

Нужен скрипт выборки ключевых слов, из большой базы!

То есть база большого количества ключевиков, и когда задаешь выборку тем же kwk

То она выбирает кеи где есть в составе строки фраза

то есть если нам нужно отобрать кеи с "alp", то она выбирает "alpitourworld cuba",

а как сделать выборку где слово alp конкретно как есть а не в части другой строки?

sabotage
На сайте с 14.02.2007
Offline
192
#1
JungleBox:
То есть база большого количества ключевиков

Насколько большая? В каком формате?

JB
На сайте с 09.05.2014
Offline
239
#2

sabotage, неск лямов. в формате txt

---------- Добавлено 25.04.2018 в 09:11 ----------

Из одного файла нужно выбрать строки, где имеют место быть строки (строго) из второго файла. И сгенерить третий файл.

sabotage
На сайте с 14.02.2007
Offline
192
#3

Вообще вариантов масса, от блокнота с поддержкой регулярок (использовать \b, как границу слова), до мускула/сфинкса и проч. Наверное и специфический софт есть

Можно и так:

<?php

$ptrn = '~\bКЕЙ\b~ui';
$file = file('keys.txt');
$result = array();
foreach($file as $str){
if(preg_match($ptrn, $str)) $result[$str] = $str;
}
file_put_contents('reuslt.txt', $result);
JB
На сайте с 09.05.2014
Offline
239
#4

sabotage, а как массовую выборку кеев сделать ? а не одного ( как в примере )

sabotage
На сайте с 14.02.2007
Offline
192
#5

$ptrn = '~\b(КЕЙ1|КЕЙ2|КЕЙ3)\b~ui';
plattoo
На сайте с 12.05.2010
Offline
195
#6
JungleBox:
а как сделать выборку где слово alp конкретно как есть а не в части другой строки?

в Пингвине так можно сделать

слово отдельно - #alp#

отдельно и часть другого слова - alp

и несколько лямов для него ни о чём - если, конечно, не задавать сложные условия выборки на десяток другой миллинов

Удивительно
На сайте с 07.07.2009
Offline
215
#7
Качественная семантика недорого ( https://moab.tools/ )
JB
На сайте с 09.05.2014
Offline
239
#8

plattoo, чо за пингвин)

plattoo
На сайте с 12.05.2010
Offline
195
#9
JungleBox:
plattoo, чо за пингвин)

это

http://x-parser.ru/software/9-penguin.html

orka13
На сайте с 28.03.2011
Offline
102
#10

UNIX, хотя я на винде это делал под GnuWin32:

файлы должны быть в идеально одинаковой кодировке, и продублируйте первую строку в регулярках, а то хз почему, но ее игнорирует.

копирует в новой файл только слова, которые отвечают списку GREP_regex_List.txt:

grep -i -E -f GREP_regex_List.txt file_old.txt > file3_new.txt

отрывок-пример файла GREP_regex_List.txt (чистил несколькогигабайтную базу адалт-ключей от дестких слов):

\bгруднич\w*\b
\bгруднич\w*\b
3.?лет
4.?лет
5.?лет
6.?лет
7.?лет
8.?лет
9.?лет
10.?лет
11.?лет
12.?лет
13.?лет
14.?лет
15.?лет
16.?лет
17.?лет
п.?ти.?лет
шест.*лет
семи.?лет
восьми.?лет
десят.*лет
динн?а.*лет
дв.?н.*лет
тр.?на.*лет
ч.?т.?рна*?лет
п.?тна.*лет
ш.?стна.*лет

ман по grep:

https://www.opennet.ru/man.shtml?topic=grep&category=1

Шпаргалка по регуляркам:

http://www.exlab.net/files/tools/sheets/regexp/regexp.png

Но сложные регулярки игнорировались, пришлось ими отдельно через EmEditor ручками пройтись: [Поиск - чекбокс "регулярные выр..." - Закладка"], потом просто удалить\вырезать строки с закладкой.

Пингвин тогда то ли не работал с регулярками, то ли не было под рукой (теперь 3 лицензии имеются :) )

Продажи шаблона Google-Translate (Гугл Переводчик), скорость: 20 млн ключей/час, с прокси, без API. (http://zennolab.com/discussion/threads/prodazhi-shablona-google-translate.43684/) Переводит ключи, статьи, HTML+PHP файлы (целые сайты, доры) с сохранением верстки!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий