orka13

orka13
Рейтинг
102
Регистрация
28.03.2011

Надо мне в блок текста без ссылок ключи вставить. По логике использовал:

{INSERTKEYS-1-1}[NOSHUFFLE-NOKEYS-7-9]{/INSERTKEYS}
(Readme: [NOSHUFFLE-NOKEYS-1-10] - текст без генерации на 1 - 10 предложений и без ключей/ссылок)

Но с INSERTKEYS оно с ключами и ссылки вставляет. Есть выход, или пробовать регулярками подчищать?

Ой серч, какой серч: вместо того, чтобы ответить человеку, все убеждают его, что ответ совсем не нужен. С консультацией о "Может по кей+кусок текста" согласен, но ответа так и не дали.

А истина о неполных ключах была совсем рядом. Для доров, если очень много мусора, то можно отбросить все что с KEI1>90, подбираем уже сами. Вкратце: формула отсеивает не только неполные слова («скачать драйвер» удалит, «скачать драйвер для телефона нокиа 5800» оставит), но и ключи с плохими склонениями, в базах их много.

Придется объединить все в один файл. Рекомендую TextPipe Pro, или аналоги (но KWK KeyWordKeeper_5B5, он на больших файлах режет\ковыряет строки в местах склейки, мне он очень жизнь попортил таким багом скрытым). Потом уже на дубли чистить. Другого не встречал решения.

Самая быстрая чистка на дубли в файлах до ~5-10 гиг у этого батника (smf_sortcleaner), все остальные проги отдыхают (Unified List Manager, Fast_Duplicates_Remover_v0.1, DupKill, truesort, tdk_Text Duplicate Killer). Он все в память грузит. У меня 16 гиг, а если больше, то, наверное, и побольше файлы обработает:

http://metaspamer.blogspot.com/2011/12/programma-dlia-udaleniia-odinakovykh.html

Если файл больше, то придется на линунсе делать через команду «sort». Или как я сделал: установил себе на винду юникские консольные команды в пакете - http://gnuwin32.sourceforge.net .

Потом командой в CMD (текстовик в папке «c:\33») :

sort -u -T c:\33 -o filename_no_dubli.txt filename.txt

Делает долго, но зато пределов в размере нет. Чистил так собственную базу метрики на 40 гиг. Где-то сутки вроде обрабатывало. ОЗП не грузить, просто медленно себе копирует файлы частями в пределах HDD, потихоньку чистя дубликаты.

UPD:

Текстовый редактор для работы с регулярками\автозаменой в таких больших текстовых файлах: EmEditor

дубли ищем в пределах каждого файла, или со всей группы?

какой размер в мб или в строках самого большого файла?

2 TopperHarley. Несрочное предложение:

Сделать возможность вывода даты поста макросом [DATETIMEOGP] для нетграфа в формате ISO 8601, типа в шаблоне:

<meta property="article:published_time" content="[DATETIMEOGP]" />

В коде сайта на выходе:

<meta property="article:published_time" content="2015-01-22T11:25:17+00:00" />

Вот мой пример: Подготовка к свадьбе, траф: 1500/день, 2 года, 800$ . Скорее-всего уйдет через пару часов по аукциону. Правда ценник там стоит уже минимум 55К рублей. Да и CMS DLE а не WORDPRESS. Если есть лишние финансы, то можно поучаствовать.

А так то за такую цену нормальные сайты в личку вряд ли предложат. Продавец, который уверен в своем сайте, скорее выставит его на аукцион. В личку стараются спихнуть сайты с подводными камнями, которые боятся детального изучения.

Я вернулся. Всем отписал. Если больше шагов не будет, то победителем аукциона через ~12 часов станет tatrus2. Снижу тогда блиц до 1400.

Были вопросы насчет моих работ по СЯ, то есть могу ли сделать что-то подобное под заказ. В старых темах написано, что не занимаюсь больше такой работой, но если будет очень туго по финансам, то через пару месяцев повторно открою тему.

1. Послал заверенные нотариусом документы для безбумажной передачи домена. Где-то через 2-3 недели должны дойти. Протупил что раньше надо было, не продавал еще рушки.

2. На ~сутки уйду в офлайн. Все вопросы в личке потом обработаю.

Я скидываю рандомный миллион ключей интересуемой тематики в KeyCollector. Потом беру анлиз груп (по 1 слову), и он сортирует те слова, которые наиболее часто попадаются. Обычно, где-то после топ-10 таких групп-слов начинают идти группы, которые не подходят. Их добавляю в список стоп слов вручную, а потом загружаю всю базу и выделяю (удаляю) соответствующие стоп-словам строки.

Эта процедура также помогает сориентироваться в общей семантике новой неизученной тематики.

Когда приблизительно ждать апдейта с решением проблем синтаксиса дефисов? А то накопилось много идей и не могу реализовать. Вот, к примеру, из-за дефиса в MEMRES-1 не срабатывает нормально PUNIQCATRANDKEYWORDIF:

{PUNIQCATRANDKEYWORDIF-([MEMRES-1])}<a href="">[ANCHOR]</a>{/PUNIQCATRANDKEYWORDIF}
Всего: 532