dm8

Рейтинг
74
Регистрация
16.06.2007
Toan:
Подскажите пожалуйста, каким образом оптимальнее всего вычленить для среднего списка запросов (~10 000) только некоммерческие (по сути ГНЗ) фразы? Сервисов подключено много, а какой адекватнее работает для больших объемов - хз.

Цель - подобрать кучку ГНЗ из выборки для статейника на автомате, а дальше уже фильтрами и руками выкидывать мусор.

Не подскажу, но обратил внимание,

Не подскажу, потому,что что не понял задачи и исходника. То что понял - вычленение. Нужно учитывать параметры базы, 10000 - это так :). Дальше - Фразы- Это сложнее. И если кто-то говорит, что фразы распознает - то "безтопливный ненератор". Я его признаю, но покажите. Грибы тоже многоуровневая система взаимосвязей. Намного умнее чем кажется... ушел из темы

dmkich:
Да. С помощью написанного для вас парсинга. Готовых решений не существует. А если у кого-то и есть схожее, то его держат в секрете так как за него уплачено из своего кармана.Вам надо обращаться к программистам.

Всю тему не читал - ибо лень,

секрета нет - есть программные решения.

Я парсю все что парсится. И наоборот тоже.

Вебархив интересен - можно качать тремя путями

- получить список файлов домена

- определять каждый раз последнюю версию файла

-

первый вариант - рабочий..(нО есть) (около половины-трети пойдет по второму варианту)

второй - не эффективный при большом объеме (на пятисот-тысяча-страничнике прокатит).

3 - использую - анализ структуры на лету, с учетом url шаблонов self robots конечно

Дальше - постпарсинг(

для большого объема конечно нужен хотя бы предпарсинг(страницу объемом в пол-мегабайта - тупо хранить для постпарсинга (да,есть такие сайты - без картинок и прочих включений вес даже чуть больше. 0.7 весит страница ).

)

Дальше - вывод напрямую в wordpress, чем я и занимаюсь.

Да, забыл - чаще всего не работает один шаблон для парсинга с вебархива.

Обновляется же структура сайта.

Два-три - нормально.

Запросто.

А как самому - регексп + дом(dom модель в смысле ) + вирт. браузер + по возможности прокси

Все просто.

---------- Добавлено 05.06.2016 в 05:30 ----------

mr_krabs:
Сделаете мне это для пары тысяч сайтов? ))

это как раз и делалось, как не удивительно :)

с периодом в неделю. Без нагрузки, - мне хватало.

miketomlin:
Если ссылок много, будет лучше подложить в stat.php скрипт, делающий по значению id редирект на нужный адрес.

Зачем, если структура URL любого сайта должна вписываться в 3-5 строчек регулярных выражений?

dle=>{

category => '^(.+)/$',

category_pager => '([^/]*)/page/(\d+)/',

page => '([^/]+)?/(\d+)-(.+)\.html$',

page1 => '^/(\d+)/(\d+)/(\d+)/([^,]+)\.html$',

comment_page => '/page,\d+,(\d+),(?:(\d+)-)?(.+)\.html$'

},

wordpress=>{

category => '^/(?:category|topics)+(/.+)$',

category_pager => '([^/]*)/page/(\d+)',

page => '([^/]+)?/()([^/\.]+)(?:\.html|/)?$',

page1 => '^/(\d+)/(\d+)/(\d+)/([^/\.]+)',

comment_page => '/([^/]+)(?:.html)?/comment-page-(\d+)',

archive => '/(\d{4})/(\d{2})(?:/(\d{2}))?/?$'

}

тупо скопировано из одного проекта, вордпресс поновее.

Ничего другого кроме контоля IP и создания хороших сессий (в плане размерности именования) не придумано. Не ломайте голову.

В вашем случае - смотрите в сторону прав доступа к файлам, и вызовам подпрограмм.

Ну это же азы безопасности.

Может быть, потому что вставляется не ссылка в картинку, а картинка в ссылку... :)

Бегло пробежался по таблицам wordpress,

если, как вы говорите, весь объем приходится на wp_options - вам продали фейк, или граблю. (или грабнутую граблю почему и продали)

Мда, старею, - привык любые входящие параметры проверять,

никаких инъекций гарантированно.

Хм, не силен в PHP, что радует,

Но видимо у вас не определена какая-то переменная.

Проверьте плагины и шаблоны.

Установленную версию до и после переноса опять же.

Посмеяла версия с правкой .htaccess

режет форум код,

понятно, что хеш массивов [] (ну или ссылок на массив, что правильней)

ну а вызов в данном контексте через ссылку на хеш опять же

my $hash=MakeRex(\%menuReg);

Всего: 154