Не подскажу, но обратил внимание,
Не подскажу, потому,что что не понял задачи и исходника. То что понял - вычленение. Нужно учитывать параметры базы, 10000 - это так :). Дальше - Фразы- Это сложнее. И если кто-то говорит, что фразы распознает - то "безтопливный ненератор". Я его признаю, но покажите. Грибы тоже многоуровневая система взаимосвязей. Намного умнее чем кажется... ушел из темы
Всю тему не читал - ибо лень,
секрета нет - есть программные решения.
Я парсю все что парсится. И наоборот тоже.
Вебархив интересен - можно качать тремя путями
- получить список файлов домена
- определять каждый раз последнюю версию файла
-
первый вариант - рабочий..(нО есть) (около половины-трети пойдет по второму варианту)
второй - не эффективный при большом объеме (на пятисот-тысяча-страничнике прокатит).
3 - использую - анализ структуры на лету, с учетом url шаблонов self robots конечно
Дальше - постпарсинг(
для большого объема конечно нужен хотя бы предпарсинг(страницу объемом в пол-мегабайта - тупо хранить для постпарсинга (да,есть такие сайты - без картинок и прочих включений вес даже чуть больше. 0.7 весит страница ).
)
Дальше - вывод напрямую в wordpress, чем я и занимаюсь.
Да, забыл - чаще всего не работает один шаблон для парсинга с вебархива.
Обновляется же структура сайта.
Два-три - нормально.
Запросто.
А как самому - регексп + дом(dom модель в смысле ) + вирт. браузер + по возможности прокси
Все просто.---------- Добавлено 05.06.2016 в 05:30 ----------
это как раз и делалось, как не удивительно :)
с периодом в неделю. Без нагрузки, - мне хватало.
Зачем, если структура URL любого сайта должна вписываться в 3-5 строчек регулярных выражений?
dle=>{
category => '^(.+)/$',
category_pager => '([^/]*)/page/(\d+)/',
page => '([^/]+)?/(\d+)-(.+)\.html$',
page1 => '^/(\d+)/(\d+)/(\d+)/([^,]+)\.html$',
comment_page => '/page,\d+,(\d+),(?:(\d+)-)?(.+)\.html$'
},
wordpress=>{
category => '^/(?:category|topics)+(/.+)$',
category_pager => '([^/]*)/page/(\d+)',
page => '([^/]+)?/()([^/\.]+)(?:\.html|/)?$',
page1 => '^/(\d+)/(\d+)/(\d+)/([^/\.]+)',
comment_page => '/([^/]+)(?:.html)?/comment-page-(\d+)',
archive => '/(\d{4})/(\d{2})(?:/(\d{2}))?/?$'
}
тупо скопировано из одного проекта, вордпресс поновее.
Ничего другого кроме контоля IP и создания хороших сессий (в плане размерности именования) не придумано. Не ломайте голову.
В вашем случае - смотрите в сторону прав доступа к файлам, и вызовам подпрограмм.
Ну это же азы безопасности.
Может быть, потому что вставляется не ссылка в картинку, а картинка в ссылку... :)
Бегло пробежался по таблицам wordpress,
если, как вы говорите, весь объем приходится на wp_options - вам продали фейк, или граблю. (или грабнутую граблю почему и продали)
Мда, старею, - привык любые входящие параметры проверять,
никаких инъекций гарантированно.
Хм, не силен в PHP, что радует,
Но видимо у вас не определена какая-то переменная.
Проверьте плагины и шаблоны.
Установленную версию до и после переноса опять же.
Посмеяла версия с правкой .htaccess
режет форум код,
понятно, что хеш массивов [] (ну или ссылок на массив, что правильней)
ну а вызов в данном контексте через ссылку на хеш опять же
my $hash=MakeRex(\%menuReg);