postavkin, вы на будущее смотрите свои массивы так print_r($match) и все будет ясно.
Правильно, получилось два массива $match[0] и $match[1], а в них уже урлы. То есть считать надо только $resultf = count($match[0]); Если хочется получить размер всего массива рекурсивно, то count($match, COUNT_RECURSIVE);
Да я то верю, вы уверены потому-что есть большой опыт, а речь идет конкретно о данном случае.
Понятно что речь идет о количество операций backtracking-а, никто не спорит. Просто так доступнее для понимания - при таком регулярном выражении, будут ошибки если длина между тегами более 100к.
Другими словами, нет, не нужно, проблем нет, тоесть одна решаемая.
Да, парсить можно.
Имелось ввиду не размер файла, а ограничение по размеру искомой комбинации, в данном случае между тегами <non1> и <non2> должно быть меньше 100к, но и это легко обходится.
Я бы вместо fopen использовал file_get_contents
Не понятно, с адресами все в порядке?
Единственная проблема с preg_match это ограничение по размеру - не более 100кб
Специальный запрос для наглядности. А всплыло, скорее всего, при поиске по номеру телефона, или это целенаправленный вброс.
Тут каждый пытается доказать свою версию, версии разные.
Лично я продвигаю версию, что виноват мегафон, но яндекс поспособствовал публикации приватных сведений, к которым получил доступ скрытно и незаконно через бар.
Цель: получить подтверждение виновности яндексбара или наоборот его непричастности. Тогда будут другие вопросы: кто скормил приватные урлы боту, с какой целью, как получил приватные урлы, с помощью какого софта, логов и т.п.(хакеры); не было ли это провокацией - фейковые смс, аддурл, портянки для ускорения индексации, заметание следов, публикация постов, короче пеар (недовольные пользователи, хулиганы, а то и политический заказ).
Про криворуких "вьебмастеров" отдельная тема. Если файл найден по ссылке, то туда ему и дорога (в индекс). Насколько легитимно индексировать страницы без внешних ссылок, только на основании мониторинга бара?
Еще важно как отнесутся к этому друзья, коллеги, знакомые и т.д.
Хотелось бы еще услышать комментарий по поводу надо ли закрывать в роботсе папку сапы?
1. Тогда и номер паспорта не лицо? Хотя одинаково идентифицируют абонента мегафона (если понадобится). Тупое решение показывать на странице статуса номер, текст и дату - явное пренебрежение сохранностью. Админы мегафона протупили, НО это не дает право публиковать эти данные в кеше.
2. Как вы отнесетесь к тому, что будут опубликованы входящие письма на ваш почтовый ящик? Хотя бы без обратного адреса, просто "100к зелени выслал, жду товар" или "скажи на работе что бабушка заболела и ко мне". Вы не будете считать это утечкой и публикацией вашей личной переписки?
Эта информация была в простом поиске, например по номеру абонента. Жена ввела номер мужа, а тут раз и разврат в кеше.
Да, и от троянов тоже защищаться не нужно, нужно защищаться от устанавливаемых вирусов?
Правильно, идет по ссылке, а не собирает урлы из сомнительных источников - бар, xss, статистика и т.п.
А вообще, если так все уперлись в роботс, который в принципе не обязателен, то покажите мне хоть одного вебмастера, кто закрывает папку сапы в роботсе. Она не запаролена, считается достаточно скрытной (хеш), но это пока не вздумается поглядеть через браузер на .db, и всё - яндекс будет иметь полное право ее индексировать и публиковать??? На каком основании?