Ёхан Палыч

Ёхан Палыч
Рейтинг
169
Регистрация
07.05.2006

postavkin, вы на будущее смотрите свои массивы так print_r($match) и все будет ясно.

postavkin:
Идея хорошая, но у меня не получается узнать длинну массива. Я результат выполнения показал - адреса 3, а результат =2.

postavkin добавил 21.07.2011 в 16:38
Убрал один адрес из строки, все равно результат = 2.

Правильно, получилось два массива $match[0] и $match[1], а в них уже урлы. То есть считать надо только $resultf = count($match[0]); Если хочется получить размер всего массива рекурсивно, то count($match, COUNT_RECURSIVE);

[umka:
;9217549]Чтоже вы мне так не верите-то

Да я то верю, вы уверены потому-что есть большой опыт, а речь идет конкретно о данном случае.

[umka:
;9217549]$str='a'.str_repeat('b',1048576).'c'; echo 'pcre.backtrack_limit = '.ini_get('pcre.backtrack_limit').'<br>'; echo 'strlen($str) = '.strlen($str).'<br>'; if (preg_match('/(a(.*?)c)/',$str,$matches)) { echo 'strlen($matches[1]) = '.strlen($matches[1]); }

Понятно что речь идет о количество операций backtracking-а, никто не спорит. Просто так доступнее для понимания - при таком регулярном выражении, будут ошибки если длина между тегами более 100к.

postavkin:
Понятно, что нужно что то вместо preg_match
Ёхан Палыч:
Единственная проблема с preg_match это ограничение по размеру - не более 100кб

Другими словами, нет, не нужно, проблем нет, тоесть одна решаемая.

[umka:
Да нет у preg_match никаких ограничений на длину строки. Можно хоть гигабайт парсить. Если памяти хватит

Да, парсить можно.

[umka:
Для проверки возьмите, да пропарсьте файлик мегабайт 10.

Имелось ввиду не размер файла, а ограничение по размеру искомой комбинации, в данном случае между тегами <non1> и <non2> должно быть меньше 100к, но и это легко обходится.

postavkin:
А мне очень надо искать данный контент на страницах, которые уже как бы выложены на сайте.

Я бы вместо fopen использовал file_get_contents

postavkin:
Дело в том, что данный контент подгружается через include и само собой этот скрипт его не видит в исходнике.

Не понятно, с адресами все в порядке?

postavkin:
Понятно, что нужно что то вместо preg_match

Единственная проблема с preg_match это ограничение по размеру - не более 100кб

slovoblud:
А как вообще это всё всплыло? Запрос-то довольно специальный.

Специальный запрос для наглядности. А всплыло, скорее всего, при поиске по номеру телефона, или это целенаправленный вброс.

Тут каждый пытается доказать свою версию, версии разные.

Лично я продвигаю версию, что виноват мегафон, но яндекс поспособствовал публикации приватных сведений, к которым получил доступ скрытно и незаконно через бар.

Цель: получить подтверждение виновности яндексбара или наоборот его непричастности. Тогда будут другие вопросы: кто скормил приватные урлы боту, с какой целью, как получил приватные урлы, с помощью какого софта, логов и т.п.(хакеры); не было ли это провокацией - фейковые смс, аддурл, портянки для ускорения индексации, заметание следов, публикация постов, короче пеар (недовольные пользователи, хулиганы, а то и политический заказ).

Alex91:
http://yandex.ru/yandsearch?text=inu...id=9582&lr=213
http://www.google.ru/search?client=o...w=1332&bih=628

Ёхан Палыч, ну, получается, что надо

Про криворуких "вьебмастеров" отдельная тема. Если файл найден по ссылке, то туда ему и дорога (в индекс). Насколько легитимно индексировать страницы без внешних ссылок, только на основании мониторинга бара?

Каширин:
Ну я-то твердолобый, меня ничем не проймешь, а вот как отнесется суд - вопрос в этом.

Еще важно как отнесутся к этому друзья, коллеги, знакомые и т.д.

Хотелось бы еще услышать комментарий по поводу надо ли закрывать в роботсе папку сапы?

Каширин:
1. Телефонный номер - это не лицо.
2. Огласке были приданы СМС, отправленные неизвестными! А кому они там отправляли... ну отправила какая-то Маша мне СМС с текстом "о, как я круто у тебя сосала вчера", и обратный телефон Маши не известен.

1. Тогда и номер паспорта не лицо? Хотя одинаково идентифицируют абонента мегафона (если понадобится). Тупое решение показывать на странице статуса номер, текст и дату - явное пренебрежение сохранностью. Админы мегафона протупили, НО это не дает право публиковать эти данные в кеше.

2. Как вы отнесетесь к тому, что будут опубликованы входящие письма на ваш почтовый ящик? Хотя бы без обратного адреса, просто "100к зелени выслал, жду товар" или "скажи на работе что бабушка заболела и ко мне". Вы не будете считать это утечкой и публикацией вашей личной переписки?

Tarry:
Кстати, ребята. А с юридической точки зрения, считается ли опубликованной та информация, доступ к которой можно получить только с помощью специального сформированного запроса к поисковой системе? Не простого поиска информации в ПС даже, а чисто технического запроса, который "простые смертные" не введут просто так.

Эта информация была в простом поиске, например по номеру абонента. Жена ввела номер мужа, а тут раз и разврат в кеше.

Kost:
Содержимое нужно защищать не от бара, а от робота. Бар не лезет за содержимым страниц.

Да, и от троянов тоже защищаться не нужно, нужно защищаться от устанавливаемых вирусов?

Tarry:
Просто потому что на роботс можно и положить, что Гугл например делает спокойно. Мотивация такая - если на страницу есть внешние ссылки, мы идём смотреть что там, не смотря на директиву роботс.тхт - это слова товарища Каца такие. Однако если в мете стоит ноиндекс - то мы её не индексируем.

Правильно, идет по ссылке, а не собирает урлы из сомнительных источников - бар, xss, статистика и т.п.

А вообще, если так все уперлись в роботс, который в принципе не обязателен, то покажите мне хоть одного вебмастера, кто закрывает папку сапы в роботсе. Она не запаролена, считается достаточно скрытной (хеш), но это пока не вздумается поглядеть через браузер на .db, и всё - яндекс будет иметь полное право ее индексировать и публиковать??? На каком основании?

Всего: 1593