Как выдрать код кеша Яндекса?

advertstar
На сайте с 05.04.2009
Offline
90
922

Подскажите, пожалуйста, как выдрать код из сохраненной кешированной страницы, чтобы не было шапки "Это HTML-версия документа от такое-то число..." и.т.д.?

Где он прячется? Прямого кода нет, но и нет кода начинающегося с iframe

Вот такой:

izbushka
На сайте с 08.06.2007
Offline
110
#1

Судя по всему, они вставляют в <head> только

<base href="SITE_NAME"><script>  (window.YaCC || (window.YaCC = {})).date = '13.12.2012 [01:58:58]';  </script>

и

<script src="http://css.yandex.net/css/search/f18/_b-safe-panel__inject.js" type="text/javascript"></script>
в конец. Все остальное делают скрипты на стороне клиента

т.е. нужно вырезать только эти участки..

advertstar
На сайте с 05.04.2009
Offline
90
#2
izbushka:
Судя по всему, они вставляют в <head> только
<script src="http://css.yandex.net/css/search/f18/_b-safe-panel__inject.js" type="text/javascript"></script>
в конец. Все остальное делают скрипты на стороне клиента
т.е. нужно вырезать только эти участки..

Отлично! Спасибо.

Теперь только убрать желтую подсветку имени сайта. Она кроется:

<a name='YANDEX_0'></a>&nbsp;<span class='highlight highlight_active'Имя сайта</span>
izbushka
На сайте с 08.06.2007
Offline
110
#3

Да, проглядел, они еще сразу после body вставляют немного кода

<a name='yandex_top'></a><script>var loc='SITE';</script><script src='http://img.yandex.net/css/js/hl-counter.js'></script><script>document.domain='yandex.net'</script> <style>.highlight_active{margin: 0 -0.15em; padding: 0 0.15em; background: #ffff00; border: 2px solid #ffff00; color: #000!important;} .b-safe-panel__inject-current{ border: 2px solid red; -webkit-border-radius: 2px; -moz-border-radius: 2px; border-radius: 2px; -webkit-box-shadow: 0 0 4px red; -moz-box-shadow: 0 0 4px red; box-shadow: 0 0 4px red;}</style><script> (window.YaCC || (window.YaCC = {})).date = '13.12.2012 [01:58:58]'; </script>
advertstar
На сайте с 05.04.2009
Offline
90
#4
izbushka:
Да, проглядел, они еще сразу после body вставляют немного кода

Вопрос стоит теперь только в автоматическом скрипте выдирания этого дела из большого количества страниц.

Средствами Dreamweaver как-нибудь можно, как Вы считаете?

Стоит задача разности дат в коде еще.

izbushka
На сайте с 08.06.2007
Offline
110
#5

Да регекспами на том же php ничего сложного, если я больше ничего, что делает яндекс с кодом, не упустил :)

advertstar:
Стоит задача разности дат в коде еще.

Это не понял

advertstar
На сайте с 05.04.2009
Offline
90
#6
izbushka:
Да регекспами на том же php ничего сложного, если я больше ничего, что делает яндекс с кодом, не упустил :)

Я тут плохо разбираюсь, к сожалению.

izbushka:
Это не понял

Ну надо чтобы при выдирании дата - не была помехой, когда он будет выдирать, чтобы учитывал любое сочетание, потому что код не идентичен у каждой страницы из-за даты.

'13.12.2012 [01:58:58]' и.т.п.

feord
На сайте с 28.06.2011
Offline
80
#7

скорее зашифрована реклама

advertstar
На сайте с 05.04.2009
Offline
90
#8

Средствами Dreamweaver выдираем код так, может быть кому-нибудь пригодится:

Edit->Find and replace, Specifig Tag, там опция Containing - сотрет все что угодно (включая разные даты) от начала тега до самого конца, вместе с этим тегом, можно просто скормить участок параметра в нем.

Для большого количества страниц нужно выбрать Find in Folder и выбрать папку с файлами.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий