seomoneys

Рейтинг
81
Регистрация
13.12.2009

Доброго времени суток уважаемые форумчани, программа Web cache explorer обновилась до версии 2.0.0.21.

Какие существенные изменения произошли:

- Улучшенный алгоритм получения документов. Файлы ресурсов непосредственно сохраняются в файл, без предварительного сохранения их в виртуальной памяти - это позволяет загружать и сохранять файлы, размер которых ограничен только возможностями ОС или размерами дискового накопителя. Нормализации ссылок и удаления вставок веб-архива происходит непосредственно при чтении данных из сокета. Данные оптимизации в значительной степени снизили потребляемые программой ресурсы.

- Улучшенный алгоритм работы с веб-архивом. Программа больше не парсит ссылки со страниц, а собирает файлы, которые наверняка есть в кэше веб-архива. Программа со 100% вероятностью найдет все страницы сайта, которые есть в кэше веб-архива, даже если они никак напрямую не связаны ссылками.

- Возможность указания URI адреса сайта - что позволяет загружать отдельные директории (например, с изображениями).

- Опциональная возможность работы с внешними ссылками (тегом "a"): удаления, вложения в тег <!--noindex--> <!--/noindex--> и добавления атрибута rel=nofollow.

- Опциональная возможность указания, какие файлы загружать и возможность указания даты для файлов.

- Опциональная возможность указания начальной или конечной даты (то есть фактически периода).

Sterh:

Вот скорость загрузки в базу не пишется.

Это иногда бывает полезно, например для поиска на чужих движках не оптимизированных запросов к бд.

Sterh:

Нет ли какого сайтика с ворнингами? Глянуть бы, как парсер их отработает

Ну этого добра полный интернет.

Она имеет стандартный формат:


<b>Warning</b>: ...... on line <b>1</b><br />
Sterh:

Принято. В принципе метатеги можно собрать и вывести любые.

Нет, я про HTTP поле а не про метатег имел ввиду.

Sterh:

А это что за зверь такой? :)

Запрашиваем страницу a.html, получаем редирект(301,302) на страницу b.html, запрашиваем страницу b.html, получаем редирект на страницу a.html и так ∞.

Sterh:

1) Все страницы с ответом сервера, отличным от 200ОК

Опционально указания статуса было бы лучше(отсутствие, присутствие).

Скорость загрузки страницы, с возможностью указать начальный таймаут для фильтрации.

Присутствие ворнингов php.

Отсутствие Content-Type заголовков.

Бесконечные перенаправления(и опять же опционально указать их количества).

Там кроме цен есть проблемы посложней, надо конфёрмить свой аккаунт, а для фирм резидентов из постсоветского API вообще не доступен(иначе софта уже было бы не мало).

Проще и быстрей реверснуть или заюзать их либу из Adwords Editor, я именно так когда-то поступал, и могу сказать что это вполне возможно.

Либо всякие браузероэмуляторы и парсить web интерфейс, или разбираться с их недо-protobuff в javascript-е.

П.С. http://habrahabr.ru/blogs/context/112603/

Kazharnovich:
Будем разбираться с алертом касперского. .

Алерт не безосновательный, в трех местах поставляли такой JavaScript код.

По всей видимости в 3-х файлах которые инклюдятся в морду, скорей всего сделано на автомате.

ali82:

Как вот это объяснить:
http://www.zonehmirrors.net/mirror/id/14957902
http://plagiarismkiller.com/M.txt
Текст по последней ссылке:

Наличие криво вставленного, обфусцированного javascript-а наводит на нехорошие мысли(идет ифрейм на связку - dsa.biteamv.ru).

Можно попробовать ISPmanager + Почтовые автоответчики(Действие: Передать скрипту).

Лимончик:
Kost Troll, у вас хостинг отдает неверный Content-Type. Надо text/html; а у вас text/plain;

Это не совсем хостинг а модуль php_fileinfo.dll.

Kost Troll ну тут отсутствует easy way, уже надо разбираться Subudayj.

Как вариант закоментировать 11 строчку в index.php.

Я смотрю и ссылки на сайт оригинал остались - http://grabber.bget.ru/Moscow/Parts/Niva/1/

Kost Troll:

Все одно, выскакивают ошибки, хотя сайт открывается !



Т.е. - все скачанные страницы открываются, но сверху все одно висит сообщение об ошибке.
У кого как происходит ???

Это баг в php_fileinfo.dll и разбора Windows путей, на unix-like должно работать.

http://decker.no-ip.org/forum/index.php?showtopic=30815:


Одно из направлений работы на проекте — продвижение по специфичным поисковым запросам.
Всего: 120