Subudayj

Subudayj
Рейтинг
67
Регистрация
24.06.2008
Minimal:
Да, тупят они часто. Или ответили шаблоном, не вникая в ситуацию. У меня сайт отклонили только из-за того, что он видите ли недоступен был в ту минуту, когда они проверяли. Посоветовал через анонимайзер посмотреть или спустя время. Но воз и ныне там.

Напишите Броку Бозеру, он оперативно обычно решает такие проблемы.

Minimal:
А ещё почти за месяц ни одной новой заявки не пришло. Зато сняли 3 ссылки. Вроде осенью рекламодатели просыпаться должны, а они наоборот в спячку подались. У всех такая картина?

У меня аналогичная ситуация, и правда странно. Может деньги кончились у рекламодателей?

bolyk:
Не понял только момента с

Ну парсер форума заменил символы [ и ] в приведенном коде на ***91; и ***93;

Когда будете копировать в конфиг, обратите на это внимание просто.

bolyk:
Mlu, уважаемый, а можно как - то ваш софт зациклить, чтобы он результаты работы записывать в исходный файл? Нужен некий краулер. Суть очень проста - из исходного файла проходимся по ссылкам из которых парсим ссылки, и дописываем в конец исходного файла. Проблемы с доступом потоков к файлу не возникнет?

Я хоть и не mlu, но попробую ответить:)

Данную вещь можно реализовать с помощью "кастомного" http-модуля, код которого нужно поместить в конфигурационный файл программы (checkparams.xml). В модуле указана JS-функция HTTP_OnAfterRequest, которая будет вызываться каждый раз после успешного скачивания страницы. В тексте функции идет поиск ссылок (приведен самый простой вариант поиска ссылок), и добавление каждой новой ссылки в очередь заданий с помощью встроенной в CheckParams функции AddUrl.

P.S. Это лишь самая простая вещь, которую можно сделать с помощью скриптов:)

<test module_name="custom_crawler" enabled="1" check_interval="0" retries="10" use_proxies="0" results_mode="2" download_size="999999" parse_url="1">
<script_engine enabled="1" name="custom" language="JScript"><![CDATA[ function HTTP_OnAfterRequest(request)
{
var pageHeader = request.AnswerHeaders;
var pageContent = request.AnswerData;

var reFindPages = /<a href="(.+?)">.+?<\/a>/igm;
var myArray;
while ((myArray = reFindPages.exec(pageContent)) != null)
{
AddToLog('Found new link ' + myArray[1]);
AddUrl(myArray[1]);
}
}
]]></script_engine>
<request onAfterRequest="custom:HTTP_OnAfterRequest">
<server address="%HOST%" port="%PORT%"/>
<headers><![CDATA[GET %OBJECT% HTTP/1.1
Host: %HOST%
User-Agent: #$m$UA$m$#
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate
Connection: close

]]></headers>
</request>
</test>

***91; нужно заменить на [, ***93; на ], парсер их "съел" :)

ecenin:
Не удобно, что если ссылка вида домен.ру/папка/папка/скрипт.пхп при чеке ПР выдает ошибку или знак -

'-' означает PR N/A. Достаточно большое количество софта заменяет N/A на 0, CheckParams так не делает :)

Всем привет, смотрю прям нешуточная дискуссия разгорелась, обстоятельно смогу пообщаться ближе к понедельнику. Для php-скрипта попробую найти более универсальный способ отображения сохраненного контента (сейчас mime_content_type используется исключительно для определения типа открываемого файла).

Kost Troll, по поводу структуры - я поэтому и советую записывать наиболее приглянувшийся период в последнюю очередь, чтобы он заменил собой все имеющиеся "общие" файлы. Этим можно добиться целостной картины сайта, и не потерять какие-то графические файлы, которые хранятся в других периодах.

Mike05:
По тупости своей не совсем понимаю:
- Почему именно два набора исходных слов?
- Как глубоко парсит?

- Чтобы можно было автоматически генерировать запросы вида: "site:.com" + куча ключевых слов.

- Пока парсит до 1000 результатов по одному запросу, если кто-нибудь расскажет как парсить более правильно, то можно реализовать.

Mike05:
Веб-архив, вроде бы ожил. Как у нас насчет новой версии?

Часов через 10-12 будет :)

Geolimber:

Непонятно как действовать в данной ситуации. Т.к. получается что я сам не могу посмотреть как отображается моя площадка в поиске для адвертайзеров

А кто вам мешает зарегистрировать второй аккаунт, и через него смотреть? :)))

Друзья, в связи с "ремонтом" веб-архива (ссылка), релиз переносится на день-два, пока веб-архив не заработает в полноценном режиме (пока еще некоторые периоды отдаются с ошибкой).

Aндрeй:
3) Коды бирж щетчики и прочие легко вставить куда нужно дополнительным софтом рекомендую - Multiple File Replace Она также может без особых телодвижений с вашей стороны повырезать все битые ссылки если они будут внешними - просто вырезаются все куски которые начинаются на <a href='http и заканчиваются на </a> а в место этого в то место ставится например код вывода одной сапоссылки :) Блоки которые хотите убрать со всех тысяч страниц статичной версии сайта также Multiple File Replace в помощь.

1) Вариант не нравитя лучше без базы, статику...

2)


А как именно они перезаписываются? Оптимально мне кажется в рамках одного года (или на выбор всего периода) берется самая древняя дата - выкачивается, потом более раньняя выкачивается и накладывается поверх старой (перезаписывает ее) и.т.д. В результате имеем самую последнюю версию сайта, но если в ней отсутствуют страницы которые были в архиве в других датах то они тоже будут в финальной версии.

Особо хочу обратить внимание на то что с битыми ссылками надо точно чего то решать, много битых + сапа = АГС почти 100% неоднократно проверял лично в разных вариациях контента и движков.
Редирект 301 ответом при этом тоже не выход практически тот же эффект, проверенно.

Нужно посмотреть чтоб в итоговом контенте не было особых маркерных кодов, или редких уникальных их сочетаний которые будут на ВСЕХ сайтах таким образом созданным, по таким маркерам (похожестям) яндекс со временем обьединяет все подобные сайты в большую сеть с криминальным признаком. И многие могут уйти в баню. Такие примеры уже были типа особого символа возврат каретки на не качественных сканах, проги по созданию готовых сайтов из кучи контента которые оставляли особые теги и.т.п., потом большая часть таких "промаркированных" сайтов уходит сами понимаете куда... Знаю людей которые специально изучали эту тему говнопризнаки-по-маркеру и эксперименты ставили не единичные. В общем по больше отличий старайтесь делать господа товарищи.

А вообще такой парсер вещь интересная? при соответствующей доработке, просто обязан стать платным :)

Андрей, спасибо за предложения, попробую учесть. Релиз новой версии откладывается до выходных - появилось еще несколько идей, которые хотелось бы реализовать.

Всего: 288