- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Друзья, я решил написать бесплатный плагин для программы CheckParams (/ru/forum/511667), который позволит делать полные копии сайта из веб-архива (wayback.archive.org). Судя по топикам на форуме, тема достаточно актуальная, а вот работающих решений не так много. Почему CheckParams? Очень не хочется изобретать велосипед, и писать свой "многопоточный парсер", когда уже есть готовое решение, которое позволяет очень быстро (в несколько сотен одновременных потоков) выполнять http-запросы.
В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У меня пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)
На ваш взгляд, какой из вариантов является наиболее оптимальным? Может быть, есть другие варианты сохранения копий?
P.S. Плагин будет бесплатно распространяться вместе с исходными кодами, платить нужно будет только за лицензию для CheckParams. Но в связи с последними изменениями лицензионной политики (http://checkparams.com/ru/node/167), цена лицензии будет вполне оправдана функционалом программы - помимо плагинов CheckParams умеет быстро проверять огромное количество сайтов на PR, Тиц, индексирование в поисковых системах и т.д.
давно пользуюсь CheckParams, все устраивает, скорость работы и поддержка, и главное возможность расширения функционала.
вебархив был бы очень интересен.
В идеале сохранять полные копии сайтов в php за все даты, которые есть в архиве, но частенько часть страниц не видится в одну дату, другая часть страниц - в другую дату... то есть хорошо б создать еще одну папку с наиболее полным вариантом - не найденные страницы брать из других дат, если они будут...
Скорее будет более всего выгоден второй вариант, но, естественно, убрав оттуда вставки вебархива.
Ну а так-же можно было бы сделать парсер, используя макросы. Прописываешь, например, регулярное выражение для тайтла и контента, а скрипт сохраняет все в базу ВП или куда-нибудь ещё, как макросы указаны будут...
В какой стадии работа ?
можете чем-то похвастаться ?
В какой стадии работа ?
можете чем-то похвастаться ?
На неделе планирую выложить релиз.
Коллеги, хочу представить вашему вниманию первую версию парсера веб-архива (web.archive.org) - бесплатного модуля для CheckParams.
Для успешной работы модуля необходимо выполнить следующие действия:
Парсер можно скачать здесь.
P.S. Друзья, любые ваши замечания и пожелания приветствуются, это всего лишь первая версия :)
С помощью данного модуля выкачал 2 сайта в течении 15 минут :)
Автору модуля и автору программы - респект !
Домены вида www.domain.edu.ru не выдирает :-(
В логе:
Если, конечно, это имеет отношение к проблеме.
Домены вида www.domain.edu.ru не выдирает :-(
В логе:
Если, конечно, это имеет отношение к проблеме.
Проверю в ближайшее время.
Subudayj добавил 04.10.2011 в 18:40
Коллеги, вышла версия 1.02 парсера веб-архива.
Исправлена ошибка при скачивании некоторых сайтов, связанная с ограничением на размер страницы, который был установлен равным 3м мегабайтам. Текущее ограничение - 10 мегабайт.
Скачать новую версию можно здесь.
Для обновления текущей версии 1.01 достаточно заменить файл script-wa-grabber.js в папке scripts на файл из архива.
P.S. В ближайшее время планирую добавить функционал хранения страниц с помощью ModRewrite и скрипта на PHP, что позволит сохранять на жесткий диск копии любых динамических сайтов.
Очень шустро скачало сайт, хотя и не полностью (хотя в сеттингс я поставил 50 потоков, но, похоже, работали все 900 запланированных). Я не совсем понял, считает ли сама прога, что она все сделала, т.к. кн. Старт осталась нажатой, но она уже ничего не делает.
В папке результатов три подпапки с годами, а объединялись ли там (если да, то как) версии в рамках года я не очень понял.
Недостаток: почему-то не скачались страницы вида домен/news.htm?nid=555 - хотя в вебархиве они есть.
Вот это бы поправить, и чтоб все выкачивало. А еще (но это, возможно, надо отдельной программой не при скачивании) - делать наиболее полную версию сайта (за основу последнюю копию, и дальше искать недостающие страницы в предыдущих) - было бы здорово.
В целом же скрипт очень крутой. Думаю, после доведения напильником ему не будет равных.
ЗЫ: кстати, не знаю, кто инициатор такой фичи, но исходный сайт в кодировке 1251, а скачанный в утф-8 (соотв. барузер это показывает только после ручного выставления кодировки или правки заголовков страниц).
Mike05,
А у вас собственно было с чем сравнивать ????
Я так понимаю, автор продвигает собственно не сам скрипт а систему CheckParams
Лицензия на которую стоит 35 баксов в год.
А отдельные подобные скрипты стоят 35 баксов не год а навсегда.
http://seomoneys.net/?p=295
Это я к тому, что бесплатность данного продукта - весьма относительна :)