- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Subudayj, просто хочется расставить все точки над I .
Что мы собственно с вами, общими усилиями сделали.
Бесплатный многопоточный парсер WebArchive в виде плагина к платной программе Checkparams
И никаких претензий !
Subudayj, просто хочется расставить все точки над I .
Что мы собственно с вами, общими усилиями сделали.
Бесплатный многопоточный парсер WebArchive в виде плагина к платной программе Checkparams
По существу вопроса можете что-то сказать? :) Как говорится, колхоз - дело добровольное, я никого не призываю ничего покупать.
Subudayj, склоняюсь к 3му варианту. Но лучше поставить голосовалку на этот топик.
Subudayj, склоняюсь к 3му варианту. Но лучше поставить голосовалку на этот топик.
Я сейчас как раз делаю вариант, что абсолютно все ссылки сохраняются на диск (имена файлов будут в виде MD5-хэшей), а потом уже с помощью .htaccess делается редирект на пхпшный скрипт, который сам решает, какую страницу отображать в ответ на запрос веб-сервера. И вот как раз в этом скрипте можно реализовать любую логику перед выводом запрошенной страницы - вставлять код сапы, заменять какие-то части текста и т.д.
В общем, как будет релиз, я приложу пример сохраненной копии сайта, которую можно будет сразу же залить на хостинг без какой-либо "допилки".
Subudayj, а на когда релиз запланирован?
Subudayj, а на когда релиз запланирован?
Думаю, ближе к завтрашнему вечеру.
В связи с этим возникает вопрос: какой способ сохранения сайта вы считает наиболее удобным?
У меня пока есть 3 варианта:
1) Сохранение вспомогательных файлов (стили, картинки, музыка и т.д.) на жесткий диск, запись остального контента в базу данных MySQL с указанием архивной даты
2) Сохранение всего контента на жесткий диск "как есть" с разбивкой на папки по архивным датам
3) Сохранение всего контента в виде php-скриптов, с возможностью автоматического подключения кода биржи ссылок (SAPE и т.д.)
3) Коды бирж щетчики и прочие легко вставить куда нужно дополнительным софтом рекомендую - Multiple File Replace Она также может без особых телодвижений с вашей стороны повырезать все битые ссылки если они будут внешними - просто вырезаются все куски которые начинаются на <a href='http и заканчиваются на </a> а в место этого в то место ставится например код вывода одной сапоссылки :) Блоки которые хотите убрать со всех тысяч страниц статичной версии сайта также Multiple File Replace в помощь.
1) Вариант не нравитя лучше без базы, статику...
2)
А как именно они перезаписываются? Оптимально мне кажется в рамках одного года (или на выбор всего периода) берется самая древняя дата - выкачивается, потом более раньняя выкачивается и накладывается поверх старой (перезаписывает ее) и.т.д. В результате имеем самую последнюю версию сайта, но если в ней отсутствуют страницы которые были в архиве в других датах то они тоже будут в финальной версии.
Особо хочу обратить внимание на то что с битыми ссылками надо точно чего то решать, много битых + сапа = АГС почти 100% неоднократно проверял лично в разных вариациях контента и движков.
Редирект 301 ответом при этом тоже не выход практически тот же эффект, проверенно.
Нужно посмотреть чтоб в итоговом контенте не было особых маркерных кодов, или редких уникальных их сочетаний которые будут на ВСЕХ сайтах таким образом созданным, по таким маркерам (похожестям) яндекс со временем обьединяет все подобные сайты в большую сеть с криминальным признаком. И многие могут уйти в баню. Такие примеры уже были типа особого символа возврат каретки на не качественных сканах, проги по созданию готовых сайтов из кучи контента которые оставляли особые теги и.т.п., потом большая часть таких "промаркированных" сайтов уходит сами понимаете куда... Знаю людей которые специально изучали эту тему говнопризнаки-по-маркеру и эксперименты ставили не единичные. В общем по больше отличий старайтесь делать господа товарищи.
А вообще такой парсер вещь интересная? при соответствующей доработке, просто обязан стать платным :)
3) Коды бирж щетчики и прочие легко вставить куда нужно дополнительным софтом рекомендую - Multiple File Replace Она также может без особых телодвижений с вашей стороны повырезать все битые ссылки если они будут внешними - просто вырезаются все куски которые начинаются на <a href='http и заканчиваются на </a> а в место этого в то место ставится например код вывода одной сапоссылки :) Блоки которые хотите убрать со всех тысяч страниц статичной версии сайта также Multiple File Replace в помощь.
1) Вариант не нравитя лучше без базы, статику...
2)
А как именно они перезаписываются? Оптимально мне кажется в рамках одного года (или на выбор всего периода) берется самая древняя дата - выкачивается, потом более раньняя выкачивается и накладывается поверх старой (перезаписывает ее) и.т.д. В результате имеем самую последнюю версию сайта, но если в ней отсутствуют страницы которые были в архиве в других датах то они тоже будут в финальной версии.
Особо хочу обратить внимание на то что с битыми ссылками надо точно чего то решать, много битых + сапа = АГС почти 100% неоднократно проверял лично в разных вариациях контента и движков.
Редирект 301 ответом при этом тоже не выход практически тот же эффект, проверенно.
Нужно посмотреть чтоб в итоговом контенте не было особых маркерных кодов, или редких уникальных их сочетаний которые будут на ВСЕХ сайтах таким образом созданным, по таким маркерам (похожестям) яндекс со временем обьединяет все подобные сайты в большую сеть с криминальным признаком. И многие могут уйти в баню. Такие примеры уже были типа особого символа возврат каретки на не качественных сканах, проги по созданию готовых сайтов из кучи контента которые оставляли особые теги и.т.п., потом большая часть таких "промаркированных" сайтов уходит сами понимаете куда... Знаю людей которые специально изучали эту тему говнопризнаки-по-маркеру и эксперименты ставили не единичные. В общем по больше отличий старайтесь делать господа товарищи.
А вообще такой парсер вещь интересная? при соответствующей доработке, просто обязан стать платным :)
Андрей, спасибо за предложения, попробую учесть. Релиз новой версии откладывается до выходных - появилось еще несколько идей, которые хотелось бы реализовать.
Сграбил сайтец молниеносно, но не полностью, что то из графики было потеряно в процессе работы программы. Если сделать так чтобы скрипт умел составлять наиболее полную копию сайта за все годы, ценнейшая штука вышла бы.
А так, вариант 3 считаю лучшим.
Друзья, в связи с "ремонтом" веб-архива (ссылка), релиз переносится на день-два, пока веб-архив не заработает в полноценном режиме (пока еще некоторые периоды отдаются с ошибкой).