Очередной WebArchive граббер

dkameleon
На сайте с 09.12.2005
Offline
386
2426

Решил тут в свободное от работы время размяться и написал быстренько граббер.

Но хотелось бы оттестировать все ньюансы, и сделать нормальный (возможно, коммерческий) продукт.

Поэтому с радостью выслушаю:

- пожелания по функционалу.

- пожелания по стоимости и условиям личензирования.

- возьму несколько средних сайтов для тестирования граббера. бесплатно. будет плюсом, если сможете сравнить результат с работой какого-то другого граббера.

Дизайн интерьера (http://balabukha.com/)
РС
На сайте с 24.06.2009
Offline
53
#1
dkameleon:

- пожелания по стоимости и условиям личензирования.

Стоимость 0$, желательно на QT и кроссплотформенно, с иходниками на code.google.com, заранее спасибо, и скажите когда выложите примерно.

dkameleon
На сайте с 09.12.2005
Offline
386
#2
РаСо:
Стоимость 0$, желательно на QT и кроссплотформенно, с иходниками на code.google.com, заранее спасибо, и скажите когда выложите примерно.

Прошу заметить, я о языке программирования не спрашивал :)

На чем напишу - на том и будут кушать.

R
На сайте с 28.03.2006
Offline
128
#3

***************

База сайтов Яндекс каталога (http://www.plati.com/asp/pay.asp?idd=2082558&ai=508952) (Март, 2016).
[Удален]
#4

1.Сохранение всяких "хитрых" урлов со спец-символами через ModRewrite

2.Перелинковка

3.Авто удаления/добавления определенного кода в тело страницы

4.Импорт сайта в файлы импорта для двигов

5.Чистка кода

6.Возможность удаление внешних ссылок,счетчиков и т.д.

7.Поиск недостающих страниц с других дат

8.Карта сайта

9.Выбор даты

10.Замена недостающих картинок на новые по теме сайта :)

11.Сохранение статей с выкаченного сайта в пдф со вставкой своих ссылок :)

dkameleon
На сайте с 09.12.2005
Offline
386
#5
puika:
2.Перелинковка

подробнее пожалуйста.

puika:
4.Импорт сайта в файлы импорта для двигов

ну это уже задача для граберов сайтов на конкретных двигах.

полностью самодостаточный функционал.

puika:

10.Замена недостающих картинок на новые по теме сайта

Приму в дар алгоритм определения темы сайта :)

puika:

11.Сохранение статей с выкаченного сайта в пдф со вставкой своих ссылок

чем больше пунктов, не относящихся к граббингу - тем дольше ждать качественного результата.

предлагаю не распыляться на универсальный комбайн.

ПС. Напоминаю: давайте сайты - выкачаю нахаляву.

dkameleon добавил 19.10.2011 в 18:52

puika:

9.Выбор даты

Кстати, я заметил, что даты снапшотов - это только точки входа, на самом деле существуют файлы в архиве на датах, которые в спике снапшотов не числятся.

dkameleon добавил 20.10.2011 в 03:29

Вот так он сейчас работает:

[Удален]
#6
dkameleon:
подробнее пожалуйста.

Выводить список урлов, которые не получилось загрузить (страницы, картинки и т.д)

С возможностью их замены.

ну это уже задача для граберов сайтов на конкретных двигах.
полностью самодостаточный функционал.

Да ладно, думаю не кому не помешает возможность заливать на блоггер к примеру..

Заточка под фрихосты с поддержкой своих доменных имен, под саты как пример.

Приму в дар алгоритм определения темы сайта :)

Не составит труда вести самому тематику, затем напарсить что-то в этом роде

чем больше пунктов, не относящихся к граббингу - тем дольше ждать качественного результата.
предлагаю не распыляться на универсальный комбайн.

Зато в итоге все будет проще и зачем придумали микроволновку, когда есть печка :)

DV
На сайте с 01.05.2010
Offline
644
#7

Всё же повторю просьбу, что уже прозвучала. Возможность импорта в двиги. Если не по профилю¸ то хотя бы складирование данных в CSV/XML.

Кроссплатформенно, это да. Сейчас почти всё время только под Юниксом.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
dkameleon
На сайте с 09.12.2005
Offline
386
#8
puika:

Да ладно, думаю не кому не помешает возможность заливать на блоггер к примеру..
Заточка под фрихосты с поддержкой своих доменных имен, под саты как пример.

конечно не помешает :)

заодно и уникализация текста не помешает, если вдруг окажется не уникальным,

но это уже комбайн, а не граббер :)

я все же нацелен на конкретную задачу.

DenisVS:
Возможность импорта в двиги.

Ребят, ну ведь это НЕ граббер уже будет :)

РС
На сайте с 24.06.2009
Offline
53
#9

Ой, фе, это очередная пхпэ поделка для быстрого срыва денег на котлеты, не зачет.

Коммерческая версия успехом пользоваться не будет, лучше уж Warrick(только не надо говорить что он не работает - 30-40 минут на изменения пару строк и о чудо он опять в строю).

dkameleon
На сайте с 09.12.2005
Offline
386
#10

РаСо, ваша позиция на счет бесплатно, на предпочитаемых вами технологиях, конфетку, да ещё и станцевать - была понятна с первого сообщения :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий