- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
Библиотека юного техника, подшивка журналофф за 10 лет и файнридер со сканером с листовой подачей. Был у меня такой в распоряжении на одном из предыдущих мест работы. Если не ошибаюсь кодак. 30 листочкоф в минуту.
Если не ошибаюсь кодак. 30 листочкоф в минуту.
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))
[...]парсер[...]
ничего не заметил, тестил в двух броузерах Opera 9.25 и IE 6.0... работает!.. :)
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо. Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).
а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс.
Зависит от ситуации. С помощью этого алгоритма я парсанул 10 строительных сайтов, из них 1 неправильно парсился. В среднем получил 8000 статей. Потратил 20 минут.
Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).
Вы говорите что данные продукт нафиг ненужен?
Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).
Вы говорите что данные продукт нафиг ненужен?
Потестил на нескольких проектах. Тексты собирает отлично.
Продукт однозначно полезный 🚬
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))
Там полный автомат. загружаешь и уходишь спать. ) Думаю, что с тех пор (примерно 5 лет) уже есть более производительные сканерочки
Кстати, чето у тебя с математикой не лады. Средняя страница журнала это 35-40 кб текста
Вы говорите что данные продукт нафиг ненужен?
я говорю только то, что лично я его не куплю, не более.
чё от подобное писал, да не дописал. http://seshop.ru/parser/ открываеться пустая страница