- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Если на основе этого алгоритма софт будет востребован, то естественно все будет работать автоматом.
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
Библиотека юного техника, подшивка журналофф за 10 лет и файнридер со сканером с листовой подачей. Был у меня такой в распоряжении на одном из предыдущих мест работы. Если не ошибаюсь кодак. 30 листочкоф в минуту.
Если не ошибаюсь кодак. 30 листочкоф в минуту.
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))
[...]парсер[...]
ничего не заметил, тестил в двух броузерах Opera 9.25 и IE 6.0... работает!.. :)
Для меня востребованы скрипты получения сравнительно больших (~ 1 гб) объемов качественных (без всякого мусора в виде обравков тегов, стилей, адракадабры) тектов за сравнительно небольшие сроки (~ 10 часов)... ;)
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс. для адалта парсил, среди прочих, стульчик.нет, для авто - каталог авто.ру. Весьма неплохо. Маловато, конечно, но и не 10 часов потребовалось (не считая парсера, который при наличии наработок делается за сравнительно небольшое время).
а то что тс предлагает, оно как бы не работает, не то чтобы могло насканить гиг безмусорных текстов за 10 часов.
я не верю в приемлимые результаты от универсального парсера. проще сделать распарсивалку под каждый конкретный ресурс.
Зависит от ситуации. С помощью этого алгоритма я парсанул 10 строительных сайтов, из них 1 неправильно парсился. В среднем получил 8000 статей. Потратил 20 минут.
Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).
Вы говорите что данные продукт нафиг ненужен?
Но в конечный продукт могу сделать две функции парсинг автоматом и по шаблону (особенно если необходимы только картинки или файлы какие либо).
Вы говорите что данные продукт нафиг ненужен?
Потестил на нескольких проектах. Тексты собирает отлично.
Продукт однозначно полезный 🚬
Ну тогда мне надо будет сканить 50 000 стриничек в час (а в вашем методе тоьлко 1800 получается) :))) Не когда будет доры то делать! :)))
Там полный автомат. загружаешь и уходишь спать. ) Думаю, что с тех пор (примерно 5 лет) уже есть более производительные сканерочки
Кстати, чето у тебя с математикой не лады. Средняя страница журнала это 35-40 кб текста
Вы говорите что данные продукт нафиг ненужен?
я говорю только то, что лично я его не куплю, не более.
чё от подобное писал, да не дописал. http://seshop.ru/parser/ открываеться пустая страница