- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Кто наталкивался на разбор таблиц из PDF? Например, есть документ, нужно на PHP вытащить из него все таблицы и сконвертировать из в csv формат.
Слава, если это идеальные таблицы, то будет просто очень сложно. Имхо.
По сути данные в таблице pdf размещены так:
Каждое число имеет свои координаты. Правильная таблица (как эта) еще может претендовать на что-то, но платежки в базу я бы не стал таким макаром парсить ;)
Мне что-нибудь простенькое надо - прайс-листы разбирать.
Мне что-нибудь простенькое надо - прайс-листы разбирать.
Барин, тут локального-то конвертера, днём с адронным коллайдером наперевес не сыщешь, а ты хочешь отлаженные, чистые и умытые библиотеки найти... легче упиццо кефиром до этил-эфир-фталатовых откровений.
Также ИМХО. :)
Барин, тут локального-то конвертера, днём с адронным коллайдером наперевес не сыщешь, а ты хочешь отлаженные, чистые и умытые библиотеки найти... легче упиццо кефиром до этил-эфир-фталатовых откровений.
Не, ну для Excel нашёл же, да и из HTML-страничек прайсы научился опознавать и выдирать. Так что может кто видел... В Гугле долго искал - не нашёл 🙄
Не, ну для Excel нашёл же, да и из HTML-страничек прайсы научился опознавать и выдирать.
Щастливец. :) Видать, и впрямь простые файлы у тя. Но PDF - зело труднее.
Скриптовые варианты я видел в том году где-то, в буржунете. Пошукал по форуму (и в админской среде) программёров, и решил плюнуть на это дело, после пятка-другого разговоров. Слюною прям. :)
Хотя, может сейчас всё по другому уже.
да и из HTML-страничек прайсы научился опознавать и выдирать.
Сравнил тоже. В html разметка, а тут фиг с постным маслом. В excel да, пару софтин переводят нормально... нормальные таблицы.
А зачем в PHP, а потом в csv?
Кажется где-то встречал из pdf в txt,
или даже в xls.
А зачем в PHP, а потом в csv?
o0 ога, дизассемблируй сразу!
А зачем в PHP, а потом в csv?
Системный подход учит нас брать разные типы файлов и первым делом приводить к одному типу. Тому, который наиболее удобен для быстрого разбора с минимумом потребляемой памяти и упрощённой отладкой. Например, к файлу в csv формате. А дальше, получив данные в нужном формате, делать с ними, что Богу надобно. Таково Дао архитектора больших систем.
Слава Шевцов добавил 22.09.2008 в 00:23
Каждое число имеет свои координаты. Правильная таблица (как эта) еще может претендовать на что-то, но платежки в базу я бы не стал таким макаром парсить
Платёжки - это святое. У меня целостность и корректность всех данных не критична.