Парсинг html таблиц в свои таблицы?

12
Devvver
На сайте с 02.07.2008
Offline
691
1716

Есть сайты на которых есть таблицы в html режиме(разные сайты, разная верстка, разные по количеству ячеек и столбов).

Я хочу парсить данные в свою таблицу (указанные html таблицы использовать не вариант, так как у меня data table с сортировкой и настройкой). Может есть готовые какие то инструменты? В гугле нахожу только разные подделки с исходниками.

Платные инструменты тоже подходят.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers
SergejF
На сайте с 07.06.2008
Offline
654
#1

Ваши таблицы будут иного формата? Другое количество столбцов, строк. ячеек? Каков алгоритм изменения таблицы?

Momenta... Этнографические заметки: http://www.sbible.ru/vasil1.htm
Devvver
На сайте с 02.07.2008
Offline
691
#2
SergejF:
Другое количество столбцов, строк. ячеек?

Да.

Поэтому возможно лучше парсить данные в какой то формат(exel, svg).

Неужели никто не сталкивался с проблемой? Как вы таблицы то создаете, неужели контент-менеджеры вручную все копируют?

V
На сайте с 30.11.2010
Offline
92
#3
Devvver:
Да.

Поэтому возможно лучше парсить данные в какой то формат(exel, svg).


Неужели никто не сталкивался с проблемой? Как вы таблицы то создаете, неужели контент-менеджеры вручную все копируют?

content downloader разве не справляется?

цена вопроса 1000 руб и время на настройку шаблона вывода.

SergejF
На сайте с 07.06.2008
Offline
654
#4
Devvver:
Как вы таблицы то создаете, неужели контент-менеджеры вручную все копируют?

Мне часто приходится забирать и изменять таблицы из распознанных FineReader'ом документов. Сохраняю из FR в html, копирую из файла код таблицы, удаляю из него форматирование (FR любит добавлять font0, font1. etc), вставляю код таблицы в нужное место на своей странице и уже потом правлю её в визуальном редакторе.

Devvver
На сайте с 02.07.2008
Offline
691
#5
voltest:
content downloader разве не справляется?
цена вопроса 1000 руб и время на настройку шаблона вывода.

Не нравится, так как таблицы разные, на разных сайтах, с разными количествами ячеек и мусором в самих тегах.

Нагуглил Kimono , но там куча багов, онлайн версия сдохла,плагин тоже.

По факту - один из вариантов это использование Google таблиц

Может кто столкнется и будет гуглить ту же проблему - самое легкое решение это

использование функций importHTML и importXML

http://alaev.info/blog/post/6256

https://inweb.ua/blog/google-spreadsheets-import-parse-data/

[Удален]
#6
Devvver:
Есть сайты на которых есть таблицы в html режиме(разные сайты, разная верстка, разные по количеству ячеек и столбов).
Я хочу парсить данные в свою таблицу (указанные html таблицы использовать не вариант, так как у меня data table с сортировкой и настройкой). Может есть готовые какие то инструменты? В гугле нахожу только разные подделки с исходниками.
Платные инструменты тоже подходят.

Закопированная html-ная таблица запросто и верно вставляется в Эксель

Зачем танцы с бубном - Гугловскими таблицами?

Devvver
На сайте с 02.07.2008
Offline
691
#7
miltorg:
Закопированная html-ная таблица запросто и верно вставляется в Эксель

Не поленился и попробовал. Копируется, вместе с внутренними тегами.

А у меня часто элементы таблицы - не только текст, но и картинки с ссылками.

Так вот гиперлинки тоже копируются.

[Удален]
#8
Devvver:
Не поленился и попробовал. Копируется, вместе с внутренними тегами.
А у меня часто элементы таблицы - не только текст, но и картинки с ссылками.
Так вот гиперлинки тоже копируются.

То есть вы в Экселе не можете убрать гиперссылку???!!!

Плюс копирование как в Эксель так и из Экселя может идти "просто как текст"

И там есть ещё куча вариантов.

---------- Добавлено 06.05.2018 в 15:14 ----------

Для парсинга одной таблицы вы предлагаете смотреть ХТМЛ и находить номер этой таблицы. Писать непонятные формулы и в конце концов открывать Гугловские таблицы.

Для того чтоб просто получить элементы единичной таблицы - это вообще не рационально.

У вас образование какое?

---------- Добавлено 06.05.2018 в 15:22 ----------

Даже в Блокнот некоторые таблицы вставляются через Табуляцию

S
На сайте с 30.09.2016
Offline
469
#9
miltorg:
У вас образование какое?

Как-то давно уже не было этой фразы... 🙄

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.
Devvver
На сайте с 02.07.2008
Offline
691
#10
miltorg:
То есть вы в Экселе не можете убрать гиперссылку???!!!

простите, не могу. Их там море получается, опыта работы с Экселем нет.

На многих сайтах копирование отключено :)

miltorg:
У вас образование какое?

Техникум по специальности "Эксплуатация компьютерных систем и сетей", по народному техник-программист. Еще какая инфа нужна?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий