Бесплатная утилита для импорта контента в CMS

N1
На сайте с 21.03.2009
Offline
31
#21
Мартовский Заяц:
В процессе импорта выравнивание теряется при чистке кода. Попытки манипулировать списком неудаляемых тегов провалились. В редакторе возможности выровнять текст нет. Выставлять выравнивание вручную тегами для одной статьи еще ничего, для нескольких десятков или сотен - лучше застрелиться.
Неплохо было бы, если бы программа умела брать картинки прямо из HTML. То бишь, если в HTML-файле есть картинки, они переносились бы в _images автоматом (лучше, если такая возможность будет опциональна). А то, если уже есть файл с кучей вставленных картинок, перегонять их по одиночке в код очень муторно.

Если статьи не были сохранены из ворда, и в HTML нет лишнего мусора, то можно легко избежать данной проблемы. Во время импорта HTML, отключите опцию "Удалять ненужные теги (Word)". При этом все атрибуты тегов останутся без изменений. К тому же, даже при включенной опции "Удалять ненужные теги (Word)" можно избежать проблемы, если в настройках программы удалить необходимые элементы из списка тегов, для которых очищаются атрибуты.

Копирование рисунков в папку "_images" происходит только во время экспорта и только для картинок, src которых начинается с "file://localhost/". Советую обратить внимание на возможность поиска и замены текста во время парсинга HTML.

Если ни одно из вышеперечисленного не помогло, то вышлите мне, пожалуйста, пример исходного HTML файла (до парсинга) в личку.

На самом деле, парсер довольно сыроват и недостаточно гибок, мы постоянно улучшаем его возможности и производительность.

Мартовский Заяц:
Я не уверен, что кому-нибудь кроме меня это будет полезно, хотя я бы очень обрадывался. Позвольте, я объясню подробнее, чтобы всем стало понятнее (может еще кому захочется:).
...

Ваша идея ясна, спасибо. В принципе, реализовать такую возможность можно, но на это понадобится время, которого, к сожалению, очень не хватает. Возможно, в будущих версиях textKit появится подобная функция, а если она окажется востребованной, то появится раньше. Тем не менее, я постараюсь придумать, как упростить Вам жизнь в следующих релизах :)

Спасибо за интерес к разработке!

Nogr1k добавил 14.04.2009 в 02:31

Nogr1k:
Для работы приложения требуется установленный Microsoft .NET Framework не ниже 2.0 версии. Проверьте его наличие и при необходимости установите (скачать можно с сайта Microsoft).

Вот ссылочка для скачивания (22.4 МБ).

Промокод TKAJI (http://textkit.ru/buy/?code=TKAJI) на покупку TextKit со скидкой для форумчан.
Старина
На сайте с 24.10.2008
Offline
100
#22

Подготовлено видео по работе с программой textKit.

На видео:

  • подготовка Word-файла для импорта в программу
  • сохранение Word-файла в HTML Word
  • парсинг сохраненного файла
  • общий вид редактора программы и визуального представления проделанной работы
  • создания словаря меток и расстановка меток в автоматическом режиме
  • вставка картинок
  • сохранение в xml-файл экспорта WordPress

Посмотреть можно здесь:

http://textkit.ru/import-kontenta-iz-html-word/

Скачать программу можно по прежнему на сайте:

http://textkit.ru/download/

V
На сайте с 01.02.2008
Offline
106
#23

Любопытная прога, будет время посмотрю. Как я понял основное назначение - быстро парсить контент из различных источников (всяких rss-фидов, вордовских доков и т.п.) и дальше публиковать его. Или в чем основное назначение?

SEOInst.ru - Каталог инструментов seo-оптимизатора (http://seoinst.ru) - online-сервисы, специализированный софт, биржи ссылок и статей, ссылки на полезные ресурсы и другое. Все необходимое оптимизатору в одном месте!
N1
На сайте с 21.03.2009
Offline
31
#24

vikuz, по сути, так и есть. Основным назначением textKit остается импорт контента из одного источника и преобразование в другой. В будущем мы расширим функционал для обработки самого текста (в т. ч. визуальный редактор) и массовой операции над записями (автоматическая вставка картинок, seo анализ и оптимизация текста, проверка на уник в ПС).

Планов достаточно много (только на данный момент в TODO-листе имеется около 30 пунктов) и, в принципе, скорость их реализации будет зависеть от активности тестеров и пользователей textKit.

V
На сайте с 01.02.2008
Offline
106
#25

Удачи! Аналогов я не видел.

МЗ
На сайте с 21.03.2009
Offline
7
#26
Nogr1k:
Если статьи не были сохранены из ворда

В том-то и дело, что из ворда. HTML-код ворда во всех странах уже давно признан разновидностью порнографии, но уж больно я привык работать с текстом в ворде. Если убрать <p> из списка тегов, для которых очищаются атрибуты, то выравнивание никуда не пропадает, но в коде все равно остается много ерунды. В принципе, терпимо. Можно, кстати, попробовать какую-нибудь утилиту для чистки html - тоже вариант, хотя по мне проще смириться с некоторым количеством лишних атрибутов в теге <p>.

Про картинки - это я до кучи сказал, сам предпочитаю ручками вставлять и alt прописывать.

А вот такой вопрос: вы не планируете автоматическую вставку ссылок по списку анкоров и urlов.

Размноженный контент в пакетах. Тематика - Форекс (/ru/forum/427479).
N1
На сайте с 21.03.2009
Offline
31
#27
Мартовский Заяц:
В том-то и дело, что из ворда. HTML-код ворда во всех странах уже давно признан разновидностью порнографии, но уж больно я привык работать с текстом в ворде. Если убрать <p> из списка тегов, для которых очищаются атрибуты, то выравнивание никуда не пропадает, но в коде все равно остается много ерунды. В принципе, терпимо.

На самом деле, решение гораздо проще. Нужно только проявить смекалку :) Например, если для параграфов требуется выставить выравнивание по ширине, то в списке поиска/замен пишем заменить '<p>' на '<p align="justify">'. При этом нужно руководствовать следующим. При работе парсера HTML в первую очередь удаляются теги "Удалять все теги, кроме указанных", затем производится очистка от Ворд и очистка атрибутов, после чего устраненяются ошибки типографики, и, наконец, поиск/замена. В следующих версиях постараемся внести изменения, избавляющие от подобных "плясок с бубном" :)

Мартовский Заяц:
Можно, кстати, попробовать какую-нибудь утилиту для чистки html - тоже вариант, хотя по мне проще смириться с некоторым количеством лишних атрибутов в теге <p>.

Как вариант, могу посоветовать сервис WordOff (на начальной стадии разработки textKit именно он использовался для очистки от мусора ворда)

Мартовский Заяц:
Про картинки - это я до кучи сказал, сам предпочитаю ручками вставлять и alt прописывать.

Зря, встроенный редактор неплохо с этим справляется. Кстати, очень скоро будет обновление, позволяющее избежать проблем с существующими картинками в HTML.

Мартовский Заяц:
А вот такой вопрос: вы не планируете автоматическую вставку ссылок по списку анкоров и urlов.

Записал, отличная идея!

Мартовский Заяц, спасибо за дельные советы!

Ждем нового билда. Уже сегодня будет выложено обновление с некоторыми изменениями.

R
На сайте с 20.08.2007
Offline
139
#28

Автор, а почему словари, автометки недоступны?

N1
На сайте с 21.03.2009
Offline
31
#29

Rchernovol, пока имеются жуткие проблемы с производительностью автометок. Даже небольшой словарь и пара десятков записей вводят систему в "ступор" на непрелично долгий промежуток времени. После необходимой оптимизации кода и проверок автометки станут доступными.

Ufgo
На сайте с 05.04.2009
Offline
64
#30

спасибо за софт!

незнаю мож чтото нето делаю... метки не активны..

скидка 5% на ContentDownloader (http://webmaster-alexander.blogspot.com/2013/05/content-downloader.html) Продажа - аккаунтов, ридеректов (http://goo.gl/BHWHd)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий