Попробуйте какую-нибудь утилиту для чистки текста - Сервисы и программы для работы с SE

31

Nogr1k

13 апреля 2009, 22:20

#21

Мартовский Заяц:
В процессе импорта выравнивание теряется при чистке кода. Попытки манипулировать списком неудаляемых тегов провалились. В редакторе возможности выровнять текст нет. Выставлять выравнивание вручную тегами для одной статьи еще ничего, для нескольких десятков или сотен - лучше застрелиться.
Неплохо было бы, если бы программа умела брать картинки прямо из HTML. То бишь, если в HTML-файле есть картинки, они переносились бы в _images автоматом (лучше, если такая возможность будет опциональна). А то, если уже есть файл с кучей вставленных картинок, перегонять их по одиночке в код очень муторно.

Если статьи не были сохранены из ворда, и в HTML нет лишнего мусора, то можно легко избежать данной проблемы. Во время импорта HTML, отключите опцию "Удалять ненужные теги (Word)". При этом все атрибуты тегов останутся без изменений. К тому же, даже при включенной опции "Удалять ненужные теги (Word)" можно избежать проблемы, если в настройках программы удалить необходимые элементы из списка тегов, для которых очищаются атрибуты.

Копирование рисунков в папку "_images" происходит только во время экспорта и только для картинок, src которых начинается с "file://localhost/". Советую обратить внимание на возможность поиска и замены текста во время парсинга HTML.

Если ни одно из вышеперечисленного не помогло, то вышлите мне, пожалуйста, пример исходного HTML файла (до парсинга) в личку.

На самом деле, парсер довольно сыроват и недостаточно гибок, мы постоянно улучшаем его возможности и производительность.

Мартовский Заяц:
Я не уверен, что кому-нибудь кроме меня это будет полезно, хотя я бы очень обрадывался. Позвольте, я объясню подробнее, чтобы всем стало понятнее (может еще кому захочется:).
...

Ваша идея ясна, спасибо. В принципе, реализовать такую возможность можно, но на это понадобится время, которого, к сожалению, очень не хватает. Возможно, в будущих версиях textKit появится подобная функция, а если она окажется востребованной, то появится раньше. Тем не менее, я постараюсь придумать, как упростить Вам жизнь в следующих релизах :)

Спасибо за интерес к разработке!

Nogr1k добавил 14.04.2009 в 02:31

Nogr1k:
Для работы приложения требуется установленный Microsoft .NET Framework не ниже 2.0 версии. Проверьте его наличие и при необходимости установите (скачать можно с сайта Microsoft).

Вот ссылочка для скачивания (22.4 МБ).

Промокод TKAJI (http://textkit.ru/buy/?code=TKAJI) на покупку TextKit со скидкой для форумчан.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

100

Старина

14 апреля 2009, 11:22

#22

Подготовлено видео по работе с программой textKit.

На видео:

подготовка Word-файла для импорта в программу
сохранение Word-файла в HTML Word
парсинг сохраненного файла
общий вид редактора программы и визуального представления проделанной работы
создания словаря меток и расстановка меток в автоматическом режиме
вставка картинок
сохранение в xml-файл экспорта WordPress

Посмотреть можно здесь:

http://textkit.ru/import-kontenta-iz-html-word/

Скачать программу можно по прежнему на сайте:

http://textkit.ru/download/

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

V

106

vikuz

14 апреля 2009, 14:20

#23

Любопытная прога, будет время посмотрю. Как я понял основное назначение - быстро парсить контент из различных источников (всяких rss-фидов, вордовских доков и т.п.) и дальше публиковать его. Или в чем основное назначение?

SEOInst.ru - Каталог инструментов seo-оптимизатора (http://seoinst.ru) - online-сервисы, специализированный софт, биржи ссылок и статей, ссылки на полезные ресурсы и другое. Все необходимое оптимизатору в одном месте!

Какая-то странная проблема с Google расценивает комментарии как Упал доход

N1

31

Nogr1k

14 апреля 2009, 15:22

#24

vikuz, по сути, так и есть. Основным назначением textKit остается импорт контента из одного источника и преобразование в другой. В будущем мы расширим функционал для обработки самого текста (в т. ч. визуальный редактор) и массовой операции над записями (автоматическая вставка картинок, seo анализ и оптимизация текста, проверка на уник в ПС).

Планов достаточно много (только на данный момент в TODO-листе имеется около 30 пунктов) и, в принципе, скорость их реализации будет зависеть от активности тестеров и пользователей textKit.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

V

106

vikuz

14 апреля 2009, 16:26

#25

Удачи! Аналогов я не видел.

МЗ

7

Мартовский Заяц

14 апреля 2009, 18:47

#26

Nogr1k:
Если статьи не были сохранены из ворда

В том-то и дело, что из ворда. HTML-код ворда во всех странах уже давно признан разновидностью порнографии, но уж больно я привык работать с текстом в ворде. Если убрать из списка тегов, для которых очищаются атрибуты, то выравнивание никуда не пропадает, но в коде все равно остается много ерунды. В принципе, терпимо. Можно, кстати, попробовать какую-нибудь утилиту для чистки html - тоже вариант, хотя по мне проще смириться с некоторым количеством лишних атрибутов в теге .

Про картинки - это я до кучи сказал, сам предпочитаю ручками вставлять и alt прописывать.

А вот такой вопрос: вы не планируете автоматическую вставку ссылок по списку анкоров и urlов.

Размноженный контент в пакетах. Тематика - Форекс (/ru/forum/427479).

N1

31

Nogr1k

14 апреля 2009, 19:23

#27

Мартовский Заяц:
В том-то и дело, что из ворда. HTML-код ворда во всех странах уже давно признан разновидностью порнографии, но уж больно я привык работать с текстом в ворде. Если убрать из списка тегов, для которых очищаются атрибуты, то выравнивание никуда не пропадает, но в коде все равно остается много ерунды. В принципе, терпимо.

На самом деле, решение гораздо проще. Нужно только проявить смекалку :) Например, если для параграфов требуется выставить выравнивание по ширине, то в списке поиска/замен пишем заменить '' на ''. При этом нужно руководствовать следующим. При работе парсера HTML в первую очередь удаляются теги "Удалять все теги, кроме указанных", затем производится очистка от Ворд и очистка атрибутов, после чего устраненяются ошибки типографики, и, наконец, поиск/замена. В следующих версиях постараемся внести изменения, избавляющие от подобных "плясок с бубном" :)

Мартовский Заяц:
Можно, кстати, попробовать какую-нибудь утилиту для чистки html - тоже вариант, хотя по мне проще смириться с некоторым количеством лишних атрибутов в теге .

Как вариант, могу посоветовать сервис WordOff (на начальной стадии разработки textKit именно он использовался для очистки от мусора ворда)

Мартовский Заяц:
Про картинки - это я до кучи сказал, сам предпочитаю ручками вставлять и alt прописывать.

Зря, встроенный редактор неплохо с этим справляется. Кстати, очень скоро будет обновление, позволяющее избежать проблем с существующими картинками в HTML.

Мартовский Заяц:
А вот такой вопрос: вы не планируете автоматическую вставку ссылок по списку анкоров и urlов.

Записал, отличная идея!

Мартовский Заяц, спасибо за дельные советы!

Ждем нового билда. Уже сегодня будет выложено обновление с некоторыми изменениями.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

139

Rchernovol

14 апреля 2009, 20:38

#28

Автор, а почему словари, автометки недоступны?

N1

31

Nogr1k

14 апреля 2009, 20:48

#29

Rchernovol, пока имеются жуткие проблемы с производительностью автометок. Даже небольшой словарь и пара десятков записей вводят систему в "ступор" на непрелично долгий промежуток времени. После необходимой оптимизации кода и проверок автометки станут доступными.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол UXUkraine 2011: доклад Дэйва

64

Ufgo

15 апреля 2009, 20:56

#30

спасибо за софт!

незнаю мож чтото нето делаю... метки не активны..

скидка 5% на ContentDownloader (http://webmaster-alexander.blogspot.com/2013/05/content-downloader.html) Продажа - аккаунтов, ридеректов (http://goo.gl/BHWHd)

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Зачем быть уникальным в мире, где все можно скопировать

Бесплатная утилита для импорта контента в CMS