Выдрать текст из вордовского файла

12
Revan
На сайте с 09.09.2005
Offline
321
1261

В общем первая моя вменяемая тема на этом форуме :) :

Никто не сталкивался с проблемой выдрать текст из .doc файлов?

Сервер nix'овый. По идее както эта проблема решаема (что видно на примере Яндекса и Гугля индексящих вордовские файлы и вряд ли специально для этого поднимались эмули или сервера с Виндоусом).

Буду рад любым идеям.

С уважением, Прокофьев Александр, founder KudaGo.com (http://kudago.com). Отдаем информацию обо всех мероприятиях в РФ + Киев по API (/ru/forum/912869) всем желающим.
iexpert
На сайте с 01.09.2005
Offline
184
#1

Собственно у любого файла есть формат.

Варианта два:

1. Изучить формат и написать свою программу по чтению этого формата

2. Найти готовую программу для чтения формата и использовать ее.

для поиска рекомендую очень очень www.sf.net

Удачной охоты.

Бойтесь ваших желаний, ибо они могут исполниться
Ayavryk
На сайте с 11.10.2003
Offline
209
#2

Можно попробовать через командную строку OpenOffice. Из него сконвертировать в XML/HTML/plaintext ну и далее через собственный обработчк:

http://xmlhack.ru/texts/06/from-microsoft-to-openoffice/from-microsoft-to-openoffice.html

Может поможет.

Тынгыр, мынгыр, комсомол (http://erum.ru). Ехари, ехари, (жалобно) аяврик. /народная тунгусская песня/
iexpert
На сайте с 01.09.2005
Offline
184
#3
Ank
На сайте с 26.04.2004
Offline
108
Ank
#4

на *nix платформах есть catdoc - все что сможет -покажет

Если точно скажете платформу - можно будет сказать откуда взять его, если не стоит по умолчанию :)

Ссылка за контент ( http://www.acma.ru ) прямая и безответная. ► [url=https://saas24.ru/saas_category/dedicated/?utm_source=forums&utm_medium=signatures&utm_campaign=dedicated_s24]Рейтинг серверов[/url] — ТОП10 ◄
Revan
На сайте с 09.09.2005
Offline
321
#5

iexpert, к сожалению все что я смог найти, а потратил я довольно много времени - все работает только Маздаем и Маздаевскими серверами. В том числе и Ваши классы, но спасибо за потраченное время.

Ayavryk, та же проблема и с этим скриптом - запуск под Виндой только :(

Спасибо за Ваше время.

Revan
На сайте с 09.09.2005
Offline
321
#6
Ank:
на *nix платформах есть catdoc - все что сможет -покажет

Если точно скажете платформу - можно будет сказать откуда взять его, если не стоит по умолчанию :)

О господи. Если это сработает то Вы бох и я вам должен денег имхо :)

Завтра потестим. Спасибо за Ваше время!!!

dkameleon
На сайте с 09.12.2005
Offline
386
#7
Revan:
икто не сталкивался с проблемой выдрать текст из .doc файлов?

или так:

http://www.winfield.demon.nl/

Дизайн интерьера (http://balabukha.com/)
stealthy
На сайте с 15.06.2006
Offline
69
#8

Смотря какую задачу решаете. Если нужно сделать честный конвертер doc в txt, например, то с нуля такая программа (чтобы работать под любой платформой и ни от чего не зависеть) пишется за 8 часов примерно (ну, я по крайней мере за столько времени делал). Ищите описание OLE Compound files и разбирайтесь с форматом. Ничего сложного там нет.

Можно тупой вырезатель текста сделать, для грубого поиска например. Лобовое решение - взять все что более менее похоже на текст из файла - на Perl за 10 минут пишется, благо там регулярные выражения и не такое позволяют выделывать. Но работает естественно через пень-колоду.

А если нужно уметь не только читать, но и записывать в Wordовый файл текст обратно - с этим сложнее. В общем виде решений готовых в сети я не нашел, и даже описаний толковых нету. Воссоздавать структуру этого файла то еще удовольствие. Также если нужно сохранить форматирование текста (шрифты там или еще чего), или выдрать объекты, картинки и все такое - тоже недешево по времени будет.

Можно порыть еще тему laola, если там не очень остро стоит проблема независимости от библиотек. Там был набор программ готовых, правда работало больше для старых вордов (6, 7 версии). Давно не обновлялось это дело, но для общего развития посмотреть обязательно.

Twilight CMS (http://www.twl.ru): есть Free версия, очень проста и удобна в использовании. Консультирую по любым вопросам. Новый спорт - практическая стрельба (http://nikit.in) - не для офисного планктона.
Ank
На сайте с 26.04.2004
Offline
108
Ank
#9
Revan:
О господи. Если это сработает то Вы бох и я вам должен денег имхо
Завтра потестим. Спасибо за Ваше время!!!

Какие ноги, тьфу, деньги. Это в линухе например входит в комплект, и при установке его сложнее снести, чем не поставить... :)

Если у Вас другие юниксы - то я не очень в курсе как там и что...

Mmonger
На сайте с 01.12.2005
Offline
165
#10

Тут подобная проблема обсуждалась: http://talks.mark-itt.ru/forummessage/25/164806.html

Хорошая идея предложена тут: http://sharky.vitos.ru/work/1 - прослойка из JScript, делающая работу с вордовскими файлами независимой от ОС сервера. Там решается задача чтения из файла, но она легко изменяется для записи в файл - вывод делается не на экран, а в POST-переменную, которая потом сабмитится скрипту, пишущему текст из файла в БД или туда, куда вам нужно. Причём JScript-прокладку можно приспособить еще как дополнительный просмотр и редактирование текста перед сохранением.

Всё будет хорошо, но мы приложим усилия!
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий