- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
В общем первая моя вменяемая тема на этом форуме :) :
Никто не сталкивался с проблемой выдрать текст из .doc файлов?
Сервер nix'овый. По идее както эта проблема решаема (что видно на примере Яндекса и Гугля индексящих вордовские файлы и вряд ли специально для этого поднимались эмули или сервера с Виндоусом).
Буду рад любым идеям.
Собственно у любого файла есть формат.
Варианта два:
1. Изучить формат и написать свою программу по чтению этого формата
2. Найти готовую программу для чтения формата и использовать ее.
для поиска рекомендую очень очень www.sf.net
Удачной охоты.
Можно попробовать через командную строку OpenOffice. Из него сконвертировать в XML/HTML/plaintext ну и далее через собственный обработчк:
http://xmlhack.ru/texts/06/from-microsoft-to-openoffice/from-microsoft-to-openoffice.html
Может поможет.
http://phpclasses.segmenta.ru/browse/package/388.html
Да и вообще http://phpclasses.segmenta.ru/browse/class/69.html
Я думаю хватит.
на *nix платформах есть catdoc - все что сможет -покажет
Если точно скажете платформу - можно будет сказать откуда взять его, если не стоит по умолчанию :)
iexpert, к сожалению все что я смог найти, а потратил я довольно много времени - все работает только Маздаем и Маздаевскими серверами. В том числе и Ваши классы, но спасибо за потраченное время.
Ayavryk, та же проблема и с этим скриптом - запуск под Виндой только :(
Спасибо за Ваше время.
на *nix платформах есть catdoc - все что сможет -покажет
Если точно скажете платформу - можно будет сказать откуда взять его, если не стоит по умолчанию :)
О господи. Если это сработает то Вы бох и я вам должен денег имхо :)
Завтра потестим. Спасибо за Ваше время!!!
икто не сталкивался с проблемой выдрать текст из .doc файлов?
или так:
http://www.winfield.demon.nl/
Смотря какую задачу решаете. Если нужно сделать честный конвертер doc в txt, например, то с нуля такая программа (чтобы работать под любой платформой и ни от чего не зависеть) пишется за 8 часов примерно (ну, я по крайней мере за столько времени делал). Ищите описание OLE Compound files и разбирайтесь с форматом. Ничего сложного там нет.
Можно тупой вырезатель текста сделать, для грубого поиска например. Лобовое решение - взять все что более менее похоже на текст из файла - на Perl за 10 минут пишется, благо там регулярные выражения и не такое позволяют выделывать. Но работает естественно через пень-колоду.
А если нужно уметь не только читать, но и записывать в Wordовый файл текст обратно - с этим сложнее. В общем виде решений готовых в сети я не нашел, и даже описаний толковых нету. Воссоздавать структуру этого файла то еще удовольствие. Также если нужно сохранить форматирование текста (шрифты там или еще чего), или выдрать объекты, картинки и все такое - тоже недешево по времени будет.
Можно порыть еще тему laola, если там не очень остро стоит проблема независимости от библиотек. Там был набор программ готовых, правда работало больше для старых вордов (6, 7 версии). Давно не обновлялось это дело, но для общего развития посмотреть обязательно.
О господи. Если это сработает то Вы бох и я вам должен денег имхо
Завтра потестим. Спасибо за Ваше время!!!
Какие ноги, тьфу, деньги. Это в линухе например входит в комплект, и при установке его сложнее снести, чем не поставить... :)
Если у Вас другие юниксы - то я не очень в курсе как там и что...
Тут подобная проблема обсуждалась: http://talks.mark-itt.ru/forummessage/25/164806.html
Хорошая идея предложена тут: http://sharky.vitos.ru/work/1 - прослойка из JScript, делающая работу с вордовскими файлами независимой от ОС сервера. Там решается задача чтения из файла, но она легко изменяется для записи в файл - вывод делается не на экран, а в POST-переменную, которая потом сабмитится скрипту, пишущему текст из файла в БД или туда, куда вам нужно. Причём JScript-прокладку можно приспособить еще как дополнительный просмотр и редактирование текста перед сохранением.