Как воспримут поисковики текст в таком виде ? или как его сконверитить ?

[Удален]
582

В общем проблема такая

при конвертации PDF в HTML

на выходе софт заменяет все русские буквы на их HTML-коды

т.е. получается вот так примерно ...


<TR class="tr0">
<TD class="td0"><FONT class="ft14">& #1059;& #1089;& #1086;& #1074;& #1086;& #1077;

вот хочу узнать как воспримут поисковики странички в таком виде ....

отображается то оно нормально прям как надо ... а вот внутри ... сплошные коды ни единой русской буквы ...

или может кто посоветует софтинку которая может это конвертнуть в приличный вид ...

т.е. поменять HTML коды на сами буквы ...

???

DV
На сайте с 01.05.2010
Offline
644
#1

В любом случае надо сконвертить, хотя бы для порядку.

А коды такие получаются, потому что софтина у вас выдаёт западноевропейскую кодировку. Настройте её на отдачу UTF-8 или WIN-1251, либо поищите замену, либо используйте промежуточные форматы, RTF, например.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
[Удален]
#2

софтину настроить не получится .....

через промежуточный формат - код в итоге полное гавно ....

аналогов софта не нашел ... точнее перепробывал кучу но опять же в итоге код - гавно ...

а конвертить надо массово ... и доводить до чистоты каждый документ это у меня пару лет уйдет ...

так что нужен отдельный софт который бы конвертил все в нормальные буквы .... есть предложения ? а то я что-то ничего не нагуглил ...

eugene-last
На сайте с 16.04.2010
Offline
57
#3
DOKTOR_666:
софтину настроить не получится .....

через промежуточный формат - код в итоге полное гавно ....
аналогов софта не нашел ... точнее перепробывал кучу но опять же в итоге код - гавно ...

а конвертить надо массово ... и доводить до чистоты каждый документ это у меня пару лет уйдет ...

так что нужен отдельный софт который бы конвертил все в нормальные буквы .... есть предложения ? а то я что-то ничего не нагуглил ...

Както же китайскую грамоту поисковики воспринимают... Воспримят и твой... собственно изобретенный язык...

Интересный сайт знакомств - insenti.ru (http://insenti.ru)
[Удален]
#4
Както же китайскую грамоту поисковики воспринимают... Воспримят и твой... собственно изобретенный язык...

флудить просто ни о чем идите плиз в другое место .....

если есть что сказать по теме - говорите

MalikS
На сайте с 07.11.2010
Offline
28
#5

DOKTOR_666, сохраняйте текст из pdf в текстовый файл, в текущем виде, затем с помощью какой-либо утилиты делайте замену значений символов (которые у вас) на их представление.

Если навыков программирования нет, то такую задачу на фрилансе возьмутся решить за пару сотен. В дальнейшем через эту программу прогоняйте все тексты, где необходимо произвести замену.

Как программист не вижу проблемы в такой утилите. Рад был бы помочь, но времени, к сожалению нет.

В таком виде, мне кажется не очень желательно размещать текст на сайте.

ТРИФОРС (http://trifors.ru) - товары для бокса и единоборств
Александр
На сайте с 03.04.2009
Offline
62
#6

Сканируйте и распознавайте pdf через FineReader...

[Удален]
#7
затем с помощью какой-либо утилиты делайте замену значений символов (которые у вас) на их представление

так вот поиски такой утилиты не увенчались успехом к сожалению (((

Сканируйте и распознавайте pdf через FineReader...

а это то тут причем ??

у меня пдф-ки все не в графике ... а с вполне нормальным текстом ... их распозновать не надо ...

проблема их в html сохранить чтобы исходный код страницы был вменяемым

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий