чистота текста

[Удален]
1045

Интересуют наблюдения народа.

На сколько важна/критична чистота текста?

Есть у меня сканированная книжка, текст, судя по разным чекерам, уник, но текст содержит кучу сносок, табличных данных в виде нескольких строк, колонтитулов, номеров страниц и прочего.

Таких книг несколько, чистить все это руками, скажу честно, лениво, да и просто очень долго.

С другой стороны, если мешать текст кейвордкипером, как предлагают многие (ведь не будешь же для каждого дора снова и снова качать/сканировать книги), я думаю получится не меньший бред.

Например слово с большой буквы в середине предложения или предложение заканчивающееся запятой.

Вот и возник вопрос, как Яша относится к относительно небольшому, но мусору в тексте.

Может народ как-то автоматически предварительно чистит тексты?

Perfect_Dima
На сайте с 10.12.2009
Offline
26
#1

Разбить текст на предложения до точки, ! или ? так, чтобы каждое предложение было с новой строки, а потом уже кейвордкипером помешать. Для меньшего гимора, можно, сначала заменить восклицание, многоточие и вопрос на точки и уже юзать . как разделитель, занося каждое предложение в новый текстовый файл с новой строки, а потом в KWK.

Какбе я тоже этим вопросом обеспекоен и мне в голову пока вот приходит вышенаписанное, возможно я и не прав.

[Удален]
#2
Perfect_Dima:
Разбить текст на предложения до точки, ! или ? так, чтобы каждое предложение было с новой строки, а потом уже кейвордкипером помешать. Для меньшего гимора, можно, сначала заменить восклицание, многоточие и вопрос на точки и уже юзать . как разделитель, занося каждое предложение в новый текстовый файл с новой строки, а потом в KWK.

Какбе я тоже этим вопросом обеспекоен и мне в голову пока вот приходит вышенаписанное, возможно я и не прав.

ну а как его разбить до точки ?

I
На сайте с 07.10.2008
Offline
71
#3
Dimitrias:
ну а как его разбить до точки ?

к примперу вот что пришло в голову:

меняете ". " на "\n" (всё это без кавычек)

в итоге все предложения, которые оканчивались на точку с пробелом (характерный признак конца предложения) заменится на перевод строки, и следующее предложение будет с новой строчки.

проверял в нотпад++

jcrush
На сайте с 04.07.2004
Offline
371
#4

банят такое, рано или поздно, чистить надо под чистую.

» Блог (http://blog.stfw.ru/) - SEO-заметки. ДВчат: @dvchat (https://t.me/dvchat)
[Удален]
#5
jcrush:
банят такое, рано или поздно, чистить надо под чистую.

все банят! если неделю провисит уже хорошо!

вопрос не в бане, а в индексе, как оно хавается Яшей?

S
На сайте с 12.11.2009
Offline
25
shi
#6
Perfect_Dima:
Для меньшего гимора, можно, сначала заменить восклицание, многоточие и вопрос на точки и уже юзать . как разделитель, занося каждое предложение в новый текстовый файл с новой строки, а потом в KWK.

Не очень удачное решение.

http://www.cir.ru/docs/ips/publications/2009_rcdl_markov.pdf

Я понимаю что перемешанный текст не марковка, но из-за того, что будут убраны отличные от точки знаки препинания, то подобный алгоритм может сработать.

Spaike
На сайте с 30.03.2009
Offline
152
#7

конечно лучше ручками, хоть и муторно, но это будет самое лучшее, что можно сделать. Если залить текст как есть +бан через 2-3 апа, особенно яша не любит вот такой знак "¬"

покупаю сайты

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий