- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Интересуют наблюдения народа.
На сколько важна/критична чистота текста?
Есть у меня сканированная книжка, текст, судя по разным чекерам, уник, но текст содержит кучу сносок, табличных данных в виде нескольких строк, колонтитулов, номеров страниц и прочего.
Таких книг несколько, чистить все это руками, скажу честно, лениво, да и просто очень долго.
С другой стороны, если мешать текст кейвордкипером, как предлагают многие (ведь не будешь же для каждого дора снова и снова качать/сканировать книги), я думаю получится не меньший бред.
Например слово с большой буквы в середине предложения или предложение заканчивающееся запятой.
Вот и возник вопрос, как Яша относится к относительно небольшому, но мусору в тексте.
Может народ как-то автоматически предварительно чистит тексты?
Разбить текст на предложения до точки, ! или ? так, чтобы каждое предложение было с новой строки, а потом уже кейвордкипером помешать. Для меньшего гимора, можно, сначала заменить восклицание, многоточие и вопрос на точки и уже юзать . как разделитель, занося каждое предложение в новый текстовый файл с новой строки, а потом в KWK.
Какбе я тоже этим вопросом обеспекоен и мне в голову пока вот приходит вышенаписанное, возможно я и не прав.
Разбить текст на предложения до точки, ! или ? так, чтобы каждое предложение было с новой строки, а потом уже кейвордкипером помешать. Для меньшего гимора, можно, сначала заменить восклицание, многоточие и вопрос на точки и уже юзать . как разделитель, занося каждое предложение в новый текстовый файл с новой строки, а потом в KWK.
Какбе я тоже этим вопросом обеспекоен и мне в голову пока вот приходит вышенаписанное, возможно я и не прав.
ну а как его разбить до точки ?
ну а как его разбить до точки ?
к примперу вот что пришло в голову:
меняете ". " на "\n" (всё это без кавычек)
в итоге все предложения, которые оканчивались на точку с пробелом (характерный признак конца предложения) заменится на перевод строки, и следующее предложение будет с новой строчки.
проверял в нотпад++
банят такое, рано или поздно, чистить надо под чистую.
банят такое, рано или поздно, чистить надо под чистую.
все банят! если неделю провисит уже хорошо!
вопрос не в бане, а в индексе, как оно хавается Яшей?
Для меньшего гимора, можно, сначала заменить восклицание, многоточие и вопрос на точки и уже юзать . как разделитель, занося каждое предложение в новый текстовый файл с новой строки, а потом в KWK.
Не очень удачное решение.
http://www.cir.ru/docs/ips/publications/2009_rcdl_markov.pdf
Я понимаю что перемешанный текст не марковка, но из-за того, что будут убраны отличные от точки знаки препинания, то подобный алгоритм может сработать.
конечно лучше ручками, хоть и муторно, но это будет самое лучшее, что можно сделать. Если залить текст как есть +бан через 2-3 апа, особенно яша не любит вот такой знак "¬"