Давайте поговорим о скане

Kedr777
На сайте с 06.12.2010
Offline
111
613

На многих темах встречал пугалки про скан, некоторые вспоминали прошлую тему, ссылку на которую уже никто не помнит. Вопрос актуальный и думаю, будет интересен всем. Сразу прошу не загружать тему постами об авторских правах, т.к. скан бывает разный и может быть согласован с автором текста, либо тексты покупаются на бирже, как копирайт, а на самом деле это может быть скан.

В общем, сейчас найти "чистый" проект также сложно, как девственницу в публичном доме.

Какие алгоритмы используют поисковики для выявления скана? Например, у меня есть дневник одной леди, напечатанный на машинке в виде рукописи, сканирую и публикую на своём сайте и ...

Как можно отличить этот текст от напечатанного на компе, если все ошибки исправлены (сайт слд и отношение к нему соответственное), что остаётся: буква Ё, так на биржах её тоже нет, виды тире (тире – дефис(-), короткое тире (–) и длинное тире (—). В книгах используется длинное тире, печатаем в основном, используя тире – дефис(-), что ещё?

VF
На сайте с 26.01.2002
Offline
113
VF
#1

Вообще вопрос - зачем поисковику бороться с КАЧЕСТВЕННЫМ сканом? Где почти нет ошибок и всякого мусора вроде спецсимволов в совершенно не подходящих местах. Думаю, у поисковиков нет ни такой цели, ни способов находить хорошо проверенные сканы. А санкции могут быть уже за оформление текста, например автоматическую разбивку на маленькие и близкие по размеру страницы.

aklimovv
На сайте с 18.01.2008
Offline
224
#2

А чего о нём говорить, если вы считаете, что все кругом лохи и ничего не понимают, ваше право. Можете сколь угодно экспериментировать с вашими сайтами, только потом не нужно прибегать на сёрч, с выпученными глазами и воплями забанили сайт за что, ведь такой белый и пушистый. Продавать скан здесь никто не даст и правильно, это чужой труд.

Force68
На сайте с 23.04.2010
Offline
250
#3

Да если скан уник, то что с этого то поисковикам?

Лично я насобирал старых газет, которые выходили в нашем мухосранске в 70 - 80 годы, пробил на уник - везде 100%, даже изданий этих давным давно нет, да и авторы скорей всего почили...

Вот найду время и сделаю на них какой нить сателит - текстов море, есть и кое чего интересное просто почитать - ну и кому какое дело? Поисковикам или родственникам правообладателей? Дак еслиб не я, эти газетёнки давно пионеры на самокрутки пустили

zTDS - бесплатная TDS (https://t.me/z_tds)
Kedr777
На сайте с 06.12.2010
Offline
111
#4
aklimovv:
А чего о нём говорить, если вы считаете, что все кругом лохи и ничего не понимают, ваше право. Можете сколь угодно экспериментировать с вашими сайтами, только потом не нужно прибегать на сёрч, с выпученными глазами и воплями забанили сайт за что, ведь такой белый и пушистый. Продавать скан здесь никто не даст и правильно, это чужой труд.

Во первых, продавать скан никто не собирается!

Во вторых, мне просто нужно опубликовать рукопись на сайте и меня беспокоит вопрос о скане, не перепечатывать же мне сотню страниц вручную. Для сомневающихся могу предоставить доказательства на право размещения страниц рукописи на своём сайте. (скину ссылку после размещения и к/д автора - девушки, которая предоставила её, что автор именно она, я не сомневаюсь, т.к. лично знаком.)

Зачем опускать человека ниже плинтуса, когда он просит совета? Разве форум существует не для того, чтобы делиться знаниями и получать эти знания самим.

aklimovv:
с выпученными глазами и воплями забанили сайт

Не такое прошёл за жизнь, с выпученными глазами никогда бегал. За сайт точно не побегу и сопли пускать не буду.

VF
На сайте с 26.01.2002
Offline
113
VF
#5
Kedr777:
Во вторых, мне просто нужно опубликовать рукопись на сайте и меня беспокоит вопрос о скане, не перепечатывать же мне сотню страниц вручную.

А это уже паранойя 🚬. Проверьте как следует распознанный текст и публикуйте. Если это качественная распечатка, содержащая в основном текст (без формул и т.п.), то ошибок будет меньше при распозновании, чем при наборе вручную.

Страшилка для параноиков: может FineReader пересылает весь распознанный текст своим авторам, а они продают его поисковикам? 🙅 😂

Kedr777
На сайте с 06.12.2010
Offline
111
#6
VF:
А это уже паранойя 🚬. Проверьте как следует распознанный текст и публикуйте. Если это качественная распечатка, содержащая в основном текст (без формул и т.п.), то ошибок будет меньше при распозновании, чем при наборе вручную.

Страшилка для параноиков: может FineReader пересылает весь распознанный текст своим авторам, а они продают его поисковикам? 🙅 😂

Спасибо, друг! Хоть один человек нашёлся, кто по теме ответил, а то здесь точно можно параноиком стать))

P.S.

Саня, не надо анонимно гадости в личку писать!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий