Гугл теперь индексирует сканы?

Sutener
На сайте с 24.04.2009
Offline
124
1565

Google научил свой поисковик индексировать отсканированные текстовые страницы. При этом, текст изображения распознается самостоятельно самой поисковой системой.

ссылка на источник

Erste-Hilfe Kurs in München https://blr-akademie.de/ für Führerschein und Betriebe *.com *.bat *.bat *.яня *.bat *.яня *.com *.bat
Agor71
На сайте с 20.02.2010
Offline
33
#1

Интересное нововведение. Жаль только, что большинство SEO-специалистов оно не понадобится, поскольку всё же большая часть предпочитает писать тексты в обычном формате, а не PDF.

А школьные и государственные сайты не так сильно относятся к поисковикам, да и вообще, на мой взгляд, особой популярностью они не пользуются.

_vb_
На сайте с 25.07.2009
Offline
104
#2

14.03.2010 Мэт Катц:

Также есть PDF файлы, основанные на сканированных изображениях. Но здесь, однако, в некоторых ситуациях мы можем запускать OCR (Прим. переводчика: программы распознавания текста в изображениях) для таких PDF.

Может и раньше у них это было, просто не говорили.

Саратовская фракция серча (). Давайте посчитаемся.
sunseeker7
На сайте с 02.06.2009
Offline
73
#3

Гугл уже давно индексирует скан. Где только берут эти новости.

Live to Win, Dare to Fail
angr
На сайте с 11.05.2006
Offline
413
#4

pdf читался гуглом уже давно, новость баян и больше всего смахивает на спам говно-блога, ТС - категорический незачет!

Требуется СЕО-Специалист в Кишиневе, в офис. ()
Sutener
На сайте с 24.04.2009
Offline
124
#5

Неее, блог не мой. Его я сегодня первый раз увидел. Та же самая инфа есть ещё здесь и здесь.

То что пдф гуглом сканируется(и даже бывает в выдаче)-я знаю. Просто я понял так, что гугль теперь и текст с картинок может распознать?

Джо Саратини
На сайте с 30.10.2009
Offline
196
#6

PDF бывает разный. Есть "явный" текст (то есть его можно "сохранить как текст" в Акробате, к примеру), а есть кодированный - его можно "увидеть" и вытащить только специальным софтом. Возможно, что говорится именно про такой текст, 100 % утверждать не могу, конечно же.

[Гори в аду, Карл ! (http://neprimirim.net/idi-naxuj-karl.php)] [Последняя резиденция королей (http://proza.ru/2017/02/16/2175)] [Продолжение рассказа В.Цоя "Романс" (http://neprimirim.net/romans-viktora-tsoya-prodolzhenie.php)]
sunseeker7
На сайте с 02.06.2009
Offline
73
#7

Я был связан со сканом с прошлого года, и точно могу сказать что гугл видел как "явный" текст, так и просто необработанные картинки.

Jaf4
На сайте с 03.08.2009
Offline
804
#8
Джо Саратини:
PDF бывает разный. Есть "явный" текст (то есть его можно "сохранить как текст" в Акробате, к примеру), а есть кодированный - его можно "увидеть" и вытащить только специальным софтом. Возможно, что говорится именно про такой текст, 100 % утверждать не могу, конечно же.

Кодированный - это "в кривых" наверное, когда текста нет, а используемые шрифты не оговариваются, записывается только вектор (подготовка макетов к печати предполагает как раз такое преобразование, CTRL+Shift+o, Крейт аутлайнс). Такие документы скорее всего и начались распознаваться.

Если в акробате текст можно выделить курсором - это просто текстовый документ. Если нельзя = скорее всего в кривых. Думаю, что именно такой текст и начал распознавать гугл.

New! NVMe VPS от SmartApe.ru (https://goo.gl/eoYYkS)
Ecclesio
На сайте с 10.12.2009
Offline
55
#9

Гугл ещё много чего умеет и не только пдф текст распознавать, помимо пдф, он хорошо хавает картинки .png/.gif с Arial текстом (про другие не знаю), что очень на руку оптимизатору, который прячет свой контент от плагиаторов.

S
На сайте с 29.01.2006
Offline
404
#10

Jaf4, бывает защищенный pdf - пока не введешь пароль, нельзя скопипастить или распечатать.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий