Гугль будет индексировать все что движется?

54

SeoTron

4 ноября 2008, 20:29

1246

Итак, собственно, все уже знают, что Google любитель логиниться на сайтах и форумах, и получать доступ к невидимой для обычного краулера (скажем так) информации.

Недавно Google подключила к индексации pdf документов OCR движок (как известно, отсканированные pdf не все содержат текстовый слой, а если быть точнее, то очень редкие документы его имеют). Так вот теперь распознавание будет производиться на лету, и те документы, которые мы сканировали но не распознавали будут включены в индекс.

Не очень ясно, в некоторых случаях pdf специально создается для того, чтобы напрямую не выкладывать текст. Использовать robots? Какие то лишние движения..

Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем), залогиниться на зайте, стянуть в закрытой (ну скажем так для пользователей) части pdf, распознать его, проиндексировать, да еще и сделать доступным по поиску? Про JS и flash уж не говорю, тут ясно все. Походу скоро и картинки будут распознаваться на предмет вхождения текстовой информации..

p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.

K

35

Kuznets

4 ноября 2008, 20:36

#1

SeoTron:
Итак, собственно, все уже знают, что Google любитель логиниться на сайтах и форумах, и получать доступ к невидимой для обычного краулера (скажем так) информации.

Недавно Google подключила к индексации pdf документов OCR движок (как известно, отсканированные pdf не все содержат текстовый слой, а если быть точнее, то очень редкие документы его имеют). Так вот теперь распознавание будет производиться на лету, и те документы, которые мы сканировали но не распознавали будут включены в индекс.

Не очень ясно, в некоторых случаях pdf специально создается для того, чтобы напрямую не выкладывать текст. Использовать robots? Какие то лишние движения..

Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем), залогиниться на зайте, стянуть в закрытой (ну скажем так для пользователей) части pdf, распознать его, проиндексировать, да еще и сделать доступным по поиску? Про JS и flash уж не говорю, тут ясно все. Походу скоро и картинки будут распознаваться на предмет вхождения текстовой информации..

p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.

Насколько я знаю получение закрытой информации идет в разрез с законодательством США и многих европейских стран, пойтет ли гугл на это?

B

161

bober

4 ноября 2008, 22:43

#2

SeoTron:
Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем)

ИМХО это может нравиться или не нравиться, но ничего ненормального здесь не вижу. Никто никому ничего не обещал, насколько мне известно - о каких "нормах" Вы говорите? Если хочется скрыть инфу - не выкладывайте ее в Инет. Если она запаролена, то, проиндексирована она или нет, посторонний юзер до нее не доберется. На чей-либо персональный комп паук не полезет, а если Вы что-то выложили в виртуальной директории - почему нет? Запретите роботсом, и но проблем.

Помощь в фильтрации ботов AdBlock перегибает или трудно Магазин Доменов Рег.ру -

369

basilic

4 ноября 2008, 22:53

#3

Все идет к тому что нужно будет делать robots.txt к собственным машинам

B

161

bober

4 ноября 2008, 23:27

#4

basilic:
Все идет к тому что нужно будет делать robots.txt к собственным машинам

А что, есть сведения, что Google их у кого-то уже угонял? :)

409

SAlex

5 ноября 2008, 05:26

#5

Вероятно у Гугла в штатном расписании есть несколько юристов неплохой квалификации. Вряд ли большая империя станет заниматься противозаконными действиями небольшого масштаба - типа как по карманам мелочь тырить.

369

basilic

5 ноября 2008, 06:33

#6

bober:
А что, есть сведения, что Google их у кого-то уже угонял? :)

ну так топик про

Гугль будет индексировать все что движется?

Ну а если серьезно, то где-то в инете я не так давно читал, что то что находится в индексе (инфа) - это верхушка айсберга, самое ценное это инфа на компьютерах пользователей и к ней google стремится добраться🙄

207

Dweep

5 ноября 2008, 07:34

#7

Толку гуглу с закрытой информации, если пользователь клацнув по результатам поиска не сможет ее увидеть... С чего вы взяли что гугл логинится на сайты и форумы?

95

tokareff

5 ноября 2008, 07:46

#8

Видимо с того, что бывает по нужному запросу выдает какой-нить форум, но при переходе этот же форум пишет "необходимо авторизоваться"

42

Yeugeny

5 ноября 2008, 08:19

#9

SeoTron:
...
p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.

Кстати, хороший метод халявного распознавания *.pdf. И FineReader покупать не нужно, экономия опять же ☝

P.S. А если серьёзно - разговоры про законность нахождения авторского контента (не только текста, но и изображений) в кэше поисковых систем обсуждается с завидной регулярностью. И пока никто свою правоту не доказал...

41

novirus

5 ноября 2008, 08:26

#10

Если есть опасение, что гоша украдет ценную инфу закрывайте pdf паролем или пишите грамотно robots.txt, или в крайнем случае есть <noindex>

Пишу черным по белому (http://www.black-and-white.org.ua/)

Курс биткоина превысил $50 тысяч

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ