Гугль будет индексировать все что движется?

12
SeoTron
На сайте с 19.11.2006
Offline
54
1229

Итак, собственно, все уже знают, что Google любитель логиниться на сайтах и форумах, и получать доступ к невидимой для обычного краулера (скажем так) информации.

Недавно Google подключила к индексации pdf документов OCR движок (как известно, отсканированные pdf не все содержат текстовый слой, а если быть точнее, то очень редкие документы его имеют). Так вот теперь распознавание будет производиться на лету, и те документы, которые мы сканировали но не распознавали будут включены в индекс.

Не очень ясно, в некоторых случаях pdf специально создается для того, чтобы напрямую не выкладывать текст. Использовать robots? Какие то лишние движения..

Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем), залогиниться на зайте, стянуть в закрытой (ну скажем так для пользователей) части pdf, распознать его, проиндексировать, да еще и сделать доступным по поиску? Про JS и flash уж не говорю, тут ясно все. Походу скоро и картинки будут распознаваться на предмет вхождения текстовой информации..

p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.

K
На сайте с 17.09.2007
Offline
35
#1
SeoTron:
Итак, собственно, все уже знают, что Google любитель логиниться на сайтах и форумах, и получать доступ к невидимой для обычного краулера (скажем так) информации.

Недавно Google подключила к индексации pdf документов OCR движок (как известно, отсканированные pdf не все содержат текстовый слой, а если быть точнее, то очень редкие документы его имеют). Так вот теперь распознавание будет производиться на лету, и те документы, которые мы сканировали но не распознавали будут включены в индекс.

Не очень ясно, в некоторых случаях pdf специально создается для того, чтобы напрямую не выкладывать текст. Использовать robots? Какие то лишние движения..

Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем), залогиниться на зайте, стянуть в закрытой (ну скажем так для пользователей) части pdf, распознать его, проиндексировать, да еще и сделать доступным по поиску? Про JS и flash уж не говорю, тут ясно все. Походу скоро и картинки будут распознаваться на предмет вхождения текстовой информации..



p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.

Насколько я знаю получение закрытой информации идет в разрез с законодательством США и многих европейских стран, пойтет ли гугл на это?

B
На сайте с 07.02.2005
Offline
161
#2
SeoTron:
Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем)

ИМХО это может нравиться или не нравиться, но ничего ненормального здесь не вижу. Никто никому ничего не обещал, насколько мне известно - о каких "нормах" Вы говорите? Если хочется скрыть инфу - не выкладывайте ее в Инет. Если она запаролена, то, проиндексирована она или нет, посторонний юзер до нее не доберется. На чей-либо персональный комп паук не полезет, а если Вы что-то выложили в виртуальной директории - почему нет? Запретите роботсом, и но проблем.

basilic
На сайте с 16.05.2008
Offline
369
#3

Все идет к тому что нужно будет делать robots.txt к собственным машинам

B
На сайте с 07.02.2005
Offline
161
#4
basilic:
Все идет к тому что нужно будет делать robots.txt к собственным машинам

А что, есть сведения, что Google их у кого-то уже угонял? :)

SAlex
На сайте с 27.07.2008
Offline
409
#5

Вероятно у Гугла в штатном расписании есть несколько юристов неплохой квалификации. Вряд ли большая империя станет заниматься противозаконными действиями небольшого масштаба - типа как по карманам мелочь тырить.

basilic
На сайте с 16.05.2008
Offline
369
#6
bober:
А что, есть сведения, что Google их у кого-то уже угонял? :)

ну так топик про

Гугль будет индексировать все что движется?

Ну а если серьезно, то где-то в инете я не так давно читал, что то что находится в индексе (инфа) - это верхушка айсберга, самое ценное это инфа на компьютерах пользователей и к ней google стремится добраться🙄

Dweep
На сайте с 11.12.2006
Offline
207
#7

Толку гуглу с закрытой информации, если пользователь клацнув по результатам поиска не сможет ее увидеть... С чего вы взяли что гугл логинится на сайты и форумы?

tokareff
На сайте с 30.08.2006
Offline
95
#8

Видимо с того, что бывает по нужному запросу выдает какой-нить форум, но при переходе этот же форум пишет "необходимо авторизоваться"

Yeugeny
На сайте с 01.02.2008
Offline
42
#9
SeoTron:
...
p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.

Кстати, хороший метод халявного распознавания *.pdf. И FineReader покупать не нужно, экономия опять же ☝

P.S. А если серьёзно - разговоры про законность нахождения авторского контента (не только текста, но и изображений) в кэше поисковых систем обсуждается с завидной регулярностью. И пока никто свою правоту не доказал...

novirus
На сайте с 26.05.2008
Offline
41
#10

Если есть опасение, что гоша украдет ценную инфу закрывайте pdf паролем или пишите грамотно robots.txt, или в крайнем случае есть <noindex>

Пишу черным по белому (http://www.black-and-white.org.ua/)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий