- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Итак, собственно, все уже знают, что Google любитель логиниться на сайтах и форумах, и получать доступ к невидимой для обычного краулера (скажем так) информации.
Недавно Google подключила к индексации pdf документов OCR движок (как известно, отсканированные pdf не все содержат текстовый слой, а если быть точнее, то очень редкие документы его имеют). Так вот теперь распознавание будет производиться на лету, и те документы, которые мы сканировали но не распознавали будут включены в индекс.
Не очень ясно, в некоторых случаях pdf специально создается для того, чтобы напрямую не выкладывать текст. Использовать robots? Какие то лишние движения..
Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем), залогиниться на зайте, стянуть в закрытой (ну скажем так для пользователей) части pdf, распознать его, проиндексировать, да еще и сделать доступным по поиску? Про JS и flash уж не говорю, тут ясно все. Походу скоро и картинки будут распознаваться на предмет вхождения текстовой информации..
p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.
Итак, собственно, все уже знают, что Google любитель логиниться на сайтах и форумах, и получать доступ к невидимой для обычного краулера (скажем так) информации.
Недавно Google подключила к индексации pdf документов OCR движок (как известно, отсканированные pdf не все содержат текстовый слой, а если быть точнее, то очень редкие документы его имеют). Так вот теперь распознавание будет производиться на лету, и те документы, которые мы сканировали но не распознавали будут включены в индекс.
Не очень ясно, в некоторых случаях pdf специально создается для того, чтобы напрямую не выкладывать текст. Использовать robots? Какие то лишние движения..
Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем), залогиниться на зайте, стянуть в закрытой (ну скажем так для пользователей) части pdf, распознать его, проиндексировать, да еще и сделать доступным по поиску? Про JS и flash уж не говорю, тут ясно все. Походу скоро и картинки будут распознаваться на предмет вхождения текстовой информации..
p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.
Насколько я знаю получение закрытой информации идет в разрез с законодательством США и многих европейских стран, пойтет ли гугл на это?
Я вот просто думаю, насколько это нормально (с точки зрения авторства, закрытости информации к индексированию, вообще норм поведения поисковых систем)
ИМХО это может нравиться или не нравиться, но ничего ненормального здесь не вижу. Никто никому ничего не обещал, насколько мне известно - о каких "нормах" Вы говорите? Если хочется скрыть инфу - не выкладывайте ее в Инет. Если она запаролена, то, проиндексирована она или нет, посторонний юзер до нее не доберется. На чей-либо персональный комп паук не полезет, а если Вы что-то выложили в виртуальной директории - почему нет? Запретите роботсом, и но проблем.
Все идет к тому что нужно будет делать robots.txt к собственным машинам
Все идет к тому что нужно будет делать robots.txt к собственным машинам
А что, есть сведения, что Google их у кого-то уже угонял? :)
Вероятно у Гугла в штатном расписании есть несколько юристов неплохой квалификации. Вряд ли большая империя станет заниматься противозаконными действиями небольшого масштаба - типа как по карманам мелочь тырить.
А что, есть сведения, что Google их у кого-то уже угонял? :)
ну так топик про
Ну а если серьезно, то где-то в инете я не так давно читал, что то что находится в индексе (инфа) - это верхушка айсберга, самое ценное это инфа на компьютерах пользователей и к ней google стремится добраться🙄
Толку гуглу с закрытой информации, если пользователь клацнув по результатам поиска не сможет ее увидеть... С чего вы взяли что гугл логинится на сайты и форумы?
Видимо с того, что бывает по нужному запросу выдает какой-нить форум, но при переходе этот же форум пишет "необходимо авторизоваться"
...
p.s. Ради интереса, на морде с высоким PR, разместил несколько ссылок на pdf документы, содержащие отсканированный нераспознанный уникальный (англо русский) текст. Часть в открытый раздел, часть в раздел только для юзеров (безкапчевый метод регистрации и логинизации).. Ну и дополнительно несколько PRистых ссылок извне купил на эти pdf с ключиками низкочастотными.. Просто посмотрим как оно там чего.
Кстати, хороший метод халявного распознавания *.pdf. И FineReader покупать не нужно, экономия опять же ☝
P.S. А если серьёзно - разговоры про законность нахождения авторского контента (не только текста, но и изображений) в кэше поисковых систем обсуждается с завидной регулярностью. И пока никто свою правоту не доказал...
Если есть опасение, что гоша украдет ценную инфу закрывайте pdf паролем или пишите грамотно robots.txt, или в крайнем случае есть <noindex>