В гугле можно указать страничку авторизации. Т.е. бот сначала будет заходить туда, а потом на другие страницы. Насколько я помню, там есть разные варианты запросов. Делал такое, когда был закрытый сайт, точнее приложение, а внутри на данных пользователя Adsense.
Какая база данных будет (MySQL)? И какой язык (PHP)?
Может проще взять SQLite и SEE?
https://www.google.com?q=sqlite+Encryption+Extension+php
Я пробовал варьировать задержкой, в том числе и в 2 минуты (включая случайную). примерно 120 запросов и будет капча. Это при условии поддержки куков и JS.
И еще момент. Если по каком-либо запросу вышка капча. То ответ на этот запрос будет только через капчу (с того же IP).
Так я пока проблем с содержимым не вижу. А так бы конечно же в первую очередь...
Очень занятная ссылка. Откуда берется "Детские тов..." я не смог понять. Данные слова присутствуют только в одном предложении и то в середине. Возможно много внешних ссылок на сайт с других сайтов с анкором "Детские товары".
Это понятно. Но по каким признакам гугл формирует заголовок?! С этим я пытаюсь разобраться.
Прежде чем писать сюда перечитал кучу статей. Но внятного решения я так и не увидел.
Пока мои размышления такие:
* Если гугл берет атрибут alt из логотипа, то алгоритм гугла неправильно выделяет основное содержимое страницы и причисляет логотип к основной картинке содержимого.
* Сайт с точно таким же шаблоном, но с английским текстом распознается правильно. Скорее всего это связано с тем, что гугл лучше обрабатывает английский текст (или там вообще другие алгоритмы)
* Как я предполагаю, алгоритм выделения основного содержимого страницы основан на машинном обучении. Т.е. выделяются какие-то признаки, ассесоры размечают часть сайтов, потом по результатам проводится машинное обучение. Соответственно надо понять какой из признаков (или совокупность признаков) срабатывает.
* Найти признаки можно только выдвигая гипотезу и проверяя ее
Одной из моих гипотез было то, что гугл правильно понимает тег NAV в HTML5. Но не сработало.
Если не придумаю ничего лучше, то попробую убрать /class="img-responsive"/ из тега логотипа. Мое предположение в том, что логотип имеет тот же класс, что и другие изображения на сайте (а значит с большей вероятностью является основным содержимым). Ну а возможно, алгоритм гуглу "думает" что логотип должен быть без адаптивного дизайна.
Это вариант. Но на месте ПС я бы пусть и совсем чуть-чуть но пессимизировал страницу в выдаче за это.
Проблема в том что один сайт не будет точным переводом другого. А мне бы этого хотелось, так как это проще в поддержании.
богоносец, у меня не зависит. Где тег H1 короткий, там добавляется текст из alt... А где H1 длинный, там и до смены запроса ничего не добавлялось. Вариант с "site:" я написал для наглядности. На реальный запросах, без "site:" результат такой же... Это первое что я проверил.---------- Добавлено 20.07.2016 в 21:13 ----------
Вариант мне не нравится. На то две причины:
1. Тег alt должен быть у изображений, это требование w3c + это ссылка на переход как раз на главную страницу
2. У меня есть английская версия сайта и я стараюсь держать содержимое сайтов одинаковым (делая только перевод) и при этом английская версия основная
Как-то надо было спарсить 9000 запросов, ничего бесплатного что давало бы нормальный результат не нашел. Лучшим был батерфляй, но он не дает страницы, а только адреса сайтов. Селка с гуглом у меня не заработала.
В результате написал свой скрипт под phantom.js. Вариант только на PHP работал совсем не долго, да и с вводом капчи в нем была проблема.
Собственно сам скрипт, для тех кто хочет поиграться.
[ATTACH]153539[/ATTACH]
Как пользователь ИМ скажу, что часто чтобы посмотреть окончательные цены приходится кидать товары в корзину и начинать оформлять заказ. Если в Вашем ИМ такая же ситуация, то возвратов будет очень мало.
Мне старый больше нравился. Заходил на сайт и сразу видел все новые темы. Теперь непонятно что где и надо мотать вниз. :(