Mike255

Рейтинг
7
Регистрация
12.12.2015
Lavrence:
Подскажите, каким образом можно закрыть сайт для пользователей, но открыть только для поисковиков? Видел так пару форумов, для поисковиков контент открыт, но для пользователей только после авторизации.

В гугле можно указать страничку авторизации. Т.е. бот сначала будет заходить туда, а потом на другие страницы. Насколько я помню, там есть разные варианты запросов. Делал такое, когда был закрытый сайт, точнее приложение, а внутри на данных пользователя Adsense.

Какая база данных будет (MySQL)? И какой язык (PHP)?

Может проще взять SQLite и SEE?

https://www.google.com?q=sqlite+Encryption+Extension+php

girlads:
На американских форумах читал что можно делать 1 запрос в минуту (1440 в сутки) с одного ай пи адреса, и нормально.
Если нужны не сильно большие объемы и не сильно срочно (ну там 9 тысяч за неделю), то должно хватить без всяких прокси.

Я пробовал варьировать задержкой, в том числе и в 2 минуты (включая случайную). примерно 120 запросов и будет капча. Это при условии поддержки куков и JS.

И еще момент. Если по каком-либо запросу вышка капча. То ответ на этот запрос будет только через капчу (с того же IP).

богоносец:
А почему бы не подумать про основное содержимое сайта?
И попробовать вылечить alt=""

Так я пока проблем с содержимым не вижу. А так бы конечно же в первую очередь...

богоносец:
Тут когда-то показали https://www.google.ru/search?q=site%...kie-matrasy%2F т.е. добавка есть и там, где родное достаточно длинное.

Очень занятная ссылка. Откуда берется "Детские тов..." я не смог понять. Данные слова присутствуют только в одном предложении и то в середине. Возможно много внешних ссылок на сайт с других сайтов с анкором "Детские товары".

богоносец:

Добавляться может не только alt, но и тексты сцылок | H1 морды... много чего может. Это вообще иерархично. Поэтому... удлиняйте заголовки... или удлиняйте alt чтобы он не вмещался... ну и пересмотрите ваши...

Это понятно. Но по каким признакам гугл формирует заголовок?! С этим я пытаюсь разобраться.

богоносец:

С этим сталкивались все, поищите:
гугл|google title|тайтл|заголовок site:searchengines.guru

Прежде чем писать сюда перечитал кучу статей. Но внятного решения я так и не увидел.

Пока мои размышления такие:

* Если гугл берет атрибут alt из логотипа, то алгоритм гугла неправильно выделяет основное содержимое страницы и причисляет логотип к основной картинке содержимого.

* Сайт с точно таким же шаблоном, но с английским текстом распознается правильно. Скорее всего это связано с тем, что гугл лучше обрабатывает английский текст (или там вообще другие алгоритмы)

* Как я предполагаю, алгоритм выделения основного содержимого страницы основан на машинном обучении. Т.е. выделяются какие-то признаки, ассесоры размечают часть сайтов, потом по результатам проводится машинное обучение. Соответственно надо понять какой из признаков (или совокупность признаков) срабатывает.

* Найти признаки можно только выдвигая гипотезу и проверяя ее

Одной из моих гипотез было то, что гугл правильно понимает тег NAV в HTML5. Но не сработало.

Если не придумаю ничего лучше, то попробую убрать /class="img-responsive"/ из тега логотипа. Мое предположение в том, что логотип имеет тот же класс, что и другие изображения на сайте (а значит с большей вероятностью является основным содержимым). Ну а возможно, алгоритм гуглу "думает" что логотип должен быть без адаптивного дизайна.

Explabs:
Ну не знаю, у меня у логотипа пустой альт (alt="") и проблем от этого никаких.
Если не хочется пустым оставлять, напишите для него "hitonic".
От того что у вас он несет в выдачу описание, не соответствующее содержанию страницы - пользы никакой, сами видите.

Это вариант. Но на месте ПС я бы пусть и совсем чуть-чуть но пессимизировал страницу в выдаче за это.

Explabs:

Ну так это два разных сайта, на разных языках. В чем проблема?

Проблема в том что один сайт не будет точным переводом другого. А мне бы этого хотелось, так как это проще в поддержании.

богоносец, у меня не зависит. Где тег H1 короткий, там добавляется текст из alt... А где H1 длинный, там и до смены запроса ничего не добавлялось. Вариант с "site:" я написал для наглядности. На реальный запросах, без "site:" результат такой же... Это первое что я проверил.

---------- Добавлено 20.07.2016 в 21:13 ----------

Explabs:
Хм, странно. Попробуйте в логотипе убрать тег alt совсем. У вас на каждой странице так:

<a href="/"><img class="img-responsive" src="/img/hitonic.png" alt="Главная страница Hitonic"></a>

Уберите лишнее.

Вариант мне не нравится. На то две причины:

1. Тег alt должен быть у изображений, это требование w3c + это ссылка на переход как раз на главную страницу

2. У меня есть английская версия сайта и я стараюсь держать содержимое сайтов одинаковым (делая только перевод) и при этом английская версия основная

azazelka:
а у кого-то был опыт парсинга выдачи самостоятельный?

Как-то надо было спарсить 9000 запросов, ничего бесплатного что давало бы нормальный результат не нашел. Лучшим был батерфляй, но он не дает страницы, а только адреса сайтов. Селка с гуглом у меня не заработала.

В результате написал свой скрипт под phantom.js. Вариант только на PHP работал совсем не долго, да и с вводом капчи в нем была проблема.

Собственно сам скрипт, для тех кто хочет поиграться.

[ATTACH]153539[/ATTACH]

zip Parser.zip

Как пользователь ИМ скажу, что часто чтобы посмотреть окончательные цены приходится кидать товары в корзину и начинать оформлять заказ. Если в Вашем ИМ такая же ситуация, то возвратов будет очень мало.

Мне старый больше нравился. Заходил на сайт и сразу видел все новые темы. Теперь непонятно что где и надо мотать вниз. :(

12
Всего: 15