Denechka

Рейтинг
59
Регистрация
29.10.2018
Виктор Петров #:

Если брать "информационку" - меня абсолютно устраивает Google Knowledge Graph, включая англоязычную "Вики" (несмотря на её политизированность) и "Книгу фактов ЦРУ". Максимум подтверждаемых фактов с пруфами, минимум "копирайтинга", спама и попыток что-то впарить (включая идеи).

Вы, как взрослый человек должны понимать, что в общедоступных интернетах такого не бывает (бывают исключения, подтверждающие правило).

Такое, только в архивах, от первоисточников, в заводской исполнительной документации, ДСП. В основном это оффлайн.

Виктор Петров #:

Интернет делают ползатели. Спрос. Именно спрос определяет большинство факторов ранжирования.
Кроме того, я не вебмастер, я занимаюсь информационным поиском. И увы, нынешний корпус коллекций документов - это не "ленинка", это "Садовод".

Ни чего личного. Абсолютно не хотел обидеть. Кстати ни "ленинка",  ни "Садовод" мне ничего не говорят.

Каким бы Вы видели идеальный корпус коллекций документов?

Осмелюсь предположить, в основном продвигаемых Вами?))) (ну и ещё пару фундаментальных вещей, типа "Советской Энциклопедии", но с условием, что-бы они были в поиске ниже Ваших)

Виктор Петров #:
Я привёл пример как исключение. Если ценность сайта настолько высока - то будут ждать и боты, и люди.

Если ценность сайта настолько высока , то сайту покакать на искалку. Если сайт будут ждать 5мин - у него есть свой закладочный или прямой тафик, не знаю как правильно выразиться, но тогда предполагается, что про него уже знают, т.е. искалка становится не нужна. Такое бывает у крупных акул - монополистов, банков. Например, когда банк отвалился, а ты всё ждёшь, ждёшь, что-бы снять свою получку. Тогда уж точно не надо особо париться. Но с такими акулами мне, допустим, тягаться бессмысленно, надо реально оценивать свои силы. По-этому, стараюсь набирать баллы там, где получается.

Кстати, боты ждать уж точно не будут им проще на другого клиента переключиться. Это один из проверенных способов увеличения стоимости атаки -  резкое увеличение времени ответа на нежелательного бота. Т.е. бот пытается запросить ответ и - ждёт, ждёт, ждёт... Потом уходит по своим краулерским делам... (а, в качестве ответа ему можно гранату подсунуть, гы-гы). На время хватает.

"Много таких сайтов? Нынешний интернет - смесь помойки и кладбища." - Зачем Вы себя так не уважаете? Вы работаете на помойке или на кладбище? Инернет такой, каким его делают веб-мастера.

Или это так, погоревать в стиле "Интернет уже не тот... что при Сталине". Мы живём в реальном текущем мире, а не в воображаемом, идеальном. По этому надо или пользоваться тем, что есть, или делать другую нишу.

Всё вышесказанное - лишь моё мнение.

Антоний Казанский #:
Я прошу вас привести конкретные примеры как (по вашему же заявлению) из нескольких предложений сделать уникальные товарные страницы на 10K единиц

Повторюсь: Вы меня не поняли. Я не имел ввиду из нескольких предложений, а несколько предложений на страницу.

"Продемонстрируйте пожалуйста свою изюминку, чтобы мы понимали о чём речь."  - Я сам в вечном процессе её поиска и вышлифовки. Как допилю окончательно - конечно, Вам первому покажу.

"Задача TC - избавиться от довеска огромного кол-ва неуникальных страниц" - Тут согласен, потому и предложил не избавляться от страниц, как таковых, а освежить их, уникализировать и тогда искалка может подумать, что страницы не совсем статичны, а развиваются/эволюционируют, совершенствуются.

А отрезать их проще всего. Зачем? Что-бы опять залить тех же скучных 10т. стр., только растянув по времени?

Как он будет их уникализировать - его дело. Деньги некуда девать - может заказать 10т статей, или 10т ссылок. У каждого свои методы.

"краулинговый бюджет - это то, какую квоту определит поисковик для планового переобхода. Если рейтинг (траст) у сайта низкий, то поисковик это будет делать крайне вяло, не потому что не может быстрее и больше, а потому что для него не будет такой задачи - оперативно индексировать материалы сайта если они МПК/НКС. " - Да, но по моим наблюдениям даже такие страницы он циклически пересканирует (у меня где-то раз в 2-3месяца всплески, ну и так по ходу. Для чего? По моему для того, что-бы проверить - страницы МПК/НКС или уже есть сдвиги.

Повторю своё мнение - сканирование индексирование и ранжирование - разные процессы (со своими подпроцессами). Но без первого не будет второго, без второго не будет третьего.

Т.е. сканирование - первично. По-этому не нужно ему ставить палки в колёса. И для этого совершенно не обязательно покупать дорогущие VDS/VPS. Достаточно оптимизировать, что есть.

Всё вышесказанное - лишь моё мнение.

Skanavy7 #:

У меня два ИМ с разными откликами 50мс и 500мс и оба игнорируются Гуглом. Притом, что первый забит текстами. TTFB и тексты не решают в этом вопросе. Что-то должно быть еще. 

Вообще по-моему сканирование, индексирование и ранжирование это разные процессы, но без первого не будет второго, а без второго - третьего (ИМХО).

Х.з., копайте дальше... (может тексты скучные или не по теме, как вариант) Эта искалка вообще как капризная дама.

Виктор Петров #:
Если мне позарез нужно попасть на определенный ресурс - я буду ждать и 5 минут, перезагружая страничку. Не загрузится - позже зайду.

Да, но целая куча нетерпеливых юзеров, которые мигом перейдут на аналогичный ресурс (пускай он будет ниже в поиске и менее качественный), который откроется за 5сек. и через минуту уже забудут про Ваш ресурс.

Я бы не распостранял свои привычки в поиске на всю потенциальную клиентуру. Все разные, у всех свои привычки.

Виктор Петров #:

А я утверждал, что время ответа можно узнать из логов или как-то иначе? Это ваша интерпретация, и вопрос основан только на ней.

Не поленился и проанализировал:

krawl

Т.е. за ~12мин. он 204 раза произвёл опрос. И это в период затишья, между обходами, можно курить дальше.Но я реально не понимаю как по логам можно определить сколько он ждал?

Так же осознаю, что гугл может в раз всё это выплюнуть по любой причине и меня не спросить. Поэтому особо на него и не полагаюсь. Стараюсь держать яйца в разных корзинах. На нём свет клином не сошёлся.

Виктор Петров #:

Для гугла и ваш сайт - пыль. Но его лимиты - не пыль для вашего сайта. Смотрите логи, сопоставляйте количество заходов гуглобота и сопоставляйте с реальным объёмом сайта.

Я прекрасно отдаю себе отчёт в том, что и мои проекты - пыль для него. Логи периодически анализирую в свободное время для того, что бы когда начнётся очередной переобход - прекратить любые работы на рабочих проектах. (так меньше вероятность гуглоботу нарваться на ошибку).

Но Вы так и не ответили на вопрос: "Подскажите, пожалуйста, как путём ковыряния логов можно узнать сколько ждёт паук Вашего ответа?"

Skanavy7 #:

~530мс. Не уж то из этого не продвигается сайт в Гугле? Просто фактическая скорость загрузки моего сайта превышает конкурентов минимум в два раза. 

Я не буду утверждать на 100%. С моей стороны это было бы однобоко. Но подумайте сами - за пол-секунды паук съедает 1 стр. А будь ответ ~50мсек - он МОГ бы съесть в 10 раз больше. Просто произведите элементарное арифметическое действие.

И не будем забывать, что он может опрашивать многопоточно, конвеером + другие боты + реальная нагрузка на сервак от пользователей.

~530мс - это-ж какая база у Вас?.  Допустим запрос к полумилионной основной таблице на 2,5 Гб у меня выполняется за ~1мсек (если в кеше, если нет - max - 7ms. Остальное - вспомогательные запросы, формирование ответа, отсылка ответа.

Виктор Петров #:
Я люблю ковырять логи.
Подскажите, пожалуйста, как путём ковыряния логов можно узнать сколько ждёт паук Вашего ответа?
Всего: 493