Если брать "информационку" - меня абсолютно устраивает Google Knowledge Graph, включая англоязычную "Вики" (несмотря на её политизированность) и "Книгу фактов ЦРУ". Максимум подтверждаемых фактов с пруфами, минимум "копирайтинга", спама и попыток что-то впарить (включая идеи).
Вы, как взрослый человек должны понимать, что в общедоступных интернетах такого не бывает (бывают исключения, подтверждающие правило).
Такое, только в архивах, от первоисточников, в заводской исполнительной документации, ДСП. В основном это оффлайн.
Интернет делают ползатели. Спрос. Именно спрос определяет большинство факторов ранжирования.Кроме того, я не вебмастер, я занимаюсь информационным поиском. И увы, нынешний корпус коллекций документов - это не "ленинка", это "Садовод".
Ни чего личного. Абсолютно не хотел обидеть. Кстати ни "ленинка", ни "Садовод" мне ничего не говорят.
Каким бы Вы видели идеальный корпус коллекций документов?
Осмелюсь предположить, в основном продвигаемых Вами?))) (ну и ещё пару фундаментальных вещей, типа "Советской Энциклопедии", но с условием, что-бы они были в поиске ниже Ваших)
Если ценность сайта настолько высока , то сайту покакать на искалку. Если сайт будут ждать 5мин - у него есть свой закладочный или прямой тафик, не знаю как правильно выразиться, но тогда предполагается, что про него уже знают, т.е. искалка становится не нужна. Такое бывает у крупных акул - монополистов, банков. Например, когда банк отвалился, а ты всё ждёшь, ждёшь, что-бы снять свою получку. Тогда уж точно не надо особо париться. Но с такими акулами мне, допустим, тягаться бессмысленно, надо реально оценивать свои силы. По-этому, стараюсь набирать баллы там, где получается.
Кстати, боты ждать уж точно не будут им проще на другого клиента переключиться. Это один из проверенных способов увеличения стоимости атаки - резкое увеличение времени ответа на нежелательного бота. Т.е. бот пытается запросить ответ и - ждёт, ждёт, ждёт... Потом уходит по своим краулерским делам... (а, в качестве ответа ему можно гранату подсунуть, гы-гы). На время хватает.
"Много таких сайтов? Нынешний интернет - смесь помойки и кладбища." - Зачем Вы себя так не уважаете? Вы работаете на помойке или на кладбище? Инернет такой, каким его делают веб-мастера.
Или это так, погоревать в стиле "Интернет уже не тот... что при Сталине". Мы живём в реальном текущем мире, а не в воображаемом, идеальном. По этому надо или пользоваться тем, что есть, или делать другую нишу.
Всё вышесказанное - лишь моё мнение.
Повторюсь: Вы меня не поняли. Я не имел ввиду из нескольких предложений, а несколько предложений на страницу.
"Продемонстрируйте пожалуйста свою изюминку, чтобы мы понимали о чём речь." - Я сам в вечном процессе её поиска и вышлифовки. Как допилю окончательно - конечно, Вам первому покажу.
"Задача TC - избавиться от довеска огромного кол-ва неуникальных страниц" - Тут согласен, потому и предложил не избавляться от страниц, как таковых, а освежить их, уникализировать и тогда искалка может подумать, что страницы не совсем статичны, а развиваются/эволюционируют, совершенствуются.
А отрезать их проще всего. Зачем? Что-бы опять залить тех же скучных 10т. стр., только растянув по времени?
Как он будет их уникализировать - его дело. Деньги некуда девать - может заказать 10т статей, или 10т ссылок. У каждого свои методы.
"краулинговый бюджет - это то, какую квоту определит поисковик для планового переобхода. Если рейтинг (траст) у сайта низкий, то поисковик это будет делать крайне вяло, не потому что не может быстрее и больше, а потому что для него не будет такой задачи - оперативно индексировать материалы сайта если они МПК/НКС. " - Да, но по моим наблюдениям даже такие страницы он циклически пересканирует (у меня где-то раз в 2-3месяца всплески, ну и так по ходу. Для чего? По моему для того, что-бы проверить - страницы МПК/НКС или уже есть сдвиги.
Повторю своё мнение - сканирование индексирование и ранжирование - разные процессы (со своими подпроцессами). Но без первого не будет второго, без второго не будет третьего.
Т.е. сканирование - первично. По-этому не нужно ему ставить палки в колёса. И для этого совершенно не обязательно покупать дорогущие VDS/VPS. Достаточно оптимизировать, что есть.
У меня два ИМ с разными откликами 50мс и 500мс и оба игнорируются Гуглом. Притом, что первый забит текстами. TTFB и тексты не решают в этом вопросе. Что-то должно быть еще.
Вообще по-моему сканирование, индексирование и ранжирование это разные процессы, но без первого не будет второго, а без второго - третьего (ИМХО).
Х.з., копайте дальше... (может тексты скучные или не по теме, как вариант) Эта искалка вообще как капризная дама.
Да, но целая куча нетерпеливых юзеров, которые мигом перейдут на аналогичный ресурс (пускай он будет ниже в поиске и менее качественный), который откроется за 5сек. и через минуту уже забудут про Ваш ресурс.
Я бы не распостранял свои привычки в поиске на всю потенциальную клиентуру. Все разные, у всех свои привычки.
А я утверждал, что время ответа можно узнать из логов или как-то иначе? Это ваша интерпретация, и вопрос основан только на ней.
Не поленился и проанализировал:
Т.е. за ~12мин. он 204 раза произвёл опрос. И это в период затишья, между обходами, можно курить дальше.Но я реально не понимаю как по логам можно определить сколько он ждал?
Так же осознаю, что гугл может в раз всё это выплюнуть по любой причине и меня не спросить. Поэтому особо на него и не полагаюсь. Стараюсь держать яйца в разных корзинах. На нём свет клином не сошёлся.
Для гугла и ваш сайт - пыль. Но его лимиты - не пыль для вашего сайта. Смотрите логи, сопоставляйте количество заходов гуглобота и сопоставляйте с реальным объёмом сайта.
Я прекрасно отдаю себе отчёт в том, что и мои проекты - пыль для него. Логи периодически анализирую в свободное время для того, что бы когда начнётся очередной переобход - прекратить любые работы на рабочих проектах. (так меньше вероятность гуглоботу нарваться на ошибку).
Но Вы так и не ответили на вопрос: "Подскажите, пожалуйста, как путём ковыряния логов можно узнать сколько ждёт паук Вашего ответа?"
~530мс. Не уж то из этого не продвигается сайт в Гугле? Просто фактическая скорость загрузки моего сайта превышает конкурентов минимум в два раза.
Я не буду утверждать на 100%. С моей стороны это было бы однобоко. Но подумайте сами - за пол-секунды паук съедает 1 стр. А будь ответ ~50мсек - он МОГ бы съесть в 10 раз больше. Просто произведите элементарное арифметическое действие.
И не будем забывать, что он может опрашивать многопоточно, конвеером + другие боты + реальная нагрузка на сервак от пользователей.
~530мс - это-ж какая база у Вас?. Допустим запрос к полумилионной основной таблице на 2,5 Гб у меня выполняется за ~1мсек (если в кеше, если нет - max - 7ms. Остальное - вспомогательные запросы, формирование ответа, отсылка ответа.