CMS для миллиардов страниц

1 2345 6
SeVlad
На сайте с 03.11.2008
Offline
1609
#31
ant_key:
В демагогии участвовать не буду. Удачи

Вот слился так слился. Это прелЭстно.. попукал мимо горшка и пошел... :)

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
S
На сайте с 04.10.2018
Offline
8
#32
Думка:
SeVlad, мы не понимаем друг друга)
Мне на вп вообще с высокой колокольни... я с ним не работаю))
Но ответь на такой вопрос... если вложить на голый вп (без доп шаманства) хотя бы 30-50к статей... как он себя будет чувствовать? :)

Они будут преспокойно лежать себе в базе данных. А базе данных - все равно. Пусть хоть там миллиард лежит статей.

Думка:
и без посещалки... да? ))
Секта любителей Вп :)

Обычному пользователю-человеку нужна одна статья на секунды или даже минуты.

База данных отдаст эту одну статью быстро (индексы же есть).

А миллиарды лежащих в базе данных статей будут так же спокойно лежать.

Нагрузка определяется не количеством статей (индексы же есть), а сложностью логики обработки запроса. Если один запрос будет проходить через миллиард плагинов, то другое дело.

S
На сайте с 30.09.2016
Offline
469
#33
sgrumi:
Обычному пользователю-человеку нужна одна статья на секунды или даже минуты.

Вообще-то разговор про поисковых ботов, а не про человеков.

Правда, ТС сделал вброс и слился, а остальные тут собачатся.

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.
sam7en
На сайте с 10.01.2010
Offline
114
#34

Пардон, никак не ожидал что кто-то ответит.

Спасибо за дельные советы danforth , MrLexKo, DiKiJ

Ботов банили, крол дилэй и вправду не работает.

В вебмастера такие сайты добавлять рискованно.

Сервера вот такие в основном - https://hetzner.com/hosting/produkte_rootserver/ex41/

Миллиарды страниц - парсинг + генерация

Кеширование конечно же реализовано.

Вопрос был про движки, которые при наличии миллиардов страниц не будут грузить сервер и как уменьшать нагрузку от роботов пс

S
На сайте с 30.09.2016
Offline
469
#35
sam7en:
не будут грузить сервер и как уменьшать нагрузку от роботов пс

Это 2 разных вопроса. Чтобы не грузить сервер при обычных запросах - эта задача решается в любом вменяемом движке, путём того же кеширования, например. А вот с поисковиками - сложнее. Хотя, по идее, у поискового бота на Ваш сайт выделено ограниченное время, и всё равно он не будет просматривать миллиард страниц. Именно поэтому для оптимизации работы поисковых ботов существует сайтмап. А вредных ботов, которые маскируются под поисковых, надо просто банить.

S
На сайте с 04.10.2018
Offline
8
#36
Sitealert:
Вообще-то разговор про поисковых ботов, а не про человеков.
sam7en:

Вопрос был про движки, которые при наличии миллиардов страниц не будут грузить сервер и как уменьшать нагрузку от роботов пс

Роботы роботами, но в любом случае они не сотнями приходят на сайт одновременно.

И держать типовую нагрузку ботов - нормальное свойство нормального движка.

Даже на слабом железе и малоподходящем движке - это решается.

Это решается через кэширование и throttling

Количество страниц - не важно. Понятно, что чем больше страниц, то тем дольше боты будут ходить по сайту.

Но отдавать страницы по запросу - это штатный функционал сайта, то за ради чего он вообще сделан.

Поэтому сайт должен штатно выдерживать как 10 секундное посещение ботами, так и 5 часовое.

Хотя, владельцы ботов не позволяют своим робото-ресурсам так долго возится с одним сайтом. У них и другие задачи в очереди есть.

И боты не запрашивают по миллиарду страниц одномоментно. Они делают это последовательно.

Дело не в движках, а в умение ваших программистов ими пользоваться.

Это те люди и должны вам сказать какой движок лучше, - которые будут его внедрять.

Ну вот скажу я вам, что я бы делал на Tarantool. Который сам был бы в этой схеме и application server и сам и СУБД и код backend был бы в нем же.

Вам стало от этого легче?

Нет волшебного движка, который просто так решит вашу проблему просто самим фактом своего существования.

Это все кто-то должен установить и настроить. Кто-то разбирающийся в том, что он делает.

Вам лучше задать вопрос тем конкретным людям, что будут этим заниматься.

---------- Добавлено 11.10.2018 в 14:15 ----------

sam7en:
Ботов банили, крол дилэй и вправду не работает.
В вебмастера такие сайты добавлять рискованно.

Ну это же неправильный подход.

В конечном итоге, нам всем нужен поисковый трафик.

А тут вы намерено затрудняете работу поисковым системам.

Понятно, что вам оставшегося трафика хватает.

Но разве не хотите большего?

Проблема вовсе не там.

Если вы уже сделали кэширование, если у вас уже есть шардинг - пора искать узкие места в движке.

Сначала выполняете профилирование, смотрите какая нагрузка, сколько времени генерится страница.

И если даже одна страница отдается за 0,5 секунд, то это уже плохо и миллиарды не при чем.

Далее смотрите что именно тормозит в движке. То ли это работа БД, то ли это захлебывается оперативка, то ли процессора не хватает.

Если затык в СУБД - то обратите внимание - у вас не SSD

Если затык в процессоре - то проверьте, все ли ядра загружены и обратите внимание - у вас всего 4 ядра.

И т.д.

В целом нельзя поставить диагноз по фотографии.

Нужно конкретно работать с конкретно вашим проектом и смотреть конкретно ваши узкие места.

sam7en
На сайте с 10.01.2010
Offline
114
#37
Sitealert:
Это 2 разных вопроса. Чтобы не грузить сервер при обычных запросах - эта задача решается в любом вменяемом движке, путём того же кеширования, например. А вот с поисковиками - сложнее. Хотя, по идее, у поискового бота на Ваш сайт выделено ограниченное время, и всё равно он не будет просматривать миллиард страниц. Именно поэтому для оптимизации работы поисковых ботов существует сайтмап. А вредных ботов, которые маскируются под поисковых, надо просто банить.

Сайт не один, их много, потому роботы сканируют достаточно много страниц. А на сам человеческий трафик остается не так много ресурсов. Сайтмапы есть и мне важно держать максимальное количество страниц в индексе.

Кеширование настроено и этого недостаточно. Все ненужные роботы в бане

S
На сайте с 04.10.2018
Offline
8
#38
sam7en:
Сайт не один, их много, потому роботы сканируют достаточно много страниц.

В любом случае - роботам есть чем заняться.

Миллиард страниц или не миллиард - время обработки одного сайта лимитировано владельцем робота.

А то он зависнет на таком как вы.

А у него еще в очереди кроме ваших сайтов - полным полно работы.

S
На сайте с 30.09.2016
Offline
469
#39
sam7en:
Сайтмапы есть и мне важно держать максимальное количество страниц в индексе.

Ну так и настройте эти сайтмапы так, чтобы роботы не шастали по одним и тем же страницам каждый день.

S
На сайте с 04.10.2018
Offline
8
#40
Sitealert:
Ну так и настройте эти сайтмапы так, чтобы роботы не шастали по одним и тем же страницам каждый день.

А может, просто настроить время протухания страниц?

https://habr.com/post/204464/

Зачем роботу проходить все страницы ежедневно.

Они что - все до единой меняются постоянно?

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий