CMS для миллиардов страниц

SeVlad
На сайте с 03.11.2008
Offline
1609
#11
sam7en:
Есть сеть блогов с миллиардами страниц контента.

Угу, с миллиардами и с такими вопросами :)

Статистика wordpress.com:

Свыше 409 миллионов читателей просматривают более чем 21.0 млрд страниц ежемесячно.

который сам, к слову, на ВП :) (Но это совсем не значит, что любой сможет сделать то же самое)

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
MrLexKo
На сайте с 10.12.2010
Offline
96
#12
sam7en:
Что можно еще поднастроить чтоб уменьшить нагрузку в первую очередь от роботов пс

Понаблюдайте за логами, возможно там еще куча других ботов помимо поисковиков.

Отсекайте их по UserAgent

Вот может пригодится:


## Блокировка по USER AGENT:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} msnbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} bingbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} megaindex [NC,OR]
RewriteCond %{HTTP_USER_AGENT} 360Spider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ahrefs [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ApacheBench [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Aport [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Applebot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} archive [NC,OR]
RewriteCond %{HTTP_USER_AGENT} archive.org [NC,OR]
RewriteCond %{HTTP_USER_AGENT} BaiduBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} BLEXBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} bsalsa [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Butterfly [NC,OR]
RewriteCond %{HTTP_USER_AGENT} discobot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LoadImpactPageAnalyzer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Birubot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Butterfly [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Buzzbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} BuzzSumo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} CamontSpider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} curl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} dataminr.com [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DomainTools [NC,OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Exabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ezooms [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FairShare [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FeedFetcher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlaxCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlightDeckReportsBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} FyberSpider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Gigabot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} gold\ crawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [NC,OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} JS-Kit [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Jakarta [NC,OR]
RewriteCond %{HTTP_USER_AGENT} kmSearchBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} km.ru [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Kraken [NC,OR]
RewriteCond %{HTTP_USER_AGENT} larbin [NC,OR]
RewriteCond %{HTTP_USER_AGENT} libwww [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Linguee [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LinkExchanger [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LinkpadBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Lightspeedsystems [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LinkBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LivelapBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} lwp-trivial [NC,OR]
RewriteCond %{HTTP_USER_AGENT} majestic [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Mediatoolkitbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MLBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MetaURI [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NjuiceBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Nutch [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NerdByNature [NC,OR]
RewriteCond %{HTTP_USER_AGENT} NING [NC,OR]
RewriteCond %{HTTP_USER_AGENT} OpenHoseBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Panopta [NC,OR]
RewriteCond %{HTTP_USER_AGENT} pflab [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PHP/ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} pirst [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PostRank [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ptd-crawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Purebot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PycURL [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Python [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ruby [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SemrushBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} QuerySeekerSpider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} rogerbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SiteBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SearchBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SISTRIX [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Sitemaps [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Sogou [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SolomonoBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} solomono [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Soup [NC,OR]
RewriteCond %{HTTP_USER_AGENT} spbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} suggybot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Superfeedr [NC,OR]
RewriteCond %{HTTP_USER_AGENT} SWeb [NC,OR]
RewriteCond %{HTTP_USER_AGENT} trendictionbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ttCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Twitterbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} TweetmemeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} urllib [NC,OR]
RewriteCond %{HTTP_USER_AGENT} User-Agent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} UnwindFetchor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} uTorrent [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WBSearchBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Voyager [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Wget [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Windows\ 95 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} WordPress [NC,OR]
RewriteCond %{HTTP_USER_AGENT} woriobot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Yeti [NC,OR]
RewriteCond %{HTTP_USER_AGENT} YottosBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Zeus [NC,OR]
RewriteCond %{HTTP_USER_AGENT} zitebot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ZmEu
RewriteRule ^(.*)$ – [F,L]
sema_87
На сайте с 28.08.2009
Offline
249
#13
humbert:
Яндекс жрет сервак нещадно, постоянно нагружен ботом Яндекса.

Я поэтому давно баню ботов яндекса на серверах, ресурсы жрут адски просто(

Uh-Oh We're In Trouble, Something's Come Along And It's Burst Our Bubble!
S
На сайте с 13.10.2014
Offline
171
#14

Имхо, вариант один. Выпилить левых роботов. Они плевать хотели на делей, в отличии от здоровых и переписать все на phalcon-е. Он процентов на 20-30 иной раз быстрее, чем нативный пхп. (от 5 до 30, зависит от задачи и версии) Ну и сам код тоже оптимизировать. Можно попробовать задействовать механизмы кеширования энжинкса. (хотя, подозреваю, что это и так реализовано)

IT_DED
На сайте с 07.03.2007
Offline
236
#15
SeVlad:
который сам, к слову, на ВП

там от вп то мало что осталось думается... наверняка над кешированием и генерацией html поработали не плохо...

у меня самописка без всякого допила крутит миллионы страниц легко, ярды не пробовал))

⭐ Все мои рекомендации тут - https://in.gl/itded
SeVlad
На сайте с 03.11.2008
Offline
1609
#16
Думка:
там от вп то мало что осталось думается.

Там от ВП - всё :) Это сервис от разработчиков ВП.

Только там намного больше, чем "ВП изкорпки" (причем такие грузные ноухау (будь они не ладны), как гуттер и жутьпак). И он не на одном сервере.

IT_DED
На сайте с 07.03.2007
Offline
236
#17
SeVlad:
Там от ВП - всё Это сервис от разработчиков ВП.
Только там намного больше, чем "ВП изкорпки" (причем такие грузные ноухау (будь они не ладны), как гуттер и жутьпак). И он не на одном сервере.

я про то что вп может генерить и просто html страницы ...

так то и ежу понятно что там вп и это разрабы... спасибо Кэп! ))

К тому ж там работает туева хуча прогеров наверняка... у ТС нет такой команды и бюджета наверняка :)

danforth
На сайте с 18.12.2015
Offline
153
#18

Ни характер нагрузки, ни объем данных, ничего не известно. Как тогда можно что-то рекомендовать?

Я бы делал так: сделал шарды из базы, например 4 штуки. Поставил бы Redis в прослойку между бекендом и базой, M/S репликацию. Nginx + Lua написал бы скриптик, который брал бы из редиса по ключу данные и отдавал, тогда бекенд вообще не будет напрягаться. Бекенд написал бы на Go. Генерировать это все в статику я бы не стал, т.к. забить сервер статикой при больших объемах можно легко, но нет никаких гарантий что весь этот контент нужен прям одновременно - какой-то бот придет на страницу 2 летней давности, и ему проще выплюнуть её и забыть, чем сохранить результат в кеш, держать в хеш-таблице и потом вычищать весь этот мусор. Ну или по burst смотреть, если три раза спросили - тогда в кеш. В редисе хранить только горячие данные.

Junior Web Developer
SeVlad
На сайте с 03.11.2008
Offline
1609
#19
Думка:
я про то что вп может генерить и просто html страницы ...

Сам ВП не может. Этим на гвонобложиках занимаются плагины кеширования. На ВП.ком их нет.

Там же не только бложики домохозяек, а есть и довольно много динамических новостников и корп. сайтов.

Если интересно - в самом ВП есть несколько уровней/разновидностей кеширования. Ко всему этому, ессно, есть кеширование серверное.

Небольшой экскурс в кеширование ВП от разработчика:

https://wpmag.ru/2013/keshirovaniye-wordpress/

https://wpmag.ru/2014/keshirovanie-obektov-wordpress/

https://wpmag.ru/2015/transient-cache-wordpress/

IT_DED
На сайте с 07.03.2007
Offline
236
#20

SeVlad, мы не понимаем друг друга)

Мне на вп вообще с высокой колокольни... я с ним не работаю))

Но ответь на такой вопрос... если вложить на голый вп (без доп шаманства) хотя бы 30-50к статей... как он себя будет чувствовать? :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий