AESCBC192, ты парсишь все тексты прямо при генерации страницы?
Зачем?
Проще сделать отдельный скрипт, который будет получать список ключевых слов, парсить тексты в фоне и складывать в специальную папку. А потом можно уже генерировать, переиспользуя тексты с похожими ключевыми словами.
P.S. Интересно, если тексты продавать поштучно, то какая цена будет нормальной за штуку/тысячу штук?
Потянет ли на 25 копеек за 2-3к буквенный текст?
Покажите графики
Средняя длительность сеанса и Страниц на сеанс за это же время.
Или аналогичные, если есть.
Попробуй открыть инструменты разработчика (inspect element)
и там в консоли выполнить это
var height_to_alert = $('#m_height').val();
console.log(height_to_alert);
Возможно там в консоли уже написана ошибка, и выполнять ничего не нужно.
Понятно. Значит, миллион не на каждом доре, а в сумме.
Тогда проще подождать наверно.
Так и есть, примерно одинакаво.
Если загрузка процессора при генерации не максимальная, то можно упаковывать по ходу процесса. Например, по 10 доров в архив. Тогда потерь времени почти не будет.
Более 6000 страниц в секунду? Ну-ну.
Как думаешь сколько точек выведет cout программы на плюсах в stdout за одну секунду, даже без обращений к фс?
Или у тебя сверхэффективный многопоточный дорген?
Вопрос ко всем присутствующим. Сколько страниц обычно генерируется доргеном, в секунду?
Предположим, ты генерируешь 50 страниц дора в секунду. (А в реальности скорее всего 10-20.)
И предположим "сотни" - это 200, по минимуму.
1 000 000 страниц * 200 доров = 200 000 000 страниц.
/ (50 страниц / в секунду) = 4 000 000 секунд
/ (3600 * 24) = 46 дней.
То есть ты два месяца генерировал эти сайты, а теперь не можешь дождаться неделю, пока они упакуются?
Так пакуй частями, все равно залить такой объем быстро нереально.
Даже если одна страница весит 1Кб (а в реальности намного больше),
то 20 000 000 страниц / 1024*2 = ~190Гб.
В заархивированном виде, например, 70Гб.
Проще написать скрипт, который сто раз будет генерировать, паковать в архивы по 700Мб и отправлять на сервер.
А дальше он начнет магическим образом самонаполняться.
Главное каптчу не слишком сложную сделать.
Позавчера проспамил новый домен в 45 статистик.
Пока пришли только боты - сканеры уязвимостей CMS.
/administrator/index.php
/bitrix/admin/
/admin.php
/wp-login.php
и прочие
Upd. Хотя вот в логе и Googlebot есть
просканировал главную и спец-страницы
/.well-known/assetlinks.json
/.well-known/apple-app-site-association
Upd2. Некоторые домены, на которых установлена статистика выглядят как ханипоты.
https://yadi.sk/i/M3lZpRw23Jgrir
При беглом осмотре часть базы напоминает что-то немецкое, но без Der и Das.
Скобка ")" по частоте использования похожа на пробел.
hY&hËh ìYSËYégìhY&aøëÆgìh gëéìa ëñglÆÇ gÇìSYCJaægëéìa ëñgza&YÈañìûa&ËhëñëÔÇgëéìa ëñgaSmëñëÔÇgëéìa ëñglqæaæaËhéëìÇS Ügëéìa ëñgzY hæYØhøæëéìa ëñgYægë&Øhøæëéìa ëñglñÇæYØìa&ìûafëwëéìa ëñgzë Shægìa&ìûafëwëéìa ëñgqøaæ&ûìa&ìûafëwëéìa ëñglÔøëJ&aSgìqøaæ&ûìa&ìûafëwëéìa ëñgzû ëéëæìShËëéìa ëñgûY&aeaSëéëJYæëøéìû ëéëæìShËëéìa ëñglSë MY ëéìaJìøéìa ëñgzægY ìgmaøéìa ëñg~~~~~eehgnÍnknd engleehgnoÍnknd engzûYøhgnðÍneehgnoÍnknd engûYøhgnoÏneehgnoÍnknd engleehgnÍÍnknd engzeehgnÏnknd engaeéøaSneehgnÏnknd engleehgnTnknd engzesneehgnTnknd engoÍnInknd engleehgnInknd engzeehgnunknd engÀÍneehgnunknd engleehgnNnknd engzeehgnðnknd engeehgðnknd englWnknd engzeehgnWnknd engÏÏûYøhgneehgnWnknd engleehgnÀnknd engzûYøhgnÀneehgnÀnknd engeeYgnÀnknd englynnknd engzÕZÅnçï$Åïinknd engþinÅ$nètÕnknd englesnknd engzhaæghËaSnnhÈeøewnanknd eng
Если разделить строки по eng, то получится
añhæìûa & Ja Æìq YJlmëøhÆìmÜ & Ja Æìq YJzÜøÐæSaìSÜ & Ja Æìq YJÜøæSaìSÜ & Ja Æìq YJlÔëøëÆìq YJzaÈgìJìÔëøëÆìq YJhæøaSìa & ìÔëøëÆìq YJlaÈgìÔëøëÆìq YJzôìaÈgìÔëøëÆìq YJ
А есть дополнительная информация о базе?
&*%UДЖoьмSоloGьмSоzw^ВьмSо`*^
Статистический анализ в помощь. Либо можешь выложить здесь тысячу-другую строк. Может быть кто-нибудь расшифрует.