200Online

200Online
Рейтинг
86
Регистрация
22.01.2017
kolala:
а как это?

Например, если у вас на всех сайтах подключается один и тот же скрипт на своем домене

(window,document,'script','//stats.command-centre.com/analytics.js','aaa');

Паранойя подсказывает, что для ПС это может послужить сигнатурой. И центральный сервер у всех на виду, если счетчик ведет к нему. А может и нет, но лично я не стал бы так делать.

MO $$$:
а что мешает просто логи разбирать?

Например, отсутствие в них страны посетителя, их немного дольше разбирать.

Еще записи в базе удобно смотреть, группировать или изменять прямо на сервере в процессе настройки. Да, я знаю про grep.

Записи из базы проще забирать по API. Да, я знаю про rsync.

Во многих случаях логи хороший вариант.

Это более низкоуровневый (в хорошем смысле) подход, как у системных администраторов.

Работая с базой мы создаем еще один слой абстракции, усложняем простые вещи.

Это программистский подход и он тоже работает.

Мониторить можно с клиент-сайда, типа своей реализации Метрики или GA, но единый домен подгрузки JS может спалить сразу вообще все сетки.

Поэтому лучше записывать статистику на сервере.

Например, сетка на сервере работает на едином фреймворке, то есть с одним index.php на все сайты.

Тут же пишется статистика в нужную табличку в базе.

Раз в X часов центральная система обходит сетки, рассылает на них свежий контент и забирает статистику на управляющий сервер. Таблицы визитов сразу чистятся.

На центральном сервере уже можно анализировать, строить графики и все такое.

Можно смотреть в базе запросами с GROUP BY, кому как удобнее.

Тут же вычисляются хитрые боты, которые ходили по разным сайтам примерно в одно время с одного IP, маскируясь под людей.

V_G:
Ток индекс лучше использовать не составной ☝

Знать бы мне это год назад :)

Еще по идее должна быть разница между hash и B-tree индексами, но тоже не догадался потестировать тогда.

Арамис:
Сам подумай если я целиком код вставил почему лишь часть отобразилась?

Экран маловат видимо, на чем тестируешь?

Для каждой ширины экрана надо подбирать ширину сайдбара, чтобы она была не меньше, чем баннер.

JakoKruzo:
200Online, я думал об этом. Время генерации будет зашкаливать за все возможные пределы.

Согласен. Сервис с таким подходом будет делать невыгодно.

По результатам старых экспериментов можно ориентироваться на 0.5с на каждую тысячу символов без пробелов.

JakoKruzo:
200Online, я делал алгоритм генерирования по n-граммам, тот же результат.

Все правильно, одно без другого не работает.

Но если уже готовый нейротекст пропустить через фильтр и заменить каждое третье слово в несуществующих 4-граммах на подходящее по весу из Маркова или базы n-грамм, то текст получается более "причесанным".

Минус тоже есть. Увеличивается время генерации и нагрузка на железо.

Например, поискал "для более морской ткани", нет такого,

смотрим какие есть

"для более плотной ткани" - вес ХХ

"для более легкой ткани" - вес ХХХ

"для более прочной ткани" - вес ХХХХ

И выбираем один из них, заменяя третье слово в исходной фразе.

Либо, если есть хорошо сделанный быстрый марков и нет весов в базе n-грамм и лень ее пересобирать,

то марковым по первым двум словам (а лучше по трем, захватывая одно слово до этой 4-граммы) до тех пор, пока не попадем в существующую 4-грамму.

Все 10 000 доров можно обслуживать одной копией простой системы на фреймворке.

Просто выбирать нужный контент из базы для каждого дора по его id.

id запрошенного сайта определять по его домену.

То есть таблица posts и в ней столбцы например

id, site_id, title, slug, content, publish_datetime

Такую систему потянет даже слабый VPS, главное чтобы диска хватило под статьи.

А вот 10 000 инстансов вордпресса это перебор.

MO $$$:

размер для более морской ткани

Рекомендую добавить пост-фильтр по 4-граммам и автозамену Марковым в сгенерированном тексте.

То есть (для) (более)(ХХХ)(ткани)

Если 4-грамма не существует, то лучше заменить XXX на один из взвешанных вариантов слова.

Все 4-граммы русского языка с составным индексом по трем словам потянет почти любая СУБД.

Тем же способом можно делать рерайт: нашли 4-грамму по трем любым словам и варианты одного из слов, выбрали новое, если его вес устраивает и норм.

И sorry за непрошенные советы ;)

IPXI:
JakoKruzo, по-моему бредотексты это путь в никуда даже для дорвейщика. Сгенерированный текст работает когда он на основе данных и часть какого-то сервиса/магазина/каталога, при этом не вызывая вопросы зачем здесь это, аналогично зачем из копипаста делать бред. Бессмысленная война с поиском. Если бы вы смогли сохранить смысл и при этом доказать что такие сайты дают траф лучше чем просто копипаст, а для этого мало 1 тестового сайта, то покупатели бы нашлись. По-моему так

На основании своего скромного опыта, могу подтвердить такое мнение.

Бредотексты (без фрейма или мгновенного редиректа) немного повышают траффик на витринах, если добавлять тематическую простыню далеко вниз, под самую низкопробную рекламу так, чтобы никто до него недоскроллил.

Иначе если текст виден сразу, то траффик есть, но отказ через несколько секунд.

Хотя может быть это я не умею использовать такие тексты правильно)

Если бы "тема работала", думаю ни я, ни ТС не тратили бы время на написание форумных постов.

Но сама работа заслуживает уважения. Такой сервис действительно сложно сделать.

Всего: 515