sidorka

sidorka
Рейтинг
211
Регистрация
17.08.2012
JungleBox:
Теории нум нума забыли что ли об эмерджентности

А куда он пропал? Блог халифа в дауне. Мне нравился его стиль изложения. Жаль, что спёкся.

alexpetrovich:
При чем тут дорвеи, не пойму.

В другие разделы не пускают с такой темой. Явное же мошенничество.

Но 14-й раздел - он другой - теплый и ламповый, люди душевные. Тут всегда помогут советом и утешат в нелегкую минуту такие же искатели философского камня.

Другого объяснения у меня для вас нет.

1. Как я понял, безголовые браузеры с проксями.

2. Вряд ли наркоманы, просто трафа еще нет, чтобы в блеклист попасть - с однорублевой статой это просто нереально. Думаю при масштабировании эта проблема вылезет, если будет слишком сильно живой траф бодяжить.

3. Только в дорвейном разделе не станут попрекать за такой циничный способ заработка, а еще и советы дадут, как лучше.

При большом желании можно компенсировать объемами. Тут в запуске проще выходит - не нужно ничего парсить в процессе работы. Ну и цена генерации и хранения минимальна, как раз под миллионники подойдет.

twiprogon, хуже сниппетов, честно говоря.

twiprogon:
не обращает внимание на заголовок сервера x-robots-tag

У меня нормально с этим заголовком у яндекса - в индексе нет, логи не проверял, может и шастает, но то такое. X-Robots-Tag: none применяю там, где закрыть лишнее надо. Не в коде страницы, а именно заголовками.

twiprogon:
по какому алго генерит

По шаблонам. С помощью стеммера были разобраны на составляющие предложения, в основном из сборника диктантов, и тематический текст с сохранением частотностей встречающихся словоформ и группировкой слов с одинаковыми синтаксическими признаками,. Получены 2 базы - шаблоны и словоформы. Дальше все просто. Рандомно дергаем шаблон и заполняем его такими же случайными вхождениями из базы словоформ с нужными характеристиками, например, существительное одушевленное женского рода единственное число дательный падеж.

Основная сложность - это снятие омонимии. Не каждый стеммер дает хороший результат. Морфи мне не понравился вообще - с ним омонимию не поборешь точно. Наиболее вменяемой для разбора оказалась связка из я-стеммера и еще одной приблуды в виде виндового сервера, автора уже не помню.

---------- Добавлено 08.02.2018 в 10:23 ----------

На дешевом серваке с оверселлом от зомро за 3 бакса этот генератор нормально держал полсотни потоков одновременно. Т.е. реально генерить на лету без сохранения результата, при увеличении нагрузки время конечно растет и на нагруженном сервере 20мс на 100 предложений не получить, но до 400мс вполне реально.

Арамис:
я не беспокоюсь о бане он мне никак не грозит

Мне б такую уверенность в своих силах... Брину занес конвертик?

Кому интересен генератор - https://mega.nz/#!tW4nUYZB!hG4ZVPlKJYrGFdG88aVsCGMd8q1JtR_0XOmrZgRTB1Y

В архиве класс генератора и две базы к нему - шаблоны предложений и тематические словоформы. С ходу откопал только одну тематику. Были еще несколько тематик, но искать надо в помойке. Будет интересно кому - поищу и выложу.

Требует chdb - yum install php-pecl-chdb

На 7-й версии пхп такого пакета нет, только для пхп-5.

А я отказался от генеренки в пользу сниппетов - трафа больше выходит.

В прошлом году, пока меня фокс не выгнал с вмсна, заморачивался по этой теме.

Но я генерил на основе шаблонов синтаксически разобранных предложений из сборника диктантов. Сами словоформы уже из тематической текстовки. Работало на лету, результат не хранил ввиду совсем уж мизерной нагрузки, выгоднее ядра наращивать оказалось.

Всего: 2116