Подобный поиск нетривиален. К нему предъявляются несколько требований:
1. Поиск с учетом ошибок
2. Скорость - десятки миллисекунд
3. Синонимы
Я такую штуку делал один раз, но на базе ElastciSearch. Мало кто эту систему знает, но она того стоит. Но нужно учитывать, что у меня свой выделеный сервер, и было где поиграться с ней. :)
Подобный парсер нет смысла писать самому, поскольку как уже выше писали - есть много интересных кейсов, все из которых предусмотреть сложно. Ведь есть еще и относительные ссылки, без домена, которые надо дополнять доменом.
Лучше или использовать DOM несмотря на скорость, либо искать парсеры готовые в виде библиотек.
Мои 5 копеек
1. На фотографии лица лощенные, западные, значит фотка стоковая, значит ресурс не серьезный. Может и глупость, но я обращаю внимание на такие вещи. :)
2. Дизайн обычный, "из ряда" не выбивается. Скорее всего зайду через поиск, что-то прочитаю и уйду. Навскидку нет желания побородить, посмотреть что-то еще.
3. Такие сайты смотрят на улице с телефона - однозначно нужен адаптивный дизайн.
В целом "грубый расчет" по алгоритму верный, но 5%? Я делал расчет исходя из 0,8-1,0%. Насколько я видел исследование, и оно подтверждается и мной и моими знакомыми - ну.... на еде в пике 2,5%. Но в целом у всех как я написал выше.
Мне кажется, лучше закладываться именно на 1%. Будет больше - хорошо.
Я ставлю для крон-скриптов атрибут executed, и пишу первой строкой #!/bin/php -q
А дальше из крона просто
*/5 * * * * ~/scripts/need-script.php 2>&1>/dev/null | mail -E -s "ОШИБКА bla-bla" my_email@mail.ru
В этом случае нет ограниченй по времени, не задействуется веб-сервер, в случае ошибки я пишу в самом скрипте вывод текста ошибки в stderr, и только если stderr не пустое, то мне прийдет письмо (опция -E)
Но согласен с предыдущим участником - есть некоторые особенности именно cli-скриптов.
У меня сегодня от них нашествие ботов. :)
Mozilla/5.0 (compatible; SputnikBot/2.3; +http://corp.sputnik.ru/webmaster)
c IP 95.167.189.107
Первый раз их увидел. :)
Я тоже так думаю. :)
Понятно. Урод он конечно :( Хотя думаю, как водится процент раз в десять для блезиру завысил. :) Плюс, в течение этих 30 дней надо еще и покупку совершить. То есть шансы уменьшаются.
Ладно, спасибо за разъяснение. :)
Поковырялся в Интернете. В .ru + .рф - 5,2 млн. сайтов, из них 47% с метрикой. То есть 2,44 млн. Допустим, конверсия любопытствующих - 0,8% (в большее не верю). 19,5 тыс. веб-мастеров перейдут по ссылке. Допустим, около половины что-то покупают вообще, а на ali, да еще в течение 30 дней еще меньше. Жить модель будет... ну 3-4 месяца. То есть 30-40 тыс. максимум человек. Если партнерское вознагражение около 500 руб., то потенциально схема может принести 20 млн.
Ну да. Есть за что биться.
Ах вот оно что. Но тогда спам крайне странный, Получается, он расчитан только на администраторов, которые смотрят статистику - это уже узкий сегмент. А учитывая, что скорее всего, большинство как и я, полюбопытствуют - а что же это за ерунда, и узнают ответ - то он быстро перестанет быть привлекательным для спамера. В чем фишка то? :)
Фильтр включил, посомтрим. :)
Все правильно, метрике подсовывается REFFER, так? А если web-движок по правилам
RewriteEngine On
RewriteCond %{HTTP_REFERER} 9157481813.ru [NC,OR]
RewriteCond %{HTTP_REFERER} b-motor\.ru [NC,OR]
RewriteCond %{HTTP_REFERER} b-motor\.info [NC,OR]
RewriteCond %{HTTP_REFERER} erot\.co [NC,OR]
RewriteCond %{HTTP_REFERER} lombia\.co [NC,OR]
RewriteCond %{HTTP_REFERER} lumb\.co [NC,OR]
RewriteCond %{HTTP_REFERER} co\.lumb\.co [NC,OR]
RewriteCond %{HTTP_REFERER} ilovevitaly\.ru [NC,OR]
RewriteCond %{HTTP_REFERER} iskalko\.ru [NC,OR]
RewriteCond %{HTTP_REFERER} "viagra|cialis|phentermine" [NC]
RewriteRule .* - [F,L,E=spam:refspam]
просто не пустит такой запрос до метрики?