Мануал есть на форуме у меня, forum.ifirestarter.ru
Там же и демки и примеры и парочка полезных стриптов по теме.
exarh, Спалишь нам что-то, или дальше будем гадать?😂
Хз, сам уже начинаю верить в какой то магический фильтр на начальное количество страниц на молодом сайте. Ситуация такая: Дропы, куча страниц в индексе, но трафа 0, Ключ=Тайтл, в вебмастере санкций нету.
Схема, которая работала до НГ приказала долго жить))) Матрикснет прикрутили нормально, в частности, какие-то из основных параметров.
В этом месяце самой первой пачке из 9 доров исполняется год.
Вот такие вот цифры.
Это не так и много, но траф до сих пор идет.
Давайте по этом случаю, проведем мини акцию для участников форума.
До 14.02.2017 цена на Thunder 3 всего 1900 рублей.
+еще 2 инструмента для сбора трафика из моей частной коллекции.
Детальная информация, реквизиты свежие пруфы и примеры >>
Все активировал, Добро пожаловать.
Варианты есть тут
https://github.com/ikarienator/phantomjs_hide_and_seek
Но 100% рабочего нету вообще.
Это - 5. Чуть не умер от смеха. 🤣
Вы сильно не обращайте на них внимание. Ваш сайт обходит headless browser PhantomJS, это как простой браузер Chrome только без графической оболочки. Когда на вашем сайте контент отдается по JS и его нельзя вытянуть обычным парсером, тянут страницу вот такими шутками, как PhantomJS. А уже поменять юзерагенты и прочее, это вообще не проблема.
Ваш сайт(или доры) парсят, вот и все. Можете со смелой душой их блокировать и голову ними не забивать.
В нейронный сетях ~ 0, а в распознавании изображений, так точно, но суть где-то такова.
1) для распознавания "да", вполне, а вот для обучения(получения рабочей модели) скорее всего использовали видеокарты+сервисы ********и.
2) размер самого кода сети не очень большой, так как все изображения распознаются, скорее всего, "под одну гребенку"(ибо ********у не может она распознать). А разбивка на группы идет "без учителя", то есть автоматом(не все изображения в одно группе одинаковые).
Как видим, размер модели, около 13 Мб. Грубо говоря, этих данных достаточно, чтобы распознать 8000 типов картинок+распознать символы на них.
Но есть одно, "но" - Затраты на обучение.
Оборудование( не беру в счет человекочасы на кодинг ) +~8000 типов*1000(чтобы процент был вменяемый) картинок из группы = посчитайте ********у, ибо я не уверен, что все картинки распознавались(обучалась сеть) на старых(тех, которые использовал БМ до этого) технологиях распознавания капч.
Итого - просто ТИТАНИЧЕСКАЯ!!! работа+анализ.
К сожалению, или к счастью, распознать изображение != написать текст, да еще и на русском(украинском, белорусском).
Тут свои камни, и они намного большое, чем в распознавании изображений, особенно, когда имеем дело с языками стран ближнего зарубежья. Я молчу про СЕО составляющую, которую, если не пробьешь, то пофигу на тексты.
Вот вам немного текста, на нейронных сетях, игровая тематика.
http://pastebin.com/2jie9v1n
Прошу сильно не вникать в эту тему(да и в тексты), это действительно сильно затратно для дорвееев. Но очень интересно )))
Можно взять листы спам(мусорных) ботов тут:
http://en.linuxreviews.org/HOWTO_stop_automated_spam-bots_using_.htaccess
https://github.com/bluedragonz/bad-bot-blocker/blob/master/.htaccess
Оставьте только нужные вам, остальные будут фильтроваться.