Оооо! Колоссальная! Массе ты ничего не должен, а инвесторы просто так деньги не дают :)
Я такого не говорил. Всё возможно при должном умении и старании.
Это не мои выводы, это ты обозначил свои выводы.
Мои выводы - можно и нужно работать в направлении акцентов на кликовые (поведенческие факторы), тем более, что информация по Яндексу открыта - можно смотреть и разбираться.
Может конечно, только гораздо медленнее и при благоприятных для него обстоятельствах по CTR из поиска.
И вбухивание денег во всевозможные инструменты этому тоже будут способствовать.
Володь, это не про инвестора, это про фин. поддержку от массы симпатизирующих :)
Так я об этом выше и написал.
Сама накрутка она же на реакции алгоритма базируется, все остальные сайты ранжируются по тем же правилам.
Вот эти кликовые факторы даже с расчётным рангом,
Разница лишь в том, что накрутчики могут массово давить на этот фактор, а в естественной среде эти показатели должны набираться в рабочей инерции.
Тогда либо Disallow: /? либо noindex на все страницы, которые начинаются с ?.
Самая главная фишка (для Яндекса) - это то, что в Яндексе без нужного CTR по рабочим запросам поисковая видимость по этим запросам расти не будет. На этом базируется накрутка и всё быстрое продвижение в Яндексе.
Вторая главная фишка - это если кроме CTR вы ещё организуете стабильные конверсии, то станете лидерами топа.
Текстовая плотность, перелинковка, ссылки, объёмы текстов, всякие pagespeed-ы для Яндекса глубоко вторичны.
Приведите полный список.
Пока всё покрывается правилом: yandex-source&hhtmFrom
Если эта разница в части после "=", то это неважно, какой там набор символов.
Правильно, потому что это не ультимативное правило, это лишь рекомендация и Яндекс может переопределить правило (как в вашем случае).
Пробуйте Disallow: /?
Что конкретно друг другу противоречит? Приведите последовательно и точно, что у вас вызывает противоречие.
Да, это тоже вариант.
Только не в robots-е, а в htaccess:
---
SetEnvIfNoCase User-Agent "Abonti|AspiegelBot|aggregator|AhrefsBot|Aport|asterias|Baiduspider|BDCbot|bidswitchbot|Birubot|BLEXBot|BUbiNG|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|CyotekWebCopy/1\.7|CyotekHTTP/2\.0|DataForSeoBot|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LinkpadBot|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|MSIECrawler|msnbot|msnbot-media|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|PetalBot|ProWebWalker|ptd-crawler|Purebot|PycURL|python-requests|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|Slurp|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|sqlmap|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot
Deny from env=bad_bot
--
Вижу, что программа имеет два вида данных, в процессе работы.
1. Непосредственно уже полученные (распарсенные).2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)
Вряд ли стоит разделять, тут просто надо понимать, что сначала краулер находит определённый объём ссылок, потом распаршивает их, обрабатывает доп. линки, сравнивает их с уже имеющимися, добавляет новые и закидывает их в очередь.
Поэтому в очереди вы видите одну цифру, а в обработанном перечне уже результат обработки.
За миллионы? Тогда здесь конечно нужны хорошие мощности.
Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.
Если найдете способ - расскажите :)
По времени такой возможности нет.
На мой взгляд, можно примерно определить в какой период (т.е. на каком объеме она падает) и потом вручную на рабочих интервалах делать паузы, сохранения и возобновлять с точки остановки.
Скорее всего программа падает, потому что исчерпывает рабочую память или отведённое ей пространство, поэтому я и сказал, что здесь нужны хорошие мощности. Парсить миллионники - задача конечно не простая.