Антоний Казанский

Антоний Казанский
Рейтинг
787
Регистрация
12.04.2007
Должность
Частный интернет-маркетолог и SEO специалист
Интересы
Интернет-маркетинг, SEO, интернет реклама
Подробности на сайте https://akazansky.ru
Vladimir SEO #:
ну а какая разница кто бабло даст ))

Оооо! Колоссальная! Массе ты ничего не должен, а инвесторы просто так деньги не дают :)

Datot #:
ВСЁ. САЙТЫ создавать больше не стоит - Бесперспективно, т.к.. все места заняты и выйти в ТОП НЕВОЗМОЖНО

Я такого не говорил. Всё возможно при должном умении и старании.


Datot #:
Это я перевел для простых людей твои выводы.

Это не мои выводы, это ты обозначил свои выводы.

Мои выводы - можно и нужно работать в направлении акцентов на кликовые (поведенческие факторы), тем более, что информация по Яндексу открыта - можно смотреть и разбираться.

Datot #:
новый сайт в отличие от древней помойки, добраться до топа не сможет НИКОГДА?

Может конечно, только гораздо медленнее и при благоприятных для него обстоятельствах по CTR из поиска.


Datot #:
или вбухать море денег во все возможные инструменты, для получения " в естественной среде"

И вбухивание денег во всевозможные инструменты этому тоже будут способствовать. 

Vladimir SEO #:
краудфандинг например

Володь, это не про инвестора, это про фин. поддержку от массы симпатизирующих :)

Vladimir SEO #:
это накрутка пф)

Так я об этом выше и написал.

Сама накрутка она же на реакции алгоритма базируется, все остальные сайты ранжируются по тем же правилам.

Вот эти кликовые факторы даже с расчётным рангом,


Разница лишь в том, что накрутчики могут массово давить на этот фактор, а в естественной среде эти показатели должны набираться в рабочей инерции.

Bjoerndalen #:
я говорю что Clean-param не выход

Тогда либо Disallow: /? либо noindex на все страницы, которые начинаются с ?.

Самая главная фишка (для Яндекса) - это то, что в Яндексе без нужного CTR по рабочим запросам поисковая видимость по этим запросам расти не будет. На этом базируется накрутка и всё быстрое продвижение в Яндексе.

Вторая главная фишка - это если кроме CTR вы ещё организуете стабильные конверсии, то станете лидерами топа.

Текстовая плотность, перелинковка, ссылки, объёмы текстов, всякие pagespeed-ы для Яндекса глубоко вторичны.

Bjoerndalen :
Это только часть, набор символов после знака "?"

Приведите полный список.

Пока всё покрывается правилом:  yandex-source&hhtmFrom


Bjoerndalen :
набор символов после знака "?" может быть совершенно любая, так что закрытие их от индекса через Clean-param не выход.

Если эта разница в части после "=", то это неважно, какой там набор символов.


Bjoerndalen :
На таких страницах у меня естественно стоит rel=canonical на основную, но яндексу плевать, при добавлении в индекс он пишет "Страница попала в поиск, поскольку во время её сканирования роботом её содержимое существенно отличалось от содержимого страницы по адресу", хотя естественно содержимое страницы идентично основной, но он видимо не умеет это определять.

Правильно, потому что это не ультимативное правило, это лишь рекомендация и Яндекс может переопределить правило (как в вашем случае).


Bjoerndalen :
Также недавно попробовал закрыть их в роботсе строкой Disallow: *? , Яндекс сначала выкинул часть из индекса основываясь на этом правиле, затем опять стал добавлять, то есть и это ему плевать.

Пробуйте Disallow: /?


Bjoerndalen :
Поддержка несет какую-то пургу противоречащую друг другу из сообщения в сообщение.

Что конкретно друг другу противоречит? Приведите последовательно и точно, что у вас вызывает противоречие.


Bjoerndalen :
Склоняюсь к тому чтобы наглухо закрыть все подобные страницы метатегом noindex, но это крайний случай.

Да, это тоже вариант.

Brat_Sergij #:
У кого-нибудь есть список ботов-краулеров, наподобие SemrushBot, AhrefsBot и т.п.? Тех, что занимаются анализом сайта, и которых можно заблочить через robots.txt

Только не в robots-е, а в htaccess:

---

SetEnvIfNoCase User-Agent "Abonti|AspiegelBot|aggregator|AhrefsBot|Aport|asterias|Baiduspider|BDCbot|bidswitchbot|Birubot|BLEXBot|BUbiNG|BuiltBotTough|Bullseye|BunnySlippers|Butterfly|ca\-crawler|CamontSpider|CCBot|Cegbfeieh|CheeseBot|CherryPicker|coccoc|CopyRightCheck|cosmos|crawler|Crescent|CyotekWebCopy/1\.7|CyotekHTTP/2\.0|DataForSeoBot|DeuSu|discobot|DittoSpyder|DnyzBot|DomainCrawler|DotBot|Download Ninja|EasouSpider|EmailCollector|EmailSiphon|EmailWolf|EroCrawler|Exabot|ExtractorPro|Ezooms|FairShare|Fasterfox|FeedBooster|Foobot|Genieo|GetIntent\ Crawler|Gigabot|gold\ crawler|GrapeshotCrawler|grub\-client|Harvest|hloader|httplib|HTTrack|humanlinks|HybridBot|ia_archiver|ieautodiscovery|Incutio|InfoNaviRobot|InternetSeer|IstellaBot|Java|Java/1\.|JamesBOT|JennyBot|JS-Kit|k2spider|Kenjin Spider|Keyword Density/0\.9|kmSearchBot|larbin|LexiBot|libWeb|libwww|Linguee|LinkExchanger|LinkextractorPro|linko|LinkScan/8\.1a Unix|LinkWalker|LinkpadBot|lmspider|LNSpiderguy|ltx71|lwp-trivial|lwp\-trivial|magpie|Mata Hari|MaxPointCrawler|MegaIndex|memoryBot|Microsoft URL Control|MIIxpc|Mippin|Missigua Locator|Mister PiX|MJ12bot|MLBot|moget|MSIECrawler|msnbot|msnbot-media|NetAnts|NICErsPRO|Niki\-Bot|NjuiceBot|NPBot|Nutch|Offline Explorer|OLEcrawler|Openfind|panscient\.com|PostRank|ProPowerBot/2\.14|PetalBot|ProWebWalker|ptd-crawler|Purebot|PycURL|python-requests|Python\-urllib|QueryN Metasearch|RepoMonkey|Riddler|RMA|Scrapy|SemrushBot|serf|SeznamBot|SISTRIX|SiteBot|sitecheck\.Internetseer\.com|SiteSnagger|Serpstat|Slurp|SnapPreviewBot|Sogou|Soup|SpankBot|spanner|spbot|Spinn3r|SpyFu|suggybot|SurveyBot|suzuran|sqlmap|SWeb|Szukacz/1\.4|Teleport|Telesoft|The Intraformant|TheNomad|TightTwatBot|Titan|toCrawl/UrlDispatcher|True_Robot|ttCrawler|turingos|TurnitinBot|UbiCrawler|UnisterBot|Unknown|uptime files|URLy Warning|User-Agent|VCI|Vedma|Voyager|WBSearchBot|Web Downloader/6\.9|Web Image Collector|WebAuto|WebBandit|WebCopier|WebEnhancer|WebmasterWorldForumBot|WebReaper|WebSauger|Website Quester|Webster Pro|WebStripper|WebZip|Wotbox|wsr\-agent|WWW\-Collector\-E|Yeti|YottosBot|Zao|Zeus|ZyBORG" bad_bot

Deny from env=bad_bot

--

annaov #:

Вижу, что программа имеет два вида данных, в процессе работы.

1. Непосредственно уже полученные (распарсенные).
2. Выставленные в очередь, по которым она идет (могут опережать первые в 2-3 раза по объему)

Вряд ли стоит разделять, тут просто надо понимать, что сначала краулер находит определённый объём ссылок, потом распаршивает их, обрабатывает доп. линки, сравнивает их с уже имеющимися, добавляет новые и закидывает их в очередь.

Поэтому в очереди вы видите одну цифру, а в обработанном перечне уже результат обработки.


annaov #:
Когда проект большой, бывает, что именно окончание его идет очень нудно (где счет перевалил за миллион(ы)

За миллионы? Тогда здесь конечно нужны хорошие мощности.


annaov #:
Как получить, на экспорт, эту очередь еще непроверенных данных, ведь где то она в базе программы лежит?

Думаю, что никак, в программе, на сколько я знаю, это не предусмотрено.

Если найдете способ - расскажите :)


annaov #:
Нет ли в ней встроенной возможности себя пересохранять (дамп обхода), например, каждый час. А то обидно.

По времени такой возможности нет.

На мой взгляд, можно примерно определить в какой период (т.е. на каком объеме она падает) и потом вручную на рабочих интервалах делать паузы, сохранения и возобновлять с точки остановки.

Скорее всего программа падает, потому что исчерпывает рабочую память или отведённое ей пространство, поэтому я и сказал, что здесь нужны хорошие мощности. Парсить миллионники - задача конечно не простая.

Всего: 12575