Denechka

Рейтинг
59
Регистрация
29.10.2018
Виктор Петров #:

А зачем? По идее - отличный навык. Но насколько он обязателен в условиях, когда извлечение и обработка данных, информационный поиск сдают позиции поисковому маркетингу? Не правильнее ли приложить небесконечные ресурсы головной кости для актуальных навыков? Для аудитории слишком многое переходит в разряд избыточного и недоступного, там увеличение ссылочного бюджета на 150$ зачастую - неподъёмная ноша, а самая простая веб-аналитика - за гранью понимания. Проблемы же поциэнтов чаще всего сравнимы с лечением переломов, а не с ловлей блох.
И к слову: гуманитарий - это не оскорбление, если говорить о SEO в 2021. Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом. 

Не обижайтесь, я не собирался никого оскорблять. )
Виктор Петров #:

Я не гадалкой работаю. Я читаю про passage-based indexing, вижу, что некоторые ресурсы ранжируются не по целевому URL, а по фрагменту, и эти фрагменты в выдаче - вовсе уже не редкость, и по ряду запросов вот сейчас, в 2021, периодически заменяют обычные URL. Какие выводы из этого можно сделать? Их всего два. Пиарщики Гугла с год назад настаивали на том, что страницы всё-таки парсятся целиком. С учётом того, сколько раз они врали на голубом глазу, гипотезы остаются гипотезами.
Мне не очень важно знать, что было раньше - курица или яйцо и прочая схоластика.

Гадалкой работать не надо.

Что-бы понять как работает парсер, Вам надо написать хотя бы один реально работающий свой.

Допустим напишите (на php используя curl или на си с использованием веб-сокетов или ёще как, мне все равно, Ваш выбор) свой парсер, который просканирует не весь интернет, а какой-нибудь один более-менее крупный сайт (допустим, тот же yellowpages.com).

Уверяю - гуманитарной воды в ваших ответах по этим темам уменьшится в разы, зато появится конкретика.

P.S. Вы скажете - зачем мне данные, спарсенные с этого сайта. Я отвечу - я куплю у Вас их.

ale sty #:

Думаю потребуется время ~3 мес. чтоб гугл его адекватно расценил.

Тем более я всё чаше в сети нахожу отсылку на гугловский патент US8244722B1: для изменения основанной на ссылках информации интернет-страницы может потребоваться приблизительно 70 дней, чтобы изменить ранг документа на его постоянное (целевое) значение.

Ну да, на практике так и происходит переоценка после переобхода - от 1 до 3 месяцев.

Да, по сути эти патенты и есть только первоисточник, дающий представление о работе ПС.

Уметь бы их ещё правильно читать, анализировать, разбираться.

Marina N #:

Создала пользователя, захожу без проблем на сайт, а вот доступа к файлам нет.  Пусто) 

Стоп. У Вас тема называется как? "

Общая база данных на два сайта

"

Я Вам про пользователя БД написал, а структуру Ваших файликов, пардон не знаю, но, думаю, тоже легко можно настроить, допустим, предоставив к ним доступ для вновь созданного пользователя.

Если интересно про интернализацию от гугла, можете ознакомиться: https://developers.google.com/search/docs/advanced/crawling/international-overview?hl=ru

Тут про плюсы и минусы различных вариантов интернализации : https://developers.google.com/search/docs/advanced/crawling/managing-multi-regional-sites?hl=ru

А база на два сайтика конечно может быть и часто используется у меня на родственных проектах: просто при подключении к ней указываете одинаковые параметры подкючения - хост "localhost" или как там  у Вас, пользователя и пароль.

Ну или можете добавить нового пользователя этой базы и использовать его параметры.

ale sty #:

Ели вы имеете ввиду прикрутить новый сайт на дроп  или древний домен, то тут как повезет... чаще безрезультатно

зы. Из опыта скажу - лепил на дропы копипаст, делал автонаплняемым и забивал/забывал. Через полгода начинался кое-какой траф по НЧ. Через год сайт доходил до приемлемого уровня трафика и после этого его вообще ничего не колыхало, стоят как вкопанные. Есть подозрение, что если много позиций/трафика получу, то следом прилетят ручные санкции, ибо где-то читал официально что если копипаст засоряет топы, т.е. нафиг там "нормальным" по мнению гугла юзерам, не нужен, они его обязательно устранят.

Нет. Интересует немного другая ситуация. Допустим есть старый заброшенный домен. Что будет, если подлить туда свежего контента? Т.е. не прикручивать новый сайт на дроп, а просто добавить туда нового контента?
ale sty #:

Тут ключевое слово "старые".

Не так давно тот самый Мэтс Катс (или как его там...) говорил о важности истории сайта, возраста. Наверное это о вашем случае.

По своим пациентам заметил, что какой бы не был шлак (даже копипаст, как не смешно), но с возрастом 1год+ чудесно себя чувствуют в выдаче. Свежак, вылизанный до безумия, с уник контентом и норм.ссылками топчется в хвосте.

Вы имеете ввиду свежак на древнем сайте или молодом?

Интересно, как будет чувствовать себя свежак на древнем (3+г.) сайте?

Раз LaSet  подбросил монетку, випал орёл, значит покупайте, конечно.
Боитесь - не берите. Потом будете два года мучаться сомнениями. Нервы - дороже.
Виктор Петров #:

Времена меняются. То, что бот зашёл на сайт - ещё не значит, что он будет парсить контент. Или весь контент, а не один какой-то важный (для него) абзац или другой фрагмент. Мы этого не знаем, и всё, что у нас есть - это а) данные консоли; б) логи. То есть количество урлов, страницы в индексе в сопоставлении с тем, что там должно быть, плюс какая-то динамика по сканированию конкретных папок.

В консоли фиксируются только странички, там не понять, что бот старательно перебирал js и прочие служебные файлы. А это - тоже часть лимита.
Стало быть, говорить исключительно о лимите сканирования - не совсем корректно. Но других терминов пока нет.

насколько я смотрел индекс - там лежит ВЕСЬ код страницы на дату/время последнего обхода с кодом последнего обхода 200 от начального <doctype> до конечного </html> и даже все заголовки сервера. По этому и не только - от левых js-ов стараюсь избавляться.

Т.е. бот забирает ВСЮ страницу (если дождётся её, конечно).

Какие там куски будут переиндексирываться - это уже не задача краулера, это задача других подсистем.

По крайней мере у моих сайтов - так.

Всего: 493