И снова об индексации большого раздела сайта (много букв)

1 234
Виктор Петров
На сайте с 05.01.2020
Offline
240
#31
богоносец #:
А если бы вы парсилку писали, то по каким признакам выделяли бы в коде "важный абзац/фрагмент"? Может у вас даже есть примеры, когда из двух изменённых абзацев после скачивания ботом (html-документа) только один абзац учёлся? (вопрос не про рисуемое js) Вы не можете это проверить?.. «мы этого не знаем»

Я не гадалкой работаю. Я читаю про passage-based indexing, вижу, что некоторые ресурсы ранжируются не по целевому URL, а по фрагменту, и эти фрагменты в выдаче - вовсе уже не редкость, и по ряду запросов вот сейчас, в 2021, периодически заменяют обычные URL. Какие выводы из этого можно сделать? Их всего два. Пиарщики Гугла с год назад настаивали на том, что страницы всё-таки парсятся целиком. С учётом того, сколько раз они врали на голубом глазу, гипотезы остаются гипотезами.
Мне не очень важно знать, что было раньше - курица или яйцо и прочая схоластика.

D
На сайте с 29.10.2018
Offline
59
#32
Виктор Петров #:

Я не гадалкой работаю. Я читаю про passage-based indexing, вижу, что некоторые ресурсы ранжируются не по целевому URL, а по фрагменту, и эти фрагменты в выдаче - вовсе уже не редкость, и по ряду запросов вот сейчас, в 2021, периодически заменяют обычные URL. Какие выводы из этого можно сделать? Их всего два. Пиарщики Гугла с год назад настаивали на том, что страницы всё-таки парсятся целиком. С учётом того, сколько раз они врали на голубом глазу, гипотезы остаются гипотезами.
Мне не очень важно знать, что было раньше - курица или яйцо и прочая схоластика.

Гадалкой работать не надо.

Что-бы понять как работает парсер, Вам надо написать хотя бы один реально работающий свой.

Допустим напишите (на php используя curl или на си с использованием веб-сокетов или ёще как, мне все равно, Ваш выбор) свой парсер, который просканирует не весь интернет, а какой-нибудь один более-менее крупный сайт (допустим, тот же yellowpages.com).

Уверяю - гуманитарной воды в ваших ответах по этим темам уменьшится в разы, зато появится конкретика.

P.S. Вы скажете - зачем мне данные, спарсенные с этого сайта. Я отвечу - я куплю у Вас их.

Виктор Петров
На сайте с 05.01.2020
Offline
240
#33
Denechka #:
Что-бы понять как работает парсер, Вам надо написать хотя бы один свой.

А зачем? По идее - отличный навык. Но насколько он обязателен в условиях, когда извлечение и обработка данных, информационный поиск сдают позиции поисковому маркетингу? Не правильнее ли приложить небесконечные ресурсы головной кости для актуальных навыков? Для аудитории слишком многое переходит в разряд избыточного и недоступного, там увеличение ссылочного бюджета на 150$ зачастую - неподъёмная ноша, а самая простая веб-аналитика - за гранью понимания. Проблемы же поциэнтов чаще всего сравнимы с лечением переломов, а не с ловлей блох.
И к слову: гуманитарий - это не оскорбление, если говорить о SEO в 2021. Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом. 

D
На сайте с 29.10.2018
Offline
59
#34
Виктор Петров #:

А зачем? По идее - отличный навык. Но насколько он обязателен в условиях, когда извлечение и обработка данных, информационный поиск сдают позиции поисковому маркетингу? Не правильнее ли приложить небесконечные ресурсы головной кости для актуальных навыков? Для аудитории слишком многое переходит в разряд избыточного и недоступного, там увеличение ссылочного бюджета на 150$ зачастую - неподъёмная ноша, а самая простая веб-аналитика - за гранью понимания. Проблемы же поциэнтов чаще всего сравнимы с лечением переломов, а не с ловлей блох.
И к слову: гуманитарий - это не оскорбление, если говорить о SEO в 2021. Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом. 

Не обижайтесь, я не собирался никого оскорблять. )
Виктор Петров
На сайте с 05.01.2020
Offline
240
#35
Denechka #:
Не обижайтесь, я не собирался никого оскорблять. )

Я понял. Но это общая коннотация, так или иначе проявляющаяся в любой веб-студии при общении с разработчиками или аналитиками. Привычно, но всё же вызывает некоторое недоумение.

богоносец
На сайте с 30.01.2007
Offline
754
#36
Виктор Петров #:
Я по образованию филолог, а одним из своих "коньков" считаю семантику и умение работать с текстовым контентом

Вам это пригодится при проведении простейших экспериментов (весь контент статика.html):

завести на сцайте, доступном для индексации несколько документов, чтобы там было несколько абзацев / в кажном из которых есть уникальное для документа слово, дождаться (пере)индексации, поискать уникальное слово... проверить – (новые) абзацы вместе попали в индекс или как вы на предыдущей странице фантазировали.

Зачем проклятому гуглу, вынужденному экономить ресурсы, доп.затраты на "постепенную" индексацию статики? А ещё это означало бы не релевантную выдачу...

Виктор Петров
На сайте с 05.01.2020
Offline
240
#37
богоносец #:
завести на сцайте, доступном для индексации несколько документов, чтобы там было несколько абзацев / в кажном из которых есть уникальное для документа слово, дождаться (пере)индексации, поискать уникальное слово... проверить – (новые) абзацы вместе попали в индекс или как вы на предыдущей странице фантазировали.

Вопрос временных ресурсов и необходимости.
Объективно: пока Гугл свой MuM тестировать не прекратит - поводов для экспериментов слишком много, а выхлопа от них - ноль.
Я отслеживаю несколько таких страниц. В топе постоянно меняется выдача фрагмента с полным документом. До тех пор, пока фрагмент торчит на целевой странице, а страница торчит в топе - нет повода что-то менять.

SilverMaster
На сайте с 08.10.2003
Offline
228
#38
Denechka #:


P.S. Вы скажете - зачем мне данные, спарсенные с этого сайта. Я отвечу - я куплю у Вас их.

Сколько заплатите? 

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла
D
На сайте с 29.10.2018
Offline
59
#39
SilverMaster #:

Сколько заплатите? 

100$ за данные каждого 1000000стр.

Только вышлите, пожалуйста пробные данные, порядка 2000-3000, что бы можно было обговорить выходной формат и окончательную цену.

Желателен формат sql (MySQL),либо csv, либо xml, на крайняк txt(не желательно, т.к. могут быть траблы с разделителями). В идеале sql (MySQL).

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий