statoperator - контент аналитика крупных проектов

12
Slc
На сайте с 27.06.2003
Offline
150
Slc
3070

Цель каждого сайта - дарить пользователям (и поисковым системам) чудесный и уникальный контент. В рамках этой концепции, каждый урл, который вы собрались стримить в мир, должен представлять из себя ценность как конент, иначе его существование бессмысленно. :)

В процессе создания крупных коммерческих проектов (екомерс, маркетплейсы) неизбежно генерируется огромное количество страниц, контентная ценность которых может не удовлетворять поисковые системы. Например бесчисленные листинги, сгенерированные автоматически из одних и тех же объектов.

Это приводит к определенным проблемам:

  • страницы не лезут в индекс
  • трафик неравномерно распределен по сайту (на одних страницах с контентом траф есть, а на других нет)

Причина такого поведения поисковой системы часто кроется в том, что поисковик не видит ценности в таких страницах. Не видит он её потому, что другие страницы сайта уже отвечают на все запросы, которые могут вести на эту страницу. Такой урл помещается в отдельный индекс - сопли у гугла или мусорный/скрытый индекс у яндекса.

Для того, чтобы избежать таких ситуаций, требуется каким-то образом оценивать свои урлы на предмет контентной уникальности в рамках сайта, а еще лучше, в рамках интернета.

Стандартным средством для проверки страницы на уникальность является анализ по n-граммам. Контент каждой страницы разбивается на шинглы (n-граммы) и пересекается между шинглами других страниц сайта. В результате такого пересечения получается матрица частотности употребения каждого шингла страницы в рамках сайта, что дает чёткое представление о количестве дублированного контента. Аналогичные методы давно используют все коммерчески успешные поисковые системы: Google, Baidu, Bing, Yandex.

Задача разбиения большого числа страниц на шинглы и их пересечения достаточно нетривиальна. Мы предоставляем эту улугу как сервис, пересекая собранные шинглы с вашего сайта не только между собой, но и с внешней базой. Внешняя база собирается индивидуально, с учетом требований заказчика. Стандартная эталонная база 5-10 млрд шинглов, но мы можем обойти и миллиард страниц, если надо. :)

В результате вы получаете важнейшие показатели страницы:

  • процент внутренней уникальности страницы в рамках сайта
  • процент внешней уникальности страницы в рамках заданного сегмента

Вам остаётся своевременно отслеживать страницы с низкими показателями и проводить над ними работу: “разбавлять” уникальным контентом, удалять из сайтмепа низкокачественные страницы, выполнять прочие действия, направленные на то, чтобы на сайте не было страниц, не представляющих собой ценности.

Дополнительно мы можем рассчитать показатель “запросности” ваших страниц. Для этого мы обрабатываем предоставленную семантику (кейворды) и пересекаем ее с шинглами страниц. Показатель запросности отвечает на вопрос “а сколько вообще трафика может дать эта страница в рамках моего семантического ядра”. Страницы с высоким показателем запросности, находящиеся в индексе, участвующие во внутренней перелинковке, но не имеющие трафика - повод для того чтобы повнимательнее взглянуть на них.

Дополнительно, мы можем посчитать какие-то индивидуальные характеристики. Например разбить шинглы на тематические кластеры, оценить комерчесскость, водность, или сложность текста. Также можно задать параметры формирования шинглов - min/max длина слова, учет спецсимволов, итп.

Бонусом грепнем базу шинглов по вашим кейвордам и отгрузим результат -)

Мы не позиционируем сервис как чудо, враз решающее все проблемы с контентом, однако количество информации, которое он может дать к размышлению - огромно.

Summary

Сервис предоставляет услугу, в рамках которой:

  • Роботы сканируют весь сайт, или указанные урлы;
  • аналитическая система рассчитывает показатели внешней/внутренней уникальности страниц;
  • генерируется общий перечень страниц с ключевыми показателями + отчёт по каждой странице с подробным разбором шинглов, наглядно отражающий что конкретно и с чем пересекается
  • по желанию отчет обогащается индивидуальными показателями (запросность по ядру, водность, etc.)

В итоге вы получаете ясную картину о том, что представляет из себя контент каждой страницы сайта.

Кому будет полезен сервис:

  • крупным коммерчесским проектам (екомерс, маркетплейсы)
  • проектам, проповедающим принцип - больше страниц в индексе - больше трафика

В качестве демо мы пересекли по шинглам все морды доменов, находящихся в Alexa Top 1M и разместили отчёты по адресу http://data.statoperator.com

Все заинтересовавшиеся вебмастера могут проверить свои домены, посмотреть как морды проектов пересекаются по контенту и обвязке с другими сайтами, у кого какие сателлиты, кто у кого ворует и многое другое.

Примеры:

http://data.statoperator.com/report/pornhub.com/

http://data.statoperator.com/report/lamoda.ru/

http://data.statoperator.com/report/lenta.ru/

Сводную статистику датасета и цены на сервис можно найти на странице http://data.statoperator.com/about/

Приятного просмотра.

Вопросы по сервису можно задать здесь, или в личке мне или daocrawler

TF-Studio
На сайте с 17.08.2010
Offline
334
#1

http://vk.cc/5xfLjg

если ввести полностью адрес - то микро-баг

валидации нет, и протокол можно на автомате резать.

юзеры будут домены копировать из адресной строки, а FF к примеру всегда подсовывает протокол и закрывающий слеш

а вы умеете выделять контент (значимый) из тела документа или вы весь документ читаете?

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
Slc
На сайте с 27.06.2003
Offline
150
Slc
#2
если ввести полностью адрес - то микро-баг

Мы рассчитываем на вебмастеров, которые знают что такое домен -)

а вы умеете выделять контент (значимый) из тела документа или вы весь документ читаете?

Что имеется в виду под значимым контентом? Так-то весь сервис именно про это. А для того чтобы выделить этот значимый контент, необходимо "прочитать" весь документ -)

IBakalov
На сайте с 05.10.2011
Offline
218
#3

имхо, не взлетит твой сервис Стас

Slc
На сайте с 27.06.2003
Offline
150
Slc
#4
имхо, не взлетит твой сервис

по существу есть что сказать, Игорь? Или как обычно? -)

IBakalov
На сайте с 05.10.2011
Offline
218
#5
Slc:
по существу есть что сказать, Игорь? Или как обычно? -)

Вот прямо как в лицо плюнул :) А вообще я лично только один плюс у сервиса (для себя) вижу - возможность проверять внутрисайтовую уникальность, вроде в паблике других инструментов нет для такой задачи.

DC
На сайте с 17.06.2010
Offline
51
#6
IBakalov:
возможность проверять внутрисайтовую уникальность, вроде в паблике других инструментов нет для такой задачи.

Можно Siteliner для некоторых задач использовать.

[Удален]
#7
IBakalov:
возможность проверять внутрисайтовую уникальность

это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах

задача легко решается даже на excel ;)

[Удален]
#8
burunduk:
это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах
задача легко решается даже на excel ;)

Есть где почитать? Способы использовали разные, но инструмента по факту юзабильного не видел :( Если много ручного труда - уже не во всех случаях подойдет

[Удален]
#9

linweb, а что там читать, берёшь и пишешь что нужно

daocrawler
На сайте с 24.08.2016
Offline
1
#10
burunduk:
это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах
задача легко решается даже на excel ;)

Давайте оперировать конкретными категориями. Для того, чтобы получить финальный показатель

дуплицированности на средний миллион страниц контента, вам требуется сделать группировку матрицы из 6-8 миллиардов строк. Не важно, что вы собираетесь с ней делать дальше, вам изначально нужно обработать этот объем информации. Наш сервис, по факту, монетизирует вычислительную мощность, которая требуется для того, чтобы роботами выкачать все что у вас есть + обсчитать. Вы не можете сделать большую map-reduce операцию во вменяемое время не создавая для этого вычислительный кластер. Просто мы делаем это за вас и достаточно быстро, предоставляя готовый отчет обо всем контенте, который вы транслиуете в веб. Если есть желание разбить это на леммы - пожалуйста (правда, по лицензии яндекса, нельзя его использовать для создания подобных систем), упрётесь вы при этом всё-равно в железо.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий