- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Цель каждого сайта - дарить пользователям (и поисковым системам) чудесный и уникальный контент. В рамках этой концепции, каждый урл, который вы собрались стримить в мир, должен представлять из себя ценность как конент, иначе его существование бессмысленно. :)
В процессе создания крупных коммерческих проектов (екомерс, маркетплейсы) неизбежно генерируется огромное количество страниц, контентная ценность которых может не удовлетворять поисковые системы. Например бесчисленные листинги, сгенерированные автоматически из одних и тех же объектов.
Это приводит к определенным проблемам:
Причина такого поведения поисковой системы часто кроется в том, что поисковик не видит ценности в таких страницах. Не видит он её потому, что другие страницы сайта уже отвечают на все запросы, которые могут вести на эту страницу. Такой урл помещается в отдельный индекс - сопли у гугла или мусорный/скрытый индекс у яндекса.
Для того, чтобы избежать таких ситуаций, требуется каким-то образом оценивать свои урлы на предмет контентной уникальности в рамках сайта, а еще лучше, в рамках интернета.
Стандартным средством для проверки страницы на уникальность является анализ по n-граммам. Контент каждой страницы разбивается на шинглы (n-граммы) и пересекается между шинглами других страниц сайта. В результате такого пересечения получается матрица частотности употребения каждого шингла страницы в рамках сайта, что дает чёткое представление о количестве дублированного контента. Аналогичные методы давно используют все коммерчески успешные поисковые системы: Google, Baidu, Bing, Yandex.
Задача разбиения большого числа страниц на шинглы и их пересечения достаточно нетривиальна. Мы предоставляем эту улугу как сервис, пересекая собранные шинглы с вашего сайта не только между собой, но и с внешней базой. Внешняя база собирается индивидуально, с учетом требований заказчика. Стандартная эталонная база 5-10 млрд шинглов, но мы можем обойти и миллиард страниц, если надо. :)
В результате вы получаете важнейшие показатели страницы:
Вам остаётся своевременно отслеживать страницы с низкими показателями и проводить над ними работу: “разбавлять” уникальным контентом, удалять из сайтмепа низкокачественные страницы, выполнять прочие действия, направленные на то, чтобы на сайте не было страниц, не представляющих собой ценности.
Дополнительно мы можем рассчитать показатель “запросности” ваших страниц. Для этого мы обрабатываем предоставленную семантику (кейворды) и пересекаем ее с шинглами страниц. Показатель запросности отвечает на вопрос “а сколько вообще трафика может дать эта страница в рамках моего семантического ядра”. Страницы с высоким показателем запросности, находящиеся в индексе, участвующие во внутренней перелинковке, но не имеющие трафика - повод для того чтобы повнимательнее взглянуть на них.
Дополнительно, мы можем посчитать какие-то индивидуальные характеристики. Например разбить шинглы на тематические кластеры, оценить комерчесскость, водность, или сложность текста. Также можно задать параметры формирования шинглов - min/max длина слова, учет спецсимволов, итп.
Бонусом грепнем базу шинглов по вашим кейвордам и отгрузим результат -)
Мы не позиционируем сервис как чудо, враз решающее все проблемы с контентом, однако количество информации, которое он может дать к размышлению - огромно.
Summary
Сервис предоставляет услугу, в рамках которой:
В итоге вы получаете ясную картину о том, что представляет из себя контент каждой страницы сайта.
Кому будет полезен сервис:
В качестве демо мы пересекли по шинглам все морды доменов, находящихся в Alexa Top 1M и разместили отчёты по адресу http://data.statoperator.com
Все заинтересовавшиеся вебмастера могут проверить свои домены, посмотреть как морды проектов пересекаются по контенту и обвязке с другими сайтами, у кого какие сателлиты, кто у кого ворует и многое другое.
Примеры:
http://data.statoperator.com/report/pornhub.com/
http://data.statoperator.com/report/lamoda.ru/
http://data.statoperator.com/report/lenta.ru/
Сводную статистику датасета и цены на сервис можно найти на странице http://data.statoperator.com/about/
Приятного просмотра.
Вопросы по сервису можно задать здесь, или в личке мне или daocrawler
http://vk.cc/5xfLjg
если ввести полностью адрес - то микро-баг
валидации нет, и протокол можно на автомате резать.
юзеры будут домены копировать из адресной строки, а FF к примеру всегда подсовывает протокол и закрывающий слеш
а вы умеете выделять контент (значимый) из тела документа или вы весь документ читаете?
Мы рассчитываем на вебмастеров, которые знают что такое домен -)
Что имеется в виду под значимым контентом? Так-то весь сервис именно про это. А для того чтобы выделить этот значимый контент, необходимо "прочитать" весь документ -)
имхо, не взлетит твой сервис Стас
по существу есть что сказать, Игорь? Или как обычно? -)
по существу есть что сказать, Игорь? Или как обычно? -)
Вот прямо как в лицо плюнул :) А вообще я лично только один плюс у сервиса (для себя) вижу - возможность проверять внутрисайтовую уникальность, вроде в паблике других инструментов нет для такой задачи.
возможность проверять внутрисайтовую уникальность, вроде в паблике других инструментов нет для такой задачи.
Можно Siteliner для некоторых задач использовать.
возможность проверять внутрисайтовую уникальность
это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах
задача легко решается даже на excel ;)
это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах
задача легко решается даже на excel ;)
Есть где почитать? Способы использовали разные, но инструмента по факту юзабильного не видел :( Если много ручного труда - уже не во всех случаях подойдет
linweb, а что там читать, берёшь и пишешь что нужно
это вообще очень легко сделать и на более глубоком уровне, обрабатывать не просто шинглы, а сначала прогнать шинглы через майстем, получить лемы, отсортировать внутри исходного шингла лемы по алфавиту и искать пересечение уже в лемах
задача легко решается даже на excel ;)
Давайте оперировать конкретными категориями. Для того, чтобы получить финальный показатель
дуплицированности на средний миллион страниц контента, вам требуется сделать группировку матрицы из 6-8 миллиардов строк. Не важно, что вы собираетесь с ней делать дальше, вам изначально нужно обработать этот объем информации. Наш сервис, по факту, монетизирует вычислительную мощность, которая требуется для того, чтобы роботами выкачать все что у вас есть + обсчитать. Вы не можете сделать большую map-reduce операцию во вменяемое время не создавая для этого вычислительный кластер. Просто мы делаем это за вас и достаточно быстро, предоставляя готовый отчет обо всем контенте, который вы транслиуете в веб. Если есть желание разбить это на леммы - пожалуйста (правда, по лицензии яндекса, нельзя его использовать для создания подобных систем), упрётесь вы при этом всё-равно в железо.