Google применил технологии Deep Learning для борьбы с поисковым спамом

18 сентября был опубликован патент Google на классификацию поискового спама «Классификация ресурсов с использованием самообучающейся сети» (Classifying Resources Using a Deep Network ). Об этом сообщает SEO-эксперт Билл Славски (Bill Slawski). 

Запатентованная технология была изобретена разработчиками компании Цинчжоу Ван (Qingzhou Wang), Ю Лян(Yu Liang), Ке Ян (Ke Yang) и Кай Чэнь (Kai Chen).

Последние несколько лет лидер поиска был занят построением самообучающейся сети, известной как Google Brain.

Google Brain – неофициальное название исследовательского проекта Google, посвященного глубокому обучению (Deep Learning). В рамках этого проекта исследователи компании смогли создать примерную модель работы нейронов головного мозга – «нейрональную» самообучающуюся сеть, соединив 16,000 процессоров и подключив её к сети Интернет. Полученная система сумела самостоятельно обучиться распознавать образ котов.

Теперь компания использует эти технологии для идентификации поискового спама, что нашло выражение в разработке патента на его классификацию. 

Патент описывает методы, которые включают:

  • прием входящей информации, содержащей множество характеристик ресурса, в котором каждая характеристика – это значение соответствующего атрибута ресурса;
  • обработку каждой характеристики, используя соответствующую функцию вложения для генерации одного или нескольких числовых значений;
  • обработку числовых значений, используя один или несколько нейронных сетевых уровней для создания альтернативного представления о характеристиках ресурса, в котором обработка значений с эластичными параметрами включает применение к ним одного или нескольких нелинейных преобразований;
  • обработку альтернативного представления входа с использованием классификатора для генерации соответствующей оценки для каждой категории в их заранее определенном наборе, где каждая из соответствующих оценок измеряет прогнозированную вероятность, что ресурс принадлежит к соответствующей категории.

«Предопределенный набор категорий» может включать категорию спама поисковых систем. Оценка категории (category score) для ресурса измеряет предсказанную вероятность, что ресурс является поисковым спамом.

J7V7Bn.jpg

Предопределенный набор категорий может включать в себя соответствующую категорию для каждого из множества типов поискового спама.

Оценки категорий могут быть использованы для:

  • определения, следует ли добавлять эти ресурсы в индекс поисковых систем;
  • генерирования и упорядочивания результатов поиска в ответ на поисковые запросы.

Самообучающаяся сеть может быть эффективно использована для классификации ресурсов в категории. Например, ресурсы могут быть классифицированы как являющиеся или не являющиеся спамом, как являющиеся одним из нескольких видов спама или как один из двух и больше типов ресурсов.

«Использование самообучающейся сети для классификации ресурсов по категориям может привести к тому, что поисковые системы будут способны лучше удовлетворить информационные потребности пользователей путем эффективного определения поискового спама и воздержания от предоставления поисковых результатов, определяющих такие ресурсы, пользователям. Или же они смогут предоставить поисковые результаты, которые идентифицируют ресурсы, принадлежащие к категориям, лучше соответствующим информационным потребностям пользователя» - поясняют разработчики в патенте.

Согласно патенту, эта система классификации ресурсов может типизировать ресурсы как «поисковый спам или не поисковый спам». Она не определяет детали веб-спама, но говорит о том, что может выделить его типичные виды, такие как:

  • контент-спам;
  • ресурсы, содержащие ссылочный спам;
  • ресурсы, использующие клоакинг;
  • и т.д.

Ресурсы на страницах сайта могут включать слова из контента сайта в символьной форме; URL-ы сайта; его тайтл; имя домена; категории или типы объектов, относящиеся к сайту; его возраст. Каждая из этих характеристик может быть использована для расчета вероятности того, что сайт является спам-ресурсом, и определения, индексировать его или понижать в выдаче.

Патент не предоставляет деталей относительно обучения и классификации характеристик в рамках модели машинного обучения, но ссылается на документ, который дает эту информацию: Large Scale Distributed Deep Networks.

subscribe

Подпишитесь на рассылку SearchEngines

— Статьи мировых экспертов

— Аналитические обзоры

— Важные новости

— Горячие темы с нашего форума

Google выпустил обновление алгоритма Panda 4.1

Представитель Google UK Пьер Фар (Pierre Far) на своей странице Google+ сообщил о выходе обновления алгоритма Panda: «Вышло обновление алгоритма Panda Ранее на этой неделе мы...

Всего 5% американских взрослых пользователей интернета покупают в социальных сетях

Только 5% американских взрослых пользователей интернета совершили покупку в социальной сети, например Facebook, Twitter или Pinterest

Yahoo завершает работу Yahoo Education, Qwiki и Directory

Yahoo перенаправляет ресурсы с непопулярных сервисов на востребованные и «согласующиеся с видением» компании

RushAgency представил бета-версию сервиса по автоматизации подбора семантики

На конференции SEO Conference 2014 Олег Шестаков (RushAgency) представил новый сервис для автоматизации подбора семантики для крупных e-commerce проектов – RushAnalytics

Уведомления Google Webmaster Tools предлагают дальнейшие действия для улучшения сайта

Пользователи заметили новую форму уведомлений, которые направляются веб-мастерам после первой проверки нового сайта в Google Webmaster Tools

Дорогой Руперт: Google ответил на жалобу News Corp в Еврокомиссию

На прошлой неделе международный медиа-холдинг News Corp, подконтрольный Руперту Мердоку (Rupert Murdoch), направил открытое письмо в Европейскую комиссию с жалобой на Google