Новый алгоритм Google для борьбы со спамом

30

alrond

2 января 2007, 10:31

1374

Прочитал на хабре про новый алгоритм PhraseRank

http://www.habrahabr.ru/blog/google/2699.html

Что думаете по этому поводу?

WIPmania.com (http://www.wipmania.com/ru/) - бесплатная WorldIP база и API, ping/traceroute по всему миру от Аргентины до Китая

AR

86

andrew-rostov

2 января 2007, 14:16

#1

Компания Google запатентовала новый алгоритм PhraseRank

Гугл много чего запатентовал. Вот увидит ли этот патент свет - это другой вопрос, и если увидет, то как скоро.

А вообще главный совет: делайте сайты для людей и вам о сешних фишках беспокоится придётся мало. И будет вам глубоко всё равно на новые алгоритмы гугля. :)

MoneyBookers (https://www.moneybookers.com/app/?rid=4517140)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Q

1

Qakman

2 января 2007, 23:53

#2

Хммм... люди растолкуйте подробнее что значит гугл станет фильтровать не добросовестный контент, как это понимать. Это вы про дорвеи? Просто я собираюсь запустить сайт который собирает новости с других сайтов, этот сайт конечно же с одной стороны имеет множество дубликатов, с другой стороны он позволяет посетителю не ползать по всему рунету а брать сразу РСС канали из большого числа категорий, и читать эти новости с наименьшим гемором, но если смотреть трезво то конечно этот сайт и создан для заработка и трафика с поисковиков, но сайт аккуратный и удобный, скажите как бы вы отнеслись к такому сайту.

Свежие новости (http://www.qak.ru), MP3 (http://mp3.qak.ru).

137

webcat

3 января 2007, 18:27

#3

Прочитал на хабре про новый алгоритм PhraseRank

Добрый вечер.

Не знаю стоит ли говорить о том, что это совсем новая разработка. Это один из ряда патентов зарегестрированных на имя Гуголь где рассматривается аспект "phrase based information retrieval system"

В нашем профанном понимании такая поисковая система использует фразы (словосочетания, термины и т.д.) для поиска документов, включения их в индех, их группировки и описания. Причём помечаются определённые фразы, по которым можно предположить наличие соответствующих других фраз в документе. Например если мы говорим о Сальвадоре Дали, то наверняка в документе встретиться слово "сюрреализм" или соответствуюший Дали термин. А например кусок текста (в этом документе) с восхвалением пластиковых окон будет восприниматься как не заслуживающий доверия.

Вероятно на основании собранной информации о сайте и о сайтах в сети Гуголь в состянии вывести статистику какие фразы встречаются, как часто они употребляются и как они соотносятся друг с другом. Как я уже сказала выше, определённые фразы склоняюся быть употреблёнными только в определённом контенте и могут быть родственны опять же только определённому набору слов.

Надо всегда помнить, что мы в речи употребляем определённые шаблоны и стереотипы, которых с точки зрения поисковых систем не так уж и много‚ а скорее даже очень мало

Поэтому они смогут определить не только keyword stuffed pages (документы нашпигованные ключивиками) но и на основании "нового алгоритма" смысл документа и как соответствуются между собой в него включённые фразы.

Хотя с моей точки зрения говорить о PhraseRank как таковом ещё рано. Может быть Гуголь даже назовёт его по другому или же он будет просто одним из многих его алгоритмов

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

4 января 2007, 11:03

#4

Хммм... люди растолкуйте подробнее что значит гугл станет фильтровать не добросовестный контент, как это понимать. Это вы про дорвеи?

Похоже, что Google хочет научиться определять характеристики текста для эталонных документов разных тематик, и использовать эти данные для отсеивания прооптимизированных (неестественных) текстов.

Учитывая их ресурсы, собрать тезаурус любой области знаний не так уж и трудно. В принципе, алгоритм автоматической оценки текстов выглядит очень реально, о чем я и написал в этой заметке на Хабрахабре.

борьба с платными ссылками Яндекс начал отправлять сайты Google Ads может автоматически

G

8

Gannibal

5 января 2007, 08:39

#5

Я вам как дорвейщик со стажем скажу, что наша команда уже наверное год для генерации текстов использует только узко направленные словари.

Поверьте, результаты просто поразительны

:))))

VT

130

Vyacheslav Tikhonov

5 января 2007, 09:40

#6

Я вам как дорвейщик со стажем скажу, что наша команда уже наверное год для генерации текстов использует только узко направленные словари.

Понятно, что любой алгоритм можно пробить. Но вот для мусорных дорвеев PhraseRank вполне подойдет.

C

45

cloneman

5 января 2007, 22:53

#7

Gannibal:
Я вам как дорвейщик со стажем скажу, что наша команда уже наверное год для генерации текстов использует только узко направленные словари.
Поверьте, результаты просто поразительны
:))))

насколько поразительны?

лучше вылазят, дольше доры живут али то и другое? :)

519

greenwood

5 января 2007, 23:48

#8

Vyacheslav Tikhonov:
определять характеристики текста для эталонных документов

чуточку поправлю - по эталонным документам ИМХО

Gannibal:
Я вам как дорвейщик со стажем скажу, что наша команда уже наверное год для генерации текстов использует только узко направленные словари.
Поверьте, результаты просто поразительны
)))

вот когда патент заработает, тогда будем о поразительности говорить :)

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Все что нужно знать о DDоS-атаках грамотному менеджеру