Как поисковики определяют смысл текста?

12
ВC
На сайте с 02.02.2006
Offline
463
1516

Если сделать несколько страниц из текста, состоящего из правильных русских фраз, взятых из различный книг, то как поисковик узнает, что этот уникальный текст не имеет смысла?

[Удален]
#1

Конечно точно этого никто не знает (кроме тех, кто этот алгоритм разрабатывал), но мне кажется, что один из параметров- это распознавание окончаний слов. Например, если несколько слов подряд оканчиваются на -ать, - ить и т.д., то понятно, что это цепочка глаголов, которая вряд ли составляет смысловую фразу. Полагаю, что это один из множества критериев, на которые опирается ПС.

S
На сайте с 27.12.2007
Offline
35
#2

Из фраз, в смысле, из целиковых предложений?

По дубликатам предложений. По шинглам то есть.

Решающим фактором забанить это не будет, да и смотря для какого поисковика, делать в принципе можно, частично работает.

Ищу работу. php+symfony+jquery.
S
На сайте с 13.07.2007
Offline
56
#3

Владимир-C, никак, скорее всего. Даже человеку придется несколько предложений прочитать и хорошенько подумать, чтобы определить (ну эт при хорошем составлении).

monia:
Например, если несколько слов подряд оканчиваются на -ать, - ить и т.д.,

... то это может быть перечислением ;)

BOGrus
На сайте с 05.05.2006
Offline
44
#4

Скорее всего срабатывает какой то счётчик-робот который сканит страницу, и если он что то подозревает то тогда заходит уже непосредственно человек, который банит. У меня так было с 1ГС. Текст вполне нормальный но не читабельный, после 4 месяцев ушел в бан. Добрались 😡

Ем кашу и колбасу
rasiell
На сайте с 16.02.2008
Offline
224
#5
Например, если несколько слов подряд оканчиваются на -ать, - ить и т.д.,

Русский язык очень сложный, чтобы определять по таким критериям.

Налить попить, сходить утопить...

Мне кажется более вероятны какие-нибудь базы связей, определяющие принадлежность текста тематике и что-то типа тезауруса. А если уж определять по окончаниям, то это должны быть несогласованные слова, типа "Мы ходил"

Newo
На сайте с 13.08.2006
Offline
41
#6

Я считаю, баниться такое не должно. Ибо очень сложный алгоритм должен быть

rasiell:
Русский язык очень сложный, чтобы определять по таким критериям. ..... типа "Мы ходил"

Вообще уже существуют программы, которые легко определяют слово, его форму (падеж, время, число и т.п.), начальную форму и т.п. . Также они могут определять структуру предложения и согласование в нем. Именно поэтому такой бред точно должен баниться.

PS вообще-то ТС пишет про текст, в котором каждое отдельное предложение абсолютно разумно!

Zaykin
На сайте с 14.01.2008
Offline
110
#7
monia:
если несколько слов подряд оканчиваются на -ать, - ить и т.д.

эта фраза е*ать колотить??:)

-EX-
На сайте с 07.07.2006
Offline
180
#8

ИМХО на данный момент ПС не могут определить 100% смысла текста... Разве что какие-то лабораторные наброски... Но на широкую публику пока такое не выпустили...

С уважением, Андрей aka EX
ciber
На сайте с 04.01.2008
Offline
215
#9

Морковка по прежнему рулит. Существует огромное кол-во других факторов для распознания ГС

ВC
На сайте с 02.02.2006
Offline
463
#10
Newo:
PS вообще-то ТС пишет про текст, в котором каждое отдельное предложение абсолютно разумно!

Именно так! Например, вот такой текст:

Человек зачат, когда отец его и мать сходятся в любовном соитии. Ртуть соответствует Ян-дракону, серебро же - Инь-тигру. К сожалению, наши дети болеют очень часто, и во многом виноваты в этом мы, родители. Сердечко новорожденного еще гонит кровь в плаценту, еще берет там кислород, питательные вещества, пульс на пупочном канатике так легко прощупывается, а сестра не обращает на это внимания и ставит зажимы. Что это за невидимые силы? Работники китайских офисов обращают особое внимание на место под названием "три ша", расположенное по направлению, которое находится в конфликте с Великим Князем. Обе звезды принадлежат к эпохам отдаленного прошлого, поэтому юго-восточный угол здания не является благополучным для бизнеса. Обычный анализ крови позволяет определить наличие анемии - если только вы не курите.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий