Сравниваем полученный результат с исходным текстом - Doorways & Cloaking

69

Bartezz

19 апреля 2010, 22:46

#31

Strау:
То есть практически каждое второе слово? о_О

Too:
это шутка?)))
Господа дорвейщики, сколько вы процент в доргенах ставите??)))

А по сабжу: все правильно, такие "оптимизированые" тексты сильно конверсию снижают... особенно когда ими пол сайта забивают (речь не о дорвеях)

имеется в виду (скорей всего) от общего количества используемых ключевых слов в тексте, про процентное количество ключевых слов в тексте, вроде как, речи не шло

[Удален]

20 апреля 2010, 01:25

#32

Яндекс-УГ и неадекватная система! Недавно искал прогу для деления текстовых файлов на куски. Дык вот, по запросу "чем поделить текст на части" Яша выдал один мусор типа ссылок на тексты Виагры совсем не в тему, другое дело Гугл-сразу нашел нужные проги. И это лишь один из многочисленных примеров нерелевантной выдачи этого уродца.

Яндекс кобласит как искать в гугл Разный снипет

S

34

schnaps

20 апреля 2010, 02:51

#33

по весне у шизофреников обострение бывает и кукушечку наглухо срывает )

127

Yamramil

20 апреля 2010, 04:20

#34

Kalessin, Это Вы понимаете, что в гугле ищется лучше и быстрее, а домохозяйки, секретарши и т.д. этого не понимают и не знают ! Если часто они вбивают адрес сайта в яндексе, а не в браузере.

Дешевые VDS + лучшая тех. поддержка - тыксь (https://friendhosting.net/pl.php?7150)

98

.:nbd:.

20 апреля 2010, 04:22

#35

akaplenko:
алгоритм не озвучите? хотя бы в общих чертах :-)

Алгоритм прост как 5 копеек, разбить статью на слова, посчитать сколько слов получилось, удалить все слова не несущие смысловой нагрузки (их на самом деле очень много), пересчитать оставшиеся слова, высчитываем процент полезной части статьи (состоящей из слов несущих смысловую нагрузку), если процент низок, статья ниочем. Закодить такой алгоритм на коленке, дело 10 минут.

Да и проверять таким образом весь сайт не имеет смысла, это ответ на возможный вопрос о дополнительной нагрузке и дополнительных ресурсах для анализа. Есть некий процент "говености сайта", допустим 50%. То есть, для выявления "говености" сайта (дора) достаточно проверить ровно половину его страниц и если они окажутся говеными, то вторую его половину проверять уже нет смыла, ибо первой вполне достаточно для фильтра/бана.

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)

Нарушения и угрозы безопасности Google о дополнительном контенте Релевантность контента в поисковой

48

akaplenko

20 апреля 2010, 07:19

#36

.:nbd:.:
Алгоритм прост как 5 копеек, разбить статью на слова, посчитать сколько слов получилось, удалить все слова не несущие смысловой нагрузки (их на самом деле очень много), пересчитать оставшиеся слова, высчитываем процент полезной части статьи (состоящей из слов несущих смысловую нагрузку), если процент низок, статья ниочем. Закодить такой алгоритм на коленке, дело 10 минут.

Хм. Вот уж не думал что простая очистка текста по стоп словам и словам паразитам позволит как то определить полезность документа. Выявить заполнение текста словами паразитам, как сейчас делают многие синнонимайзеры, это да, возможно. Особенно при наличии оригинала в более простом виде, без слов паразитов. Но вот понять полезность... Я вам по секрету скажу, что большинство научных трудов, официальных (особенно юридических) документов окажутся в таком случае бесполезными к прочтению :-) В этих кругах особенно любят всякие обороты и побольше воды в тексте. Однако это могт быть гениальные труды в своей области.

akaplenko добавил 20.04.2010 в 11:20

_Apbeiten138_:
Да что вы паритесь, установите на улице диктофон, записывает разговоры на улице, а потмо это в текст переводите. Вот вам и горы уника.
Яндекс задохнётся от доров

Вы обладаете качественным алгоритмом перевода речи в текст? :-) Озвучите? :-))

48

akaplenko

20 апреля 2010, 07:46

#37

_Apbeiten138_:
Сразу видно халявщика. Вот возьми да озвуч ему. Ну да.

Сказал А, говори Б. Иначе грош цена этим словам.

_Apbeiten138_:
Я им не обладаю, но его нетрудно реализовать.

Откуда знаете, что не трудно, если не обладаете?

_Apbeiten138_:
Затраты на его реализацию будут и возможно не маленькие.

Они будут нереально огромными. Вы даже не представляете себе насколько.

_Apbeiten138_:
Но результат превозойдёт все ожидания.

Пока, несмотря на то, что многие компании вкладывают в это дело суммы, исчисляющиеся миллионами долларов, результат не превзошел ожидания. Он даже не подошел к этим самым ожиданиям на приемлемое расстояние :-)

_Apbeiten138_:
Но только это дело не для халявщиков. Гораздо легче где нибудь что то сп..ть.

Гораздо легче "говорить чепуху, неправду" (сами переведите на свой жаргон), чем мешки ворочать. Особенно когды ты ничего не понимаешь в сути вопроса.

pbn ссылки от промопульта Кэрол Бартц: Yahoo вчера, Google ответил на вопросы

98

.:nbd:.

20 апреля 2010, 07:54

#38

akaplenko:
Выявить заполнение текста словами паразитам, как сейчас делают многие синнонимайзеры, это да, возможно. Особенно при наличии оригинала в более простом виде, без слов паразитов.

А разве речь шла не об этом?

Однако это могт быть гениальные труды в своей области.

Ноукомментс, это вообще о другом.

48

akaplenko

20 апреля 2010, 08:40

#39

_Apbeiten138_, вспоминается одна фраза: если ты такой умный, то почему ты такой бедный :-))

.:nbd:.:
А разве речь шла не об этом?

Вообще то в исходном сообщении это выглядело такми образом:

Solo_by:
Очень большое значение имеет полезная информация. Переливание мыслей из пустого в порожнее, «вода» и прочая бесполезная информация, даже уникальная, только повредит сайту. Информация должна нести пользу.

Ну так давайте разберемся. Берем текст, отбрасываем слова паразиты, чистим стоп слова, по нашему мнению не несущие смысловой нагрузки. Дальше что? Сравниваем полученное с исходным текстом, и если "воды" в документе больше какого то процента считаем текст бесполезным? Вот тогда как быть с научными трудами, где очень любят фразы "из этого следует", "таким образом" и т.д. Как быть с официальными документами, где такая вот вода - это стиль общения? И как быть в конце концов с художественной литературой, где слова паразиты представляют из себя художественный стиль автора? Вся эта информация бесполезна? Если с точки зрения яндекса будет именно так, то я боюсь за яндекс %-)).

Существует другой вариант. Берем текст, отбрасываем слова паразиты, чистим стоп слова, по нашему мнению не несущие смысловой нагрузки. И потом уже по этим результатом сравниваем полученный результат на уникальность. Да, в этом случае можно отсечь много вариантов рерайта текста. Но это лишь улучшение механизьма определения уникальности такста. полезность тут как бы ни при чем.

98

.:nbd:.

20 апреля 2010, 09:24

#40

akaplenko:
Вообще то в исходном сообщении это выглядело такми образом:

ИМХО вы просто вкладяваете в эти слова заничельно более глубокий смысл. Давайте рассуждать логически, алгоритмам Яндекса далеко до понимания, именно понимания, отдельных фраз, не говоря уже о тексте вцелом. Его алгоритмы могут оперировать более простыми понятиями, будем считать, что это терминология сотрудников этой конторы (например). Итак, как отделить значимые слова от стоп-слов, мы знаем. А как применить это в практическом плане? Вот тут уже другой вопрос. Я не утверждал, что данным простым алгоритмом мы донесем до бота всю глубину мысли "прочитанного" им текста, я лишь сказал, что данным образом можно выделить значимую часть текста и отсеять воду. И это будет служить отправной точкой для дальнейшего анализа или принятия каких-то решений. Анализ текста ботами строится на поиске и статистике, на большее они пока не способны.

Кстати, если прикрутить к этому представление слова как массив состоящий из этого слова и его синонимов, то синонимизация и рерайт нервно курят в сторонке.

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Google: E-E-A-T не является фактором ранжирования

С Яндексом стало жить интересней и веселей