- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Сейчас, видимо, одной из главных болезней Яндекса являются зеркала. Насколько я понимаю, если в документе меняется хоть один символ, то уже он считается другим и поэтому часто бывает, что по запросу в десятке выдаются совершенно идентичные документы, например, зеркала Citforum.
Почему бы Яндексу не применить если не к каждому предложению, то хотя бы к каждому абзацу документа какую-нибудь хэш-сумму, например MD5? В результате для данного документа будет получен массив уникальных ключей, определяющих его содержимое. Сравнивая его с подобными массивами для других документов, при идентичности ключей, скажем, на 90% можно будет утверждать, что это уникальный документ и определить его зеркала. Кроме того, с помощью подобного механизма также можно будет очень просто находить в тексте цитаты.
Единственный недостаток, конечно, в том, что индекс не будет уже строится со скоростью 25 Мбайт/с, но за все же нужно платить
Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно
Easy money!
[This message has been edited by kikaha (edited 19-05-2001).]
Хех! Хороший способ для спаммеров в Яндексе - выбрать ключевые слова по нужной теме и просабмиттить сотню-другую дорвеев на нужную тему в разных каталогах своего сайта (без входящих ссылок с главной страницы с дальнейшим переходом н тематическую; разумеется, поменяв пару слов в тексте и для приличия слегка поиграмшись титлом, что впрочем и не так уж обязательно
Easy money!
[This message has been edited by kikaha (edited 19-05-2001).]</font>
Я хотел сказать совсем другое. В данном случае ключевое слово - это совсем не ключевое слово документа, а алфавитно-цифровой код. Скажем, фраза Easy Money представляется как A3Z3BN3J1S. Именно этот код будет использован для ее идентификации и спаммеры тут совершенно ни при чем.
Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой. Примеры тому есть (я не призываю юных порномастеров все бросить и осваивать этот метод для покорения SE - сработает наверняка, но только в ОЧЕНЬ узком сегменте, сочтенным поисковиком релевантным конкретному запросу), частенько случается, что при запросе на достаточно специальную тему - "факторы инбридинга при высокогорном разведении недоношенных тонкорунных овец" или "mature white-eye mature ebony" выдается десяток перепечаток одного и того же материала в разных изданиях, или, что еще хуже, особенно часто этим грешит Яндекс - получаем десяток ссылок на страницы с описанием на одну и ту же статью, причем самый прикол, что ссылка на саму статью далеко не всегда бывает на первом месте.
Ежели где переврал - поправьте, плз!
Я имел в виде не каноническое значение ключевого слова, а именно 0.5% изменение в тексте документа путем замены синонимами малозначащих слов. Таким образом, алфавитно-цифровой код остальной 99.5% части документа не претерпит изменений и индексироваться и соответственно - выдаваться по нужному запросу будет пачкой. </font>
Вот на подобное изменение дизайна или самих слов я и оставлял 10% изменение ключей. Да и вряд ли кто-то будет подыскивать большее количество синонимов, чтобы изменить весь документ, а 0,5% отличие от оригинала в данном случае вообще не создает никаких проблем. Ведь остальные значения ключей (99,5%) не изменятся и по-прежнему будут однозначно идентифицировать строки (абзацы) документа.
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).
В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).
Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...
Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.
Александр Мельков, Яndex.
Вообще говоря, у нас эти экперименты уже достаточно давно проводятся . Алгоритм нахождения "похожих" документов, конечно, посложнее, чем здесь предложенный (не скажу, какой - а то придется сменить ).</font>
Конечно, алгоритм "дубовый", но во многих случаях работает. Нечеткая логика?
В общем, то, что его до сих пор не ввели в действие (и, видимо, это будет не скоро), можно объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины. Вот их-то и жалко из индекса потереть (правда, не всем ).
</font>
А зря...
Думаю, и еще много полезного может пропасть. Многие сайты ведь очень любят оформлять свои странички по "портальному" принципу: половина текста - "шапка", половина - меню...
</font>
Почему бы не разбивать текст на блоки подобно тому, как это делает Finereader? Можно будет шапки и меню отбрасывать как элементы, которые почти не влияют на релевантность, а потом уже анализировать сам документ без них.
Другая большая проблема - а какой из дубликатов документа лучше? Вот тут про способ заспамливания уже писали. Ну с копиями страниц крупных и известных сайтов мы как-нибудь разберемся. А что делать с мелкими - не понятно. Эту тему еще придется много обсуждать, прежде чем что-то делать.
Александр Мельков, Яndex.
Пытаться анализировать ценность документа. Как? По количеству линков на квадратный дюйм текста
...объяснить прежде всего тем, что львиную долю "похожих" на те же 10% документов создают вовсе не любители скопировать себе citforum, библиотеку Мошкова и коллекцию анекдотов, а электронные магазины...</font>
Не понял!? Электронные магазины причем, пример можно?
[This message has been edited by Nicholas (edited 21-05-2001).]
Не понял!? Электронные магазины причем, пример можно?</font>
Книга "Москва-Петушки" на Озоне, книга "Москва-Петушки" на Болеро, книга "Москва-Петушки" на 24х7...
С уважением,
Александр Садовский.
Ну, чаще даже дубликатами являются карточки товаров не на страницах разных e-газинов (рассуждения про "шапку и менюшку" к ним ведь тоже относятся), а одних и тех же.
Вот, скажем, к примеру, каталог автомобильных шин. Несколько страничек с N-килобайтным текстом отличаются (кроме текста баннеров ) только на 1 цифру в названии, 2 - в температурном режиме, и 3 - в цене. Разумеется, с точки зрения "совпадения на 10%" эти странички идентичны. Но если их склеить, то кто-то не найдет цену на любимую марку шин...
Тут есть 2 пути решения "магазинной" проблемы:
1) Специальная индексация магазинов и т.д. - к этому не готов Яндекс.
2) Яндекс.Товары - к этому не готово большинство магазинов (хотя, если их хорошенько припугнуть - кто знает ? ).
Так что ждем-с...