- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день, коллеги.
На данный момент есть масса сервисов, определяющих уникальность статьи (аля http://neotext.ru/check ). Все работают по своим (загадочным) алгоритмам. Если вбить один и тот же блок в разные проверяльщики, то результат бывает самый разный..
Мне интересно два момента:
1. есть ли у Яндекса некая база слепков уникальных контентов, обратившись (по нужному запросу) к которой можно получить на выходе ответ - уникален ли проверяемый контент или он уже где-то встречался?
2. к какой базе обращаются существующие проверяльщики типа http://neotext.ru/check откуда они берут инфу об уникальности? Явно что из внешки откуда-то..
Хочу пообщаться на эту тему.
Текст разбивается на маленькие кусочки и ищются совпадения в яндексе и в гугле.
ищются
Чу, Щу - пиши через У
Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...
Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...
Если текст уникальный - точных совпадений не будет
Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???
Это точное?
http://yandex.ru/yandsearch?text=%D0%95%D1%81%D0%BB%D0%B8+%D0%B6%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82+%D0%BD%D0%B0%D0%B9%D0%B4%D0%B5%D0%BD%D0%BE+%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D0%B5+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%2C+%D1%82%D0%BE+%D0%BF%D1%80%D0%B8%D0%B4%D0%B5%D1%82%D1%81%D1%8F+%D0%B8%D0%B4%D1%82%D0%B8+%D0%BD%D0%B0%D0%B7%D0%B0%D0%B4+%D0%B2+%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D1%83+%D0%B8+%D0%B1%D1%80%D0%B0%D1%82%D1%8C+%D0%B4%D1%80%D1%83%D0%B3%D1%83%D1%8E+%D0%BA%D0%BD%D0%B8%D0%B6%D0%B5%D0%BD%D1%86%D0%B8%D1%8E&lr=213
Или это неточное?
http://yandex.ru/yandsearch?text=%D0%B5%D1%81%D0%BB%D0%B8%20%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9%20%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85%20%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BD%D0%B5%20%D0%B1%D1%83%D0%B4%D0%B5%D1%82&lr=213
Как автоматизированно отличать такие вещи? Может у яндекса есть какие-то ключи и т.п..
Может у яндекса есть какие-то ключи и т.п..
Ага, а при личной переписке с Платоном на почте можно вдруг(!) найти архив с текстовыми файлами-исходниками последних алгоритмов ранжирования.
Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???
Это точное?
Нет, вот это точное.
Пассаж не уникален.
Или это неточное?
http://yandex.ru/yandsearch?text=%D0...5%D1%82&lr=213
Да, неточное. Точное будет так:
http://yandex.ru/yandsearch?text=%22%D0%B5%D1%81%D0%BB%D0%B8+%D1%82%D0%B5%D0%BA%D1%81%D1%82+%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9+%D0%BD%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82%22&lr=213
Этот пассаж уникален. До тех пор, как Яша сожрет эту страницу серча.
А вот Гугл уже сожрал, и этот контент там не уникальный.
Antonio1, правильно было замечено что проверить можно текст путем разбиения его на куски. Но выбирать в тексте нужно редкие фразы, а не фразы по типу "Жили были..." т.е. те которые скорее всего присутствуют в большинстве текстов.
А вообще принято считать что Яндекс при поиске дубликатов использует метод шинглов. К примеру программа DCFinder использует метод шинглов длинной в 5 слов. Все зависит от сервиса который вы будете использовать.
Ктото по работе у меня спросил а почему 7 шинглов ответ
и небольшое продолжение
Это только наблюдение!!!
количество ******* 7
и еще один вариант
Ну и что? Поиск со звездочками. Шинглы-то тут при чем? При сравнении текстов методом шинглов вычисляются контрольные суммы кусков текста длиной N. Звездочки вы тоже в контрольную сумму засунете?