- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день, коллеги.
На данный момент есть масса сервисов, определяющих уникальность статьи (аля http://neotext.ru/check ). Все работают по своим (загадочным) алгоритмам. Если вбить один и тот же блок в разные проверяльщики, то результат бывает самый разный..
Мне интересно два момента:
1. есть ли у Яндекса некая база слепков уникальных контентов, обратившись (по нужному запросу) к которой можно получить на выходе ответ - уникален ли проверяемый контент или он уже где-то встречался?
2. к какой базе обращаются существующие проверяльщики типа http://neotext.ru/check откуда они берут инфу об уникальности? Явно что из внешки откуда-то..
Хочу пообщаться на эту тему.
Текст разбивается на маленькие кусочки и ищются совпадения в яндексе и в гугле.
ищются
Чу, Щу - пиши через У
Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...
Что-то слишком премитивно. И потом.. совпадение то будет почти в любом случае, вопрос какое...
Если текст уникальный - точных совпадений не будет
Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???
Это точное?
http://yandex.ru/yandsearch?text=%D0%95%D1%81%D0%BB%D0%B8+%D0%B6%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82+%D0%BD%D0%B0%D0%B9%D0%B4%D0%B5%D0%BD%D0%BE+%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D0%B5+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%2C+%D1%82%D0%BE+%D0%BF%D1%80%D0%B8%D0%B4%D0%B5%D1%82%D1%81%D1%8F+%D0%B8%D0%B4%D1%82%D0%B8+%D0%BD%D0%B0%D0%B7%D0%B0%D0%B4+%D0%B2+%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D1%83+%D0%B8+%D0%B1%D1%80%D0%B0%D1%82%D1%8C+%D0%B4%D1%80%D1%83%D0%B3%D1%83%D1%8E+%D0%BA%D0%BD%D0%B8%D0%B6%D0%B5%D0%BD%D1%86%D0%B8%D1%8E&lr=213
Или это неточное?
http://yandex.ru/yandsearch?text=%D0%B5%D1%81%D0%BB%D0%B8%20%D1%82%D0%B5%D0%BA%D1%81%D1%82%20%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9%20%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85%20%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9%20%D0%BD%D0%B5%20%D0%B1%D1%83%D0%B4%D0%B5%D1%82&lr=213
Как автоматизированно отличать такие вещи? Может у яндекса есть какие-то ключи и т.п..
Может у яндекса есть какие-то ключи и т.п..
Ага, а при личной переписке с Платоном на почте можно вдруг(!) найти архив с текстовыми файлами-исходниками последних алгоритмов ранжирования.
Хорошо, тогда вопрос. Как отделить точное совпадение от неточного???
Это точное?
Нет, вот это точное.
Пассаж не уникален.
Или это неточное?
http://yandex.ru/yandsearch?text=%D0...5%D1%82&lr=213
Да, неточное. Точное будет так:
http://yandex.ru/yandsearch?text=%22%D0%B5%D1%81%D0%BB%D0%B8+%D1%82%D0%B5%D0%BA%D1%81%D1%82+%D1%83%D0%BD%D0%B8%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D1%85+%D1%81%D0%BE%D0%B2%D0%BF%D0%B0%D0%B4%D0%B5%D0%BD%D0%B8%D0%B9+%D0%BD%D0%B5+%D0%B1%D1%83%D0%B4%D0%B5%D1%82%22&lr=213
Этот пассаж уникален. До тех пор, как Яша сожрет эту страницу серча.
А вот Гугл уже сожрал, и этот контент там не уникальный.
Antonio1, правильно было замечено что проверить можно текст путем разбиения его на куски. Но выбирать в тексте нужно редкие фразы, а не фразы по типу "Жили были..." т.е. те которые скорее всего присутствуют в большинстве текстов.
А вообще принято считать что Яндекс при поиске дубликатов использует метод шинглов. К примеру программа DCFinder использует метод шинглов длинной в 5 слов. Все зависит от сервиса который вы будете использовать.
Ктото по работе у меня спросил а почему 7 шинглов ответ
и небольшое продолжение
Это только наблюдение!!!
количество ******* 7
и еще один вариант
Ну и что? Поиск со звездочками. Шинглы-то тут при чем? При сравнении текстов методом шинглов вычисляются контрольные суммы кусков текста длиной N. Звездочки вы тоже в контрольную сумму засунете?