- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
По шинглам
Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?
Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?
HTML не используется, он отсекается.
Берется полный текст страницы, либо "значимый" контент (определяется алгоритмически). Затем контент сравнивается между собой.
Текст из изображений и мета-тегов не используется.
Будем рады любым отзывам и пожеланиям по работе программы.
Спасибо за софтину.
Не хватает настроек экспорта.
В частности хотелось бы иметь возможность получить в одной Excel'ке список из неуникальных групп.
Где первым URL идет исследуемый, а следующие за ним - это его дубли начиная от наидублейшего :)
Можно ограничить количеством или (лучше) гибкой настройкой "Насколько должны быть неуникален URL группы от "главного" URL группы, чтобы попадать в группу"
Наступит проблема, когда по сути одни и те же URL будут попадать в различные группы, да и просто разные URL будут вершинами разных групп и ее тоже хорошо бы решить, но пока я не придумал как.
Но простая выгрузка в вышеописанном формате - уже шаг.
Спасибо
Спасибо за софтину.
Не хватает настроек экспорта.
В частности хотелось бы иметь возможность получить в одной Excel'ке список из неуникальных групп.
Где первым URL идет исследуемый, а следующие за ним - это его дубли начиная от наидублейшего :)
Можно ограничить количеством или (лучше) гибкой настройкой "Насколько должны быть неуникален URL группы от "главного" URL группы, чтобы попадать в группу"
Наступит проблема, когда по сути одни и те же URL будут попадать в различные группы, да и просто разные URL будут вершинами разных групп и ее тоже хорошо бы решить, но пока я не придумал как.
Но простая выгрузка в вышеописанном формате - уже шаг.
Спасибо
Спасибо за софт. Образовалась проблема
Что делать?
Спасибо за софт. Образовалась проблема
Что делать?
Не включать страницы с редиректами )
Все страницы с кодом ответа 200 :-)
Все страницы с кодом ответа 200 :-)
Странно 2 урла сравнивает, будто контент не увидела программа. Как победить? Настройки никакие не менял при запуске
Странно 2 урла сравнивает, будто контент не увидела программа. Как победить? Настройки никакие не менял при запуске