Странно. Вчера оставлял тут комментарий с благодарностью вам за подсказку софта, но его нет. Еще раз, спасибо. Это то, что нужно.
Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?
Очень желательно.
Что-то конкретное посоветуете?
Чужие.
1. Домены - премиум?
2. Точно раз в месяц?
Не знаю, что значит «премиум». Раза в месяц будет достаточно.
в настройках отключи
Отключено, не спасает, все равно краулит по субдоменам, но решил вопрос, написав регулярку для исключения поддоменов. Только так и заработало.
Не оптимально в сравнении в KeyAssort или не оптимально вообще?