рецидивист

Рейтинг
164
Регистрация
07.02.2013

Странно. Вчера оставлял тут комментарий с благодарностью вам за подсказку софта, но его нет. Еще раз, спасибо. Это то, что нужно. 

chaser #:
По шинглам

Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?

Пробовал. Ощущение «зловещей долины» не покидало. 
А по какому алгоритму определяется уникальность?
Devvver #:
Вы только фри вариант рассматриваете?

Очень желательно. 

Doma-in #:
Пусть не премиум, пусть ключевые слова. Если это так и мониторить собираетесь с целью перерегистрации (перехвата), то "раза в месяц" совсем не достаточно.

Что-то конкретное посоветуете?

pegs #:
Не совсем понятно, это Ваши домены и Вы хотите их отслеживать (чтобы продлить вовремя) или собираетесь мониторить чужие домены?

Чужие.

Doma-in #:

1. Домены - премиум?

2. Точно раз в месяц? 

Не знаю, что значит «премиум». Раза в месяц будет достаточно.

konsu1tant #:

в настройках отключи 


Отключено, не спасает, все равно краулит по субдоменам, но решил вопрос, написав регулярку для исключения поддоменов. Только так и заработало.

chaser #:
При этом она пока работает не оптимально по скорости кластеризации, но мы постараемся решить этот вопрос в ближайшее время

Не оптимально в сравнении в KeyAssort или не оптимально вообще?

Всего: 526