BatchUniqueChecker - Массовая проверка уникальности URL между собой

Р
На сайте с 07.02.2013
Offline
164
#31
chaser #:
По шинглам

Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?

chaser
На сайте с 03.08.2005
Offline
198
#32
рецидивист #:

Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?

HTML не используется, он отсекается.

Берется полный текст страницы, либо "значимый" контент (определяется алгоритмически). Затем контент сравнивается между собой.

Текст из изображений и мета-тегов не используется.

SiteAnalyzer ( https://site-analyzer.ru/ ) - Бесплатный аналог Screaming Frog | Форум поддержки ( https://forum.site-analyzer.ru/ ) / Telegram ( https://t.me/siteanalyzer ) | Majento ( https://majento.ru/index.php?page=seo-analize ) - 70+ бесплатных сервисов SEO-аналитики
Shlackbaum
На сайте с 18.08.2010
Offline
322
#33
chaser :
Будем рады любым отзывам и пожеланиям по работе программы.

Спасибо за софтину. 

Не хватает настроек экспорта. 

В частности хотелось бы иметь возможность получить в одной Excel'ке список из неуникальных групп.

Где первым URL идет исследуемый, а следующие за ним - это его дубли начиная от наидублейшего :)

Можно ограничить количеством или (лучше) гибкой настройкой "Насколько должны быть неуникален URL группы от "главного" URL группы, чтобы попадать в группу"

Наступит проблема, когда по сути одни и те же URL будут попадать в различные группы, да и просто разные URL будут вершинами разных групп и ее тоже хорошо бы решить, но пока я не придумал как.

Но простая выгрузка в вышеописанном формате - уже шаг.


Спасибо

Пустота. Какого черта здесь появляется чья-то реклама?
chaser
На сайте с 03.08.2005
Offline
198
#34
Shlackbaum #:

Спасибо за софтину. 

Не хватает настроек экспорта. 

В частности хотелось бы иметь возможность получить в одной Excel'ке список из неуникальных групп.

Где первым URL идет исследуемый, а следующие за ним - это его дубли начиная от наидублейшего :)

Можно ограничить количеством или (лучше) гибкой настройкой "Насколько должны быть неуникален URL группы от "главного" URL группы, чтобы попадать в группу"

Наступит проблема, когда по сути одни и те же URL будут попадать в различные группы, да и просто разные URL будут вершинами разных групп и ее тоже хорошо бы решить, но пока я не придумал как.

Но простая выгрузка в вышеописанном формате - уже шаг.


Спасибо

Возможно позже реализуем в SiteAnalyzer'e, записал в ТУДУ лист.
TO
На сайте с 27.10.2011
Offline
76
#35

Спасибо за софт. Образовалась проблема 

12

Что делать?

chaser
На сайте с 03.08.2005
Offline
198
#36
TEJlO #:

Спасибо за софт. Образовалась проблема 

Что делать?

Не включать страницы с редиректами )
TO
На сайте с 27.10.2011
Offline
76
#37
chaser #:
Не включать страницы с редиректами )

Все страницы с кодом ответа 200 :-)

chaser
На сайте с 03.08.2005
Offline
198
#38
TEJlO #:

Все страницы с кодом ответа 200 :-)

Скиньте примеры страниц через форму обратной связи, явно не так чтото
Skf
На сайте с 24.09.2009
Offline
170
Skf
#39

Странно 2 урла сравнивает, будто контент не увидела программа. Как победить? Настройки никакие не менял при запуске

>>>>>>>>>>>>>>>> Массовая проверка Яндекс.ИКС [Бесплатно]: https://searchengines.guru/ru/forum/1071333 <<<<<<<<<<<<<<<<
chaser
На сайте с 03.08.2005
Offline
198
#40
Skf #:

Странно 2 урла сравнивает, будто контент не увидела программа. Как победить? Настройки никакие не менял при запуске

Скорее всего сайт на яваскрипте, программа же рендерить JS пока не умеет, поэтому и контента так мало.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий