chaser

chaser
Рейтинг
217
Регистрация
03.08.2005
Должность
SEO-специалист
Интересы
SEO, Delphi, PHP
Shlackbaum #:

Спасибо за софтину. 

Не хватает настроек экспорта. 

В частности хотелось бы иметь возможность получить в одной Excel'ке список из неуникальных групп.

Где первым URL идет исследуемый, а следующие за ним - это его дубли начиная от наидублейшего :)

Можно ограничить количеством или (лучше) гибкой настройкой "Насколько должны быть неуникален URL группы от "главного" URL группы, чтобы попадать в группу"

Наступит проблема, когда по сути одни и те же URL будут попадать в различные группы, да и просто разные URL будут вершинами разных групп и ее тоже хорошо бы решить, но пока я не придумал как.

Но простая выгрузка в вышеописанном формате - уже шаг.


Спасибо

Возможно позже реализуем в SiteAnalyzer'e, записал в ТУДУ лист.
рецидивист #:

Наверное, не так выразил мысль. Программа открывает страницы и получает HTML-код. Дальше что происходит? Она сравнивает по шинглам HTML со всеми тегами? Она выбирает все слова внутри тегов, исключая сами теги? Она берет текст из каких-то определенных тегов, может быть, и из атрибутов, к примеру, изображений? Она берет куски текста объемом больше Х слов, склеивает их и проверяет? Или как? Какой у нее алгоритм выбора данных со страницы для сравнения?

HTML не используется, он отсекается.

Берется полный текст страницы, либо "значимый" контент (определяется алгоритмически). Затем контент сравнивается между собой.

Текст из изображений и мета-тегов не используется.

рецидивист #:
А по какому алгоритму определяется уникальность?
По шинглам

Представляем вашему вниманию новую версию бесплатной программы BatchUniqueChecker, предназначенной для массовой проверки уникальности контента нескольких страниц между собой по списку URL, карте сайта Sitemap или локальным HTML-файлам.



Что нового в версии 1.4:

  • добавлена возможность проверки на уникальность локальных файлов форматов HTML и TXT
  • в окне сравнения уникальности исходного URL с остальными добавлено отображение искомого URL
  • добавлена возможность копирования списка страниц из окна похожих URL в буфер обмена
  • увеличено максимально возможное количество импортируемых URL с 5000 до 10000
  • в основное окно программы добавлена колонка Инфо для вызова контекстного меню

Страница скачивания (4 Мб): https://site-analyzer.ru/soft/batch-unique-checker/
рецидивист #:

Не оптимально в сравнении в KeyAssort или не оптимально вообще?

У нас два варианта Hard-кластеризации, второй на большом количестве запросов работает медленно.

Но можно пользоваться и первым вполне.


Ersem #:

Ничем, ребята просто сделали копию Кей Ассорта, вот и всё.

При этом она пока работает не оптимально по скорости кластеризации, но мы постараемся решить этот вопрос в ближайшее время
Попробуйте KeyClusterer - https://keyclusterer.ru/
Есть бесплатная ознакомительная версия
Sunshine_ :

Добрый день. Подскажите, пожалуйста, сервис для анализа внутренних ссылок и анкоров.

Мне нужно посмотреть, сколько внутренних ссылок на моем сайте ведут на конкретную страницу и с каким анкором. А также аналогичным образом проанализировать конкурентов. И сравнить. И желательно, чтоб это еще были ссылки только из контента.

Для анализа внутренних ссылок рекомендую использовать программу SiteAnalyzer - вкладка Custom Filters на панели дополнительных данных.
Там же можно отфильтровать все входящие внутренние ссылки на определенную страницу и сделать экспорт в Excel.

Road to Hell :
Кто знает аналоги Siteliner, для проверки дублированного текстового контента на сайте? То есть описаний товаров, не мета. 

SiteAnalyzer умеет определять дубли, а также есть отдельный модуль в виде небольшой программы - BatchUniqueChecker

Всего: 1010