Вернуться   Форум об интернет-маркетинге > >
Ответ
 
Опции темы
Старый 20.06.2019, 11:48   #21
Serg_CS
Аспирант
 
Регистрация: 11.02.2013
Сообщений: 115
Репутация: 10390

Cool Re: Посоветуйте программу для работы с ссылками

Как говорил классик, любая сложная проблема имеет простое и неправильное решение.

Поскольку ТС даже не уточнил формат входных данных, стоит рассмотреть все случаи.

Ссылка - это не всегда только урл акцептора, информация о ней чаще всего включает в себя еще и анкор + урл донора. Форматов представления может быть много, но чаще это либо таблица в xls/csv, либо полностью html-тег, либо спец. разметка, навроде той что есть у сапы.

Теперь рассмотрим тривиальный случай, когда обрабатываются только урлы акцепторов. Очевидно, что задача уникализации этих урлов не может быть корректно решена простой текстовой сортировкой и последующим фильтром дубликатов. Нужно, как минимум, нормализовать урлы - удалить #фрагменты, привести к одному регистру все, кроме пути и query_string, раскодировать пуникодные и percent-encoded урлы, в каких-то случаях даже объединить зеркала.

Если добавить к урлу акцептора такие данные, как урл донора, анкор и набор атрибутов, то появляется еще больше неоднозначностей, которые нужно описать в требованиях. Например, нужно ли считать дублями ссылки на одинаковый акцептор, но взятые с разных доноров, или если они имеют разные анкоры. Или если они отличаются только атрибутами навроде nofollow.

Рекомендовал бы ТСу все-таки начать с анализа, какая действительно проблема решается такой уникализацией, и искать полноценное решение под ваш use case.
Serg_CS на форуме   Ответить с цитированием

Реклама
Ответ



Опции темы

Быстрый переход


Регистрация Справка Календарь Поддержка Все разделы прочитаны