Посоветуйте программу для работы с ссылками

12
S0
На сайте с 06.01.2011
Offline
81
#11
Ingvarr
На сайте с 26.04.2009
Offline
452
#12
Масол:
В блокноте можно дубли удалить, Notepad++

так блокнот и Notepad++ - это разные программы...

Fat Bear
На сайте с 01.12.2006
Offline
264
#13
Ingvarr:
так блокнот и Notepad++ - это разные программы...

Фразу из контекста выдёргивать - ещё и не то покажется )))

Если бы я имел ввиду виндовый notepad.exe - я бы так и написал. 🚬

Открыть счёт в Capitalist ( https://capitalist.net/reg?from=e5707ff0c3 ). Виртуальные карты, USDT, банковские переводы, выплаты партнёрских программ.
Ingvarr
На сайте с 26.04.2009
Offline
452
#14
Масол:
Если бы я имел ввиду виндовый notepad.exe - я бы так и написал.

а я сначала на него подумал и искал там эту функцию)))

G
На сайте с 24.05.2019
Offline
2
#15

Notepad++ глючная программа, по крайней мере старые версии у меня помню вылетали.

а++
Fat Bear
На сайте с 01.12.2006
Offline
264
#16
Grac:
Notepad++ глючная программа, по крайней мере старые версии у меня помню вылетали.

И касперский ещё со своими тормозами, да? ))

L7
На сайте с 23.04.2005
Offline
194
#17

Если не хочется ставить никакие дополнительные программы и разбираться с ними, то можно поюзать эту многофункциональную онлайн тулзу для обработки текста/строк, в том числе для удаления повторяющихся строк.

Проверка добытых беклинков, мастхэв для сеошников ( https://prozavr.ru/ ) | Массовая проверка Яндекс ИКС ( https://prozavr.ru/tools/massovaya_proverka_iks.php ) | Скачивалка фото из ВК и Пинтереста ( https://prozavr.ru/tools/parser_kartinok.php ), для получения тонн картинок для ваших проектов.
Ingvarr
На сайте с 26.04.2009
Offline
452
#18

LDA777, спасибо, уже нашел несколько аналогичных сервисов, ими и пользуюсь.

---------- Добавлено 20.06.2019 в 01:28 ----------

LDA777, а тот сервис, что по ссылке мне не подходит. Там в бесплатном варианте только 500 строк за 1 обработку. Хотя в других бесплатных сервисах таких ограничений нет.

TS
На сайте с 26.03.2019
Offline
4
#19

LINKASSISTANT от seopowersuite.com - норм штука, но платная.

SC
На сайте с 11.02.2013
Offline
57
#20

Как говорил классик, любая сложная проблема имеет простое и неправильное решение.

Поскольку ТС даже не уточнил формат входных данных, стоит рассмотреть все случаи.

Ссылка - это не всегда только урл акцептора, информация о ней чаще всего включает в себя еще и анкор + урл донора. Форматов представления может быть много, но чаще это либо таблица в xls/csv, либо полностью html-тег, либо спец. разметка, навроде той что есть у сапы.

Теперь рассмотрим тривиальный случай, когда обрабатываются только урлы акцепторов. Очевидно, что задача уникализации этих урлов не может быть корректно решена простой текстовой сортировкой и последующим фильтром дубликатов. Нужно, как минимум, нормализовать урлы - удалить #фрагменты, привести к одному регистру все, кроме пути и query_string, раскодировать пуникодные и percent-encoded урлы, в каких-то случаях даже объединить зеркала.

Если добавить к урлу акцептора такие данные, как урл донора, анкор и набор атрибутов, то появляется еще больше неоднозначностей, которые нужно описать в требованиях. Например, нужно ли считать дублями ссылки на одинаковый акцептор, но взятые с разных доноров, или если они имеют разные анкоры. Или если они отличаются только атрибутами навроде nofollow.

Рекомендовал бы ТСу все-таки начать с анализа, какая действительно проблема решается такой уникализацией, и искать полноценное решение под ваш use case.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий