Регулярное выражение для поиска дублей

12
Unlock
На сайте с 01.08.2004
Offline
782
#11
Dinozavr:
Unlock, я в примере надеялся другое увидеть :) например, идут ли дубли всегда друг за другом

Сорри :)

По разному, может быть слово слово1 слово, а может быть слово слово слово1... Грубо говоря. Да и разделены "слова" символом ;

Есть желание, - тысяча способов; нет желания, - тысяча поводов! /Петр-I/.
Unlock
На сайте с 01.08.2004
Offline
782
#12

Shtogrin, описание формата где-то в сети есть, но боюсь оно мало поможет...

Словами считаются 2-(7-fluorophenyl)pyrrolidine и 2-(7-Fluoro-phenyl)-pyrrolidine.

Т.е. то, что содержится в "полях" <name> и <name2>

Т.е. запись может быть вида:

> <name> (1)

2-(7-fluorophenyl)pyrrolidine; 2-(7-fluorophenyl)pyrrolidine и тогда надо убирать повтор. Проблема в том как их отловить, а удалить даже руками удобнее.

Shtogrin
На сайте с 02.11.2006
Offline
95
#13

Unlock, Уточним.

> <name> (1)

строка; строка

> <name2> (1)

строка

Выбрать только тексты "строка" (разделитель точка с запятой) для всего файла, и написать какие и сколько раз повторялись. Остальной текст нас не волнует. Повторение по целому файлу, без учета блоков?

----

Максимальный размер файла?

www.shtogrin.com (http://www.shtogrin.com/). Канцтовары (http://www.invit.com.ua/). 1С Бухгалтерия (http://account.kiev.ua/).
Unlock
На сайте с 01.08.2004
Offline
782
#14

Роман, да, выбрать только тексты "строка". Насчет повторений, то они в принципе бывают только в пределах блока, поэтому как проще, по всему файлу или по блокам. Может вам на почту скинуть пример файла, а то что-нибудь не правильно напишу :(

P.S. Размер файла может быть приличным, и 10 Мб и 20 Мб. Не знаю, наверное максимальный это 50 Мб.

Shtogrin
На сайте с 02.11.2006
Offline
95
#15

Бросайте файл на roman [at] shtogrin.com.

Unlock
На сайте с 01.08.2004
Offline
782
#16

Все, тема закрыта. Огромное спасибо Роману!!!

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий