DecAnisimov

Рейтинг
58
Регистрация
20.08.2009
thednb:
Хотелось бы ещё, что бы в интерфейсе программы был упрощённый фильтр, что бы можно было отфильтровать цифры, дефисы, доменные зоны, количество символов в домене, задать ключевое слово... я видел он у Вас есть.. но он довольно хитрый :)

Опишите, пож-та, по подробнее, что вы хотите сделать. А то не совсем ясна проблема, отсюда не ясно, что посоветовать.

thednb:
Больше 10 доменов за раз не хочет проверять... :(

Это ограничение демонстрационного режима.

Urbanoid:
Всегда свежак:
http://www.cctld.ru/ru/statistics/dellist.php

Этот же список:

gif Gif.gif

добавил возможность ручного ввода капчи (или ее обработки через antigate) при проверке параметров, запрашиваемых у Yandex и Google.

1) Поправил работу со скачиваемыми списками

2) Добавил список reg.ru/static_files/rereg_list.csv

3) Добавил список statonline.ru/api/freedomains?view=csv&free_days=10

4) Добавил автонаборы колонок

5) Куча мелких улучшений и исправлений

юни:
К тому же, вопрос о том, что нельзя работать с большими списками, возник уже очень давно.

Гемор при работе с большими списками (который я не отрицаю) и ошибки при работе с фильтрами - это разные не связанные между собой вещи.

юни:
Всё-таки я не бета-тестер

Я никого насильно не заставляю тестировать программу. Но если возникла проблема, то если о ней отписаться, то вероятность ее устранения увеличивается в разы. Я просто могу о ней не знать.

юни:
Раньше у меня софт зависал после применения фильтров.

Что же ты не писал о проблемах?

юни:
любой, я полагаю.

Это ошибочное мнение. Описанная ситуация была только при загрузке всего списка в программу.

юни:
Можете проверить самостоятельно

Я проверял работу фильтров не раз, большие списки фильтруются безо всяких проблем.

юни:
у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню).

Скачиваемый список - домены в зоне ru через r01 или reghouse.

Да, подтверждаю. Вероятно, изменился формат сжатия архива. Посмотрю, что смогу сделать.

юни:
1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.

Ок, полное описание процесса.

1) Выбираем список, который хотим скачать.

2) Программа скачивает файл и сохраняет его на диск.

3) При необходимости программа распаковывает архив на диск.

4) Программа предлагает пользователю выбрать фильтр.

5) Пользователь выбирает фильтр

6) Программа читает одну строку из (распакованного) файла, проверяет на соответствие фильтру.

7) Если домен соответствует фильтру, то он игнорируется.

8) Если домен не соответствует фильтру, то создаются нужные структуры в программе.

9) Если файл не кончился, то переход к пункту 6.

юни:
2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.

Предположим, что в газете вышла заметка про Васю. Мы не знаем, на какой странице находится эта заметка. Что бы найти в газете заметку про Васю, нам нужно листать газету с первой страницы. Предположим, что в файле есть доменные имена, освобождающиеся в течение 15 дней. Мы не знаем, в какой строке есть эти имена. Что бы найти эти имена, нам нужно просматривать файл с самого начала.

юни:
Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы.

Это происходит при выполнении вышеописанного алгоритма? Какой фильтр используется (желательно скриншот)?

юни:
На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.

Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?

Такого способа нет. Ведь даже для того, что бы открыть файл в Access, его нужно сначала полностью скачать.

юни:
Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?

Почему же не знает? Знает. Иначе как его декодировать?

Всего: 375