My Domain Checker - программа для проверки доменов

юни
На сайте с 01.11.2005
Offline
913
#611
DecAnisimov:
Фильтрация возможна по любым данным, присутствующим в скачиваемом файле

А если в фильтре есть условия, по которым нет информации в файле, тогда как?

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
DA
На сайте с 20.08.2009
Offline
58
#612
юни:
А если в фильтре есть условия, по которым нет информации в файле, тогда как?

Программа не даст выбрать/создать такой фильтр.

http://www.mydomainchecker.net/ (http://www.mydomainchecker.net/)
юни
На сайте с 01.11.2005
Offline
913
#613

Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?

DA
На сайте с 20.08.2009
Offline
58
#614
юни:
Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?

Почему же не знает? Знает. Иначе как его декодировать?

юни
На сайте с 01.11.2005
Offline
913
#615

1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.

2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.

Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы. На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.

Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?

DA
На сайте с 20.08.2009
Offline
58
#616
юни:
1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.

Ок, полное описание процесса.

1) Выбираем список, который хотим скачать.

2) Программа скачивает файл и сохраняет его на диск.

3) При необходимости программа распаковывает архив на диск.

4) Программа предлагает пользователю выбрать фильтр.

5) Пользователь выбирает фильтр

6) Программа читает одну строку из (распакованного) файла, проверяет на соответствие фильтру.

7) Если домен соответствует фильтру, то он игнорируется.

8) Если домен не соответствует фильтру, то создаются нужные структуры в программе.

9) Если файл не кончился, то переход к пункту 6.

юни:
2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.

Предположим, что в газете вышла заметка про Васю. Мы не знаем, на какой странице находится эта заметка. Что бы найти в газете заметку про Васю, нам нужно листать газету с первой страницы. Предположим, что в файле есть доменные имена, освобождающиеся в течение 15 дней. Мы не знаем, в какой строке есть эти имена. Что бы найти эти имена, нам нужно просматривать файл с самого начала.

юни:
Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы.

Это происходит при выполнении вышеописанного алгоритма? Какой фильтр используется (желательно скриншот)?

юни:
На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.

Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?

Такого способа нет. Ведь даже для того, что бы открыть файл в Access, его нужно сначала полностью скачать.

юни
На сайте с 01.11.2005
Offline
913
#617
DecAnisimov:
Какой фильтр используется

Раз программе приходится просматривать весь список, то любой, я полагаю. Можете проверить самостоятельно, у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню). Т.е. даже до анализа теперь дело не доходит.

Скачиваемый список - домены в зоне ru через r01 или reghouse.

DA
На сайте с 20.08.2009
Offline
58
#618
юни:
любой, я полагаю.

Это ошибочное мнение. Описанная ситуация была только при загрузке всего списка в программу.

юни:
Можете проверить самостоятельно

Я проверял работу фильтров не раз, большие списки фильтруются безо всяких проблем.

юни:
у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню).

Скачиваемый список - домены в зоне ru через r01 или reghouse.

Да, подтверждаю. Вероятно, изменился формат сжатия архива. Посмотрю, что смогу сделать.

юни
На сайте с 01.11.2005
Offline
913
#619
DecAnisimov:
только при загрузке всего списка в программу

Раньше у меня софт зависал после применения фильтров.

DA
На сайте с 20.08.2009
Offline
58
#620
юни:
Раньше у меня софт зависал после применения фильтров.

Что же ты не писал о проблемах?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий