Выберите фильтр, который отсекает домены с PR меньше или равному 3 - Доменные имена

923

юни

17 февраля 2013, 18:29

#611

DecAnisimov:
Фильтрация возможна по любым данным, присутствующим в скачиваемом файле

А если в фильтре есть условия, по которым нет информации в файле, тогда как?

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит

DA

58

DecAnisimov

17 февраля 2013, 18:31

#612

юни:
А если в фильтре есть условия, по которым нет информации в файле, тогда как?

Программа не даст выбрать/создать такой фильтр.

http://www.mydomainchecker.net/ (http://www.mydomainchecker.net/)

923

юни

17 февраля 2013, 18:36

#613

Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?

DA

58

DecAnisimov

17 февраля 2013, 18:38

#614

юни:
Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?

Почему же не знает? Знает. Иначе как его декодировать?

923

юни

17 февраля 2013, 18:45

#615

1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.

2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.

Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы. На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.

Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?

Penguin бесплатная программа для Screaming Frog - настройки Как научиться быстро наполнять

DA

58

DecAnisimov

17 февраля 2013, 19:25

#616

юни:
1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.

Ок, полное описание процесса.

1) Выбираем список, который хотим скачать.

2) Программа скачивает файл и сохраняет его на диск.

3) При необходимости программа распаковывает архив на диск.

4) Программа предлагает пользователю выбрать фильтр.

5) Пользователь выбирает фильтр

6) Программа читает одну строку из (распакованного) файла, проверяет на соответствие фильтру.

7) Если домен соответствует фильтру, то он игнорируется.

8) Если домен не соответствует фильтру, то создаются нужные структуры в программе.

9) Если файл не кончился, то переход к пункту 6.

юни:
2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.

Предположим, что в газете вышла заметка про Васю. Мы не знаем, на какой странице находится эта заметка. Что бы найти в газете заметку про Васю, нам нужно листать газету с первой страницы. Предположим, что в файле есть доменные имена, освобождающиеся в течение 15 дней. Мы не знаем, в какой строке есть эти имена. Что бы найти эти имена, нам нужно просматривать файл с самого начала.

юни:
Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы.

Это происходит при выполнении вышеописанного алгоритма? Какой фильтр используется (желательно скриншот)?

юни:
На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.

Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?

Такого способа нет. Ведь даже для того, что бы открыть файл в Access, его нужно сначала полностью скачать.

Socializating - программа для CS Yazzle - программа VaM Shop - Скрипты

923

юни

17 февраля 2013, 20:51

#617

DecAnisimov:
Какой фильтр используется

Раз программе приходится просматривать весь список, то любой, я полагаю. Можете проверить самостоятельно, у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню). Т.е. даже до анализа теперь дело не доходит.

Скачиваемый список - домены в зоне ru через r01 или reghouse.

Акция от Reghouse: регистрация Key Collector - автоматизированная Проблема с ssh и

DA

58

DecAnisimov

17 февраля 2013, 21:06

#618

юни:
любой, я полагаю.

Это ошибочное мнение. Описанная ситуация была только при загрузке всего списка в программу.

юни:
Можете проверить самостоятельно

Я проверял работу фильтров не раз, большие списки фильтруются безо всяких проблем.

юни:
у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню).

Скачиваемый список - домены в зоне ru через r01 или reghouse.

Да, подтверждаю. Вероятно, изменился формат сжатия архива. Посмотрю, что смогу сделать.

Как указать в <input Почему не клеет ссылки Про тИЦ

923

юни

17 февраля 2013, 23:18

#619

DecAnisimov:
только при загрузке всего списка в программу

Раньше у меня софт зависал после применения фильтров.

DA

58

DecAnisimov

18 февраля 2013, 02:39

#620

юни:
Раньше у меня софт зависал после применения фильтров.

Что же ты не писал о проблемах?

Переиграть и победить: как анализировать конкурентов для продвижения сайта

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

My Domain Checker - программа для проверки доменов