- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Фильтрация возможна по любым данным, присутствующим в скачиваемом файле
А если в фильтре есть условия, по которым нет информации в файле, тогда как?
А если в фильтре есть условия, по которым нет информации в файле, тогда как?
Программа не даст выбрать/создать такой фильтр.
Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?
Если программа ещё не знает о структуре файла, как она поймёт, какой фильтр подходит для пользовательской задачи?
Почему же не знает? Знает. Иначе как его декодировать?
1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.
2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.
Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы. На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.
Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?
1. Можно подробно описать процесс, который происходит после выбора команды "Скачать"? При условии, что мы хотим обработать его фильтром, который отсекает домены с PR меньше или равному 3.
Ок, полное описание процесса.
1) Выбираем список, который хотим скачать.
2) Программа скачивает файл и сохраняет его на диск.
3) При необходимости программа распаковывает архив на диск.
4) Программа предлагает пользователю выбрать фильтр.
5) Пользователь выбирает фильтр
6) Программа читает одну строку из (распакованного) файла, проверяет на соответствие фильтру.
7) Если домен соответствует фильтру, то он игнорируется.
8) Если домен не соответствует фильтру, то создаются нужные структуры в программе.
9) Если файл не кончился, то переход к пункту 6.
2. Схема "полное скачивание, потом обработка" сейчас малорациональна. К примеру, чтобы выудить освобождающиеся в течение 15 дней .ru домены, мне нужно скачать весь список (из более чем трёх миллионов имён), после чего обработать каждое из них.
Предположим, что в газете вышла заметка про Васю. Мы не знаем, на какой странице находится эта заметка. Что бы найти в газете заметку про Васю, нам нужно листать газету с первой страницы. Предположим, что в файле есть доменные имена, освобождающиеся в течение 15 дней. Мы не знаем, в какой строке есть эти имена. Что бы найти эти имена, нам нужно просматривать файл с самого начала.
Софт забирает больше 2Гб памяти и виснет, не выполнив и десятой части работы.
Это происходит при выполнении вышеописанного алгоритма? Какой фильтр используется (желательно скриншот)?
На этой же машине я могу открыть древний Access, внутри которого отсортировать распакованный partner.r01.ru/ru_domains.gz по пятой (или какой там) колонке примерно за 2-3 минуты, после чего копипастом дать чекеру итог из 3-7 тысяч доменов.
Соответственно, зачем нужны функции, которые всё равно приходится дублировать через сторонние программы и прочие костыли? Есть способы получить нужные доли процента данных не скачивая и/или не обрабатывая весь их массив?
Такого способа нет. Ведь даже для того, что бы открыть файл в Access, его нужно сначала полностью скачать.
Какой фильтр используется
Раз программе приходится просматривать весь список, то любой, я полагаю. Можете проверить самостоятельно, у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню). Т.е. даже до анализа теперь дело не доходит.
Скачиваемый список - домены в зоне ru через r01 или reghouse.
любой, я полагаю.
Это ошибочное мнение. Описанная ситуация была только при загрузке всего списка в программу.
Можете проверить самостоятельно
Я проверял работу фильтров не раз, большие списки фильтруются безо всяких проблем.
у меня теперь новая ошибка - не могу открыть файл \temp.52043 (цифры могут быть другими, точно не помню).
Скачиваемый список - домены в зоне ru через r01 или reghouse.
Да, подтверждаю. Вероятно, изменился формат сжатия архива. Посмотрю, что смогу сделать.
только при загрузке всего списка в программу
Раньше у меня софт зависал после применения фильтров.
Раньше у меня софт зависал после применения фильтров.
Что же ты не писал о проблемах?