- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть один сайт, на нем установлена специализированная CMS. Доступа к исходникам нет (зашифровано IonCube).
На сайт необходимо залить около 10 миллионов файлов, каждый файл представляет собой архив размером около 1 мб.
Никаких инструментов для пакетного импорта нет, CMS поддерживает только ручную загрузку
каждого файла отдельно. Это можно сделать для пары десятков, но не миллионов файлов.
Каким образом можно решить эту задачу? Пытался пользоваться программами по автоматизации и эмуляции действий пользователя, по записи действий мыши, но так работать невозможно.
Если действия воспроизводить очень быстро, процесс нарушается, например, просто не успевает открыться окно, т.к. мышка приезжает быстрее, чем оно загрузится.
Если каждый файл грузить с обычной скоростью, на это уйдет несколько лет…
Получается, что каждую секунду должно грузиться минимум по 1 файлу, тогда в час выйдет около 3600 файлов, а в день около 100.000.
Каким образом можно решить подобную задачу?
Zakazchik2017, понять, как именуется каждый файл и где о нём создаются записи (например, в бд)? тогда можно запилить скрипт который всё сделает
Ну или вариант - написать специализированный постер. Если нужно только один запрос делать - это, наверно, не особо сложно.
Каким образом можно решить подобную задачу?
обратится к специалисту, фриланс или специальный раздел для вас единственный выход судя по
Пытался пользоваться программами по автоматизации и эмуляции действий пользователя, по записи действий мыши, но так работать невозможно.
зы. надеюсь сайт не на шаред хостинге? под 10М файлов нужен сервер или ВПС как минимум)
PhantomJS - если умеете программировать на JS. Clickermann - если не умеете.
Imacros для firefox - если бесплатно.
Zakazchik2017, понять, как именуется каждый файл и где о нём создаются записи (например, в бд)? тогда можно запилить скрипт который всё сделает
Вначале пытался подумать, как «подсадить» в базу, но тут есть несколько нюансов.
Каждый пост – это запись в кучу таблиц (контент, связи контента, таксономия, категории, теги, привязки контента к пользователям, доступ к контенту, связь контента и приложенных файлов и т.п.).
Помимо этого, сайт уже работает, в него идет активная запись новых файлов добавляемых пользователями, а параллельно что-то подсаживать в базу невозможно без остановки сайта (побьются id и структура).
зы. надеюсь сайт не на шаред хостинге? под 10М файлов нужен сервер или ВПС как минимум)
Да там сервер с гигабитным каналом и дисковым массивом на десятки терабайт с аппаратным RAID-контролером.
обратится к специалисту, фриланс или специальный раздел для вас единственный выход судя по
Да тоже пришел к такому же выводу. Уж задача больно тяжелая.
Clickermann - если не умеете.
Буду пробовать
Imacros для firefox
Пробовал, не подошло. Не позволяет аплоадить файлы на автомате.
хм а PHP + cURL не подходять?
хм а PHP + cURL не подходять?
Нет. Страница публикации материала содержит обфусцированный Javascript, работает на ajax, т.е. ее обязательно нужно как-то отрендерить в чем-то.
Нет. Страница публикации материала содержит обфусцированный Javascript, работает на ajax, т.е. ее обязательно нужно как-то отрендерить в чем-то.
А на сервер в итоге запрос-то какой уходит, смотрели?
Может в конечном счёте все сводися к одному запросу?
А на сервер в итоге запрос-то какой уходит, смотрели?
Может в конечном счёте все сводися к одному запросу?
Вот это мысль.
Все конечно сводится не к одному запросу, но отталкиваться нужно от этого.
Там несколько JSON-взаимодействий происходит в процессе отправки материала с приложенным файлом.
При открытии страницы публикации сервером в браузер отправляется id материала (черновика).
Далее браузером на сервер отправляется приложенный файл, теги и категории, название материала и собственно выданный при открытии страницы публикации id.
Т.е. нужно просто обратиться к станице 2 раза, чтобы узнать id, а далее послать файлы.
Так что вопрос можно считать решенным, выходит задачу можно решить через javascript сделав отправку мультипоточной.