- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Уважаемые опытные программеры!
Вопрос следующий.
У меня есть база URL, без title.
Нужно получить title для каждого URL и выводить их на сайте.
Написал код:
Это для одного url, естественно чтобы получить список сделаю массив URL и цикл. Насколько быстро он будет получать заголовки. Сильно тормознет? Если массив из 100 допустим будет.
зависеть тут будет не от размера массива, а от скорости соединения вашего сервера с интернетом + скорости генерации страниц движками которые вы будете "парсить" ... а не то что 100 элементов в массиве будет :-D
Об этом я примерно догадывался. Но решение можно применить? Или кто-нибудь применял подобного рода?
Об этом я примерно догадывался. Но решение можно применить? Или кто-нибудь применял подобного рода?
а вы решение предлагали?
В принципе думаю обойти эту задачу. Заносить в базу УРЛ. И если у УРЛ нет заголовка, то считывать его. Думаю это скорость увеличит в дальнейшем.
В принципе думаю обойти эту задачу. Заносить в базу УРЛ. И если у УРЛ нет заголовка, то считывать его. Думаю это скорость увеличит в дальнейшем.
если база статична то да :)
Уважаемые опытные программеры!
Вопрос следующий.
У меня есть база URL, без title.
Нужно получить title для каждого URL и выводить их на сайте.
Написал код:
Это для одного url, естественно чтобы получить список сделаю массив URL и цикл. Насколько быстро он будет получать заголовки. Сильно тормознет? Если массив из 100 допустим будет.
Здесь выложил код /ru/forum/comment/5041862
Сделайте его для себя как вам надобно.
Спасибо, про кодировку я как-то и не подумал.
Еще хотел спросить. А если допустим сайт не доступен. Или домен уже не существует. Насколько долго он конектится?
Спасибо, про кодировку я как-то и не подумал.
Еще хотел спросить. А если допустим сайт не доступен. Или домен уже не существует. Насколько долго он конектится?
Делайте проверку на ответ сервера
curl как мне кажется очень удобно юзать в этом случае.
К стати там же выложен скрипт проверки фреймов его можете применить для себя.
там скрипт лезет на сайт ищет фреймы и выводит в браузер.
Достаточно заменить в нем регулярку на ту что в послежнем моем скрипте
и будет работать. Только про лучше сделать через курл.
Если сайт будет не доступен или его не будет существовать то скрипты выдаст ошибку..
Подавить ошибку можно так
в скрипт в после <?php
вставить строку
up
потерто
В данном случае можно немного сэкономить на времени выполнения, если сайты которые вы парсите делал не маньяк какой нибудь. Титл обычно содержится в первом килобайте кода, поэтому можно не целиком страницу грузить а нужное количество байт через fopen/fgetc
Если предположить что сайты делал нормальный человек, то можно вообще строками тягать пока не встретится титл. Время ожидания ответа от сервера это не поможет сократить, зато объем передаваемых данных может заметно уменьшиться.
Единственное, что в этом случае вас ограничивает, - это max_execution_time пыхи. Можно тягать порциями с обратным вызовом через аякс/auto-refresh
Хотя вообще все это можно сделать на яваскрипте (если работа разовая). Грузить нужный документ во фрейм и оттуда тягать титл через DOM
neolord добавил 19.06.2009 в 11:27
Спасибо, про кодировку я как-то и не подумал.
Еще хотел спросить. А если допустим сайт не доступен. Или домен уже не существует. Насколько долго он конектится?
Если вы будете пользоваться curl, там можно задать время ожидания.
Если стандартные функции работы с файлами, то выбирается наименьшая из соответствующих настроек php/apache.
Можно для начала проверять доступность сайта например через get_headers, но тогда затраты на ожидание ответа удваиваются