- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
str_replace слова About перед регуляркой :)
зачетно ☝
а если гугл вставляет там еще какие-то неизвестные слова перед числом?
>(?:About\s)?(\d+) results</div>
>(?:\w+\s)?(\d+) results</div>
зачетно ☝
а если гугл вставляет там еще какие-то неизвестные слова перед числом?
А если он ещё чего-то придумает?
А если див название сменит?
А если цифры поменяет местами?
и т.п.
Есть задача, её и решаю.
>(?:About\s)?(\d+) results</div>
>(?:\w+\s)?(\d+) results</div>
\d не подходит, гугл между тысячами запятую ставит 24,500
\d не подходит, гугл между тысячами запятую ставит 24,500
Вы всё ждёте чудес от регулярки? Увы их не будет :)
Каким паттерном получить цифру 156 из "<div id=resultStats>156 results<nobr>"?
Так если цифру можно так
его можно откинуть паттерном или надо писать код для анализа получившихся данных?
Слово "results" всегда остается? Лучше бы найти какой-то один признак только для этих результатов уникальный и по нему искать чем делать 10 проверок того что постоянно меняется, например если "results" встречается на странице только там, но бывает и "result", то сделать такое
p.s. Спарсите 300-400 вариантов того что он выдает по разным запросам и посмотрите, <div id="resultStats"> похоже уникальный и всегда есть как бы там ни было, результат целое число и между ними вроде только , но точно не запятые т.к. целое
\d не подходит, гугл между тысячами запятую ставит 24,500
Тогда юзайте как выше подсказывают класс символов - []
>(?:About\s)?([\d,]+) results</div>
>(?:About\s)?([\d,]+) results</div>
У меня по крайней мере в русском есть
(0,34 сек.) единственно что при preg_match он его не найдет т.к. время генерация (хочется верить) всегда после количества запросов, тогда так должно сработать
Главное чтобы не было никаких чисел перед этим, после id=resultStats>
У меня по крайней мере в русском есть
(0,34 сек.) единственно что при preg_match он его не найдет
Если там только запятая то с классом сработает, только я вижу там еще такое есть
в русском
siv1987,
Еще там точно попадается, можно добавить все http://ru.wikipedia.org/wiki/%D0%9C%D0%BD%D0%B5%D0%BC%D0%BE%D0%BD%D0%B8%D0%BA%D0%B8_%D0%B2_HTML до кучи вместе с числами и запятой=)
Помню когда я его парсил последний раз не было почему то такой глобальной проблемы )))