webiumpro

webiumpro
Рейтинг
39
Регистрация
20.03.2017
Должность
Web-developer
Интересы
web-разработка, проектирование архитектуры, web-дизайн, seo, DevOps, интерфейсы
Разрабатываю веб-сервисы, пишу скрипты, создаю сайты. Не работаю с CMS и конструкторами.
Devvver:
Так теги вообще повторяющиеся будут.

Не просто теги, а их содержимое и атрибуты

Devvver:
Но такое начать определять - тут нейросеть надо писать и обучать на выборке

Вполне будет достаточно html-crawler'a и регулярок. Не так много критериев и их комбинаций нужно проверить, чтобы понять, что какая-то часть кода есть и на других страницах, а какая-то - уникальна. Погрешность безусловно будет, но со временем ее можно минимизировать, добавляя новые критерии проверки

Вы явно что-то где-то упускаете и нам это не показываете. Сделайте 3 скрина: просто содержимое таблицы, ваш запрос и результат его выполнения (желательно на том месте, где выводятся неправильные записи, и с выводом даты, чтобы было видно, что запись не соответствует условию)

А зачем вам distinct, если поле уникальное?

---------- Добавлено 12.12.2018 в 20:18 ----------

Я проверил у себя в базе. Если указывать правильный формат даты, даже без времени правильно отрабатывает. Вы уверены, что у вас даты в поле лежат в одном формате?

elitedesign:
но также выводит и те, у кого поле date выходит за заданный диапазон указанный в between (например выводит и те записи, где date = 01.04.2018 20:22:14)

1.04.2018 или все-таки 2018-04-01?

Время к дате попробуйте добавить. И формат даты соблюдайте.

$sql = "SELECT DISTINCT(`zakaz_id`) FROM `zakaz_history` WHERE `date` BETWEEN '2018-12-06 00:00:00' AND '2018-12-12 23:59:59' ORDER BY `zakaz_id` DESC";


$('#form_svyaz').submit(function() {
yaCounter49939138.reachGoal('otpravit_zayavku');
});

Так попробуйте

Можно попробовать реализовать анализатор, который будет определять контентную часть. Алгоритм примерно такой:

1. Спарсить вместе с целевой статьей еще несколько других

2. Сравнить html (с помощью h1) и оставить только уникальный контент. Все, что ниже контента статьи, как правило, будет повторяться

3. Определить прямого родителя (контейнер содержимого статьи), чтобы вытащить контент.

Этот подход довольно сложный и ресурсоемкий, но я думаю, погрешность будет ниже, чем у других способов.

Посмотрел ваш файл. Боюсь, там прямая замена текста на знаки вопроса.

Ничего с ним сделать не смог

Шрифты и кодировку пробовали менять?

Можно очень долго гадать, в чем причина. Будет гораздо быстрее, если вы скинете этот файл

kuprum:
со всеми известными бубнами

Это какими?

Первое, что приходит на ум, проблемы с кодировкой.

Открыть в каком-нибудь другом редакторе не пробовали? Тот же Google Docs

LEOnidUKG:
Указание кодировки это гарантия, что всё будет работать нормально.

Я не спорил с тем, что лучше - указывать или нет) Вопрос был несколько в другом: будет ли без явного указания кодировки работать или не будет. Поэтому я привел цитату из доков, что будет, при условии, что по умолчанию кодировка стоит правильная.

ziliboba0213:
Кодировка файла utf-8

Просто текст нормально выводится...

В таком случае, я затрудняюсь ответить, почему у вас так. Я не знаю, какое у вас окружение и сервер. Но ваш вариант у меня нормально отрабатывает без явного указания в функции, стало быть дело таки в окружении. Могу прикрепить скриншоты в качестве пруфов.

Всего: 235