Если у нас 20 строк, мы распаковали в массив - Веб-строительство

Как отфильтровать данные?

Sly32 · 2020-06-13T09:07:36.0000000Z

Если кому надоело ставить плагины, есть задачка немного интереснее) Нужно написать скрипт фильтрования данных initial data: [ {'id': 0, 'media_category': 'clip'}, {'id': 1, 'media_category': 'promo'}, {'id': 2, 'media_category': 'promo'}, {'id': 3, 'media_category': 'start'}, {'id': 3, 'media_category': 'video'}, {'id': 3, 'media_category': 'anime'}, {'id': 3, 'media_category': 'promo'}, {'id': 4, 'media_category': 'clip'}, {'id': 4, 'meda_category': 'promo'}, {'id': 6, 'media_category': 'xxx'}, ] Это словарь, но вы можете работать с ним в любом привычном для вас формате - json и тд Мне нужно отфильтровать данные так, что бы исключить те строки, где значение ключа 'media_category' == promo или ххх То есть в результате должен получиться такой вариант {'id': 0, 'media_category': 'clip'}, {'id': 3, 'media_category': 'start'}, {'id': 3, 'media_category': 'video'}, {'id': 3, 'media_category': 'anime'}, {'id': 4, 'meda_category': 'promo'}, {'id': 4, 'media_category': 'clip'}, Язык реализации - на ваш выбор . Конечно в первую очередь интересует Python, но интересно будет сравнить реализации на php, javascript, c++, go и прочих Заранее спасибо и плюсик в карму тем, кто примет конструктивное участие в топике :beer: Уточняющие вопросы приветствуются!

S

469

Sitealert

13 июня 2020, 14:42

#41

Если начинать от стартпоста, то там массив объектов. Проблема решения задачи высосана из пальца.

Решение на javascript:

a.map(function(item){if(item.media_category!='promo')b.push(item)});

Решение на PHP:

foreach($arr as $k=>$a) if($a->media_category == 'promo') unset($arr[$k]);

Но правильнее сразу делать выборку из БД. И БД выбирать такую, которая может хранить структурированные данные, а не всякое говно.

Отпилю лишнее, прикручу нужное, выправлю кривое. Вытравлю вредителей.

MySQL: как правильнее организовать Кто знает как спасти Как правильно структурировать БД

153

danforth

13 июня 2020, 14:43

#42

timo-71:
Иметь такой JSON, идея сама по себе сомнительная. Если это файл, то да, ваше решение наверное единственное здесь, которое как то решит задачу.

А в чем тогда сложность задачи? Если у нас 20 строк, мы их распаковали в массив, отфильтровали и... на этом все. Тот же array_filter или filter/reduce в JS. В чем интерес? Где потоковое чтение? В метках темы sly32 написал data science, только им тут и не пахнет. Пока что это junior tasks.

Ну и кстати, идея не сомнительная. Обычно такие файлы остаются от логов Nginx, которые нужно на лету парсить и строить аналитику по ним. Или например прислали выгрузку для синхронизации товарных остатков, там не редкость те же XML файлы на пару гигов. Или сайтмеп например распарсить у сайта. Примеров уйма.

Junior Web Developer

Яндекс Sitemap Шаблонизаторы, какой выбрать? Template CMS 2.0 -

T7

63

timo-71

13 июня 2020, 15:14

#43

danforth:
А в чем тогда сложность задачи

Несложная, да. Может относиться к задаче стоило с учетом первой фразы темы:

Sly32:
Если кому надоело ставить плагины

danforth:
там не редкость те же XML файлы на пару гигов. Или сайтмеп например распарсить у сайта.

Для XML даже для PHP есть средства которые не грузят весь файл в память. Логи - csv построчно легко читаются .

А в целом, да, согласен, что если есть инструменты для потокового чтения JSON это хорошо. "Сомнительная" это я к тому, что я бы в таких JSON файлах данные бы не хранил

В открытом доступе появился Google облегчил разработку сайтов Яндекс запускает API Вебмастера

153

danforth

13 июня 2020, 15:30

#44

timo-71:
Может относиться к задаче стоило с учетом первой фразы темы:

Ну оно как бы да, но с другой стороны зачем тогда в метках data science - не понятно)

timo-71:
Для XML даже для PHP есть средства которые не грузят весь файл в память. Логи - csv построчно легко читаются .
А в целом, да, согласен, что если есть инструменты для потокового чтения JSON это хорошо. "Сомнительная" это я к тому, что я бы в таких JSON файлах данные бы не хранил

Ну обычно никто ничего важного в JSON и не хранит. Как правило, есть условный файл, куда пишется поток каких-то событий, и нужно эти события читать и парсить. Вариант прочитать весь файл в память и распарсить в массив, по понятным причинам, не всегда возможен. Я к тому, что если кому-то задача кажется слишком легкой, можно например применить немного скилла, и прочитать данные немножко по другому :) Ведь данные не всегда нужны все и сразу, как в данном примере. Нам не нужно находить дубли, и т.д.

Подождем Sly32, посомтрим как он решит задачу

Запуск iOS 13 сократил РИФ+КИБ 2011: Станислав Ставский Яндекс.Браузер теперь умеет переводить

S3

391

Sly32

13 июня 2020, 17:11

#45

Про data science была только шутка)

На пайтоне это будет одна строка

playbacks = filter(lambda _data: _data['media_category'] not in ['promo'], data)

O

18

onep

13 июня 2020, 17:34

#46

Ну, использовали lambda-выражение для вызова встроенной функции. В чём прикол? (Если что, я не программист)

Показать, что в питоне больше встроенных функций, чем в php?

153

danforth

13 июня 2020, 17:40

#47

Sly32:
playbacks = filter(lambda _data: _data['media_category'] not in ['promo'], data)

И чем является data в данном примере? Кидай весь код)

T7

63

timo-71

13 июня 2020, 17:59

#48

onep:
lambda-выражение для вызова встроенной функции

анонимной

Sly32:
playbacks = filter(lambda _data: _data['media_category'] not in ['promo'], data)

Ну так, в порядке буквоедства

playbacks = filter(lambda _data: _data['media_category'] not in ['promo'], [
    {'a':'b'},
    {'b':'x'},
    {'media_category':'promo'},
])
print(list(playbacks));

playbacks = filter(lambda _data: _data['media_category'] not in ['promo'], [
KeyError: 'media_category'

 _data.get(['media_category')

Поможет

То, что dict мы абсолютно уверены, т.к. выборка из носкуэл

---------- Добавлено 13.06.2020 в 21:34 ----------

И да, чуть длиннее, но смысл тот же

timo-71:

$a=array_filter($a,function($v){return !in_array(_arr($v,'media_category'),['promo','xxx']);});

🍿

Почему Аналитикс лучше Метрики Имеет ли смысл открывать Let's Encrypt - Что

O

18

onep

13 июня 2020, 18:50

#49

Интересно посмотреть пример сортировки массива с алфавитно-цифровыми строками на питоне (в поиске не нашёл, в споры какой язык лучше не ввязываюсь).


['MacBook Air 13.3-inch (2018)','MacBook Air 13.3-inch with Retina Display (2018)','AirPods','Apple Pencil','Apple Watch','MacBook','MacBook Air','MacBook Pro','iPad 9.7 (2018)','iPad 10.2 (2019)','iPad Air','iPad Air (2019)','iPad Air 2','iPad 2','iPad 3','iPad 4','iPad 9.7','iPad Mini','iPad Mini (2019)','iPad Mini 2','iPad Mini 3','iPad Mini 4','iPad Pro 9.7','iPad Pro 10.5','iPad Pro 11-inch','iPad Pro 11-inch (2020)','iPad Pro 12.9','iPad Pro 12.9 (2017)','iPad Pro 12.9 (2018)','iPad Pro 12.9-inch (2020)','iPhone 4','iPhone 4s','iPhone 5','iPhone 5c','iPhone 5s','iPhone 6','iPhone 6 Plus','iPhone 6s','iPhone 6s Plus','iPhone 7','iPhone 7 Plus','iPhone 8','iPhone 8 Plus','iPhone 11','iPhone 11 Pro','iPhone XS 5.8-inch','iPhone XS Max','iPhone 11 Pro Max','iPhone SE','iPhone SE 2','iPhone X','iPhone XR','iPod Touch (2019)','iPod Touch 5','iPod Touch 6']

На php написал бы так:


uksort($data, my_uksort($data));
function my_uksort($data) {
	return function($a, $b) use($data) {
		return strnatcmp($data[$a], $data[$b]);
	};
}

T7

63

timo-71

13 июня 2020, 19:07

#50

onep:
посмотреть пример сортировки массива с алфавитно-цифровыми

Огромный плюс питона, что есть все на все случаи жизни (pip install natsort)

import natsort

u = natsort.natsorted(u)

['AirPods',
 'Apple Pencil',

 'Apple Watch',

 'MacBook',

 'MacBook Air',

 'MacBook Air 13.3-inch (2018)',

 'MacBook Air 13.3-inch with Retina Display (2018)',

 'MacBook Pro',

 'iPad 2',

 'iPad 3',

 'iPad 4',

 'iPad 9.7',

 'iPad 9.7 (2018)',

 'iPad 10.2 (2019)',

 'iPad Air',

 'iPad Air 2',

 'iPad Air (2019)',

 'iPad Mini',

 'iPad Mini 2',

 'iPad Mini 3',

 'iPad Mini 4',

 'iPad Mini (2019)',

 'iPad Pro 9.7',

 'iPad Pro 10.5',

 'iPad Pro 11-inch',

 'iPad Pro 11-inch (2020)',

 'iPad Pro 12.9',

 'iPad Pro 12.9 (2017)',

 'iPad Pro 12.9 (2018)',

 'iPad Pro 12.9-inch (2020)',

 'iPhone 4',

 'iPhone 4s',

 'iPhone 5',

 'iPhone 5c',

 'iPhone 5s',

 'iPhone 6',

 'iPhone 6 Plus',

 'iPhone 6s',

 'iPhone 6s Plus',

 'iPhone 7',

 'iPhone 7 Plus',

 'iPhone 8',

 'iPhone 8 Plus',

 'iPhone 11',

 'iPhone 11 Pro',

 'iPhone 11 Pro Max',

 'iPhone SE',

 'iPhone SE 2',

 'iPhone X',

 'iPhone XR',

 'iPhone XS 5.8-inch',

 'iPhone XS Max',

 'iPod Touch 5',

 'iPod Touch 6',

 'iPod Touch (2019)']

2

Все что нужно знать о DDоS-атаках грамотному менеджеру

Google: E-E-A-T не является фактором ранжирования

Как отфильтровать данные?