statoperator - контент аналитика крупных проектов - Сервисы и программы для работы с SE - Практические вопросы оптимизации - Форум об интернет-маркетинге

[Удален]

3 сентября 2016, 22:26

#11

daocrawler:
Вы не можете сделать большую map-reduce операцию во вменяемое время не создавая для этого вычислительный кластер

есть и другие алгоритмы для текущей задачи менее ресурсозатратные, для примера, 800к+ строк обрабатывается примерно за 5-7минут (обработка уже подготовленных данных), у меня немного другие задачи, но очень похожие

основная проблема, у меня, это работа с синонимами, автоматическая замена лем и удаление стоп слов (союзы, предлоги и не значимых для разбора лем, типа купить, сайт магазин, интернет и т.п.), а затем удаление не информационных созданных биграм, типа женский кожаный

P.S. а так да монетизация вычислительных мощностей дело хорошее, только вот ну очень не гибкое, под разные задачи тяжело масштабируемое :)

1

daocrawler

4 сентября 2016, 08:33

#12

burunduk:
есть и другие алгоритмы для текущей задачи менее ресурсозатратные, для примера, 800к+ строк обрабатывается примерно за 5-7минут (обработка уже подготовленных данных), у меня немного другие задачи, но очень похожие
основная проблема, у меня, это работа с синонимами, автоматическая замена лем и удаление стоп слов (союзы, предлоги и не значимых для разбора лем, типа купить, сайт магазин, интернет и т.п.), а затем удаление не информационных созданных биграм, типа женский кожаный

P.S. а так да монетизация вычислительных мощностей дело хорошее, только вот ну очень не гибкое, под разные задачи тяжело масштабируемое :)

Не существует алгоритмов, которые умеют работать дешевле, чем за одну операцию чтения.

Для понимания, проще будет представить все ваши данные как некий объем, допустим 2TБ чего-то. Вы решили, что знаете как существенно их сократить различными операциями - сокращайте (не забывая тестировать качество того, что получаете на выходе), но для этого всё-равно требуется прочитать эти 2TБ. А если еще и отчёт хотите - то и дописать к ним значения.

[Удален]

4 сентября 2016, 11:36

#13

daocrawler:
Не существует алгоритмов, которые умеют работать дешевле, чем за одну операцию чтения.

я с этим и не спорю, я пытаюсь существенно сократить, более трудоёмкие операции сравнения и поиска, за счёт существенного сокращения их количества :)

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Google: E-E-A-T не является фактором ранжирования

statoperator - контент аналитика крупных проектов