statoperator - контент аналитика крупных проектов

12
[Удален]
#11
daocrawler:
Вы не можете сделать большую map-reduce операцию во вменяемое время не создавая для этого вычислительный кластер

есть и другие алгоритмы для текущей задачи менее ресурсозатратные, для примера, 800к+ строк обрабатывается примерно за 5-7минут (обработка уже подготовленных данных), у меня немного другие задачи, но очень похожие

основная проблема, у меня, это работа с синонимами, автоматическая замена лем и удаление стоп слов (союзы, предлоги и не значимых для разбора лем, типа купить, сайт магазин, интернет и т.п.), а затем удаление не информационных созданных биграм, типа женский кожаный

P.S. а так да монетизация вычислительных мощностей дело хорошее, только вот ну очень не гибкое, под разные задачи тяжело масштабируемое :)

daocrawler
На сайте с 24.08.2016
Offline
1
#12
burunduk:
есть и другие алгоритмы для текущей задачи менее ресурсозатратные, для примера, 800к+ строк обрабатывается примерно за 5-7минут (обработка уже подготовленных данных), у меня немного другие задачи, но очень похожие
основная проблема, у меня, это работа с синонимами, автоматическая замена лем и удаление стоп слов (союзы, предлоги и не значимых для разбора лем, типа купить, сайт магазин, интернет и т.п.), а затем удаление не информационных созданных биграм, типа женский кожаный


P.S. а так да монетизация вычислительных мощностей дело хорошее, только вот ну очень не гибкое, под разные задачи тяжело масштабируемое :)

Не существует алгоритмов, которые умеют работать дешевле, чем за одну операцию чтения.

Для понимания, проще будет представить все ваши данные как некий объем, допустим 2TБ чего-то. Вы решили, что знаете как существенно их сократить различными операциями - сокращайте (не забывая тестировать качество того, что получаете на выходе), но для этого всё-равно требуется прочитать эти 2TБ. А если еще и отчёт хотите - то и дописать к ним значения.

[Удален]
#13
daocrawler:
Не существует алгоритмов, которые умеют работать дешевле, чем за одну операцию чтения.

я с этим и не спорю, я пытаюсь существенно сократить, более трудоёмкие операции сравнения и поиска, за счёт существенного сокращения их количества :)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий