自动化指标加工
基于“操作即SQL”的理念,通过简单点击配置,即可自动生成批量指标加工的SQL,通过分布式调度引擎执行,SQL执行效率为传统模式的5倍以上。
平台支持通过点击式页面简单的配置,即可自动化地生成海量数据指标加工的SQL,并且SQL的语法支持了市面上绝大部分的常用数据库,包括mysql、oracle、hive、GreenPlum、sybase、odps、sparksql、FushionInsight、inceptor等十几种数据库SQL语法。
平台的数据加工、分析等数据操作,均可通过内置的分布式调度系统自动地完成任务的调度。支持常见的调度方式,包括手工触发的单次执行、以及灵活的定时调度。
平台生成的SQL,是通过业务化的指标模板配置形成,无需深入的技术基础、了解业务的人员即可完成SQL生成逻辑的配置。
通过去代码化的方式、点击式即可地完成建模数据集的常见特征工程,支持的特征工程处理包括归一化、异常值修正、缺失值填补、标准化、WOE编码、onehot、分箱、自定义衍生等。
数值型变量是否异常常常通过几种方式进行筛选,分别是最大值大于某个值,最小值小于某个值,极差大于某个值,1%分位数小于某个值,99%分位数大于某个值。
数值型变量是否异常常常通过几种方式进行筛选,分别是最大值大于某个值,最小值小于某个值,极差大于某个值,1%分位数小于某个值,99%分位数大于某个值。
对于数值型变量,有基于均值、基于最大值、基于最小值、零、给予中位数、基于众数、自定义等几种方式进行填补。对于类别型变量,仅支持众数、自定义两种方式;众数是当前数据出现次数最多的那个值作为填补值;而自定义则可定义任意的填补值。
针对不同数据提供的自动化、批量指标加工的模板。通过算子的批量加工规则的配置,自动完成批量指标的输出。
对数据的时间字段往前追溯不同时间跨度进行数据分片,并根据不同的组合规则,对不同分片的数据进行衍生运算,包括与前一个时间分片的差、比率等。
统计不同类型业务量的汇总值。例如:网银的交易总额、手机银行的交易总额、现金的交易总额等
统计不同类型业务量(笔数、金额)占全部业务量的比例。例如:网银的交易金额的占比、网银的交易笔数占比、手机银行的交易金额占比、网银的交易笔数占比等
数据血缘,主要解决数据应用后数据有误过程追查、数据处理过程回溯、数据来源追溯等方面的问题;平台主要支持以下几种维度的数据血缘。
支持表级别的来源追溯、数据处理过程、调度来源、调度依赖及过程产出代码回溯;
支持字段级别的来源追溯、数据处理过程、调度来源、调度依赖及过程产出代码回溯;
支持记录级别的来源追溯、数据处理过程、调度来源、调度依赖及过程产出代码回溯;