自动化指标加工

“一表千维”SQL引擎
特征工程
指标模板
数据血缘管理
基于“操作即SQL”的理念,通过简单点击配置,即可自动生成批量指标加工的SQL,通过分布式调度引擎执行,SQL执行效率为传统模式的5倍以上。
SQL生成器

平台支持通过点击式页面简单的配置,即可自动化地生成海量数据指标加工的SQL,并且SQL的语法支持了市面上绝大部分的常用数据库,包括mysql、oracle、hive、GreenPlum、sybase、odps、sparksql、FushionInsight、inceptor等十几种数据库SQL语法。

分布式调度

平台的数据加工、分析等数据操作,均可通过内置的分布式调度系统自动地完成任务的调度。支持常见的调度方式,包括手工触发的单次执行、以及灵活的定时调度。

业务化模板

平台生成的SQL,是通过业务化的指标模板配置形成,无需深入的技术基础、了解业务的人员即可完成SQL生成逻辑的配置。

体验Demo
通过去代码化的方式、点击式即可地完成建模数据集的常见特征工程,支持的特征工程处理包括归一化、异常值修正、缺失值填补、标准化、WOE编码、onehot、分箱、自定义衍生等。
归一化

数值型变量是否异常常常通过几种方式进行筛选,分别是最大值大于某个值,最小值小于某个值,极差大于某个值,1%分位数小于某个值,99%分位数大于某个值。

异常值修正

数值型变量是否异常常常通过几种方式进行筛选,分别是最大值大于某个值,最小值小于某个值,极差大于某个值,1%分位数小于某个值,99%分位数大于某个值。

缺失值填补

对于数值型变量,有基于均值、基于最大值、基于最小值、零、给予中位数、基于众数、自定义等几种方式进行填补。对于类别型变量,仅支持众数、自定义两种方式;众数是当前数据出现次数最多的那个值作为填补值;而自定义则可定义任意的填补值。

体验Demo
针对不同数据提供的自动化、批量指标加工的模板。通过算子的批量加工规则的配置,自动完成批量指标的输出。
时间切片算子

对数据的时间字段往前追溯不同时间跨度进行数据分片,并根据不同的组合规则,对不同分片的数据进行衍生运算,包括与前一个时间分片的差、比率等。

分类汇总算子

统计不同类型业务量的汇总值。例如:网银的交易总额、手机银行的交易总额、现金的交易总额等

分类占比算子

统计不同类型业务量(笔数、金额)占全部业务量的比例。例如:网银的交易金额的占比、网银的交易笔数占比、手机银行的交易金额占比、网银的交易笔数占比等

体验Demo
数据血缘,主要解决数据应用后数据有误过程追查、数据处理过程回溯、数据来源追溯等方面的问题;平台主要支持以下几种维度的数据血缘。
表级

支持表级别的来源追溯、数据处理过程、调度来源、调度依赖及过程产出代码回溯;

字段级

支持字段级别的来源追溯、数据处理过程、调度来源、调度依赖及过程产出代码回溯;

记录级

支持记录级别的来源追溯、数据处理过程、调度来源、调度依赖及过程产出代码回溯;

体验Demo

业务化数据处理

二代央行征信数据
第三方JSON数据
银行交易流水数据
税务数据
平台支持对一代、二代央行征信的自动化解析与衍生、以及衍生变量的自动化分析、监控,可生成300+个基础变量、10000+个衍生变量,并可支持进一步的定制化变量衍生需求。在数据处理模式上,支持批处理调度、实时服务两种模式,同步满足离线训练与上线的系统需要。
征信变量的解析

平台提供了对一代和二代征信数据自动化解析,以数据表的形式存入目标数据库。整个解析过程自动化完成,并且一代二代征信入库后采用统一标准的数据表和字段名,自动实现一代二代征信字段级的映射关系。

征信变量的衍生

对于平台接入的征信数据,可在平台的通过模板功能,一键完成征信指标的加工,征信指标数目可达10000多个。

实时加工

平台的征信变量衍生,可提供标准化的API实时服务,支持对征信变量解析与衍生的单笔数据提供毫秒级实时加工。

体验Demo
平台支持对标准的第三方JSON数据进行自动化解析与衍生、并提供自动化分析、监控,可生成智能优化后的基础变量、以及衍生变量。在数据处理模式上,支持批处理调度、实时服务两种模式,同步满足离线训练与上线的系统需要。
JSON数据的解析

平台对json数据的自动化解析,以数据表的形式存入目标数据库。整个解析过程自动化完成,并且入库后提供详细的字段级映射关系。

JSON数据衍生

对于平台接入的json数据,可在平台的通过模板功能,一键完成特征的加工,数千个。

实时加工

json变量的解析与衍生,平台可提供标准化的API实时服务,支持对变量解析与衍生的单笔数据提供毫秒级实时加工。

体验Demo
平台对用户最近X个月的交易流水数据进行变量衍生,最多可生成近数千个衍生变量。对银行流水从时间段”、“渠道类型”、“业务类型”等多个维度,分类统计对应的交易总额(S)/交易次数/最大金额/最小金额/平均金额/增量量/月度占比,基本覆盖了银行流水交易行为分析与建模常用的特征;
体验Demo
平台对税务数据进行自动化的税务模板加工,覆盖税务数据常见的指标。
体验Demo

流批、实时一体化

一键发布实时服务
定时调度跑批
实时SDK
离线SDK
平台可将数据加工流一键发布为实时服务,对外提供毫秒级、支持分布式拓展的实时数据加工api。
体验Demo
平台支持调度时间的灵活设置。调度的时间设置包括起止时间、调度运行频率(每月/周/天)、运行时点设置。还支持按cron表达式的运行方式。
体验Demo
平台可将数据加工流一键转为实时SDK包,提供毫秒级的实时数据加工,完成数据加工的快速上线。目前实时SDK支持的语言有:JAVA、PYTHON、Flink、Kafka等
体验Demo
平台可将数据加工流一键转为批量SDK包,提供批量数据加工,完成批量数据的灵活上线。目前离线SDK支持的语言有:MYSQL、ORACLE、Greenplum、SAS、Hive、Sparksql等
体验Demo

数据监控与预警

特征监控
数据质量
监控预警
特征监控主要监控持续产出数据集的过程中,特征的分布波动,以及对于建模应用场景下的性能指标波动。
分布统计量

主要包括特征的CSI、均值、极值等

与目标变量相关统计量

主要包括IV值、相关系数、卡方、T检验等

体验Demo
数据质量模块用于把控数据产出的质量,包括数据缺失、数据格式、数据量、关联数据校验等方面。
空值检查

如检查一个表的字段是否为空。

枚举检查

如检查一个表的一个字段是否在枚举值内。

范围检查

如检查一个表的一个字段的值是否在范围内。

正则检查

如检查一个表的一个字段是否符合正则规则。

体验Demo
过监控预警模块,可支持特征统计量的规则监控,并产出预警信息,触发预警处置功能,通过OA/短信等多种渠道,将信息传递到指定的用户中。
监控规则

可设置预警条件用于监控,预警条件主要来自特征统计量和数据质量的波动;如特征CSI>0.2,年龄<=120。

预警处置

在定义预警时,需要配置达到预警条件时,该如何处理的方式;在数据产出的过程中,当触达监控规则时,会自动触发预警处置,将预警信息传达给指定用户。

体验Demo

特征库管理

特征逻辑复用
主题管理
维度管理
属性管理
平台数据模型定义的特征,可批量注册到特征库。同时,在同一维度下的所有特征,业务人员可忽略其底层依赖的数据与任务,直接筛选一个组合为新的“特征集”,复用历史特征的加工逻辑,灵活的满足业务需求。
体验Demo
定义和管理特征的分层主题,特征定义时需选择属于某一主题。二级主题可分为基础信息、客户价值、行为特征、征信特征等。
体验Demo
定义与管理特征集的维度,如身份证维度、产品维度、网点维度等。同一维度下的所有特征,可直接合并为新的“特征集”,灵活的满足业务需求。
体验Demo
定义和管理特征的属性,特征定义时可选择多个属性。属性如“征信”、“逾期”、“贷后”等个性化标识。
体验Demo

跨源异构的统一平台

支持十几种数据库
统一的数据探索入口
数据BI可视化
平台支持多种数据源的接入,用于数据的读取、加工、存储。
关系型数据库

平台支持如MYSQL、ORACLE、GreenPlum、Hive、SFTP、Spark、sybase、sqlServer、Hbase、华为FushionInght、阿里Maxcompute、星环inceptor等主流数据库。对于关系型数据库,平台具有很好的接入能力。在关系型数据库上支持数据探索、数据处理和数据分析。

结构化文本

如Excel、Csv、Txt等,平台提供作为数据源导入的功能。文本类数据源也支持进行各类统计和分析,支持对文本内的指标进行交互分析或数据清洗。

半结构化文本

如JSON、XML、央行征信html等,平台也能进行解析并导入数据库作为数据源。支持对解析结构固化保留,并支持增量解析和导入数据库,实现json解析上的统一。

体验Demo
平台为十几种数据库提供了统一的SQL开发与探索入口,并支持便捷的异步查询、可视化等辅助功能。
体验Demo
平台支持数据BI可视化查看、编辑。              
体验Demo

魔数智擎

可解释、可干预、简单化人工智能决策模型平台

● 助力企业科技赋能、合规运营

● 将人工智能建模工作效率提升30~40倍

● 客户业务系统不做任何改变就能实现智能化

联系魔数智擎

提交成功

魔数智擎将安排专员与您联系,请耐心等待!

或可直接添加企业微信、拨打联系电话
解决方案 解决方案
客户案例 客户案例
公司介绍 公司介绍
公司动态 公司动态
关注或联系我们

联系电话:0755-33309473

商务邮箱:marketing@magicengine.com.cn

其他合作:info@magicengine.com.cn

地址:深圳市南山区北邮科技大厦1506-1507

Copyright © 2022 深圳市魔数智擎人工智能有限公司 粤ICP备18115691号-1