无需通过分析、分析和咨询主题专家来找出数据质量规则,标准化的无监督机器学习 算法可以大规模应用于数据湖存储桶容器,以确定可接受的数据模式并识别异常记录。我们已成功应用以下算法来检测金融服务中的数据错误,并 物联网 数据。一些开源 软件将这些算法作为其软件包的一部分提供。这些包括:
主成分分析和特征向量分析
关联挖矿
利用异常记录通过标准化数据质量维度来衡量数据信任分数,如下所示:
新鲜度: 确定数据是 亚美尼亚电话号码数据 否在流程的下一步之前到达。
完整性: 确定上下文重要字段的完整性。
应该使用各种数学和或机器学习技术来识别上下文重要字段。
一致性: 确定与上下文重要字段的模式、长度、格式的一致性。
唯一性: 确定单个记录的唯一性。
漂移: 从历史信息中确定关键分类字段和连续字段的漂移。
异常: 确定关键列的体积和价值异常。
投资回报率比较
基于机器学习的数据质量优势大致可分为两类:定量优势和定性优势。虽然定量优势在商业案例中具有最强的论据,但定性优势的价值也不容忽视。
传统数据方法与基于机器学习的数据方法
结论
数据是当今组织最宝贵的资产。当前验证数据的方法充满了操作挑战,导致信任缺失、修复数据错误的方法耗时且成本高昂。迫切需要采用标准化的自主方法来验证云数据湖,以确保防止数据湖变成数据沼泽。