dataCompare核心功能之数据探针
创始人
2025-05-31 07:48:51
0

1.数据探针产生的背景:

在数据开发和接入的过程中,数据开发人员接到一个需求或者一条新的业务线可能需要搭建数仓,做数据处理,然后提供一些指标数据给到需求方,如果是你这边会怎么开始呢?
直接开干?抽表,清洗,分层,建模?

然后发现做完之后,怎么数据各种不对,取不到想要的数据,比如说:业务上说明明一个字段为空比例非常少(1%以内),但是加工出来的数据问题非常多?比如说:空值占比接近30%,然后报表显示的结果就各种问题,然后又往上排查发现,原来是别人提供的数据,或者采集的数据有问题

所以一上来开干,这就是瞎搞。啥也不知道不了解的情况下,对数据源一无所知的情况下,是谁给你勇气直接开干的?干完之后返工成本更大

 
2.正常的数据开发流程:

接到新的数据需求或者任务的时候,最开始应该需要做一下数据调研,即数据探查(也就是标题上提的数据探针),发现数据潜在的问题。

 那数据探针到底要探测哪些内容呢?

 

3.现状

大多数数据开发人员的处理方法:写大量的sql

比如:
总行数据:select count(*) from table_name;
枚举值:select table_column,count(*) as cnt from table_name group by table_column
等等

4.数据探针


(1)低代码、少量配置即可实现探查任务


(2)将数据探测标准化,避免不同的数据开发人员采用不同的探测标准,做标准统一


(3)快速完成数据探测:30秒完成探测任务配置,2分钟出探测结果

5.功能演示

探测任务配置

探测结果详情

相关内容

热门资讯

《内蒙古自治区保障农民工工资支... 原标题:《内蒙古自治区保障农民工工资支付条例》7月1日起实施 内蒙古日报5月30日讯(记者 王皓)5...
windows server2... windows server2003 多用户登陆问题解决办法 Windows Server远程登陆默...
多线程之单例模式 目录 1.什么是单例模式  2.单例模式的类型 3.饿汉模式 4.饿汉模式 5.多线程 1.什么...
一次内存泄露排查 前因: 因为测试 长时间压测导致 接口反应越来越慢,甚至 导致服务器 崩...
5.网络爬虫——Xpath解析 网络爬虫——Xpath解析Xpath简介Xpath解析节点选择路径表达式谓语未知节点Xpath实战演...
关于类和对象的分文件编写---... 1.简介 本文通过一个判断点和圆位置关系的实例,来记录C++中类和对象...
操作系统之磁盘相关 目录 磁盘的结构 具体结构 基本概念 磁盘、磁道、扇区 盘面、柱面 如何在磁盘中读写数据 磁盘的物理...
SLF4J、Log4J、Log... SLF4J ,全称Simple Logging Facade for Java...
法律是什么: 20世纪英美法理... 作者: 刘星 出版社: 重庆出版社 出品方: 华章同人 丛书: 华章同人·现代图书馆 全书总共分为...