什么是数据质量 广义上来说,数据质量的定义是数据满足一组固有特性(质量维度)要求的程度。业界通常有 6 个维度: 完整性:指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。在做监控时,需要考虑两个方面:数据条数是否少了; 继续阅读
Search Results for: 数据质量解决方案和最佳实践
查询到最新的12条
电力数据安全治理实践思路探讨
01电力数据安全实践背景 数字经济的快速发展根本上源自数据的高质量治理和高价值转化,近年来,国家层面相继推出促进数据高质量治理的政策法规,围绕加强数据安全保障、提高数据质量等方面,明确了相关规定和要求。作为重要数据持有者,电力企业数据安全对个人信息、行业、地区乃至国家安全具有重大意义,且电力行业数据具有总量巨大、类型复杂多元、价值潜力巨大等特点,致使数据安全治理较为复杂。 继续阅读
Chatgpt-3 使用的提取数据集技术、数据集自动化处理和保证数据质量
为了积累数据集,ChatGPT-3使用了一系列技术来从不同来源的文本中提取数据。其中最常用的技术包括: Web scraping:ChatGPT-3使用Web scraping技术从互联网上的网页中提取文本。它可以自动化抓取网页,并从中提取出需要的信息。 数据库查询:ChatGPT-3使用数据库查询系统来收集从各种来源收集到的数据。这是一种常用的技术,在大型网站和应用程序中广泛使用。 API收集ÿ 继续阅读
Python自动化运维:技术与最佳实践
这本Python自动化运维:技术与最佳实践图书,是2014-11-01月由机械工业出版社所出版的,著作者信息: 刘天斯 著,本版是第1次印刷, ISBN:9787111483069,品牌:机工出版, 这本书的包装是16开平装,所用纸张为胶版纸,全书页数312,字数有万字, 是本值得推荐的Python软件开发图书。此书内容摘要本书在中国运维领域将有“划时代”的重要意义:一方面,这是国内一本从纵、深和实践角度探讨Python在运维领域应用的著作;一方面本书的作者是中国运维领域 继续阅读
Python数据挖掘入门与实践
编程书籍推荐:Python数据挖掘入门与实践,由人民邮电出版社2016-07-01月出版,本书发行作者信息: [澳] Robert Layton 著,杜春晓 译此次为第1次发行, 国际标准书号为:9787115427106,品牌为人民邮电出版社, 这本书采用平装开本为16开,附件信息:未知,纸张采为胶版纸,全书共有236页字数万 字,值得推荐的Python Book。此书内容摘要 本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地 继续阅读
分布式计算之数据质量漫谈
一 概述 1 数据质量问题无处不在 基本上每个用数据的同学,都遇到过以下类似的问题。 表没有按时产出,影响下游,严重的甚至可能影响线上效果。 打点缺失,看了报表才发现数据对不上。 数据统计出来,uv大于pv,很尴尬。 数据产出暴增,本来1000万的数据变成了3000万。 字段里面的枚举值和注释里面 继续阅读
基于GPT3.5实现本地知识库解决方案-利用向量数据库和GPT向量接口-实现智能回复并限制ChatGPT回答的
标题有点长,但是基本也说明出了这篇文章的主旨,那就是利用GPT AI智能回答自己设置好的问题 既能实现自己的AI知识库机器人,又能节省ChatGPT调用的token成本费用。 代码仓库地址 document.ai: 基于GPT3.5的通用本地知识库解决方案 下面图片是整个流程: 导入知识库数据 利用openai的向量接口生成向量数据,然后导入到向量数据库qdrant 这段代码会将指定目录下的所有文件读取出来, 继续阅读
数据治理(数据模型,数据规范,数据安全,数据成本,元数据,数据质量等)
数据治理是什么?为什么要做数据治理?关于数据治理我们需要做什么? 数据治理无论是在数仓建设过程中还是数仓建设完成之后都是及其重要的,是数据部门基础建设的必经之路,是降本提效,形成企业数据资产的关键一环 一 数据质量管理 1.1 数据质量基本概念 ●数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水 继续阅读
PG 数据库锁表问题解决方案:查询pg数据库锁表的语句和进程,通过进程pid杀掉进程进行批量表解锁
查询锁表语句和 pid: select pid, query from pg_stat_activity where datname='数据库名' and wait_event_type = 'Lock'; 可以看到那些执行 sql 语句的进程被锁了,卡住了。 select pg_cancel_backend( '进程pid');该语句可以把锁住的进程杀掉。 通过 sql 语句拼装可以方便的把所有进程 继续阅读
[chatgpt问答录]mongodb中的数据库名称取名有没有什么规范呢
我问 const url = “mongodb://localhost:27017/mydb”; mongodb中的数据库名称取名有没有什么规范呢 Chatgpt答 在MongoDB中,数据库名称可以使用任何有效的UTF-8字符串。通常情况下,我们会在创建数据库时选择一个描述性的名称,以便对其进行识别和管理。 当然,在实际应用程序开发中,可能需要考虑一些最佳实践和命名规范,以确保数据库易于管理和维 继续阅读
基于PCA与LDA的数据降维实践
基于PCA与LDA的数据降维实践 描述 数据降维(Dimension Reduction)是降低数据冗余、消除噪音数据的干扰、提取有效特征、提升模型的效率和准确性的有效途径, PCA(主成分分析)和LDA(线性判别分析)是机器学习和数据分析中两种常用的经典降维算法。 本任务通过两个降维案例熟悉PCA和LDA降维的原理、区别及调用方法。 源码下载 环境 操作系统:Windo 继续阅读
想让 ChatGPT 帮忙进行数据分析?你还需要做......
近年,火出圈的 ChatGPT 掀起了久违的人工智能的热潮,如何更好地让人工智能真正为企业所用,也成了近期的热门话题。大数据和人工智能两者相辅相成,人工智能的训练以大量数据作为基础,而数据的价值则需要人工智能的充分挖掘。 在训练人工智能时,一般需要经过数据收集、数据清洗、特征提取、模型选择、模型训练、模型测试、部署等一系列步骤。在这一过程中,数据质量的高低对于人工智能的更新迭代极为重要。这也和 继续阅读