背景 存储与计算资源是数仓建设的基础,也是数仓建设中的重要成本支出。而随着数仓建设规模逐渐扩大、时间跨度逐渐拉长,将不可避免的出现数据表、任务、字段的冗余。为了减轻资源负担,降低数仓维护成本,需要对数仓建设成本进行治理与优化。 技术路线 针对数仓建设成本治理的粒度从大到小可以分为:数据表、数据任务、数据表字段。从粗到细的治理优化思路如下: 当发现低频使用的数据表时,下线对应数据表的同时也删除 继续阅读
Search Results for: 火山引擎Dataleap治理实践
查询到最新的12条
电力数据安全治理实践思路探讨
01电力数据安全实践背景 数字经济的快速发展根本上源自数据的高质量治理和高价值转化,近年来,国家层面相继推出促进数据高质量治理的政策法规,围绕加强数据安全保障、提高数据质量等方面,明确了相关规定和要求。作为重要数据持有者,电力企业数据安全对个人信息、行业、地区乃至国家安全具有重大意义,且电力行业数据具有总量巨大、类型复杂多元、价值潜力巨大等特点,致使数据安全治理较为复杂。 继续阅读
火山引擎 Dataleap 数据质量解决方案和最佳实践(一):数据质量挑战
什么是数据质量 广义上来说,数据质量的定义是数据满足一组固有特性(质量维度)要求的程度。业界通常有 6 个维度: 完整性:指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。在做监控时,需要考虑两个方面:数据条数是否少了; 继续阅读
MySQL数据库事务和存储引擎
MySQL数据库事务和存储引擎 一、mysql事务1、事务的概念2、事务的ACID特点2.1 原子性2.2 一致性2.3 隔离性2.4 持久性 3、两个事务之间的影响3.1 脏读(读取未提交数据)3.2 不可重复度(前后多次读取,数据内容不一致)3.3 幻读(前后多次读取,数据总量不一致)3.4 丢失更新 4、mysql事务隔离级别4.1 查询全局事务的隔离级别4.2 查询会话事 继续阅读
Python编程与应用实践
Python编程与应用实践,由四川大学出版社在2019-03-01月出版发行,本书编译以及作者信息为: 冯伟森,王建,杨宁 编,这是第1次发行, 国际标准书号为:9787569028355,品牌为四川大学出版社, 这本书采用平装开本为16开,纸张采为胶版纸,全书共有280页,字数46万0000字,值得推荐。 此书内容摘要 作者结合多年编程教学经验编写《Python编程与应用实践》,力求通过通俗易懂的讲授、丰富的教学资源、便捷的互助工具,使编程学习变得简单有趣。《Py 继续阅读
Python从入门到项目实践(全彩版)
编程书籍推荐:Python从入门到项目实践(全彩版),由吉林大学出版社2018-08-01月出版,本书发行作者信息: 明日科技(MingRi Soft) 著,明日科技 编此次为第1次发行, 国际标准书号为:9787569226614,品牌为其他品牌, 这本书采用平装开本为16开,附件信息:强化训练手册 函数参考手册,纸张采为胶版纸,全书共有576页字数50万 0000字,值得推荐的Python Book。此书内容摘要《Python 从入门到项目实践》 一书从入门学习者的角 继续阅读
风火山林
风林火山,原意是:其疾如风,其徐如林,侵掠如火,不动如山。这句话出自《孙子兵法》的军争篇。风林火山是一种战斗精神,不屈的精神。 其疾如风:军队的行动要反应迅速,犹如疾风掠过,以迅雷不及掩耳之势战胜敌方 其徐如林:当军队缓慢行军时,犹如静止的森林,肃穆、严整,不惊动敌人,不打草惊蛇。 侵掠如火࿱ 继续阅读
基于PCA与LDA的数据降维实践
基于PCA与LDA的数据降维实践 描述 数据降维(Dimension Reduction)是降低数据冗余、消除噪音数据的干扰、提取有效特征、提升模型的效率和准确性的有效途径, PCA(主成分分析)和LDA(线性判别分析)是机器学习和数据分析中两种常用的经典降维算法。 本任务通过两个降维案例熟悉PCA和LDA降维的原理、区别及调用方法。 源码下载 环境 操作系统:Windo 继续阅读
搜索引擎对自己哪些方面产生营销 搜索引擎营销策略分析
搜索引擎对自己哪些方面产生营销 搜索引擎营销策略分析 搜索引擎已经成为了现代营销中不可或缺的一部分。无论是传统的SEO还是SEM,都离不开搜索引擎的算法和规则。本文将从四个方面详细阐述搜索引擎对自己哪些方面产生营销,以及搜索引擎营销策略分析,希望能够对广大读者有所帮助。 一、搜索引擎营销的重要性 搜索引擎营销是指利用搜索引擎和相关工具来提高网站的曝光度和知名度,从而吸引更多的潜在客户。搜索引擎营销的重要性在于,它可以使企业成本较低地获取更 继续阅读
如何做好便捷的表单配置?推荐Java开发的JVS表单配置引擎
近期,jvs快速开发平台发布了2.1.7版本,其中对多个引擎都有较明显的优化。 这里介绍下 jvs的表单引擎与其他表单配置器不同点,不同的低代码平台在表单配置方面可能会存在一些差异,下面是一些可能存在的主要差异点: 1.表单设计界面:不同低代码平台的表单设计器可能存在差异,包括设计器界面、构建方式、灵活性等。有些平台提供可视化的拖拽式设计器,使用户可以轻松地创建和编辑表单& 继续阅读
深度学习:基于Keras的Python实践
深度学习:基于Keras的Python实践,由电子工业出版社在2018-06-01月出版发行,本书编译以及作者信息为: 魏贞原 著,这是第1次发行, 国际标准书号为:9787121341472,品牌为博文视点, 这本书采用平装开本为16开,纸张采为胶版纸,全书共有244页,字数万8字,值得推荐。此书内容摘要《深度学习:基于Keras的Python实践》本书系统讲解了深度学习的基本知识,以及使用深度学习解决实际问题,详细介绍了如何构建及优化模型,并针对不同的问题给出不同的解决方案,通过不同的例子展 继续阅读
数据治理(数据模型,数据规范,数据安全,数据成本,元数据,数据质量等)
数据治理是什么?为什么要做数据治理?关于数据治理我们需要做什么? 数据治理无论是在数仓建设过程中还是数仓建设完成之后都是及其重要的,是数据部门基础建设的必经之路,是降本提效,形成企业数据资产的关键一环 一 数据质量管理 1.1 数据质量基本概念 ●数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水 继续阅读