查询到最新的12条

火山引擎 Dataleap 数据质量解决方案和最佳实践(一):数据质量挑战

什么是数据质量 广义上来说,数据质量的定义是数据满足一组固有特性(质量维度)要求的程度。业界通常有 6 个维度: 完整性:指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成统计结果不准确,所以说完整性是数据质量最基础的保障。在做监控时,需要考虑两个方面:数据条数是否少了; 继续阅读

数据治理(数据模型,数据规范,数据安全,数据成本,元数据,数据质量等)

数据治理是什么?为什么要做数据治理?关于数据治理我们需要做什么? 数据治理无论是在数仓建设过程中还是数仓建设完成之后都是及其重要的,是数据部门基础建设的必经之路,是降本提效,形成企业数据资产的关键一环 一 数据质量管理 1.1 数据质量基本概念 ●数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水 继续阅读

分布式计算之数据质量漫谈

一 概述 1 数据质量问题无处不在 基本上每个用数据的同学,都遇到过以下类似的问题。 表没有按时产出,影响下游,严重的甚至可能影响线上效果。 打点缺失,看了报表才发现数据对不上。 数据统计出来,uv大于pv,很尴尬。 数据产出暴增,本来1000万的数据变成了3000万。 字段里面的枚举值和注释里面 继续阅读

VXLAN:数据中心网络的未来

 概要   随着云计算和虚拟化技术的快速发展,数据中心网络正面临着越来越大的挑战。传统的网络架构在适应大规模数据中心的需求方面存在一些限制,如扩展性、隔离性和灵活性等方面。为了克服这些限制,并为数据中心网络提供更好的性能和可扩展性,VXLAN(Virtual Extensible LAN)作为一种新兴的网络虚拟化技术应运而生。本文将详细介绍VXLAN的工作原理、优势以及在数据中心网络中的应用&#xff 继续阅读

Chatgpt-3 使用的提取数据集技术、数据集自动化处理和保证数据质量

为了积累数据集,ChatGPT-3使用了一系列技术来从不同来源的文本中提取数据。其中最常用的技术包括: Web scraping:ChatGPT-3使用Web scraping技术从互联网上的网页中提取文本。它可以自动化抓取网页,并从中提取出需要的信息。 数据库查询:ChatGPT-3使用数据库查询系统来收集从各种来源收集到的数据。这是一种常用的技术,在大型网站和应用程序中广泛使用。 API收集&#xff 继续阅读

【综述阅读】A Comprehensive Survey on Pretrained Foundation M

论文链接:https://arxiv.org/abs/2302.09419 该综述系统性的回顾了预训练基础模型(PFMs)在文本、图像、图和其他数据模态领域的近期前沿研究,以及当前、未来所面临的挑战与机遇。具体来说,作者首先回顾了自然语言处理、计算机视觉和图学习的基本组成部分和现有的预训练方案。然后,讨论了为其他数据模态设计的先进PFMs,并介绍了考虑数据质量和数量的统一PFMs。此外&#xff0 继续阅读

电力数据安全治理实践思路探讨

01电力数据安全实践背景        数字经济的快速发展根本上源自数据的高质量治理和高价值转化,近年来,国家层面相继推出促进数据高质量治理的政策法规,围绕加强数据安全保障、提高数据质量等方面,明确了相关规定和要求。作为重要数据持有者,电力企业数据安全对个人信息、行业、地区乃至国家安全具有重大意义,且电力行业数据具有总量巨大、类型复杂多元、价值潜力巨大等特点,致使数据安全治理较为复杂。     继续阅读

数据预处理和模型架构是提高人脸识别模型准确率的关键

     人脸识别技术作为计算机视觉领域的一项重要技术,被广泛应用于安全监控、身份验证、智能交通、人脸支付等领域。如何提高人脸识别模型的质量,是人脸识别技术研究的重要方向之一。下面将从数据预处理、模型架构、损失函数等方面来探讨提高人脸识别模型质量的方法。       一、数据预处理       数据在机器学习中占有至关重要的地位,数据预处理对于提高人脸识别模型的准确率非常重要。以下是一些常见的数据预处理方法:       1、图像增强 继续阅读

工业平板电脑实现工厂自动化设备无需手动连接

随着中国经济的快速发展和材料水平的不断提高,制造业的竞争日益激烈,市场竞静力逐渐转向质量、效率和价格服务,制造业企业面临更大的挑战,数据转型迫在眉睫。对工业平板电脑的需求也在增加,面向行业的工业平板电脑已成为新的趋势。 工业平板电脑在智能工厂中一般应用于工业自动化、工业视觉、交互控制等领域。工业平板电脑作为自动化配套设备,需要多个优势特点来满足应用需要和环境需要,通过互联网的结 继续阅读

训练一个ChatGPT需要多少数据?

“风很大”的ChatGPT正在席卷全球。作为OpenAI在去年底才刚刚推出的机器人对话模型,ChatGPT在内容创作、客服机器人、游戏、社交等领域的落地应用正在被广泛看好。这也为与之相关的算力、数据标注、自然语言处理等技术开发带来了新的动力。自OpenAI发布ChatGPT以来,出色的性能引发了全世界热爱AI的人们竞相围观使用。在官方描述中,ChatGPT是一个“可以连续回答问题、承认自己的错误、挑战不正确的前提并拒绝不适当的要求”的对话模型。它的应用场 继续阅读

想让 ChatGPT 帮忙进行数据分析?你还需要做......

近年,火出圈的 ChatGPT 掀起了久违的人工智能的热潮,如何更好地让人工智能真正为企业所用,也成了近期的热门话题。大数据和人工智能两者相辅相成,人工智能的训练以大量数据作为基础,而数据的价值则需要人工智能的充分挖掘。 在训练人工智能时,一般需要经过数据收集、数据清洗、特征提取、模型选择、模型训练、模型测试、部署等一系列步骤。在这一过程中,数据质量的高低对于人工智能的更新迭代极为重要。这也和 继续阅读

ChatGPT+大数据,会有怎样的火花?

ChatGPT到底有什么用?能和大数据擦出怎样的火花? 大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。 最近的的ChatGPT非常的火,我本来是不想追什么热点的,大部分也是吹牛的居多,还搞了很多假的出来。 但是很多国内外的大厂对ChatGPT都越来越重视,它更像是成为了一个生产力工具。 所以也注册了一个账号 继续阅读