《大数据与人工智能:提升数据质量与数量的利器》
- 一、大数据与人工智能的融合趋势
- 二、大数据增加数据数量的方法
- (一)不同途径的数据增量
- (二)数据增强的多样方法
- 三、人工智能提升数据数量的手段
- (一)数据增强方法综述
- (二)Python 实战中的应用
- 四、大数据提高数据质量的策略
- (一)行业现状与质量问题
- (二)质量提升的方法论
- (三)企业管控措施与建议
- 五、大数据与人工智能的未来展望
- (一)技术发展趋势
- (二)行业应用前景
- (三)社会影响与挑战
一、大数据与人工智能的融合趋势
在当今数字化时代,大数据和人工智能技术的重要性愈发凸显。大数据为人工智能提供了丰富的训练资源,正如我们所看到的,机器学习算法依赖于大量的数据进行训练和优化。只有拥有足够多样和庞大的数据集,才能训练出准确率高、泛化能力强的模型。
据统计,人类历史上 90% 的数据都是在过去几年产生的,50% 的数据都是短短两年所生成的。这一惊人的数据增长速度,为人工智能的发展提供了坚实的基础。
大数据与人工智能的融合是必然趋势。一方面,大数据拓展了人工智能的应用场景。在不同行业和领域,海量的数据不断产生,这些数据包含了丰富的信息和价值。人工智能通过对这些数据的分析和挖掘,能够发现新的规律、趋势和知识,进而应用于决策支持、智能推荐、风险管理等多个方面。
另一方面,大数据促进了人工智能技术的创新和进步。在处理大数据的过程中,需要不断改进和优化算法,以提高处理效率和准确性。这些技术创新反过来又推动了人工智能的发展,形成了良性循环。
例如,在互联网行业,大数据与人工智能的结合创造了更多的商业价值。在电商领域,利用人工智能可以实现个性化推荐,提高用户的购物体验和购买转化率。同时,通过对大数据的分析,可以优化库存管理、物流配送等环节,提高企业的运营效率。
总之,大数据和人工智能的融合趋势不可阻挡,它们将共同推动各行业的数字化转型和智能化升级。
二、大数据增加数据数量的方法
(一)不同途径的数据增量
在数据库操作方面,对于小型数据表(当前数据少于 10W,未来数据少于 100W),可以每天全量数据存入一个分区内。而对于大表(数据不存在隔日更新),如打点(埋点)表、日志表,每天增量数据存入一个分区内。对于大表(数据存在隔日更新),可以采用一些特定的方案,如使用 T1 表存储上一账期全量数据,T2 表根据 update 获取当前账期新插入和新更新的数据,再通过 row_number () OVER (PARTITION BY COL1 ORDER BY COL2) 和 T3 表去除重复数据。
此外,利用编程语言 Python 处理 Excel 表格也可以实现数据的增加。例如,可以使用 Python 的 pandas 和 openpyxl 库来读取、修改和追加 Excel 文件中的数据。具体步骤包括安装必要的库、导入库、读取 Excel 文件、准备数据、追加数据和保存文件。通过将新数据转换为 DataFrame 并使用 pd.concat 方法追加到原有的数据框中,可以实现数据的有效增加。
(二)数据增强的多样方法
单样本的数据增强方法有几何变换类和颜色变换类。几何变换类包括对图像进行翻转、旋转、移位、裁剪、变形、缩放等操作。例如,左右翻转可以使用 torchvision.transforms.RandomHorizontalFlip ();上下翻转可以使用 torchvision.transforms.RandomVerticalFlip ();随机剪裁可以使用 torchvision.transforms.RandomResizedCrop ((height, width), scale=, ratio=)。颜色变换类常见的包括噪声、模糊、颜色变换、擦除、填充等。比如,随机改变亮度、对比度、饱和度、色调可以使用 torchvision.transforms.ColorJitter (brightness=, contrast=, saturation=, hue=)。
多样本的数据增强方法有 SMOTE、Mixup 等。SMOTE 主要解决各类别不平衡的问题,其步骤为:首先定义好特征空间,根据样本不平衡比例确定采样倍率 N;然后对每一个小样本类样本,按欧氏距离找出 K 个最近邻样本,从中随机选取一个样本点,在特征空间中样本点与最近邻样本点的连线段上随机选取一点作为新样本点。Mixup 是一种基于线性插值的数据增强技术,将两个不同的训练样本进行线性插值,创建新的样本,同时对应的标签也进行线性插值。例如,在代码中可以使用 from timm.data import Mixup,先将样本和目标数据转换到特定设备上,然后如果有 mixup_fn,则对样本和目标进行 Mixup 操作。
三、人工智能提升数据数量的手段
(一)数据增强方法综述
数据增强是提升数据数量和质量的重要手段,主要包括基于样本变换和基于深度学习的数据增强方法。
基于样本变换的数据增强方法又可分为单样本数据增强和多样本数据增强。单样本增强主要有几何操作、颜色变换、随机擦除、添加噪声等方法。例如,在图像数据中,可以使用几何操作如翻转、旋转、裁剪、缩放等。以翻转为例,水平镜像翻转、垂直镜像翻转和原点镜像翻转在数据增强中经常被使用,需要根据数据形式选择相应翻转操作,如汽车图像数据通常只使用水平镜像操作,以避免对原始图像产生干扰。颜色变换则包括在 RGB 通道上的变换、直方图变换增强等,如将三通道图进行分离,进行像素限制、像素矩阵变换、像素值颠倒等操作,还可以将 RGB 映射到其他色彩空间进行学习,如 YUV、CMY、HSV 等。
多样本数据增强方法主要有 Smote、SamplePairing、Mixup 等在特征空间内构造已知样本的邻域值样本。Smote 方法常用于样本均衡学习,从训练集随机同类的两近邻样本合成一个新的样本。其步骤为对于各样本,计算与同类样本的欧式距离,确定其同类的 K 个近邻样本;从该样本 k 近邻中随机选择一个样本,生成新的样本,重复此步骤迭代 N 次,可以合成 N 个新的样本。SamplePairing 算法从训练集随机抽取的两幅图像叠加合成一个新的样本,使用第一幅图像的 label 作为合成图像的正确 label。Mixup 算法按一定的比例随机混合两个训练样本及其标签,增加样本的多样性,使决策边界更加平滑,增强难例样本的识别,提升模型的鲁棒性。
基于深度学习的数据增强方法包括特征空间的数据增强和基于生成模型的数据增强。特征空间的数据增强不同于传统在输入空间变换的数据增强方法,神经网络可将输入样本映射为网络层的低维向量,从而直接在学习的特征空间进行组合变换等进行数据增强,如 MoEx 方法等。基于生成模型的数据增强如变分自编码网络(VAE)和生成对抗网络(GAN),其生成样本的方法也可以用于数据增强。VAE 将真实样本通过编码器网络变换成一个理想的数据分布,然后把数据分布再传递给解码器网络,构造出生成样本,模型训练学习的过程是使生成样本与真实样本足够接近。
(二)Python 实战中的应用
在 Python 人工智能实战中,有许多工具和库可以用于数据增强。例如,使用 Python 自动人工智能训练数据增强工具 DALI,可以实现自动数据增强。DALI 附带了 AutoAugment、RandAugment 和 TrivialAugment 的即用型实现。通过在 Python 函数中组合所需的操作,并使用 @pipeline_def 修饰该函数,可以创建数据处理管道。DALI 中的条件执行功能使我们能够为批次中的每个样本选择单独的操作,例如随机应用两个扩充之一。
此外,在 Python 数据分析中,PandasAI 库将 Pandas 的强大功能与人工智能的能力相结合,为用户提供了一种无缝且直观的数据分析体验。虽然 PandasAI 主要用于数据分析,但它也可以在一定程度上辅助数据增强。例如,可以通过与库进行对话式交互,提出关于数据的问题,快速获得结果,或者要求库自动生成图表,提供数据的可视化表示。
综上所述,人工智能通过多种数据增强方法在提升数据数量方面发挥了重要作用,而 Python 中的各种工具和库为实现这些方法提供了便利。
四、大数据提高数据质量的策略
(一)行业现状与质量问题
大数据行业背景:随着信息技术的飞速发展,大数据行业在近年来取得了显著的成就。2014 年大数据被写入政府工作报告,成为大数据政策元年,此后国家层面不断出台政策推动大数据发展。如今,大数据已经成为国家战略,我国也逐步从 “数据大国” 迈向 “数据强国”。大数据经过快速发展,已明显分为两个阶段,第一阶段是大数据归集、治理和价值探索,第二阶段是大数据价值体现。部分政府和企业已完成第一阶段工作,迈入第二阶段,努力实现业务创新和产业升级。
发展中的质量问题:数据质量是大数据价值体现的前提,质量未得到 100% 保证的数据难以体现业务价值,甚至可能带来灾难性后果。在数仓建设上,50% 的数据仓库因数据质量而被取消或延迟。数据错误每年对美国工业界造成的经济损失约占 GDP 的 6%。在医疗事故方面,美国每年因数据错误导致高达 98000 名患者丧生。在电信产业,数据错误会导致故障排除延误、多余设备租用和服务费收取错误,损害企业信誉并可能导致用户流失。在商业领域,美国零售业每年仅因标价错误就损失 25 亿美元。在金融企业中,2008 年因数据质量问题导致的信用卡欺诈失察造成 48 亿美元的损失。
国家标准中的评价指标:目前,我国在大数据领域陆续出台了一些国家标准,如贵州企业参与研制的大数据国家标准获批发布,其中包括《信息技术大数据政务数据开放共享》系列标准,明确了政务数据开放共享的参考架构和总体要求、网络设施、数据资源、平台设施和安全保障的基本要求,以及管理评价体系等内容。此外,旅游行业也发布了《旅游服务质量大数据评价指标》征求意见稿,明确了旅游服务质量大数据评价的指标设置原则、指标体系,适用于对旅游景区、旅游饭店、旅行社和旅游民宿开展服务质量评价。
(二)质量提升的方法论
从程序员视角看数据质量:
开发质量:在数据仓库工作中,开发占了绝大部分比重,代码规范非常必要。同时,要注意具体技术的应用细节,如避免数据倾斜,熟悉业务概念以避免与产品思路差异,熟练应用各种开发工具。
测试配合:如果团队较大,应有测试或运维人员对开发的代码和运行进行配合,包括业务逻辑的二次检查、确保数据运行结果的一致性,以及在已开发过程出现问题时能回溯历史数据、优化老代码。
上线规范:正规公司强调上线规范,做好数据校验、回滚方案、上下游监控等工作,避免人为失误。
及时发现问题:数据仓库需要有详细的值周规约,在问题出现时能及时有人介入。同时,配合完善的报警与监控平台,对数据仓库日常状况进行全面监控。总结这四个方面,可得到易读易扩展易维护、上线无失误、报警及时处理、业务逻辑清晰这四个数据质量的关键要素。
从理论层面看数据质量:
数据的完整性:主要作用在数据采集环节,对应数据分层理论的 DWD 层,要剔除数据缺失信息,纠正采集过程中的数据偏移现象等。
数据的准确性:例如记录消费金额的信息不能为负值,要加入校验逻辑防止业务部门的数据修正操作,对应 DWD 层,还需引入反作弊系统支持,过滤无效作弊数据,对应 ODS 层。
数据的一致性:在离线开发环节起作用,对应 DWS 层,确保同一主题下统计的数据源一致。
数据的及时性:完整的数据平台应包括实时、小时级和天级数据统计,数据准时产出是数据质量原则的一部分,如应每天早上 8 点统计好前一天的数据,否则可能引起客户投诉。
数据的安全性:团队规模较大涉及多个业务线数据时,要注意权限与安全问题,对敏感信息如消费金额进行脱敏处理,提供点击展现等信息也应有权限申请步骤,可作用于 ADS 层或 DWS 层。
数据的自查性:数据仓库应具有对自身运行情况自动检查的特性,如在重点步骤后添加校验环节,统计同比 / 环比信息,波动过大时主动报警等,作用于 ADS 层。
数据的可追踪性:与元数据平台的搭建息息相关,能看到每个过程的上下游血缘信息,在排查问题时快速定位问题步骤。
(三)企业管控措施与建议
企业管控措施:
数据采集质量管控:企业在大数据采集环节,可规范信息系统的设计,统一技术架构选型和元数据标准,严格控制手工输入的源数据以及批量导入的源数据校验,采取数据输入校验、数据阈值、系统自动校验 / 人工手工复核、强制规则校验等预防性控制措施,防止错误数据的产生,减少问题数据向下一级环节的输入。
数据加工和应用管控:在大数据加工和应用环节,企业可制定数据加工标准规范,采取数据输出校验、数据一致性校验、系统自动校验、非强制 / 错误及差异提示等控制措施,对输入的错误数据进行监测,验证数据完整性、一致性和准确性等,发现并指明数据质量问题,进行质量报警,提醒相关人员排查并处理问题数据。
系统建设管控:为有效提高数据质量,企业应定期更新维护数据字典,将质量问题控制贯穿于系统设计、开发、测试、实施等全过程,将可检测的质量性能要求作为测试环节的内容明确下来,将错误提示信息、错误路径、检测方法或算法等作为设计开发内容明确下来,同时在实施过程出具质量控制分析报告,降低从建设环节发生的问题数量。
企业管控建议:
推进数据标准制定和落实:企业应充分调研业务需求,以数据质量管控为出发点,分析数据生命周期各监控点,抓紧制定和完善元数据标准、主数据标准、业务数据标准、主题数据标准、数据交换标准、数据安全标准等相关规范,构建企业数据标准体系,严格要求在新建系统中落实实施,对既有系统进行改造和完善,从而不断提升数据质量和利用效率。
加强质量过程检查和考核:企业应进一步加大数据治理和管控,明确数据质量管控要求和量化考核指标,加强对数据质量重要性的宣传教育,加强对相关员工的知识和技术培训,不断探索和优化技术检查和监测方法,通过组织评比、定期通报、总结分析、经验交流等多种方式提高相关人员的数据治理技能和水平。
探索建立数据管理部门:企业应在传统的信息化部门之外,结合数字化转型的推进力度及大数据的应用情况,研究探索建立专职的数据管理部门,明确在标准制定、质量管控、价值利用、监督检查等方面的职责要求,配备和锻炼专门的数据规划人员、数据管理人员、数据应用人员等,提升数据再驱动创新及转型发展过程中的作用。
五、大数据与人工智能的未来展望
(一)技术发展趋势
随着技术的不断进步,大数据和人工智能的融合将更加紧密。在大数据方面,数据存储技术将不断创新,以应对数据量的持续增长。例如,分布式存储系统将更加成熟,能够高效地管理海量数据。同时,数据处理技术也将不断优化,提高数据处理的速度和效率。预计到 2030 年,全球数据总量将达到 1YB (yottabyte),如此庞大的数据量需要更强大的处理能力。
人工智能技术也将不断发展。机器学习算法将更加智能化,能够自动适应不同的数据类型和任务需求。深度学习技术将在更多领域取得突破,如自然语言处理、计算机视觉等。同时,人工智能与其他新兴技术的融合将加速,如物联网、区块链、量子计算等,为各行业带来更多创新应用和解决方案。
(二)行业应用前景
在医疗领域,大数据和人工智能的结合将为疾病诊断和治疗带来革命性的变化。通过分析大量的医疗数据,人工智能系统可以辅助医生进行更准确的诊断,制定个性化的治疗方案。同时,医疗影像分析也将更加精准,提高疾病的检测率。
在金融领域,风险管理将更加智能化,人工智能系统可以实时分析市场数据,预测风险,为金融机构提供更准确的决策支持。智能投资也将更加普及,机器人顾问将为客户提供更加个性化的投资建议和资产管理服务。
在交通领域,自动驾驶技术将不断成熟,实现更加安全、高效的交通出行。交通管理也将更加智能化,通过分析交通数据,优化交通信号和流量管理,减少拥堵,提高交通效率。
(三)社会影响与挑战
大数据和人工智能的发展将对社会产生深远的影响。一方面,它将提高生产效率,改善人们的生活质量。例如,智能客服系统可以为用户提供更加便捷的服务,智能家电可以实现家居的自动化管理。另一方面,它也带来了一些挑战,如数据安全和隐私保护、人工智能的伦理问题等。
为了应对这些挑战,政府、企业和社会各界需要共同努力。政府应加强法律法规的制定和监管,确保数据安全和隐私保护。企业应加强技术创新,提高数据安全防护能力。社会各界应加强对人工智能伦理问题的研究和讨论,制定相应的伦理准则,确保人工智能的发展符合人类的利益。
总之,大数据和人工智能的未来充满了机遇和挑战。我们相信,在各方的共同努力下,大数据和人工智能将为人类社会带来更加美好的未来。