2024 年(第 7 届)“泰迪杯”数据分析技能赛B 题 特殊医学用途配方食品数据分析 完整代码 结果 可视化分享

一、背景特殊医学用途配方食品简称特医食品,是指为满足进食受限、消化吸收障碍、代谢素乱或者特定疾病状态人群对营养素或者膳食的特殊需要,专门加工配置而成的配方食品,包括0月龄至12月龄的特殊医学用途婴儿配方食品和适用于1岁以上的特殊医学用途配方食品。在医学营养管理与治疗方面起着重要作用。
特殊医学用途配方食品在生产和销售前需要经过严格的审批和注册过程,包括安全性、有效性的评估。所以在我国对于特殊医学用途配方食品的审核有着非常严格的规定。截至 2024 年4月,国内仅审批通过了 182 款特医食品(含已注销)。二、目标
1.提取 182款特殊医学用途配方食品产品标签、说明书(以下简称特医食品说明书)中的相关数据,并对提取的数据及 data.xlsx 数据进行预处理。
2.统计 182 款特医食品生产概况并可视化。
3.构建特医食品推荐系统。
三、任务
data.xlsx记录了 182 款特医食品的基本信息,特医食品说明书文件夹中包含 182 款特医食品说明书。请根据提供的数据,完成以下任务并撰写报告,在报告中详细描述各项任务的处理思路、过程及必要的结果。
任务1数据预处理
任务1.1读取182款特医食品说明书,按照表1的要求提取【营养成分表】中“每100k]”列的指定营养成分数据,将提取的数据保存到文件“result1.xlsx”中,同时在报告中列出每 100kJ(千焦)中蛋白质含量最高的三种特医食品,格式如表1(注意营养成分的单位)。

import pdfplumber
import pandas as pd
import os
import re# 文件夹路径
folder_path = r"D:\desk\B题-特殊医学用途配方食品数据分析\数据\特医食品说明书"# 要提取的营养成分及对应的列名
nutrient_mapping = {'能量': '能量(kJ)','脂肪': '脂肪(g)','碳水化合物': '碳水化合物(g)','蛋白质': '蛋白质(g)','钠': '钠(mg)','氯': '氯(mg)','钾': '钾(mg)','磷': '磷(mg)',# 如果需要更多营养成分,可以在这里添加
}# 初始化一个空的列表,用于存储所有的结果
results = []# 获取文件夹中所有的PDF文件
pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]for pdf_file in pdf_files:file_path = os.path.join(folder_path, pdf_file)# 提取注册证号,假设文件名就是注册证号registration_number = os.path.splitext(pdf_file)[0]# 初始化一个空的列表,用于存储所有的DataFramedfs = []# 保存最新的表头last_header = None# 打开 PDF 文件with pdfplumber.open(file_path) as pdf:table_found = False  # 标记是否找到表格

 

 

任务1.2提取182款特医食品说明书中【产品类别】【组织状态】【适用人群】的数据,在 data.xlsx 数据中新增“产品类别”、“组织状态”、“适用人群”三列。以表2的格式将提取的数据保存到文件“result2.xlsx”中,同时在报告中列前5款特医食品的结果(须说明特殊情况的处理)。

任务 1.3 根据提取的【适用人群】信息,在 result2.xlsx 中新增“适用人群类别”列,对 182款特医食品的适用人群进行归类,类别分为“特医婴配食品”和“1岁以上特医食品”两种,将结果保存到文件“result2.xlsx”中。注3“特医婴配食品”是针对 0-12月龄人群的特殊医学用途配方食品,“婴儿”特指 0-12 月龄人群。

任务1.4特殊医学用途配方食品注册号的格式为:国食注字TY+4位年号+4位顺序号,顺序号第1位数字为“5”表示该食品为进口产品,顺序号第1位数字为“0”表示该食品为国产产品;4位年号为该食品的登记年份。基于任务1.3的result2.xlsx文件,新增“产品来源”和“登记年份”两列,提取 182 款特医食品的产品来源和登记年份数据其中产品来源分为“国产产品”和“进口产品”两种。以表3的格式将结果保存到文件“result2.xlsx”中,同时在报告中列出前5款特医食品任务 1.3和任务 1.4的结果。

任务2生产概况可视化
任务 2.1统计不同登记年份不同产品来源的特医食品获批量,绘制双折线图,并在报告中对结果进行必要分析。


任务2.2根据特医食品产品来源与适用人群类别绘制内层为饼图的旭日图,其中内层表示适用人群类别,外层表示不同适用人群类别的产品来源分布,并在报告中对结果进行必要分析。


任务2.3统计不同产品类别的特医食品获批量,按获批量进行降序排列,绘制柱状图,x轴为产品类别,y轴为获批量,并在报告中对结果进行必要分析。


任务2.4在同一坐标系中,分别用不同颜色绘制182款特医食品脂肪和蛋白质含量的频数分布直方图,并在报告中对结果进行必要分析。


任务 2.5 根据 182款特医食品的“适用人群”绘制词云图,并在报告中分析特医食品适用人群特征。
任务3特医食品推荐


在任务1和任务2的基础上,合理运用现有数据完成推荐任务。基于客户的需求描述(如年龄段、症状、特殊说明),从 182款特医食品中自动筛选出符合条件的产品选项,为客户提供个性化的特医食品推荐服务。实现方式不限,可以使用推荐算法或大型,但须在报告中详细描述实现过程、推荐逻辑以及推荐结果。

完整代码↓:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/11540.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【日记】总感觉搞这些才回到了自己的老本行……(1179 字)

正文 前两天忘记写了几件事。 一是,周五晚上打开自己的博客,准备翻自己的笔记,然后…… 我发现,博客的子列表打不开了。我知道,完蛋了。Mdbook 它又双叒叕更新了。这次不知道又把 index.hbs 哪里给改了。 反正&#xf…

2024年11月11日历史上的今天大事件早读

700年11月11日宰相狄仁杰逝世 1821年11月11日《罪与罚》的作者陀思妥耶夫斯基诞辰 1844年11月11日清政府在五口通商口岸解除天主教禁 1851年11月11日御史王茂荫提出请变科举 1861年11月11日清皇太子载淳即皇帝位 1891年11月11日热河金丹教杨悦春发动反洋教起义 1918年11月…

【ESP】一小时速通入门笔记

【ESP】一小时速通入门笔记 前言: 之前上学时就用过一次esp32, 当时初次使用搭建编译环境费了老大功夫.在我第一篇esp32笔记中也有说明.以至于我好像忘记记录完整的入门笔记了.最近因为工作需要又开始接触esp32才发现,现在已经方便得多了.顺利的话一小时速通. 前排提醒: 本笔记…

海量小文件挑战下的CephFS:优化策略与实践探索

文章目录 1.背景2.基本概念2.1 CephFS IO流程2.2 Ceph-FUSE 3. 问题3.1 问题源起3.2 理论分析3.3 原因排查3.3.1 Ceph-FUSE日志分析3.3.2 提出猜想3.3.3 代码验证3.3.3.1 MDS端3.3.3.2 Ceph-FUSE端 3.4 小结 1.背景 随着大数据、人工智能技术的蓬勃发展,人类对于算…

团队发展与个人价值的共生

一、团队属性 团队的本质属性,在很大程度上表现为一种选择性和甄别性,即排外与排异。这意味着团队需要筛选出具有相同目标、价值观以及能力互补的成员,以达成高效的协作与共同进步。在团队运作的过程中,首要任务是明确并深入理解…

git命令及原理

git: 目录则被称之为“树” 文件被称作 Blob 对象. git help <command>: 获取 git 命令的帮助信息 git init: 创建一个新的 git 仓库&#xff0c;其数据会存放在一个名为 .git 的目录下 git status: 显示当前的仓库状态 git add <filename>: 添加文件到暂存区 git …

大模型的记忆困境:平衡持续学习与灾难性遗忘

1. 引言 持续学习是智能的关键方面。它指的是从非平稳数据流中增量学习的能力&#xff0c;对于在非平稳世界中运作的自然或人工智能体来说是一项重要技能。人类是优秀的持续学习者&#xff0c;能够在不损害先前学习技能的情况下增量学习新技能&#xff0c;并能够将新信息与先前…

实时高效,全面测评快递100API的物流查询功能

一、引言 你是否曾经在网购后焦急地等待包裹&#xff0c;频繁地手动刷新订单页面以获取最新的物流信息&#xff1f;或者作为一名开发者&#xff0c;正在为如何在自己的应用程序中高效地实现物流查询功能而发愁&#xff1f;其实&#xff0c;有一个非常好用的解决方案——快递10…

HR人才评价系统软件选择攻略

企业对人力资源管理价值的日益认同&#xff0c;人才评价系统软件市场迎来了蓬勃发展的春天。在数字化转型的浪潮中&#xff0c;企业对人才的多元化需求愈发明显&#xff0c;传统的评价手段已难以跟上时代的步伐。因此&#xff0c;人才评价系统软件应运而生&#xff0c;迅速成为…

蓝桥杯真题——good-sequence(C语言)

问题描述 一个序列 [b1,b2,...,bm] 若对于 2≤i≤m 满足 bi≤b1 &#xff0c;则称为好序列。 现在给定 [a1,a2,...,an] &#xff0c;求对于该序列的每一个后缀 [ak,ak1,...,an](1≤k≤n)最少能划分成多少个好序列。 输入格式 第一行包含一个整数 n &#xff0c;表示数组 a …

智慧煤矿可视化管理平台

通过图扑可视化平台集成实时数据采集&#xff0c;提供对煤矿生产、安全及环境监测等多方面的二三维动态展示。通过优化资源调度和风险预警&#xff0c;提高了煤矿运营效率和安全性&#xff0c;支持科学决策与管理。

华为ISC供应链服务运营:流程、组织、治理与绩效管理的综合框架

华为整合物流服务&#xff08;Integrated Logistics Services&#xff0c;简称ILS&#xff09;是华为推出的一项旨在提升供应链效能和敏捷性的创新举措。以下是关于华为ILS运营模式设计的详细分析&#xff1a; 一、运营模式设计的核心目标 华为ILS运营模式设计的核心目标是实…

优化时钟网络之时钟偏移

Note&#xff1a;文章内容以Xilinx 7系列FPGA进行讲解 1、基本介绍 所谓时钟偏移&#xff08;Clock Skew&#xff09;&#xff0c;是指在同步时序电路中&#xff0c;同一个时钟信号到达各个寄存器时钟端口的时间不一致的现象。如下图所示&#xff1a; 时钟从源端到达寄存器FF1的…

华为ENSP路由器出现41解决方法之一

我解决这个问题的方法&#xff1a; 这个方法很简单 一&#xff0c;首先我们打开电脑上的Oracle VM VirtualBox&#xff0c;找到AR_Base(ARse_Link) ,右键删除 二&#xff0c;打开ENSP模拟器&#xff0c;选择一个AR系列路由器并启动&#xff0c;在时候ENSP会提示&#xff1a;未…

17RAL_Visual-Inertial Monocular SLAM with Map Reuse

文章目录 累啊Abstract1.Introduction2.视觉-惯性基本原理 (VISUAL-INERTIAL PRELIMINARIES)3. 视觉惯性 ORB-SLAM (VISUAL-INERTIAL ORB-SLAM)A.TrackingB. Local MappingC. Loop Closing 4.IMU INITIALIZATIONA. 陀螺仪偏置估计B. 尺度和重力的近似&#xff08;无加速度计偏置…

鸿蒙应用开发实践示例:创建首页

鸿蒙应用开发实践示例&#xff1a;创建首页 效果示例图示例代码 效果示例图 示例代码 import { window } from kit.ArkUI;Entry Component struct Index {//Provide和Consume&#xff0c;应用于与后代组件的双向数据同步&#xff0c;应用于状态数据在多个层级之间传递的场景Pr…

StringUtils 工具类

在日常的编程工作中&#xff0c;字符串&#xff08;String&#xff09;处理是一个非常常见且重要的任务。无论是字符串的判空、截取、转换大小写、分隔、比较&#xff0c;还是去除多余空格、拼接、使用正则表达式等操作&#xff0c;都需要我们编写大量的代码来处理各种边界情况…

【视觉SLAM】Windows下编译Pangolin-0.5,显示SLAM运动轨迹

1. 三方库配置 Pangolin v0.5 eigen3 v3.3.8 glew v2.1.0 1.1 glew eigen3 glew&#xff1a;直接下载预编译版本即可&#xff08;注意&#xff1a;查看自己电脑显卡支持的OpenGL版本&#xff0c;下载支持对应版本的glew&#xff0c;不然无法显示窗口&#xff09;&#xff1b;e…

人工智能、机器学习与深度学习:层层递进的技术解读

引言 在当今科技快速发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;已经成为一个热门话题&#xff0c;几乎渗透到了我们生活的方方面面。从智能手机的语音助手&#xff0c;到自动驾驶汽车&#xff0c;再到医疗诊断中的图像识别&#xff0c;人工智能的应用正在改变我…

如何构建数仓中的维度拉链表

1 什么是拉链表 1&#xff09;拉链表是针对数据仓库设计中表存储数据的方式而定义的&#xff0c;顾名思义&#xff0c;所谓拉链&#xff0c;就是记录历史。记录一个事物从开始&#xff0c;一直到当前状态的所有变化的信息。 2&#xff09;使用拉链表既能满足反应数据的历史状…