Springboot2 Pandas Pyecharts 量子科技专利课程设计大作业

数据集介绍

1.背景

         根据《中国科学:信息科学》期刊上的一篇文章,量子通信包括多种协议与应用类型: 基于量子隐形传态与量子存储中继等技术,可实现量子态信息传输,进而构建量子信息网络,已成为当前科研热点,但距实用化仍然较远。

2. 数据集介绍

相关信息:复旦大学量子数据集是收集了1987到2020年3月份的基本专利信息

 数据集列名:|序号|专利名称|专利名称中文翻译|    专利名称英文翻译| 摘要| 摘要中文翻译|摘要英文翻译| 权利要求主权项|权利要求项数|独立权利要求项数|PDF全文页数|申请号|申请日|公开号|公开日|首次公开日|国家/地区|专利类型|授权日|失效日|优先权|最早优先权日|国际申请|国际公布|进入国家阶段日|申请人|申请人归属地|申请人地址|申请人类型|申请人数量|专利权人|专利权人归属地|专利权人地址|专利权人类型|专利权人数量|发明人|发明人数量|审查员|代理人|代理机构|IPC分类号|主IPC分类号|IPC分类号数量|CPC分类号|主CPC分类号|CPC分类号数量|外观设计分类号|法律效力|是否曾经授权|公知公用状态|存活期|预期剩余寿命|转让状态|许可状态|质押状态|复审/无效状态|诉讼状态|基本专利族|基本专利族专利数量|本专利引用|本专利引用数量|本专利被引|本专利被引用数量|

整体架构流程

数据处理流程

数据集成

1.数据集使用spark集成的问题

实验目的:数据传递到hdfs上,并使用spark on hive 将数据存入hive
问题描述1:os的函数listdir()返回的列表将数据集成变得很容易,但是对于spark来书,处理的开销很大
问题解决1:spark.read.csv()能够集成文件夹的所有文件
问题描述2:每个文件编码不一致,source-01的编码是utf-8但是source-03的编码是gbk
问题解决2:创建gbk和utf-8两个文件目录,并使用union连接
问题描述3: windows终端的文件到hdfs和spark on hive集群,数据应该如何集成
问题解决3:我们使用scala作为本地数据集成工具将数据传到hdfs,python将hdfs数据载入hive。
        一是scala是以java为底层核心的语言,具有jdbc良好配置,可以将数据存入mysql中作为备份数据与持久化数据。
        使用python作为数据挖掘和可视化语言,pyecharts,matplotlib,sklearn,pytorch多种类和库使数据多种多样。
        使用spark on hive,尽可能在分析的时候使用HQL语句进行数据分析
问题描述4:hive不能自动映射中文字段(create table *** like *** 失效)
问题解决: hive建表数据填充
数据集最大问题:数据混乱(文本字段中含有大量的转义字符)

2.使用pandas对数据集成

2.1 数据编码修改

如上所示,使用记事本打开我们会在记事本尾部看到编码格式,如上,上面显示的是UTF-8格式。

2.2 时间段选择

2.3 数据异常剔除

2.4 数据合并并存储至中间表

工具类实现

1. 数据可视化基础工具类

2.文本语义分析库jieba工具类

3.mongodb存储工具类

4.redis 存储工具类

5. 其他工具类

数据分析流程

数据分析

1. 分组分析(pandas 数据分组查询)

2.文本分析(调用jieba分词库)

3.数据可视化(困难一点的我们使用pyecharts做静态网页)

数据存储

1.mongodb 数据存储(需要先安装mongodb)

对数据分析和数据集成的结果使用mongodb进行存储

2.redis 数据缓存(需要下载redis)

由上可以看到,存储路径信息的是集合的数据结构,因为集合不允许重复项。

Springboot2 + vue + mongodb +redis + axios 数据交互式的前后端后台

如上显示了springboot和其他数据库,前端的使用

以上是个截图,展示了各个功能模块

网页展示

 数据集网盘地址:链接:https://pan.baidu.com/s/1jg9169hva0_GogGF4awdjQ?pwd=0225 提取码:0225

 Python 后台:
链接:https://pan.baidu.com/s/1480TP0WQ2fSWa01tg-dfjg?pwd=0225 
提取码:0225

Springboot程序:暂时不能无偿

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/139636.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

HTTP参数类型中的Query和Body参数

在接口中常见到query参数和body参数,那么它对应的传参方式是? ★ query查询参数 ---> params ---> route.params.参数 ★ body请求体参数 ---> data ---> route.query.参数 总结: GET请求只能传Query参数, POST请…

网络编程day05(IO多路复用)

今日任务&#xff1a; TCP多路复用的客户端、服务端&#xff1a; 服务端代码&#xff1a; #include <stdio.h> #include <sys/types.h> #include <sys/socket.h> #include <arpa/inet.h> #include <netinet/in.h> #include <unistd.h> …

【动态规划刷题 17】回文子串 最长回文子串

647. 回文子串 链接: 647. 回文子串 给你一个字符串 s &#xff0c;请你统计并返回这个字符串中 回文子串 的数目。 回文字符串 是正着读和倒过来读一样的字符串。 子字符串 是字符串中的由连续字符组成的一个序列。 具有不同开始位置或结束位置的子串&#xff0c;即使是由…

2023华为杯研究生数学建模F题思路分析

更多思路代码查看文末名片 1.如何有效应用双偏振变量改进强对流预报&#xff0c;仍是目前气象预报的重点难点问题。请利用题目提供的数据&#xff0c;建立可提取用于强对流临近预报双偏振雷达资料中微物理特征信息的数学模型。临近预报的输入为前面一小时&#xff08;10帧&…

不再跳票Fedora 26 正式发布!

经过延期和跳票&#xff0c;Fedora 26终于和大家见面了&#xff0c;下面是Fedora 项目负责人Matthew Miller感谢信 大家好&#xff0c;我很高兴地宣布&#xff0c;从即刻起 Fedora 26 正式可用了。你可以从下面了解到具体信息&#xff0c;也可以马上开始下载&#xff1a; •下载…

CentOS在应用程序菜单中创建快捷方式

背景&#xff1a; 在CentOS系统中&#xff0c;安装一些应用软件的时候&#xff0c;我们可能会自定义安装路径&#xff1b;这样在安装完应用程序后&#xff0c;在“Application”下&#xff0c;可能找不到对应的快捷键&#xff1b;这是就需要手动去创建跨界方式。 应用&#xf…

stm32之GPIO库函数点灯分析

stm32官方为了方便开发者&#xff0c;利用CubeMX 生成HAL库有关的C代码。HAL库就是硬件抽象层(hardware abstraction layer)&#xff0c;生成一系列的函数帮助我们快速生成工程&#xff0c;脱离复杂的寄存器配置。stm32相对于51来功能强大&#xff0c;但是寄存器的数量也不是一…

MySQL备份及恢复

目录 MySQL备份 MySQL备份方法 备份策略 mysql的完全备份 mysql的增量备份 MySQL恢复 mysql完全恢复 mysql增量备份的恢复 MySQL备份 MySQL备份是基于对MySQL的日志进行备份&#xff0c;且恢复也是通过日志进行数据恢复。 MySQL备份方法 物理备份&#xff1a;直接对…

北京智和信通亮相2023IT运维大会,共话数智浪潮下自动化运维新生态

2023年9月21日&#xff0c;由IT运维网、《网络安全和信息化》杂志社联合主办的“2023&#xff08;第十四届&#xff09;IT运维大会”在北京成功举办。大会以“以数为基 智引未来”为主题&#xff0c;北京智和信通技术有限公司&#xff08;下文简称&#xff1a;北京智和信通&…

爱看小说手机网源码全站带数据带自动采集程序/ThinkPHP内核小说网站源码+书库数据库带自动采集

爱看小说手机网源码全站带数据带自动采集程序&#xff0c;爱看小说程序源码2W条数据全站打包,自动采集程序网站源码,后台已经更新5个采集规则可以采集小说30万本大概约10G。 分享的这一款自带2w数据爱看小说网源码全站带数据打包,ThinkPHP内核小说网站源码带听书等全部插件&am…

TouchGFX之画布控件

TouchGFX的画布控件&#xff0c;在使用相对较小的存储空间的同时保持高性能&#xff0c;可提供平滑、抗锯齿效果良好的几何图形绘制。 TouchGFX 设计器中可用的画布控件&#xff1a; LineCircleShapeLine Progress圆形进度条 存储空间分配和使用​ 为了生成反锯齿效果良好的…

矩阵论—凯莱-哈密顿定理

凯莱-哈密顿定理内容 凯莱-哈密顿定理典型例题 典型例题 我们先来观察这个题目&#xff0c;题目要求&#xff0c;若直接将矩阵A 代入计算&#xff0c;则会非常复杂&#xff0c;因此&#xff0c;这条路是走不通的。 我们试着引入我们今天介绍的凯莱-哈密顿定理来解这个…

Linux,计算机网络,数据库

Linux&#xff0c;计算机网络&#xff0c;数据库&#xff0c;操作系统 一、Linux1、linux查看进程2、linux基本命令3、top命令、查看磁盘 二、计算机网络1、HTTP的报文段请求 Repuest响应 Response 2、HTTP用的什么连接3、TCP的三次握手与四次挥手三次握手四次挥手 4、在浏览器…

【MATLAB第76期】基于MATLAB的代表性样本筛选方法合集(针对多输入单输出数据)

【MATLAB第76期】基于MATLAB的代表性样本筛选方法合集&#xff08;针对多输入单输出数据&#xff09; 前有筛选变量方法&#xff0c;如局部敏感性分析和全局敏感性分析方法介绍 。 今天提出另外一种思路&#xff0c;去对样本进行筛选。 使用场景&#xff1a; 场景1&#xff1a…

Python 实现 PDF 文件转换为图片 / PaddleOCR

文章用于学习记录 文章目录 前言一、PDF 文件转换为图片二、OCR 图片文字识别提取三、服务器端下载运行 PaddleOCR四、下载权重文件总结 前言 文字识别&#xff08;Optical Character Recognition&#xff0c;简称OCR&#xff09;是指将图片、扫描件或PDF、OFD文档中的打印字符…

Mybatis工作流程及原理详解

一、概述 1.何为mybatis&#xff1f; MyBatis 是一款优秀的持久层框架&#xff0c;它支持定制化 SQL、存储过程以及高级映射。MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集。MyBatis 可以使用简单的 XML 或注解来配置和映射原生信息&#xff0c;将接口和 J…

数据仓库数据库

在当今的数字化时代&#xff0c;数据存储和管理是非常重要的领域。数据仓库和数据库是两个重要的数据存储和管理工具&#xff0c;它们有着不同的特点和用途。 一、数据仓库与数据库的定义 1. 数据仓库 数据仓库&#xff0c;是为企业所有级别的决策制定过程&#xff0c;提供所…

报错处理:Error: Redis server is running but Redis CLI cannot connect

嗨&#xff0c;读者朋友们&#xff01;今天我来跟大家分享一个我在运维过程中遇到的一个关于Linux上运行Redis服务时的报错及解决方法。 报错信息如下&#xff1a; Error: Redis server is running but Redis CLI cannot connect 这个报错信息表明Redis服务器已经运行&#xff…

达梦数据库-DW-国产化--九五小庞

武汉达梦数据库股份有限公司成立于2000年&#xff0c;是国内领先的数据库产品开发服务商&#xff0c;国内数据库基础软件产业发展的关键推动者。公司为客户提供各类数据库软件及集群软件、云计算与大数据等一系列数据库产品及相关技术服务&#xff0c;致力于成为国际顶尖的全栈…

【笔记】ubuntu 20.04 + mongodb 4.4.14定时增量备份脚本

环境 ubuntu 20.04mongodb 4.4.14还没实际使用&#xff08;20230922&#xff09;后续到10月底如果有问题会修改 原理 只会在有新增数据时生成新的备份日期目录备份恢复时&#xff0c;如果恢复的数据库未删除&#xff0c;则会覆盖数据 准备 准备一个文件夹&#xff0c;用于…