计算机毕业设计python+spark知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习

本科毕业设计(论文)开题报告

课题名称

基于Spark的音乐推荐与数据分析系统

的设计与实现

课题类型

系统设计

学院

大数据与人工智能学院

班级

专业

数据科学与大数据技术

指导教师

职称

学生姓名

学号

重庆工程学院教务处制

1.课题名称、来源、选题依据

1.1课题名称

基于Spark的音乐推荐与数据分析系统的设计与实现

1.2课题来源

课题来源于算法研究。

1.3选题依据

互联网在如今的爆发式发展已经改变了我们的生活方式,互联网上资源的爆发式增长让获取有效信息成为了新的难题[1]。用户接触到的信息非常有限。于是很多提出帮助用户快速精准找到所需信息的解决方案诞生了,例如搜索引擎,推荐系统等。

目前大型的音乐门户类网站的歌曲库规模往往包含上千万首的歌曲,这些歌曲被划分成不同的语种、流派、年代、主题、心情、场景等,包含的信息非常的丰富,存在着严重的信息过载[2]。对于系统中每一位音乐用户来说,都不可能去收听曲库内的每一首歌, 很多时候用户的需求往往是“一首或几首好听的歌曲”这种模糊的需求,如何根据用户在系统中产生的行为信息去庞大的歌曲库中挖掘出用户可能感兴趣的音乐,这就需要个性化音乐推荐系统综合考虑用户偏好、时间、地点、环境等各种复杂的特征[3],准确的从上千万的海量歌曲库中挑选出此时此刻最适合这个用户聆听的个性化音乐,给广大的用户带来美的享受,真正做到众口可调。

2.课题国内外研究现状和发展趋势

2.1国外研究现状

国内的音乐推荐技术发展相对缓慢。大多数音乐网站采用的技术不够成熟,基本上是针对所有用户,大数据成分太少[1]。不过,经过一段时间的发展,国内也涌现出了一些优秀的音乐推荐网站,比如 SongTaste、虾米网和豆瓣网等。SongTaste 是一个社交性质的音乐网站。在它的社区中,每一个用户都可以看到大家最近在收听什么音乐、有什么新的音乐推荐[2]。它的音乐分类相当齐全,而且推荐排行实时更新。另外,根据用户平时推荐的音乐、听歌行为以及音乐收录信息,还能够找到“相似的品味者”,从而更好地做出推荐。豆瓣网也是一个社交性的音乐推荐网站。它主要通过豆瓣小组、新浪微博、MSN、开心网、人人网等互动平台来分享和传播用户喜欢的音乐。虾米网在注册成为网站会员时会让用户选择至少5位艺人进行收藏,以此来初步确定用户欣赏音乐的倾向[3]。另外,用户还可以从大家的推荐中搜索自己喜爱的音乐,或者从品味相似的好友中找到适合自己的音乐[4]。

2.2国内研究现状

国外研究现状:大数据推荐系统的定义是 Resnick 和 Varian 在 1997 年给出的:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”[5]。从最初在电子商务网站的深度剖析,到当下在的音乐、电影、学习资料等不同领域的广泛应用。在三十多年的时间里,大数据推荐系统一直是学术界和工业界的关注的焦点。其优点在于主动性。它能自发地收集并分析用户的行为数据,为用户的兴趣建模,得到用户的兴趣偏好后,匹配系统中资源的特征,为用户做出有效的大数据推荐[6]。同时,推荐引擎要一直监测系统中的项目变化和用户在不同行为下的兴趣特征变迁,针对不同的变动,做出相应推荐策略的调整[7]。各平台为增加用户的黏着性,以及用户对推荐结果的准确度要求,使得推荐系统的核心技术层出不穷[8],比较成熟的推荐技术有:基于内容的推荐、协同过滤(基于相似度的最邻近协同过滤算法、基于潜在因子的矩阵分解推荐算法)、深度学习、基于标签的推荐系统、混合推荐算法等。

2.3发展趋势

综上所述,Spark在处理音乐数据方面有一些独特的技术优势。例如,Spark的MLlib库提供了多种机器学习算法,可以用于处理音乐数据,包括协同过滤、分类、聚类等。此外,Spark的流处理技术也可以用于实时音乐推荐。随着人工智能和机器学习技术的不断发展,Spark在音乐推荐方面的应用也将不断加强。例如,Spark可以使用深度学习算法来对音乐数据进行更深入的分析和处理,以提高音乐推荐的精准度和用户满意度。

3.本课题的目的及意义

  • 解决音乐推荐中的冷启动问题。在音乐推荐系统中,新用户或新音乐的加入往往导致数据稀疏性问题,从而影响推荐系统的准确性。Spark音乐推荐系统通过使用基于邻域的协同过滤算法和基于物品的协同过滤算法,结合基于模型的推荐算法,可以有效缓解数据稀疏性问题,提高推荐系统的准确性。
  • 提高音乐推荐的实时性。Spark音乐推荐系统通过使用基于模型的推荐算法和流处理技术,可以实时处理用户行为数据,并及时为用户提供音乐推荐服务。这有助于提高用户体验,增加用户粘性。
  • 实现个性化音乐推荐。Spark音乐推荐系统通过使用混合推荐算法,结合用户属性和物品属性,可以推算出用户对未知音乐的喜好程度,实现个性化音乐推荐。这有助于满足不同用户的个性化需求,提高用户满意度。
  • 推动音乐产业的发展。Spark音乐推荐系统的应用可以帮助音乐平台更好地理解用户需求,提供更精准的音乐推荐服务,从而提高用户满意度和忠诚度。这有助于推动音乐产业的发展,促进音乐创新和多样性。

4.本课题的任务、重点内容、研究方法、实现途径、进度计划

4.1课题任务

系统实现用户对音乐评分的搜集(python爬虫爬取数据),后端使用大数据推荐算法构造,前端使用Vue框架搭建大数据音乐推荐系统。系统数据库使用了关系型数据库MySQL。前端收集过用户行为数据后传到后端使用基于用户的协同过滤算法来推荐出用户可能喜欢的音乐。采用BS架构,使用Java程序设计语言、MySQL数据库、Spark实时分析、Java开发工具IDEA编写程序、Tomcat模拟服务器、Java的JDK8运行环境、Navicat等工具开发而来。

4.2重点内容

  • 第一部分:爬虫爬取音乐数据(网易云音乐网站),作为测试的数据集
  • 第二部分:离线推荐系统:python+机器学习离线推荐(基于物品的协同过滤算法,相似度衡量方法:皮尔逊相似度) ,必要时可以集成算法框架比如tensflow pytroch等,推荐结果通过pymysql写入mysql
  • 第三部分:在线应用系统: springboot进行在线推荐 vue.js构建推荐页面(含知识图谱)
  • 第四部分:使用Spark构建大屏统计

4.3研究方法

  • 数据收集和分析:首先需要收集大量的音乐数据,包括歌曲信息、用户听歌记录、评价等,然后对这些数据进行深入的分析,以了解用户的行为模式和喜好。
  • 特征提取:从收集到的音乐数据中提取出有效的特征,比如歌曲的流行度、风格、演唱者、歌词内容等,以及用户的年龄、性别、听歌历史等。
  • 模型构建:根据提取出的特征,构建推荐模型,比如基于协同过滤的模型、基于内容的模型、混合推荐模型等。
  • 模型评估:使用一定的评估指标对模型进行评估,比如准确率、召回率、F1得分等,以检验模型的推荐效果。
  • 模型优化:根据评估结果对模型进行优化,比如调整参数、增加特征等,以提高模型的推荐效果。
  • 系统实现:将优化后的模型集成到Spark音乐推荐系统中,实现个性化音乐推荐服务。

4.4实现途径

  • Selenium自动化Python爬虫工具采集网易云音乐、评论数据约1000万条存入.csv文件作为数据集;
  • 使用pandas+numpy或MapReduce对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;
  • 使用hive数仓技术建表建库,导入.csv数据集;
  • 离线分析采用hive_sql完成,实时分析利用Spark之Scala完成;
  • 统计指标使用sqoop导入mysql数据库;
  • 使用springboot+vue.js+echarts进行可视化大屏开发;
  • 使用基于物品的协同过滤算法,相似度衡量方法:皮尔逊相似度等算法实现个性化音乐推荐;
  • 使用卷积神经网络KNN、CNN实现音乐流量预测;
  • 搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、流量预测界面、知识图谱等实现;

4.5本课题的进度时间安排;

①2023.11.13-2023.12.10:完成开题报告。

②2023.12.11-2023.12.18:完成音乐数据爬取与处理工作。

③2023.12.19-2023.12.26:完成数据仓库设计。

④2023.12.27-2024.01.11:完成Hive和Hadoop、Spark的环境搭建工作。

⑤2024.01.12-2024.02.25:完成推荐算法与数据可视化功能开发。

⑥2024.02.01-2024.02.29:完成毕业设计(论文)初稿。

⑦2024.03.01-2024.03.15:中期检查及项目功能完善。

⑧2024.03.16-2024.04.14:功能完善以及毕业设计(论文)定稿查重。

⑨2024.04.15-2024.04.30:毕业设计(论文)评阅,根据评阅老师意见修改论文,完善设计。

⑩2024.05.01-2024.05.26:毕业设计(论文)答辩。

5.完成本课题所需工作条件(如工具书、计算机、实验、调研等)及解决办法

本课题所需工作条件

①Windows10系统电脑一台、16G内存、8核处理器

②编辑器:Python 3.8、Anaconda 3、PyCharm、VMware、IDEA

③Navicat Premium 15

④MySQL、Hive、Hadoop、Azkaban、Spark

参考文献

[1]LAWRENCERD, ALMASIGS, KOTLYARV, et al. Personalization of supermarket product recommendations[ R]. IBM Research Report,2020(7):173-181

[2]徐小伟. 基于信任的协同过滤推荐算法在电子商务推荐系统的应用研究. 东华大学. 2023

[3] 吴正洋. 个性化学习推荐研究. 华南师范大学期刊.2021

[4]李雪. 基于协同过滤的推荐系统研究. 吉林大学. 2020

[5]《数据库系统概论》[M],高等教育出版社. 2020

[6]马建红.JSP应用与开发技术.第三版.清华大学出版社.2022

[7] JavaEE架构设计与开发实践[M],方巍著:清华大学出版社.2022.1

[8] Spring Boot编程思想核心篇[M],小马哥著:电子工业出版社.2023.4

[9] Spring Boot开发实战M].吴胜著:清华大学出版社.2023.6

[10]Oleg Sukhoroslov. Building web-based services for practical exercises in parallel and distributed computing[J]. Journal of Parallel and Distributed Computing.2023.

指导教师意见

该开题报告的实验设计部分详细说明了实验环境、实验数据、实验方法和实验结果等,具有可行性和可操作性。预期成果部分也明确了研究的目标和可能取得的成果,为后续的研究提供了清晰的方向和目标。重点任务明确、研究方法得当、实现途径清晰、进度安排合理。同意开题

签字:               年   月   日

系(教研室)意见

通过研究内容和方法合理,同意开题

     系(教研室)主任签字:      年   月   日

核心算法代码分享如下:

#Flink连接HDFS上面的CSV文件 使用Flink_SQL分析完入表
## 启动hadoop
## cd /data/hadoop/sbin
## sh /data/hadoop/sbin/start-all.sh
## 启动hive
## cd /data/hive
## nohup hive --service metastore &
## nohup hive --service hiveserver2 &
import os
from pyflink.common import Row
from pyflink.table import (EnvironmentSettings, TableEnvironment, TableDescriptor, Schema,DataTypes, FormatDescriptor)
from pyflink.table.expressions import lit, col
from pyflink.table.udf import udtf
import logging
import syslogging.basicConfig(stream=sys.stdout, level=logging.INFO, format="%(message)s")env_settings = EnvironmentSettings.in_streaming_mode()
table_env = TableEnvironment.create(env_settings)jars = []
for file in os.listdir(os.path.abspath(os.path.dirname(__file__))):if file.endswith('.jar'):file_path = os.path.abspath(file)jars.append(file_path)str_jars = ';'.join(['file:///' + jar for jar in jars])
table_env.get_config().get_configuration().set_string("pipeline.jars", str_jars)
# table_env.get_config().get_configuration().set_float('taskmanager.memory.network.fraction',0.8)
# table_env.get_config().get_configuration().set_string('taskmanager.memory.network.min','8gb')
# table_env.get_config().get_configuration().set_string('taskmanager.memory.network.max','16gb')
table_env.get_config().get_configuration().set_string('parallelism.default','1')
#先读取hadoop_hdfs上的CSV文件
table_env.execute_sql("""create  table ods_earthquake(`magnitude` double COMMENT '震级(M)',`stime_long` string COMMENT '发震时刻(UTC+8)',`latitude` string COMMENT '纬度(°)',`longitude` string COMMENT '经度(°)',`depth` bigint COMMENT '深度(千米)',`addr`  string COMMENT '参考位置',`stime_short` string COMMENT '年月日',`data_type` string COMMENT '数据类型(用于区分中国外国)',`long_province` string COMMENT 'echarts中国地图省份专用字段(外国是:无(外国))',`stime_year` string COMMENT '年',`stime_month` string COMMENT '月',`stime_clock` string COMMENT '时刻中的时') WITH('connector' = 'filesystem','path' ='hdfs://bigdata:9000/earthquake/ods_earthquake/earthquake_hdfs.csv','format' = 'csv')   """)#设置下沉到mysql的表
table_env.execute_sql("""create  table table05(`addr` string primary key ,`num` bigint ) WITH('connector' = 'jdbc','url' = 'jdbc:mysql://bigdata:3306/hive_earthquake','table-name' = 'table05','username' = 'root','password' = '123456','driver' = 'com.mysql.jdbc.Driver')   """)#数据分析并且导入
#result=table_env.sql_query("select * from ods_zymk limit 10 ")
table_env.execute_sql("""insert into table05select addr  , count(*) numfrom ods_earthquakeWHERE data_type <> '外国'GROUP BY addr order by num desclimit 10;""").wait()
#print("表结构",result.get_schema())
#print("数据检查",result.to_pandas())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1421133.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习中的精确度、召回率、F1分数

精确度与召回率 上图左边为混淆矩阵&#xff0c;四个区域分别为&#xff1a;真阳性&#xff08;True positive&#xff09;&#xff0c;真阴性&#xff08;True negative&#xff09;&#xff0c;假阳性&#xff08;False positive&#xff09;&#xff0c;假阴性&#xff08;F…

华为学习之旅,创建应用全流程

快速入门 开发准备 对于HarmonyOS应用开发的初学者。通过构建一个简单的具有页面跳转/返回功能的应用(如下) &#xff0c;快速了解工程目录的主要文件&#xff0c;熟悉HarmonyOS应用开发流程。 基本概念 UI框架 HarmonyOS提供了一套UI开发框架&#xff0c;即方舟开发框架&am…

【python量化交易】qteasy使用教程07——创建更加复杂的自定义交易策略

创建更加复杂的自定义交易策略 使用交易策略类&#xff0c;创建更复杂的自定义策略开始前的准备工作本节的目标继承Strategy类&#xff0c;创建一个复杂的多因子选股策略策略和回测参数配置&#xff0c;并开始回测 本节回顾 使用交易策略类&#xff0c;创建更复杂的自定义策略 …

JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测

JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测 目录 JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预…

Maven 自动化构建

优质博文&#xff1a;IT-BLOG-CN 一、Maven&#xff1a;是一款服务于 Java平台的自动化构建工具 【1】Maven可以将一个项目按模块划分成不同的工程&#xff0c;利于分工协作; 【2】Maven可以将 jar包保存在自己的中央“仓库”中进行统一管理&#xff0c;有需要使用的工程引用这…

C语言 | Leetcode C语言题解之第85题最大矩形

题目&#xff1a; 题解&#xff1a; int maximalRectangle(char** matrix, int matrixSize, int* matrixColSize) {int m matrixSize;if (m 0) {return 0;}int n matrixColSize[0];int left[m][n];memset(left, 0, sizeof(left));for (int i 0; i < m; i) {for (int j …

重学JavaScript高阶知识点(三)—— 详解Js中的内存管理

详解Js中的内存管理 1. 简介2. 内存生命周期3. JavaScript 的内存分配4. 垃圾回收 1. 简介 很多底层语言一般都有底层的内存管理接口&#xff0c;比如 C语言&#xff0c;可以调用对应的API去创建和释放内存空间。意思是需要手动去创建和释放内存空间&#xff0c;很明显&#x…

mapreduce | 自定义Partition分区(案例2)

1.需求 统计每个手机号消费总金额&#xff0c;按照消费金额降序排序&#xff0c;最终联通、电信、移动分别写入不同的文件。 130、131、132&#xff08;联通&#xff09; 133&#xff08;电信&#xff09; 135、136、137、138、139 &#xff08;移动&#xff09; 手机号,消费记…

基于 Spring Boot 博客系统开发(八)

基于 Spring Boot 博客系统开发&#xff08;八&#xff09; 本系统是简易的个人博客系统开发&#xff0c;为了更加熟练地掌握 SprIng Boot 框架及相关技术的使用。&#x1f33f;&#x1f33f;&#x1f33f; 基于 Spring Boot 博客系统开发&#xff08;七&#xff09;&#x1f…

Vue3实战笔记(19)—封装菜单组件

文章目录 前言一、封装左侧菜单导航组件二、使用步骤三、小彩蛋总结 前言 在Vue 3中封装一个左侧导航菜单组件是一项提升项目结构清晰度和代码可复用性的关键任务。这个过程不仅涉及组件的设计与实现&#xff0c;还需考虑其灵活性、易用性以及与Vue 3新特性的紧密结合。以下是…

Docker:docker在项目中常用的一些命令

简介   Docker 是一个开源的容器化平台&#xff0c;它允许开发者将应用程序及其依赖项打包到一个可移植的容器中&#xff0c;并发布到任何安装了 Docker 引擎的机器上。这些容器是轻量级的&#xff0c;包含了应用程序运行所需的所有东西&#xff0c;如代码、系统库、系统工具…

数据结构与算法===回溯法

文章目录 原理使用场景括号生成代码 小结 原理 回溯法是采用试错的思想&#xff0c;它尝试分步骤的去解决一个问题。在分步骤解决问题的过程中&#xff0c;当它通过尝试发现现有的分步答案不能得到有效的正确的解答的时候&#xff0c;它将取消上一步甚至是上几步的计算&#x…

Android 10.0 Launcher3定制folder文件夹2x2布局之二foldericon的2x2的显示布局

1.前言 在10.0的系统rom产品定制化开发中,在对Launcher3的folder文件夹功能定制中,要求folder文件夹跨行显示,就是 2x2布局显示,默认的都是占1格的,现在要求占4格显示,系统默认是不支持显示4格的,所以接下来需要分析相关的 功能,然后来实现这个功能 2.Launcher3定制fo…

递归式--三种求解时间复杂度的方法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、代换法二、递归树法三.主方法总结 前言 学无止境&#xff0c;笔勤不辍。很久没有更新算法专栏了…笔者终于找到时间来更新了。今天&#xff0c;笔者给大家…

基于FPGA音视频矩阵-2K/4K分辨率解决方案

① 单板支持4进4出含4096x2160P30 及以下任意分辨率视频 ② 单板支持HDMI 接口、VGA接口、 DVI接口、光纤接口、SDI 接口、 HDBASET接口 ③ 接口输入分辨率自适应 ④ 接口输出分辨率任意配置 ⑤ 20ms广电级别切换速度以及延迟 ⑥ 图像纯RGB处理&#xff0c;色彩更准确 ⑦…

StarRocks 【新一代MPP数据库】

1、StarRocks 1.1、StarRocks 简介 StarRocks 是新一代极速全场景 MPP (Massively Parallel Processing&#xff0c;MPP数据库是一种基于大规模并行处理技术的数据库系统&#xff0c;旨在高效处理大量数据。) 数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏…

易图讯三维电子沙盘-大数据处理服务

易图讯科技10名高级大数据工程师&#xff0c;高效、快速进行POI、DEM、高清卫星影像、地形地貌、路网、矢量地图等海量大数据处理服务。 免费专业提供POI、AOI、DEM、高清卫星影像、地形地貌、路网、矢量地图等海量大数据处理服务。 1年更新2次POI、高清卫星影像。

微软或将发布全新AI大模型,欲与GPT-4和Gemini一较高下

科技巨头微软正积极研发一款名为MAI-1的全新大型语言模型&#xff0c;该模型有望与谷歌Gemini、Anthropic的Claude以及OpenAI的GPT-4等顶尖模型展开竞争。 据The Information报道&#xff0c;这是微软自向OpenAI投资超过100亿美元获取其AI模型使用权以来&#xff0c;首次自主研…

18 【Aseprite 作图】工具栏介绍

1 在没有输入法的情况下&#xff0c; 按住Shift 大写的N&#xff0c;就可以快速新建图层 ctrl z 撤回这个图层 2 双击图层&#xff0c;可以修改图层名称和属性 3 按住图层&#xff0c;拖动图层&#xff0c;可以把图层拉到 组&#xff0c;就可以方便一组一组管理图层 4 保存的…

机器学习1——线性回归、误差推导

有监督——分类、回归 一、线性回归 对于一个线性方程&#xff0c;没办法拟合所有的数据点&#xff0c;但是要尽可能的覆盖尽可能多的点。 在下面的图中&#xff0c;x01。添加这一项的目的是&#xff1a;将数据矩阵补全&#xff08;比如年龄是x1、工资是x2&#xff0c;那么x0手…