数据分析-43-某社交app用户行为示例数据

关注公众号:『AI学习星球
算法学习4对1辅导论文辅导核心期刊可以通过公众号滴滴我


文章目录

    • 背景描述
    • 数据说明
    • 分析数据
      • 相关系数
      • 查看各功能属性的分布
      • 各功能路径
      • 流量排名 TOP10
      • 留存率排名 TOP10

背景描述

本数据集是某社交APP一定时间内用户留存的分类示例数据,其中A/B/C/D/E/F六个参数可代表APP内六个不同功能,每一行代表一组有相同行为的用户,Action_1到Action_2记录了由用户数变化所代表的一步留存率。

我们可以使用该数据来分析该APP内用户行为特征,不同参数值变化对留存率的影响等。

数据说明

数据集为1个csv文件,约19万行,包含以下字段:

  • A 参数A的变化值,可理解为APP内某一功能(如进入主页面时弹框时长等)
  • B 参数B的变化值,理解同A
  • C 参数C的变化值,理解同A
  • D 参数D的变化值,理解同A
  • E 参数E的变化值,理解同A
  • F 参数F的变化值,理解同A
  • Action_1 进入动作1(如购买会员页面)的用户数
  • Action_2 进入动作2(如收银台页面)的用户数*

以下是表的部分数据
在这里插入图片描述

项目数据来源:https://www.heywhale.com/home

分析数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from warnings import filterwarnings
filterwarnings("ignore")
df = pd.read_csv("tantan.csv")
df.head()

在这里插入图片描述

df.tail()

在这里插入图片描述

df.describe()

在这里插入图片描述

df.isnull().sum()

在这里插入图片描述

df.info()

在这里插入图片描述

相关系数

cor = df.corr()
plt.figure(figsize=(8,8))
sns.heatmap(cor,square = True,cmap='vlag',annot = True,linewidths = 0.5)
plt.show()

在这里插入图片描述

Action_1-Action_2 ; E-F ; D-F ; B-C ; B-D ;较为相关 ,相关但不代表影响

假设A~F字段均为功能属性,查看其唯一值并查看一下每个属性的分布

# 将A-F列的属性改为字符串类型
s = ['A','B','C','D','E','F']
for i in s:df[i] = df[i].astype('str')

查看A~F字段的唯一值

s = ['A','B','C','D','E','F']
for i in s:print(i,df[i].unique())

在这里插入图片描述

查看各功能属性的分布

plt.figure(figsize=(16,16))
columnsnames = ['A','B','C','D','E','F']
n = 0
for i in columnsnames:n +=1plt.subplot(3,2,n)sns.countplot(x = i,data = df)

在这里插入图片描述

各功能路径

s = ['A','B','C','D','E','F']
for i in s:df[i] = i+df[i]
from pyecharts import options as opts
from pyecharts.charts import Sankey,Bar,Grid
title = list(df)[:-2]
class_item = {}
for i in title:class_item[i] = df[i].drop_duplicates()nodes = []
for i in title:for j in list(class_item[i]):nodes.append({'name':j})links =[]
for i in range(len(title)):temp0 = list(class_item)for j in list(class_item[temp0[i]]):try:for k in list(class_item[temp0[i+1]]):df1 = df[df[temp0[i]]==j]df2=df1[df1[temp0[i+1]]==k]temp_value= len(df2)if temp_value!=0:links.append({'source':j,'target':k,'value':temp_value})del df1del df2except:continue
p = (Sankey().add('',nodes,links,linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.3),label_opts=opts.LabelOpts(position="right"),node_gap = 5).set_global_opts(title_opts=opts.TitleOpts(title = '各功能路径'))
)
p.render_notebook()

在这里插入图片描述

路径图呼应上图的属性分布图,可以看到每个路径的去向

df['path'] = df['A'].str.cat(df[['B','C','D','E','F']].astype(str),sep=" —> ")
result = df.groupby('path').agg(Action_1 = ('Action_1','sum'),Action_2 = ('Action_2','sum'))
result['留存率'] = (result['Action_2']/result['Action_1']).round(2)

流量排名 TOP10

# 流量排名 TOP 10
re1 = result.sort_values(by='Action_1')[-10:]
x_data = re1.index.to_list()
y_data = re1['Action_1'].tolist()grid = Grid()
b = (Bar().add_xaxis(x_data).add_yaxis('',y_data).set_global_opts(title_opts=opts.TitleOpts(title='流量排名 TOP 10')).set_series_opts(label_opts = opts.LabelOpts(is_show=True,position = 'right')).reversal_axis()
)
grid.add(b,grid_opts=opts.GridOpts(pos_left="30%"))
grid.render_notebook()

在这里插入图片描述

留存率排名 TOP10

re2 = result.sort_values(by='留存率')[-10:]
x_data = re2.index.to_list()
y_data = re2['留存率'].tolist()grid = Grid()
b = (Bar().add_xaxis(x_data).add_yaxis('',y_data).set_global_opts(title_opts=opts.TitleOpts(title='留存率排名 TOP 10')).set_series_opts(label_opts = opts.LabelOpts(is_show=True,position = 'right')).reversal_axis()
)
grid.add(b,grid_opts=opts.GridOpts(pos_left="30%"))
grid.render_notebook()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4642.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Linux中emqx集中报错解决方案

在centos8上面部署emqx5.5,过程中有许多问题。 第一种文件配置 node {name "emqx-nameIP" #名称此处IP仅用于标识cookie "GR7aqjZzt0IfcEEw" #此处数据自己设置data_dir "…

socket 编程

Linux C语言 server 端&#xff08;TCP&#xff09;&#xff1a; // socketServer.c #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> // 提供 close、read 和 write &#xff08;这里通过 send 间接使用&#x…

国内常见DNS

国内常见DNS 1.阿里DNS 223.5.5.5 223.6.6.62.百度DNS 180.76.76.763.114DNS 114.114.114.114 114.114.115.1154.字节DNS 180.184.1.1 180.184.2.25.GoogleDNS 8.8.8.8个人综合排名是 阿里&#xff08;223.5.5.5&#xff09;>腾讯&#xff08;1.12.12.12&#xff09; ≈…

3D医学影像开发入门<四>:VS2019 + Qt5.15.2 + MITK-v2021.10编译及环境配置

1、MITK介绍 1.1 MITK概述 MITK 是一个开源框架&#xff0c;最初是作为德国癌症研究中心医学和生物信息学部 &#xff08;MBI&#xff09; 博士生的通用框架开发的。MITK 旨在支持开发具有高度交互性的领先医学成像软件。 MITK 几乎重复使用了 VTK 和 ITK 中的任何内容。因此&…

项目模块1~12总结:服务器大模块梳理

一、思维导图 二、设计思路 1、各种回调函数梳理 服务器里面包含了监听套接字和监听到的通信套接字&#xff08;新连接&#xff09;&#xff0c;我们要对这两种套接字进行设置回调函数&#xff0c;其中监听套接字里面只要设置读回调&#xff0c;通信套接字要设置5种回调&…

023集——CAD 窗体交互、多段线进行翻转、错误提示(CAD—C#二次开发入门)

效果如下&#xff1a; 窗体模块&#xff1a; using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms;…

照明灯具哪个品牌好?2024照明灯十大知名品牌大公开

在现代生活中&#xff0c;护眼台灯已经成为许多加班族的必备神器。但是&#xff0c;市场上的护眼台灯种类繁多&#xff0c;价格也各有不同&#xff0c;我们也不能每一个都买回家进行测试&#xff0c;看看照明灯具哪个品牌好&#xff1f;别担心&#xff0c;我帮你们找了&#xf…

FileLink跨网数据摆渡系统:打破网络隔阂,轻松实现跨网络数据传输

在数字化时代&#xff0c;跨网络、跨区域的数据传输成为了企业和个人信息流通的重大挑战。而如今&#xff0c;FileLink跨网数据摆渡系统的问世&#xff0c;彻底解决了这一难题&#xff0c;帮助用户实现快速、安全、无缝的跨网络数据传输。 1. 跨网络数据传输的痛点 随着企业信…

C语言 — 指针的进阶

文章目录 前言一、字符指针二、指针数组三、数组指针数组名 与 &数组名 四、指针传参二维数组传参 五、函数指针结语 前言 通过前面的关于指针的学习&#xff0c;我们了解了指针的一些个特性。本篇文章我们将深入指针&#xff0c;挖掘指针更深处的知识。 在开始之前&#…

【机器学习导引】ch4-决策树

基本流程 两个需要解决的问题 属性顺序&#xff1a; 问题&#xff1a;哪些属性在前面&#xff0c;哪些属性在后面&#xff1f;这个问题指的是在处理数据或进行排序时&#xff0c;需要确定属性的排列顺序&#xff0c;以便更好地进行数据处理或分析。 属性选择&#xff1a; 问题…

[ DOS 命令基础 4 ] DOS 命令命令详解-端口进程相关命令

&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 _PowerShell &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 &#x1f389;点赞➕评论➕收藏 养成习…

博客系统(SpringBoot项目)

文章目录 一、项目开发的流程二、项目开发2.1 准备工作2.2 开发公共模块&#xff1a;把能写的先写了什么是公共模块model层mapper层定义统一返回结果统一异常处理 2.2 博客列表页2.3 更改显示的时间2.4 博客详情页2.5 登录Session式登录方法分析使用Token来实现登录 2.6 强制登…

软件设计师笔记-数据结构

数据结构 数据元素的集合及元素间的相互关系和构造方法。 线性表的存储结构 顺序存储链式存储 单链表节点 typedef struct node { int data; struct node *link; }NODE, *LinkList; 双向链表 每个节点有两个指针&#xff0c;分别指出直接前驱和直接后继。 循环链表 尾…

LangChain Ollama实战文献检索助手(一)环境配置和输入输出解析

挑选合适的模型 调用API需要花钱&#xff0c;因此在搭建阶段最佳的方法是利用Ollama部署本地CPU推理的轻量化大模型。大模型选择可以参照hugging face的榜单open-llm-leaderboard。 这里对我来说&#xff0c;要选择的模型需要满足 1.ollama上有的模型。 2.推理速度快&#xff…

在docker中搭建redis哨兵环境

文章目录 一、引言二、环境准备前提条件目录结构 三、配置文件1. 主节点配置文件 sentinel-master.conf2. 从节点配置文件3. 哨兵配置文件 sentinel.conf4. Docker Compose 文件 四、启动 Docker Compose五、验证哨兵机制1. 检查主节点状态2. 检查从节点状态3. 检查哨兵状态4. …

上线不出网机器

不出网机器介绍 上线不出网机器是我们常见的问题&#xff0c;如何在内网中实现不出网机器的上线呢&#xff0c;我们分为了如下的形式&#xff0c;根据之前所学的内容我们开始进行实验&#xff0c;常见的网络拓扑如下 情况分类 上线不出网机器一般是指B区域的电脑上线到CS工具或…

Modbus解析流程全面升级:体验全新核心与终极优化!

01 前言 本文章原文发表于我的微信公众号&#xff0c;请大家关注阅读&#xff0c;涉及的源代码等都在公众号&#xff0c;请搜索公众号&#xff1a; 智能家居NodeRed和HomeAssistant 即可关注。 02 全面改进的解析流程 前面发布过的Modbus解析流程在经过多个设备测试后发现存…

Python邮差:如何用代码精确投递商品快递费用的密信

目录 一、准备工作 二、编写API请求脚本 三、解析与处理快递费用数据 四、案例应用&#xff1a;模拟电商平台的快递费用计算 五、自动化邮件通知 六、总结 在电子商务的广阔天地里&#xff0c;精确计算并快速传递商品快递费用是一项至关重要的任务。作为Python邮差&#…

修改sql server 数据库的排序规则Chinese_PRC_CI_AS(字符集+排序)

文章目录 引言I 解决方案案例II 知识扩展排序规则SQL SERVER支持的所有排序规则引言 新增sql server 数据库实例的默认排序规则不支持中文存储,导致乱码 解决方案: 修改排序规则为Chinese_PRC_CI_AS 或者 Chinese_PRC_Stroke_CI_AS_WS或者Chinese_PRC_CI_AI_KS_WS 仅对新增…

七十页PPT展示智驾时代来临,国产汽车零部件厂商准备几何?

u 智能汽车车身架构主要可分为感知、决策控制、执行及通信四大板块&#xff0c;目前国产汽车零部件供应商在感知系统已取得较强的话语权&#xff0c;在决策控制系统、执行系统领域亦取得一定竞争力。 u 感知系统主要硬件包括激光雷达、毫米波雷达、摄像头等&#xff1b;其中&a…