Sql刷题日志(day7)
面试:
1、怎么样的数据挖取能真正对业务起到指导作用?
- 明确的业务目标:开始之前明确你想通过数据挖掘解决的业务问题。这些问题应具体、可量化,并与业务战略紧密相关。
- 正确的数据集:确保使用的数据与你的业务问题相关。数据需要是质量高、相关性强、且最新的。同时,数据的多样性和完整性也很重要。
- 高级分析技术:应用适当的数据挖掘和机器学习技术,如分类、聚类、预测建模、关联规则学习等,以发现数据中的模式和关联。
- 数据质量和清洗:高质量的数据是可靠分析的基础。清洗数据以去除错误和不一致,确保数据准确性和完整性。
- 可操作的洞察:将数据分析转化为可操作的业务洞察。分析结果应直观、易于理解,并能够直接支持决策过程。
- 持续的优化和学习:数据挖掘是一个动态过程。应定期审查和调整模型,确保其依然与当前的业务环境和目标保持一致。
- 合规性和隐私:确保在收集和处理数据时遵守相关的数据合规和隐私标准。
- 跨部门合作:数据挖掘不应只是一个技术行为。需要业务部门和数据科学家的紧密合作,以确保找到的模式和见解对业务战略和操作都有意义。
- 结果共享和沟通:将数据挖掘的发现以易于理解的方式传达给所有相关利益相关者,包括管理层和非技术团队成员。
- 实施和评估:将数据挖掘得出的见解转化为实际行动,并跟踪这些行动的效果,以评估数据挖掘对业务的实际影响。
2、跟领导汇报字节跳动的业务,你会选择哪5个指标,为什么
套用AARRR 模型(海盗指标)
AARRR 模型是互联网产品增长的经典模型,适用于分析用户生命周期和增长策略。它包括五个阶段:
- Acquisition(获取用户):如何吸引新用户注册或使用产品——日新增用数
-
Activation(激活用户):如何让用户首次体验产品并感到满意——日视频观看人数
-
Retention(留存用户):如何让用户持续使用产品——次,3,7日留存率
-
Revenue(收入):如何从用户那里获得收入——总收入
-
Referral(推荐):如何让用户推荐新用户——分享转化数
获取-日新增用数 激活-日视频观看人数 留存-次,3,7日留存率 转化-总收入 传播-分享转化数
3、你用过飞书吗?或者共享文档也行,你觉着怎么去通过拆分得到业务流程中的一个ah moment(即使用产品时的爽点,顿悟时刻)呢?
没用过飞书,但是用过腾讯文档。
对于共享文档来说,最大的功能点在于多人能同时对文档进行编辑,并且能够实时保存及同步,ah moment在用户首次远程阅读编辑共享文档。对于一个普通的业务,需要寻找其ah moment的时候,需要重点关注留存用户与流失用户的行为差异,找出与留存用户正相关的所有行为。然后进行A/B测试,对低频活跃的用户进行测试,促使其完成留存用户具备的正向行为。若低活用户在完成该行为后留存率有所提升,说明找到了该产品的ah moment。
4、线下零售店全国销售额相比Q2季度下降30%,请你分析下原因
- 核实数据的准确性:
- ①确定数据来源,排除数据记录上的错误或系统展示的错误
- ②确定是否存在季节性、时间性等周期因素的影响,看是否以前年度本身该季度的销售额就低。
- 排除数据错误问题后,定位问题寻找原因:
- ①内部原因:联动运营、产品等部门,是否存在运营活动、产品升级、业务调整等bug
- ②外部原因:竞品分析、市场政策了解、行业状况等。
- 找到问题后:
- ①修复bug,调整运营策略、优化功能
- ②总结并复盘,持续观察改动效果,监控数据与业务技术保持功能
5、结合你实习中的业务场景,介绍一下获取和处理数据的途径和流程?
- 工作中,公司的数据获取途径主要有3个:企业数据库、线下数据和外部数据,外部数据一般是爬虫工程师爬取;
- 数据的处理一般是通过编写SQL代码或者通过Kettle来处理,数据处理的流程包括:获取数据->筛选数据->清洗数据(包括去重、NUll值处理等)->数据统计(比如简单的聚合处理、描述统计等)
6、关于视频app(比如爱奇艺)首页推荐的推荐顺序,你会考虑哪些指标?
- 户属性数据:年龄、性别、地域、学历、家庭组成、职业等;
- 视频属性数据:评分、播放量、评论数、出品方、导演、主演、国别、年代、语言、是否获奖、剧情等;
- 上下文数据:用户最近观看历史记录、最近偏好的演员明星、最近常看的视频类型等。
7、有20000人的就餐需求,现建了一个新食堂,如何规划食堂的座位数?
确定高峰期人数、确定就餐时间段、计算所需座位数、考虑余量
8、boss直聘的投递量较低,你会如何提高?从前期调研、方案策划到推广复盘等过程说明一下
首先需要定义这个“投递量较低”的比较对象是什么,是达不到KPI、比不过某个竞对还是同环比不如去年。
然后要看这个“投递量较低”具体是低了多少、低了多久,(在现有资源的投入下)这个数字是正常的还是异常的,排除系统问题、季节因素、统计口径等等可能的原因之后,再考虑怎么提高。
前期调研可以从多个维度进行拆解来定位问题,
- 比如,从指标上来看,投递量=投递人数*人均投递简历数;
- 从结构上来讲,投递量=∑各行业投递量;
- 从漏斗上考虑,到投递这一步要经历注册-搜索岗位-和HR沟通-投递或者注册-收到投递邀请-投递;
- 根据人货场模型,检查活跃用户数、网站上的岗位数量和各个设备端的投递量等等。找到可以优化的点,才能对症下药。
方案的策划要拉上相应的业务部门一起的,因为他们才是方案最终的执行者,数据分析师更多的是在制定目标、寻找标杆、验证想法等方面为业务部门打辅助。
推广复盘,如果之前的方案成功了,首先复盘看能否持续、能否优化、能否扩大,有哪些经验教训;如果失败了,具体那个地方出了问题,为什么没能中途止损,接下来怎么办都需要思考
9、在abtest的应用 p值的意义,第一类和第二类错误的定义是什么?
P值:A/B测试是建立在假设检验的基础上的,P值就是在原假设成立的条件下,样本所提供的证据对原假设的支持程度,P值越小对原假设拒绝的证据越多;
- 第一类错误:即‘弃真’错误,就是原假设正确的情况下被判断为错误的概率;
- 第二类错误:即‘取伪’错误,就是原假设错误的情况下被判断为正确的概率
10、说一下abtest的流程
A/B测试是一种常用的实验方法,用于比较两个或多个变量(例如网站页面、广告、产品设计等)的效果,以决定哪个变量更好。
其流程一般如下:
- 目标设定:明确测试的目的、假设、可度量指标和设定实验效果的成功标准。
- 变量选定:确定要测试的变量,如网页样式、广告文案等,并对变量进行设计和编码。
- 受众分组:将测试受众随机分为实验组和对照组,保证两组之间的分布相似。
- 实验运行:在相同的时间段内,对实验组和对照组分别展示不同的变量,收集数据并记录。
- 数据分析:对收集到的数据进行统计学分析,比较实验组和对照组的指标数据差异,确定实验结果是否显著。
- 结论总结:结合数据分析结果,评估实验效果并得出结论,根据实验结果做出相应的决策,例如确定更佳的设计方案、进行推广等。
需要注意的是,A/B测试应该在实验开始前进行充分的计划和准备,包括实验设计、样本量计算、数据收集、数据处理等。同时还需要遵守相关的法律法规,尊重用户隐私,保护数据安全