停止内耗,减少焦虑。。。
实习&项目
1.监控哪些指标?
2.最重要的指标是那几个?
3.如何做异动指标分析?
4.模型构建了哪些特征?
5.最后发现哪些特征比较有意义?
6.数据处理问题:类不平衡怎么处理的?欠/过采样
8.为什么GBDT精度比决策树高?
sql & python
-
on作和where有什么区别?
-
各种类型的join有什么区别
-
where和having有什么区别?
-
不用 distinct 语法怎么实现 去重功能?
group by 补充 distinct 和 group by 在去重时的区别:
①distinct 是把内容存储在hash结构,然后把 key 拿出来,空间换取时间 ;
② group by 是分组统计,时间换取空间;
③数据越离散,DISTINCT 需要消耗的空间越大,效率也就越低。
-
分布式问题
有了解过hadoop么?数据倾斜时如何发生的?
spark为啥比hive快?所有条件下都成立么?
比较spark、hive、MySQL查询的区别
分布式了解多少,做过的分布式或多线程相关的吗
-
Python
Python里一般用什么包
pandas: value_counts/duplicated/dropna/shape/apply/df.groupby(by = 按某列分组).agg({"列名":"函数"})/merge
PyODPS: python执行sql任务读取数据
...
统计理论&机器学习
AB实验
· 1为啥用t检验?知道哪些统计学检验?
· 2如何理解p值
· 3哪些指标?服从什么分布?为什么服从?
· 4样本量怎么确定
· 5实验对照组样本怎么选择
· 6.维度爆炸怎么解决(正交/互斥)
· 7.如果实际情况和实验结果不符,为什么?
· 8.一般流程总结
· 9.实验中遇到过什么困难,怎么解决的
-
Z T 卡方 F检验
-
出现样本观察结果或者更极端的概率
-
指标包括 gmv 交易额 gaap 毛利额 ctr 点击率。每位用户周期内的 gmv 呈现右偏分布;原因是部分用户(比如大药店)的极端行为,如大金额订单,给实验的评价指标带来决定性的变化,所以有必要对异常用户的数据进行过滤。分布可以画直方图箱线图/看分位点/等距分箱算比例/分布检验
-
显著性水平0.05,需要提升的gmv比例1% 利用区间估计里计算样本量的公式 —— 可用来计算实验周期数
-
用户登录次序划分ABABAB...,从而分为AB两组作为实验组和对照组。注意必须保证一个用户仅处于一个组,需要处理同一用户拥有不同账号的问题(利用IP地址,设备等检测)
-
实验和实验之间交叉,用户同时数据多个实验,要求实验和实验之间不会相互影响,可以缩小实验周期(我的简单分流不涉及到这里)
-
①分流不均衡,需要进行有效性检验 AA test/ DID ②样本量问题不足以显著 ③新奇效应,可以只看新增用户 ④试验周期选择,考虑用户活跃间隔期(连续两次购买的时间间隔),以保证实验组用户都被策略触达
-
确定实验目的-关键指标和辅助指标-确定样本量-时间周期-分流-有效性检验-开展试验-异常处理-检验-分析结果
-
困难
- ①同一用户的不同账号问题,包括连锁店问题,这些用户之间是相互联系的,可能导致实验组和对照组不独立,并且我们不希望他们看到不同的价格,涉及到分流的处理;
- ②试验周期的选择,按照什么周期去加总,考虑连续两次购买的时间间隔,按照周来加总;
- ③异常用户/大金额订单的过滤;
- ④利用DID方法减少趋势性和周期性波动影响,即用试验后的数据-试验前的数据的差值作为数据。
预处理
机器学习
MAE 和 RMSE 作为metric的应用场景是什么?
知道哪些正则化?
知道哪些损失函数?
K-means聚类过程
随机森林的随机性体现在?
SVM的核函数的定义和作用?
LR回归公式的推导
LDA?
向量间的相似性计算方法
朴素贝叶斯?
业务分析
1.评估某个改版
有在微信内看过公众号文章么?微信订阅号改版,文章底部有相关文章推荐,你会怎么评估?
核心点:数据分析(转化率、核心指标的变动情况)+ A/B test
1、是推荐的效果。需要文章的曝光log,文章曝光后的点击log,简单计算转化率。
2、是大盘阅读效果。需要有A/B test,对比无推荐/有推荐的用户,最终的阅读量是否有明显差异。需要有用户阅读文章的log。
2. 常见模型
AARRR模型? 获取-激活(活跃起来?)- 留存 - 转化收益 - 推荐传播

3. 指标变动分析
3.1 微信支付某天的支付总量同比发生5%的下降,你会怎么查找原因?
3.2 文章推荐转化率高,大盘阅读量没有提升或者有提升,你觉得原因是什么?
指标拆解,阅读量来自:订阅公众号点击量+朋友圈或者群聊分享点击量+推荐点击量,如果推荐的转化率高,可能是用户减少了看订阅列表和朋友圈的文章,毕竟用户日常阅读时间有限。
4. 费米问题
如何估计白天某个小时深圳空中有多少飞机?
-
假设深圳一千万,每天旅客流量大概10万,假设每架飞机载客100人,则每天机场起飞降落1000架飞机
-
航班时间早6-晚10点(每天16个小时),假设飞机起飞或者降落在深圳停留半小时
-
那么每个小时空中应该有 1000 * 0.5 / 16 架飞机
5. 类似产品经理的app评价、分析类问题
有使用过短视频么**?从哪里可以获得抖音、快手、微信视频号的数据?怎么评价3者的竞争?**
常用APP?如何优化?如何看结果?
如何搭建核心指标
6.数据分析了解、转行、书籍推荐等
有看什么数据分析的书籍么?
利用 python 进行数据分析 R语言可视化 ggplolt2 机器学习