腾讯数分面经问题汇总(更新中)

停止内耗,减少焦虑。。。

实习&项目

1.监控哪些指标?

2.最重要的指标是那几个?

3.如何做异动指标分析?

4.模型构建了哪些特征?

5.最后发现哪些特征比较有意义?

6.数据处理问题:类不平衡怎么处理的?欠/过采样

8.为什么GBDT精度比决策树高?

sql & python

  1. on作和where有什么区别?

  2. 各种类型的join有什么区别

  3. where和having有什么区别?

上面的回答在这里

  1. 不用 distinct 语法怎么实现 去重功能?

    group by 补充 distinct 和 group by 在去重时的区别

    ①distinct 是把内容存储在hash结构,然后把 key 拿出来,空间换取时间 ;

    ② group by 是分组统计,时间换取空间;

    ③数据越离散,DISTINCT 需要消耗的空间越大,效率也就越低。

  2. 分布式问题

    有了解过hadoop么?数据倾斜时如何发生的?

    spark为啥比hive快?所有条件下都成立么?

    比较spark、hive、MySQL查询的区别

    分布式了解多少,做过的分布式或多线程相关的吗

  3. Python

    Python里一般用什么包

    pandas: value_counts/duplicated/dropna/shape/apply/df.groupby(by = 按某列分组).agg({"列名":"函数"})/merge

    PyODPS: python执行sql任务读取数据

    ...

统计理论&机器学习

AB实验

·    1为啥用t检验?知道哪些统计学检验?
·    2如何理解p值
·    3哪些指标?服从什么分布?为什么服从?
·    4样本量怎么确定
·    5实验对照组样本怎么选择
·    6.维度爆炸怎么解决(正交/互斥)
·    7.如果实际情况和实验结果不符,为什么?
·    8.一般流程总结
·    9.实验中遇到过什么困难,怎么解决的
  1. Z T 卡方 F检验

  2. 出现样本观察结果或者更极端的概率

  3. 指标包括 gmv 交易额 gaap 毛利额 ctr 点击率。每位用户周期内的 gmv 呈现右偏分布;原因是部分用户(比如大药店)的极端行为,如大金额订单,给实验的评价指标带来决定性的变化,所以有必要对异常用户的数据进行过滤。分布可以画直方图箱线图/看分位点/等距分箱算比例/分布检验

  4. 显著性水平0.05,需要提升的gmv比例1% 利用区间估计里计算样本量的公式 —— 可用来计算实验周期数

  5. 用户登录次序划分ABABAB...,从而分为AB两组作为实验组和对照组。注意必须保证一个用户仅处于一个组,需要处理同一用户拥有不同账号的问题(利用IP地址,设备等检测)

  6. 实验和实验之间交叉,用户同时数据多个实验,要求实验和实验之间不会相互影响,可以缩小实验周期(我的简单分流不涉及到这里)

  7. ①分流不均衡,需要进行有效性检验 AA test/ DID ②样本量问题不足以显著 ③新奇效应,可以只看新增用户 ④试验周期选择,考虑用户活跃间隔期(连续两次购买的时间间隔),以保证实验组用户都被策略触达

  8. 确定实验目的-关键指标和辅助指标-确定样本量-时间周期-分流-有效性检验-开展试验-异常处理-检验-分析结果

  9. 困难

    • ①同一用户的不同账号问题,包括连锁店问题,这些用户之间是相互联系的,可能导致实验组和对照组不独立,并且我们不希望他们看到不同的价格,涉及到分流的处理;
    • ②试验周期的选择,按照什么周期去加总,考虑连续两次购买的时间间隔,按照周来加总;
    • ③异常用户/大金额订单的过滤;
    • ④利用DID方法减少趋势性和周期性波动影响,即用试验后的数据-试验前的数据的差值作为数据。

预处理

  1. 偏态数据如何处理:变换/离散化/异常值筛选之前写过

  2. 缺失值如何处理:删除/插补/离散化/random生成 之前写过

机器学习

MAE 和 RMSE 作为metric的应用场景是什么?

知道哪些正则化?

知道哪些损失函数?

K-means聚类过程

随机森林的随机性体现在?

SVM的核函数的定义和作用?

LR回归公式的推导

LDA?

向量间的相似性计算方法

朴素贝叶斯?

业务分析

1.评估某个改版

有在微信内看过公众号文章么?微信订阅号改版,文章底部有相关文章推荐,你会怎么评估?

核心点:数据分析(转化率、核心指标的变动情况)+ A/B test

1、是推荐的效果。需要文章的曝光log,文章曝光后的点击log,简单计算转化率。

2、是大盘阅读效果。需要有A/B test,对比无推荐/有推荐的用户,最终的阅读量是否有明显差异。需要有用户阅读文章的log。

2. 常见模型

AARRR模型? 获取-激活(活跃起来?)- 留存 - 转化收益 - 推荐传播

img

3. 指标变动分析

3.1 微信支付某天的支付总量同比发生5%的下降,你会怎么查找原因?

之前写过

3.2 文章推荐转化率高,大盘阅读量没有提升或者有提升,你觉得原因是什么?

指标拆解,阅读量来自:订阅公众号点击量+朋友圈或者群聊分享点击量+推荐点击量,如果推荐的转化率高,可能是用户减少了看订阅列表和朋友圈的文章,毕竟用户日常阅读时间有限。

4. 费米问题

如何估计白天某个小时深圳空中有多少飞机?

  • 假设深圳一千万,每天旅客流量大概10万,假设每架飞机载客100人,则每天机场起飞降落1000架飞机

  • 航班时间早6-晚10点(每天16个小时),假设飞机起飞或者降落在深圳停留半小时

  • 那么每个小时空中应该有 1000 * 0.5 / 16 架飞机

之前写过

5. 类似产品经理的app评价、分析类问题

有使用过短视频么**?从哪里可以获得抖音、快手、微信视频号的数据?怎么评价3者的竞争?**

常用APP?如何优化?如何看结果?

如何搭建核心指标

6.数据分析了解、转行、书籍推荐等

有看什么数据分析的书籍么?

利用 python 进行数据分析 R语言可视化 ggplolt2 机器学习