数据分析常见面试问题

2023-03-17 01:38| 来源: 网络整理| 查看: 265

1. 什么是统计学中的方差分析（变异数分析或“F检验”）？

全流程总结方差分析，只看这篇就够了 - 知乎

方差分析（Analysis of variance，简称ANOVA）为数据分析中常见的统计模型，主要为探讨连续型因变量与类别型自变量的关系，当自变量的因子中包含等于或超过三个类别情况下，检验其各类别间平均数是否相等的统计模式。用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

https://baike.baidu.com/link?url=BJmWlRYiPUGWzFO4WHMuXdQFOMUxFCy8PPt7O7MyL3UOuEZSOdDasDs192p2yN67AzPcNdkYCuyqjIwRCJ4HJMtC3R_hR1wiZMuTroOjuRRnygT00eKaD2ybgwJHHerU

2. 面对大方差如何解决？

1） AB实验场景下，如果一个指标的方差较大表示它的波动较大，那么实验组和对照组的显著差异可能是因为方差较大即随机波动较大。解决方法有：PSM方法、CUPED(方差缩减)

PSM倾向值匹配方法（Propensity Score Matching)：

观测性研究有时无法人为控制干扰因素，可能会导致因果推断的偏差。解决思路是尽量模拟随机试验, 这样实验组与对照组在结果变量上的差异就可归因与实验条件的改变而非干扰因素或协变量施加的影响。PSM基于反事实因果模理论发展而成，属于因果推断的一种，相当于人为去造一个理想的实验环境。

CUPED方差缩减方法（Controlled-experiment Using Pre-Experiment Data）：先分层计算后汇总，举个例子，我们计算对照组和实验组的用户平均使用时长，可以分别按照城市划分，先计算每个城市的用户平均使用时长，然后再按照权重(各城市实验用户)计算总的。(前提是城市这个特征与用户平均使用时长高度相关）

2）机器学习场景下，为了应对大方差，应降低模型的复杂度，使用正则化技术，惩罚更高的模型系数，从而降低了模型的复杂性。（特征的方差反而越大越好，因为如果一个特征方差为0，那么其实这个特征对于模型来说没有什么意义，所以特征方差大对于模型的训练才是有帮助的）

3.数据分析指标的阈值怎么确定？

1. 人为划定：根据过往业务经验设定阈值 2. 统计分类：基于统计分类结果设定阈值 3. 自动选择：通过数据挖掘方法确定阈值

答案解析：指标阈值的确定是业务中最常遇到的问题，确定指标阈值主要可以考虑人为划定、统计分类、模型自动选择三种方法。对于一些有明确目的或者是凭借过往经验可直接判断的阈值标准，就可以人为划定，这种方法的优势在于简单便捷成本低。而对于有一定业务知识但是历史经验不足的情况，可以在人为划定的基础上加入统计学原理，用统计分类的思想进行指标阈值确定。这种情况下需要掌握数据的整体情况，了解数据指标的基本分布，根据数据分位数、3-sigma原则、统计指标的拒绝域等进行划分，这种方法既包含了对业务指标有多了解，又用到了统计分析的科学方法，具备科学性和稳定性。而在数据维度多、指标数量大的情况下，上述两种方法则变得十分困难，此时可以通过机器学习的方法让模型自动调整参数，确定最优阈值。这个过程中最常用的方法有分类、聚类、关联、回归，每种方法下都有多个模型可以进行选择，根据各类模型的评价指标进行参数选择、阈值确定。

4. 统计学的基本方法论，也就是拿到数据怎么分析？

统计学是通过收集、处理、分析、描述等步骤从数据中得出结论。以下包括描述统计和推断统计在内的统计学的基本方法论，能够较为全面地对数据进行分析。

1）描述统计描述统计通过图表或数学方法，对样本数据进行整理、分析，然后概括总结出反映客观现象的规律。其中图表描述方法就是使用各类图表在不同的维度下描述数据，比如直方图、饼图、雷达图、散点图等等。而数学描述方法的分析方法更丰富，常有集中趋势分析、离散程度分析、相关分析三种分析方法。

A. 集中趋势分析平均数、中数、众数等是集中趋势分析常用来表示数据集中趋势的统计指标，通过这些指标能够反映样本数据的一般水平。

B. 离散程度分析离中趋势分析主要依赖标准差、方差（协方差）等统计指标来研究数据的离散程度，能够出色地表示数据之间的差异程度。

C. 相关分析无论是自变量与自变量之间还是自变量与因变量之间都存在潜在地关联性，相关分析探讨的就是变量之间是否具有统计学上的关联性。进行相关分析时，变量数量可以是两个也可以是多个，能够进行单一或多重相关关系分析。

2）推断统计推断统计是一种通过样本数据来推断总体特征的统计方法，以部分抽样样本进行延伸推论，并进一步给出推理性结论。

A. 参数估计顾名思义，参数估计就是根据样本数据对总体参数进行估计的过程，可分为点估计和区间估计两种分析方法。点估计是以样本具体数值为代表数据，区间估计是根据样本数据，计算置信区间及该区间的置信度。

B. 假设检验假设检验是一种先假设后推理论证检验的思想。首先对总体参数提出一个假设，然后基于样本数据判断该假设是否成立，做出接受还是拒绝该假设的结论。

5. 商场每天的人流属于什么分布？泊松分布和二项分布的关系？

参考回答泊松分布。泊松分布是⼆项分布的近似，当⼆项分布的p很⼩，重复试验次数 n很⼤时,两者分布接近。

二项分布指已知某件事情发⽣的概率是p，那么做n次试验，事情发⽣的次数就服从于二项分布。泊松分布是指某段连续的时间内某件事情发⽣的次数，⽽且“某件事情”发生所用的时间是可以忽略的。商场每天是⼀个连续的时间，如果把每⼀天分割成⽆数的⼩份，那么每⼀段时间内发生的事件都是独立的，在⼀个极小的时间内，⼈们进出的概率为p。那么在一天内，就有n次发⽣⼈们进出这个事件。⽽当n很⼤，p很⼩，二项分布计算概率的公式会趋向于泊松分布。

6. 100个人初始各有100块，每人每分钟随机给别人1块钱，问最后的分布？

均匀分布：在每个人发钱和得钱的概率及金额完全相等的情况下，最终的结果将是大家的财富值一样。（完全公平情况）

正态分布：根据中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。房间中的人多次交换金钱后剩余钱数的概率，每次实验均有多个人进行金钱交换。（但此处每个人之间并非独立的，他们手中的财富总值是一个常数）

幂律分布：在每个人发钱和得钱的概率及金额不等时，最终的财富分配是少数人掌握社会中大量的财富。（类似于现实生活中的社会财富分配）

7. 随机误差的分布？

根据中心极限定理，大量独立的随机变量之和趋向于正态分布。人们认为误差是随机的，所以误差的和服从正态分布。

https://baike.baidu.com/item/正态分布/829892?fr=aladdin

8. 什么是两类错误？

第一类错误α叫弃真错误或显著性水平，即原假设为真时却被拒绝的概率；P值就是在原假设成立的前提下，出现原假设以及更极端现象的概率，定义了第一类错误的具体程度。第一类错误更严重，由于报告了本来不存在的现象，则因此现象衍生出的后续研究、应用的危害是不可估量的。

第二类错误β（1-α）叫采伪错误，即原假设为伪却没有拒绝的概率。

在一定样本量的情况下，减小一类错误必然会增大另一类错误，只有当样本容量n增大时，才有可能使两者变小。在实际应用中，一般原则是控制犯第一类错误的概率，即给定α，然后通过增大样本容量n来减小β。这种着重对第一类错误的概率α加以控制的假设检验称为显著性检验，α就是显著性水平。

第一类错误也即原假设为真的情况我们拒绝的概率，对于A/B测试（原假设为没有收益），犯这个错误代表新策略没有收益，我们却认为有收益，然后上线的错误，一般第一类错误不超过5%，第一类错误是明显的，也就是说在原假设为真的情况下接受原假设的概率要超过95%；统计功效=1-第二类错误，也即当AB两组实际有差异时,能被我们检测出来差异的概率。

9. 简单说一下说说置信区间、置信度？

置信度：也称可靠度，置信水平，即估计值与总体参数在一定允许的误差范围以内，其相应的概率有多大，这个相应的概率称作置信度。

置信区间：置信区间是由样本（总体样本，不是真实样本）构造的对总体参数估计的一个区间，每一个置信区间会对应一个置信水平，表示真实参数落在置信区间中的概率。置信区间随着置信度的变化而变化。置信度和置信区间_congyue1112的博客-CSDN博客

10. 什么是相关系数？

相关系数在协方差基础上进行了标准化，消除了两个变量变化幅度的影响，能够充分反应两个变量的相关关系。与协方差不同的是，相关系数的波动范围是有限的，上下浮动范围是[-1,1]。相关系数越趋近于0，表示两个变量相关程度越弱。相关系数越接近于1，两个变量的正相关程度越高。相关系数越接近于-1，两个变量的负相关程度越高。

11. 如何估计样本量？

按照功效分析的方法，根据预期的功效、效应值、显著性水平来计算样本大小。

答案解析当我们在设计一个实验的时候，需要考虑实验流量的分发大小，也就是这个实验中需要需要多少样本才能有意义。这类问题可以通过功效分析（power analysis）来进行计算，在实验前计算得到所需要的样本量，或者预估在给定样本量下得到不同实验效果的概率。功效分析可以帮助在给定显著性水平（第一类错误α叫弃真错误或显著性水平）的情况下，判断检测到给定效应值时所需的样本大小。反过来，它也可以帮助你在给定显著性水平情况下，计算在某样本大小内能检测到给定效应值的概率。我们在功效分析中一般关注四个量：功效、样本大小、效应值、显著性水平，当我们给定任意三个量后，就可以推算出第四个量。比如，在给定功效、显著性水平、效应值的情况下，我们可以推算需要多大的样本量。

1. 样本大小指的是实验设计中每种条件/组中观测的数目。

2. 显著性水平由Ⅰ型错误的概率来定义，也就是α。

3. 功效通过1减去Ⅱ型错误的概率来定义，我们可以把它看作真实效应发生的概率。

4. 效应值指的是在备择或研究假设下效应的量，效应值的表达式依赖于假设检验中使用的统计方法。

12. 辛普森悖论，以及如何避免这种现象？

⾟普森悖论指在某个条件下的两组数据，分别讨论时都会满⾜某种性质，可是⼀旦合并考虑却可能导致相反的结论。

为了避免⾟普森悖论导致我们得出两个相反的结论，我们需要选择将数据分组或聚合在⼀起。其中我们要学会思考因果关系：数据如何⽣成，基于此，哪些因素会影响结果？例如美国加州大学研究生录取数据的分析中，目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同，而兴趣会决定专业的不同，不同专业的录取率也会不同。总体上，我们只看到了性别和录取率的关系，但是却忽略了专业这个内在原因。而拆分专业去观察，就是控制男女在专业上是相同的，这样更有利于判断因果关系。

13. 什么是贝叶斯定律？

通过已知的概率计算未知的概率，比如，已知A的概率是P(A)，B的概率是P(B),A发生时B发生的概率是P(B|A).那么就可以算出，B发生时A发生的概率P(A|B) =P(A)*P(B|A)/P(B)。

贝叶斯定理 - 知乎

14. 什么是条件概率？

已知A事件发生，想要在此基础上求出B事件发生的概率时，需要考虑构建条件概率P(A|B)，即A事件发生条件下B事件发生的概率。条件概率的计算公式为：P(A|B)=P(AB)/P(B)。

15.概率和似然是什么？

1.概率是给定某⼀参数值，求某⼀结果的可能性的函数。例如，抛⼀枚匀质硬币，抛10次，6次正⾯向上的可能性多⼤？解读：“匀质硬币”，表明参数值是0.5，“抛10次，六次正⾯向上”这是⼀个结果，概率（probability)是求这⼀结果的可能性。 2.似然是给定某⼀结果，求某⼀参数值的可能性的函数。例如，抛⼀枚硬币，抛10次，结果是6次正⾯向上，其是匀质的可能性多⼤？解读：“抛10次，结果是6次正⾯向上”，这是⼀个给定的结果，问“匀质”的可能性，即求参数值=0.5的可能性。

16. 假设检验是什么？原理和步骤？与参数估计的区别？

假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立；

假设有原假设，备择假设；检验方式有单侧检验和双侧检验；其步骤通常为：提出原假设与备择假设；从所研究总体中出抽取一个随机样本；构造检验统计量；根据显著性水平确定拒绝域临界值；计算检验统计量与临界值进行比较。

假设检验的原理：小概率事件原理，小概率事件在一次实验中基本是不可能发生的，而一旦发生就有充分的理由拒绝原假设。去证明假设是错误的，从而反证假设的另一面很可能是正确的，运用的是反证法。

假设检验的步骤：确定原假设和备择假设确定适当的检验统计量，并计算其数值。选择哪个统计量作为检验统计量需要考虑一些因素，例如进行检验的样本量多还是少，总体标准差是已知还是未知等等最后看这个数据是落在接受域还是拒绝域，如果落在接受域则接受原假设，如果落在拒绝域则接受备择假设。

假设检验在工作之后更重要的一个应用就是AB实验。AB实验是快速验证策略是否有效的方法，其中涉及的大量统计学知识以及实验步骤：确定目标及假设、确定指标、确定实验单位、样本量估算、测试时间估算、实施测试、分析测试结果等

参数估计和假设检验的联系是：参数估计和假设检验都是样本去估计总体，都是建立在概率基础上的统计，可以相互转换。

参数估计和假设检验的区别是：参数估计是用样本统计量估计总体参数的方法；假设检验是先对总体参数提出一个假设，然后利用样本信息去检验这个假设是否成立；参数估计是以置信区间(大概率)估计总体参数；假设检验是利用小概率事件是否发生来判断假设是否成立。

17.如何判断实验组和对照组的某个指标是否有显著差异？

实验开始前就对实验组和对照组进行数据指标监测，若实验前两组指标无明显差异，观测实验后的情况，根据假设检验原理设置所需的显著性水平（第一类错误-弃真错误），在该水平下判断两组的指标是否有显著差异；若实验前两组指标即存在差异，则可以采用DID（双重差分）的方法，查看两组的指标差距在设定显著性水平下实验前后是否有显著差异。

双重差分法（Difference in Differences）: 通过利用观察学习的数据，计算自然实验中“实验组”与“对照组”在干预下增量的差距。

双重差分法（DID）的原理与实际应用 - 知乎

18. 数据分析流程？

明确分析目标,收集数据,清洗数据,探索性分析,数据挖掘,可视化,撰写报告。

第一步：与业务方沟通问题，明确需求和分析目标；

第二步：对目标进行拆解，可以采用两步分析法、人货场分析法等，通过数据定位问题源头；

第三步：与产品、运营和技术沟通，找到问题原因。

目标：发现业务的痛点和痒点，通过分析原因得出解决策略，并推动策略落地，达到提升业务质量的过程。

19. XXX平台分析需要涉及哪些指标？哪个是最重要的？为什么？

从产品自身出发：参与度，留存等；

从用户出发：ARPU，DAU，留存率；

从性能出发：闪退率，卡顿率等。

最重要的是XXX的渗透率，因为字节游戏主要依靠从字节跳动或今日头条引流用户，如何把内容用户转变为游戏用户，是字节游戏现在最重要的事情。

20. 数据分析角度，推荐模块怎么用指标衡量？

推荐模块主要目的是将用户进行转化，所以其主指标是推荐的转化率。对于其他指标，可以从用户、模块功能的角度进行衡量。用户层面：每日推荐用户数、点击推荐用户数、对推荐不感兴趣数等，并且可以计算各用户数的占比情况，再具体可以看不同层级的用户情况；模块功能层面：各模块的点击人数、各模块的点击率、各模块点击后的跳转时间等，可以看出该模块功能是否合理有效。从推荐的功能出发，先给出主指标，再给出其他指标。

21. 数据挖掘和数据分析有什么不同？

数据挖掘是在大量数据中，通过机器学习或深度学习等方法，去挖掘一些有价值或者是未知的信息，重点就在于寻找未知的模式，例如通过现状预测未来；

数据分析则更偏向于使用数据工具来进行数据的处理，提取出有价值的数据，需要与业务相结合，例如异常归因分析，经营现状分析等。

22. 假设是数据分析师，会构建怎样的指标体系？

指标购物体系搭建。采用“人货场”场景化搭建指标体系。“人”数据指标主要看发单用户数、完单用户数、客单价、周期内完单订单数、取消订单数、评价订单数等。“货”数据指标主要看成交了多少，交易额多少，花了多少，到具体数据指标主要会看GMV、成交率、取消率指标等等。“场”数据指标主要看哪个渠道用户点击量大曝光率大，带来了多少新用户，完成多少交易订单，客单价是多少。

方案的优缺点可行性等可以采用AB实验量化。具体步骤： 1.收集指标，建立评估指标体系。 2.设置实验组和对照组，分配流量。 3.假设检验，评估实验结果是否显著。 4.给出决策方案。答案解析指标体系问题+ab实验步骤

23. 什么是RFM模型？有什么用？

R（Recency）：最近一次交易时间间隔。

F（Frequency）：客户在最近一段时间内交易次数。

M（Monetray）：客户最近一段时间内交易金额。

RFM模型根据客户活跃程度和交易金额的贡献，进行客户价值细分。它能够识别优质客户，制定个性化的沟通和营销服务，为更多的营销决策提供有力支持；能够衡量客户价值和客户利润创收能力。

为什么RFM模型：因为我们没有太多的用户行为数据，能用的数据比较有限。但是有一定的成交数据。只要有成交数据，就能进行RFM的分析。其次，模型的分层可解释性强。其他很多算法模型、机器学习模型，往往通过聚类进行用户的分层，对于业务来讲，不是很好解释。但RFM模型分成的用户类别，是非常好理解的。

24. 怎么制定某某具体业务的目标？（举例说明）

外卖：需要制订美团外卖接下来几个月各个城市销售额的kpi。首先，我们定义“销售额=MAU×购买概率×客单价” 。我们需要对各个城市分别指定接下来几个月的MAU，购买概率和客单价。可以通过各个城市过去几个月的表现来预测出接下来几个月各指标的表现，然后根据运营情况指定详细的kpi。

短视频： 1.短视频本身的数据，比如短视频发布时间、视频时长、发布渠道。这个都是视频发布后即有的固定属性。 2.短视频消费测相关的数据，比如累计播放量、点赞率、完播率。 3.短视频供给侧相关数据，投稿用户数、连续投稿用户数、优质投稿人涨粉率等。我认为最重要的三个指标有：播放量、点赞量和收藏量。这三个指标可以反映出短视频消费的健康情况。也是我认为最应该关注的指标。

购物：在“用户”层面，需要监控的指标包括“总用户数”、“活跃用户数”、“用户留存率”、“用户付费转化率”等。这些指标能较为明显地反映平台中的用户的参与情况。当这些指标处于一个高位时，说明平台业务做的比较好。在“产品”层面，需要监控的指标包括“品类覆盖率”、“销量类指标”、“库存类指标”等，重点研究当前的产品（货物）是否有足够的覆盖面和销量，同时不会积压过多额库存（生鲜类产品保存期较短）。在“平台”层面，需要监控的指标包括“GMV”、“ROI”、“市场占有率”等，主要是看当前平台的规模如何，投资回报率是否在可以接受的范围（是在烧钱阶段还是已经获得盈利），平台被用户所接触并使用的范围有多大。

用户消费：内部和外部进行分析。内部：从未付费用户，持续付费用户，流失付费用户。分别分析这些用户的付费率情况，以及如何提高对应用户的付费意愿。外部：竞品用户。分析竞品的付费用户情况，可以从外部购买数据或数据爬虫等方法获取，分析这些用户能否转化为爱奇艺的付费用户。

答案解析：指定大的指标时，需要将其拆解成小指标，然后对客群进行划分，再对不同的客群制订不同的小指标，制定过程言之有理，逻辑清晰即可。

25. 一般从什么角度进行数据分析？

基本思路：用户拆解，定位问题->与业务方沟通，定位原因。最基础是能够把一个大问题按照正确的维度细分成小问题，例如漏斗模型、RFM模型、人货场模型等。主要步骤为：人群划分->明确指标->切分指标->用户分类->可视化分析

对业务的指导作用：数据分析通常分为四个阶段：最初等的就是客观呈现出事物的现状，更进一步是能够被动支持也无妨的决策，更高一层次是能够主动定义问题并指导业务方，最终阶段是将数据融入思维和工作的各个方面。想要数据分析能够对业务起到指导作用，首先应该充分了解当前的业务。而每个公司、每项业务都离不开四个步骤，获客、激活、留存、变现，因此对业务的指导也是围绕这几个方面展开的，数据分析应该落地于帮助业务优化成本、扩大规模，让潜在的用户真正使用我们的产品，提高用户粘性、尽力留住用户，并提高每个用户所带来的收益。这个过程需要分析师不断提供想法，不断进行假设，不断检验甄别，不断指引方向，不断创造价值。

需要表现出较好的逻辑思维能力（数据分析的基础能力）和结构化的表达能力

26. 如何分析指标异常？

首先验证数据的准确性，确定数据异常不是因为统计口径或数据报表异常所导致的。如果不是的话，采用两步分析法：首先定位问题原因，这里可以通过计算各个维度（地区、用户渠道、行业等）该指标的变动系数=（指标异常前-指标异常后）/指标异常前，选出变动系数较大的前几个维度，对其进行分析。然后可以从内部和外部进行分析，内部从产品（版本更新）、技术（卡顿，闪退）、运营（运营活动）分别沟通看是否能找到原因。外部从政策和竞品的角度找原因。

答案解析定位问题+找到原因

例1：订单量下降从哪些方面分析？

1.版本影响：发布新版本的时候是app出bug的高概率期，所以拉出各版本订单数量的趋势图，如果订单量下降的时间与发版时间一致，则是版本的问题。

2.活动影响：是否是运营活动的影响。

3.服务端影响：服务端有时会不定期修补服务bug or 上线新策略 or 优化原策略，导致数据流出现问题。比如用户刷新页面刷不到产品信息、或服务响应变慢等都会影响用户体验，进而影响订单量。

4.其他：漏斗分析，查询漏斗数据：日活-登录-浏览商品-加购物车-支付-支付成功。排查每两个环节之间的转化率是否与近期的转化率有较大GAP值，已确定是否是某个环节的bug导致最终的订单量下降。

例2: 某日销售额下降，分析原因？

销量=下单数 *（1-订单取消率-退货率），这个公式就可以把销量用“下单数、订单取消率、退货率”等三个维度去量化，下单数=咨询数 *（1-咨询流失率）+浏览量 *（1-浏览流失率）；订单取消率=支付取消数/下单数；退货率=订单退货数/已支付订单数；所以又会引出“咨询流失率、浏览流失率、支付取消数、订单退货数”等多个衡量指标。经过这样一层一层公式化的量化，找到那些“最小不可分割的指标”，进而最可能发现本质的问题所在了。

27. 如何分析哪个过程出了问题？

漏斗分析。

优惠券转化漏斗：点击优惠券->至购买页面->点击下单->使用优惠券->完成支付。我们首先要确定是哪一步到哪一步的转化率低，随后与技术/产品人员沟通，共同定位原因。

下单转化漏斗：访问app--商品详情页--购买页面--支付页面--支付成功。定位是哪个环节出现问题后，与技术人员和产品人员沟通，找到原因。

28.介绍一个项目？

先介绍项目背景：在xxx上线后，数据效果不明显，所以需要我们对其进行分析，找到原因。随后介绍分析思路：我们从xxx，xxx等角度进行分析xxx指标，得到xxx的现象。后说明分析结论和对应的解决策略。如果后续有继续观察策略落地的情况可以继续说策略落地后的效果。

因为实习中是处于增长团队的，所以活动是日常生活中不可缺少的。活动数据的衡量一般用活动漏斗来衡量，活动漏斗会在活动页中埋点来获取到，埋点需要规范埋点的url和参数，需要研发配合将埋点加到页面中。活动结束之后，数据仓库同学会帮忙将埋点数据接入数据库中，利用sql或者python对数据进行处理，建立活动漏斗数据，进而分析活动数据在各个环节上的表现，为下一次迭代或者复盘提供支持。

29. 如何衡量一个活动的ROI？

活动的收益成本比，ROI的计算公式是：收益/成本

取决于活动的目标&背景是什么，可以对应到哪些核心指标，可以具体细拆到哪些指标

● 这个活动有哪些难点，它的受众有哪些特性，流程具体是怎样设计的 ● 活动是否可以长期进行 ● 最终测算的指标需要结合活动的类型以及活动最终的目的来决定： ● 活动属于拉新下载类型的，需要考虑的是活动带来的新用户数、下载量● 活动属于品牌宣传类的，可以看活动页面的浏览量、文章的阅读量、评论数、点赞数和分享数等 ● 活动属于促销类的，那么gmv就是重要的指标 ● 活动属于提升用户粘性的，可能留存率、平均使用时长等都是结果指标

30. 推荐顺序指标？

1）用户行为数据：浏览、点击、播放、搜索、收藏、点赞、转发、滑动、在某个位置的停留时长、快进等等一切操作行为；

2）用户属性数据：年龄、性别、地域、学历、家庭组成、职业等；

3）视频属性数据：评分、播放量、评论数、出品方、导演、主演、国别、年代、语言、是否获奖、剧情等；

4）上下文数据：用户最近观看历史记录、最近偏好的演员明星、最近常看的视频类型等。

31. 某产品的提高，从前期调研、方案策划到推广复盘等过程说明一下？

1）前期调研进行竟品分析，通过调研了解当前各招聘App的现状。从获客、活跃、投递及转化率多维度进行评估比较，了解该产品在各维度的能力水平。

2）方案策划根据待加强的环节制定相应的方案。如果是该产品的规模小导致X量较低，那应该多从获客端思考，增加丰富获客渠道或提升各渠道的获客能力。如果其规模已经非常大，但是活跃用户非常少，那应该积极采取营销活动以促活，提升最终的投递量。若规模和留存率已经足够高，问题大概率存在产品上，应充分充分思考漏斗中的每一个环节产生漏损的原因，从用户旅程出发，优化用户体验，提升每一个环节的转化率，最终达到提升的目的。

3）推广复盘根据策划的方案，进行小规模的测试，在复盘后发现该策略能够有效提升X量，则可以进行推广。

32. 说一下ABtest的流程？

流程：确定目标和假设->确定指标->确定实验单位->计算样本量->实施测试->分析实验结果 ● 其中确定指标中比较关键的是要确定评价指标和护栏指标，评价指标就是驱动公司实现核心价值的指标，要具有可归因性、可测量性、敏感性和稳定性；护栏指标也就是辅助指标 ● 确定实验单位有从用户层面、访问层面和页面层面进行考虑的情况，用户层面适用于易被用户察觉的变化实验，访问和页面层面适用于不易被用户察觉的变化实验；从用户层面到页面层面实验粒度越来越细，累计的样本量也越来越多 ● 计算样本量，需要预先确认以下数值：显著性水平、功效、实验组和对照组的综合方差以及期望的最小差值。实验组和对照组数据量最好均分，非均分的时候只有相对较小的组达到最小样本量，实验结果才可能显著，并不是说实验组越大越好，因为瓶颈是在样本量较小的对照组上，所以实验组和对照组的样本量最好相同 ● 分析测试结果的时候要注意辛普森悖论等问题，而且要保证样本达到足够的量、检验是否在正常的波动范围内

实施测试

（1）定义策略：确定分流的目的、放量规模、递增的频率、回滚的策略等；（2）筛选用户：确定分流访问的用户特征，定义规则（根据IP，user_id，cookie，业务需求等因素，指定分流策略）；

（3）访问分流：技术支撑，根据分流策略向用户展示不同内容；（4）发布运行：根据不同的实现方案进行部署；（5）采集分析：收集数据，比较不同的方案效果，确定最终方案。

33. AB Test有什么缺点？

（1）制作AB版本的开发、数据收集的工作量较大、以及后期维护成本增加，ROI低；（2）AB测试受场景限制，产品版本发布后，无法增加或更改AB测试场景；（3）通常应用于短期即刻行为，不适用与需要很长时间才能验证的测试；（4）需要的用户人数多，要有足够的样本量。

34. 对AB Test的理解？如何选择样本？（11）

AB实验经常运用在活动策略是否有效的问题上，它的理论基础是假设检验，也就是选择一种合适的检验方法，去验证在 A/B 测试中我们提出的假设是否正确。选取哪种检验方法，取决于指标的统计属性。A/B 测试是促进业务持续增长的最实用、最有效的方式。

最要考虑的是样本量的选择，影响样本量选择通常有4个因素：显著性水平（α）、标准差（1 – β）、统计功效（μA-μB）、均值差异（σ）

● 显著性水平：显著性水平越低，对AB实验结果的要求也就越高，越需要更大的样本量来确保精度

● 统计功效：统计功效意味着避免犯二类错误的概率，统计功效越大，需要的样本量也越大

● 均值差异：如果真实值和测试值的均值差别巨大，也不太需要多少样本，就能达到统计显著

● 标准差：标准差越小，代表两组差异的趋势越稳定。越容易观测到显著的统计结果

将这四个值带入样本计算量公式就能得到需要的样本量，通常有网站专门计算AB实验的样本量，所以只要搞清楚上面四个值，就能计算出需要的样本量，通常来说样本量太少，实验结果不大可信，但是样本量太多，也不是更好，一个最直接的原因就是样本量越大，影响的用户越多，就有可能影响到用户对产品的体验。

35. 自变量是不良体验反馈，因变量留存率，二者相关性该注意什么?

需要注意可能存在幸存者偏差现象。有些用户在有不良体验后会进行反馈，这种反馈在一定程度上可能解释了用户留存率下降的原因，但同时应该注意到，能进行反馈的用户通常是对平台有感情的用户，希望能通过反馈改善平台环境，继而留下来；很多真正失望的用户可能一言不发便直接流失，所以可能出现不良反馈的数量减少但留存率却下降的情况。

36.ABtest结果如何判断？

A方案和B方案，哪个方案的结果更好？

运用假设检验，分为两种不同的检验方式，对于留存率、渗透率、点击率（比率类）等，采用卡方检验。对于人均时长类等（均值类指标），采用t检验。

通过假设检验后，如果结论置信，我们就能够得到A方案和B方案哪个指标更好（有显著性差异），对于不置信的结论，尽管A方案和B方案的指标可能略有差异，但可能是数据正常波动产生。

例如：为了提高点击率，对界面进行了小幅度修改，有两个组一组1000个人，有100个人点击，另一组1000个人，120人点击，怎么判断？

比例类别指标的假设检验中，可以使用卡方检验方法。首先进行假设，设H0为两组实验的点击率无明显差异，H1为第二组点击率要高于第一组。在该实验中，A组1000人中有100人点击，则点击率为10%，置信区间为[8.3%, 12%]；B组1000人中有120人点击，则点击率为12%，置信区间为[10.1%, 14.2%]，在95%的置信度下，进行计算得到p-value=0.15>0.05，不能拒绝原假设H0，因此认为两组点击率无明显差异。

哪个 ROI 更高？

一般有活动相比无活动，留存、人均时长等各项指标均会显著。对于 ROI 的计算，成本方面，每个实验组成本可以直接计算，对于收益方面，就要和对照组相比较，假定以总日活跃天（即 DAU 按日累计求和）作为收益指标，需要假设不做运营活动，DAU 会是多少，可以通过对照组计算，即：实验组假设不做活动日活跃天 = 对照组日活跃天 * （实验组流量 / 对照组流量）；实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天，这样就可以量化出每个方案的 ROI。

对试验结果我们要积极的进行多维度的细分分析，除了总体对比，也看一看对细分受众群体的试验结果，不要以偏盖全。一个试验版本提升了总体活跃度，但是可能降低了年轻用户的活跃度，那么这个试验版本是不是更好呢？一个试验版本提升总营收0.1%，似乎不起眼，但是可能上海地区的年轻女性iPhone用户的购买率提升了20%，这个试验经验就很有价值了。

37.回归分析有哪些？

回归分析中的因变量Y进行数据类型区分，如果是数值类型且1个（比如身高），通常我们会使用线性回归，如果Y为类别类型且1个（比如是否愿意购买苹果手机），此时叫logistic回归，如果Y为数值类型且多个，此时应该使用PLS回归（即偏最小二乘回归）。

百度安全验证

38. 相关性分析有哪些？

有四种相关性分析的方法： 1.图标相关分析（折线图及散点图） 2.计算协方差及协方差矩阵 3.计算相关系数 4.建立一元回归或多元回归模型，做回归分析，计算r方。

39. 如何对用户进行分析？

1.用户路径分析，对新增用户通过数据埋点追踪用户登录后的行为，判断是否是消费/羊毛用户。对流失率的分析需要统计次日留存，三日留存，七日留存和一月留存，要对产品核心功能埋点，分析每一个核心功能每一个步骤，分析用户在哪一步流失，这些数据的收集和分析有助于优化该功能，提高用户留存。

2.将用户数据分为用户画像数据、用户消费数据、用户行为数据进行建模，根据该月这部分用户的行为通过机器学习分类预测算法该用户是否为积极用户。

40. 活动效果不好怎么分析？

需要对用户进行分层，可以分为活动前不付费用户和付费用户，再细分的话可以把付费用户按照付费金额划分区间。统计出各用户群的消费变动。若未付费用户转变为付费用户，则说明策略有效。

答案解析：考察能够想到用户分层。

41.对短视频行业的理解？

首先，该行业中长期来看会往哪个方向走：

短期和长期该行业都有着蓬勃向上的发展趋势，市场规模非常庞大，18年增长率超过了700%，虽然现在增长率放缓，但规模仍在增长。

其次，识别出这个行业的关键风险和成功的驱动因素：

内容生产者的质量，人们碎片化的时间等（本质上是内容行业，需要靠内容吸引用户）

最后，这个行业成功的企业和失败的企业大概都有哪些，为什么？：

现阶段仍有大量产品进场，但是市场为红海，头部效应明显，字节跳动快手占比非常大。因为字节跳动和快手的优质内容创作者数量较大，并且其他失败的app没有自身品类特色，字节跳动风快手风趋同，没有吸引足够的用户流量。

42. 对游戏行业的理解？

首先，该行业中长期来看会往哪个方向走：

目前手游市场正在快速增长阶段，很多之前的页游正在转型成手游，并且游戏在很多企业中收入占比非常大，腾讯的游戏收入占了总收入的45%，哔哩哔哩的游戏收入也占了总收入的40%，前景非常广阔。

其次，识别出这个行业的关键风险和成功的驱动因素：

政治风险、成本风险、竞品风险；成功主要是由于人们可以从游戏中得到即时的正反馈，把享受折现，促使人分泌多巴胺，折现率越高，游戏越吸引人。

最后，这个行业成功的企业和失败的企业大概都有哪些，为什么？：

成功的产品，比如王者荣耀，原神，明日方舟，王者荣耀主要依靠腾讯庞大的社交网络传播以及对lol的成功借鉴改良。近几年，二次元手游赛道也非常火热，因为现在的二次元手游消费群体是当年热爱动漫的那群年轻人，并且二次元手游的流水也非常可观。

43. 费米问题：

北京11点左右上空飞行的飞机数量？

北京机场年旅客吞吐量一亿人次，每天旅客量1亿/365=27万；考虑到机场有大中小型飞机,假设平均每架飞机载客150人，于是北京每天起降飞机架次：27万/150~1800架；大部分的航班集中在早6点-晚12点的18个小时内。城市上空的飞机主要是起飞或等待降落,每架飞机起飞会立刻飞离北京,降落之前需盘旋等待进场,假设每架飞机在北京上空滞留时间在半小时. 故在白天的任意时刻（11点）,北京上空飞机数量=1800*0.5/18=50架

估算北京五环实时车流量？

北京每日车流量约50w人次，主要车流动的时间段为7点-20点，假设北京六环的车流量比例为：4：4：3：3：2：2；即五环车流量占比约11%。故在白天的任意时刻，北京五环的实时车流量=50w*11%/14=4000辆。

估算北京五环有多少辆车？

五环车数量=平均每家有小轿车数量*有小轿车的家庭数量*北五环车辆占比=平均每家有小轿车数量*北京家庭数量*有小轿车的比例*北五环车辆占比=平均每家有小轿车数量*北京人口数量/平均每家人口数量*有小轿车的比例*北五环车辆占比假设家庭拥有私家车：电动车：自行车：啥都没有=6：2：1：1即：有自行车的家庭占比=60%；假设北京六环的车量比例为：4：4：3：3：2：2；即五环车量占比约11%。假设平均每家有小轿车的数量为1。北京人口：2500w，平均每家人口数量4人。北五环车数量=1*2500w/4*60。

怎么估算上海外卖员的数量？

外卖员的数量 = 每天订单总数/每人每天可配送的订单数每天的总订单数=目标用户数/点单频度=上海市总人数*点外卖人数占比/5=2500w*0.4/5=200w 每人每天可配送的订单数 = 每天工作时间/完成一个订单需要的时间= 每天工作时间/（骑手到商家的时间+排队等待时间+配送时间 + 用户等待时间）= 每天工作时间/（商家距离/骑手速度+排队等待时间+目的地距离/骑手速度 + 用户等待时间）= 10/（3/25 + 0.25 + 4/25 + 0）= 18.9 单外卖员的数量 = 每天订单总数/每人每天可配送的订单数 = 10.5万人。

如何预估全国大学生人数？

大学生为大一到大四的人数，一般为18-22岁，我们可以找到1999-2003年的出生人数平均为1800w，假设上学率为80%，都进行了九年义务教育，中考升学率60%，高考升学率60%，则最后全国大学生人数1800X4X0.8X0.6X0.6=2000w。

44. 数据分析用什么工具？

取数和处理数据的工具：Sql、Excel、Python。power BI等

数据可视化工具：Tableau、rflow、matebase等

需要结构化的回答，将常用的数据分析软件按照功能分类，再分别回答。

Excel：excel创建的文件，由工作表组成；工作表：即电子表格，由许多横向和纵向的网格组成；单元格：工作表的最小单位，由行号和列标所确定的坐标来标示和引用；常用函数：sumif，vlookup，rank，average，sum。要求：1.会使用常用的快捷键。 2.会使用基本函数如sumif，vlookup。 3.了解所有的函数并会使用。 4.会使用excel编写宏函数。

Power BI是比Excel更强大的工具： Power BI处理大数据，而Excel无法处理大数据。 Power BI可以连接各种不同的源，而Excel只可以连接到有限的源。 Power BI仪表板更具交互性和自定义性，而Excel仪表板交互性不强。 Power BI 主要用于数据可视化和与大量用户的仪表板共享，而Excel主要用于深入的驱动程序分析。

【本文地址】

公司简介

联系我们