lyq/yunyin: 云英远程面试，资料。 - 芝舟开源

1. 逻辑回归
1.1 请说出逻辑回归的损失函数，并且推导出逻辑回归损失函数梯度。 1.2 如果数据维度较大，比如上亿维度，逻辑回归应当怎样处理？ 1.3 如果需要做在线计算该怎么办？ 1.4 逻辑回归在什么情况下失效？
1. 朴素贝叶斯
2.1 请给出朴素贝叶斯方法的公式 2.2 请用代码实现朴素贝叶斯进行文本分类
1. SVM
3.1 请介绍 SVM 的原理 3.2 如果用 SVM 处理非线性数据该怎么办？
1. 决策树
4.1 请用代码实现决策树 4.2 决策树跟其他分类算法相比有什么优缺点？
1. Ensemble Method
5.1 请介绍随机森林的原理 5.2 请介绍 GBDT 的原理 5.3 请介绍 Adaboost 的原理 5.4 为什么对于很多问题 Ensemble Method 比单个算法分类器取得的效果更好？

K-Means

6.1 请用 Hadoop / Spark 实现并行版本的 k-means 6.2 K-means 与 Topic Model 是什么关系？ 6.3 K-means 算法中如何选择 K，能不能不选择 K ?
Gaussian Mixture Model

7.1 请说明 GMM 的原理 7.2 GMM 最后如何判断某个点属于哪一类？
Topic Models

8.1 请说明 LDA 的基本原理 8.2 LDA 怎样选择 topic 的数量，能否不选择 topic 的数量？

1. 其他问题
9.1 请说明梯度下降与随机梯度下降的区别? 9.2 请问应当如何处理不均衡分类问题? 9.3 请问如何处理 bias-variance trade-off ?

第二部分大数据算法基础编码能力题

给定一个包含100万篇文档的文件夹，请用 Hadoop / Spark 统计文件夹中所有文档中每一个词出现的次数
给定一个包含100万篇文档的文件夹，请用 Hadoop / Spark 统计共同出现在同一篇文档中的词对的个数

第三部分推荐系统和用户画像

协同过滤算法怎样解决稀疏性问题？
推荐系统如何解决冷启动的问题？
推荐系统如何解决马太效应？
对于时效性强的推荐场景比如新闻推荐，该如何设计推荐系统？
除了点击率，推荐系统还有哪些测评指标？设计推荐系统时该怎样设计？
对于历史数据稀疏的推荐场景，比如电脑,家电和汽车的推荐，该怎么设计推荐系统？
请介绍一下怎样使用混合模型设计推荐系统？在这方面你有哪些经验？
请简单介绍一下排序学习在推荐系统中的应用
请简单介绍一下 Factorization Machine
你了解增强学习在推荐系统的应用吗？
你了解深度学习在推荐系统中的应用吗？
请简述用户画像的流程
用户画像该怎样获得足够的训练样本？
用户画像怎样扩大召回？