1.1 请说出逻辑回归的损失函数,并且推导出逻辑回归损失函数梯度。 1.2 如果数据维度较大,比如上亿维度,逻辑回归应当怎样处理? 1.3 如果需要做在线计算该怎么办? 1.4 逻辑回归在什么情况下失效?
2.1 请给出朴素贝叶斯方法的公式 2.2 请用代码实现朴素贝叶斯进行文本分类
3.1 请介绍 SVM 的原理 3.2 如果用 SVM 处理非线性数据该怎么办?
4.1 请用代码实现决策树 4.2 决策树跟其他分类算法相比有什么优缺点?
5.1 请介绍随机森林的原理 5.2 请介绍 GBDT 的原理 5.3 请介绍 Adaboost 的原理 5.4 为什么对于很多问题 Ensemble Method 比单个算法分类器取得的效果更好?
K-Means
6.1 请用 Hadoop / Spark 实现并行版本的 k-means 6.2 K-means 与 Topic Model 是什么关系? 6.3 K-means 算法中如何选择 K,能不能不选择 K ?
Gaussian Mixture Model
7.1 请说明 GMM 的原理 7.2 GMM 最后如何判断某个点属于哪一类?
Topic Models
8.1 请说明 LDA 的基本原理 8.2 LDA 怎样选择 topic 的数量,能否不选择 topic 的数量?
9.1 请说明梯度下降与随机梯度下降的区别? 9.2 请问应当如何处理不均衡分类问题? 9.3 请问如何处理 bias-variance trade-off ?
第二部分 大数据算法基础编码能力题
给定一个包含100万篇文档的文件夹,请用 Hadoop / Spark 统计文件夹中所有文档中每一个词出现的次数
给定一个包含100万篇文档的文件夹,请用 Hadoop / Spark 统计共同出现在同一篇文档中的词对的个数
第三部分 推荐系统和用户画像
协同过滤算法怎样解决稀疏性问题?
推荐系统如何解决冷启动的问题?
推荐系统如何解决马太效应?
对于时效性强的推荐场景比如新闻推荐,该如何设计推荐系统?
除了点击率,推荐系统还有哪些测评指标?设计推荐系统时该怎样设计?
对于历史数据稀疏的推荐场景,比如电脑,家电和汽车的推荐,该怎么设计推荐系统?
请介绍一下怎样使用混合模型设计推荐系统?在这方面你有哪些经验?
请简单介绍一下排序学习在推荐系统中的应用
请简单介绍一下 Factorization Machine
你了解增强学习在推荐系统的应用吗?
你了解深度学习在推荐系统中的应用吗?
请简述用户画像的流程
用户画像该怎样获得足够的训练样本?
用户画像怎样扩大召回?