Simon

Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks

原文请狂击这里 概述 本文提出了一种简单实现却能力强大的reparameterization方法,目的是加快深度网络的收敛速度。 方法 该方法的基本原理是将权重的方向和大小解耦变成两个变量分别优化,这样做从概念上去理解是可以在两个维度上分别去收敛,加快收敛的速度原理显而易见。 该方法的实现方式也非常的简单,对于一个$y = active(x * w + b)$这样的一个简单层,基本...

More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server

原文请狂击这里 概述 在大规模的数据集上很难避免并行的训练模型,想象一下100T的训练数据一个worker是很难在一个合理的时间里完成训练的。 并行训练给机器学习带来了一些新的挑战,除了基本的数据流、运维调度等等方面以外,有一个重要的问题就是梯度更新的方法。无论是传统的SGD还是各种新的优化方法基本都是基于batch更新的,并行训练时各个worker处理分配到这个worker的batc...

An Empirical Evaluation of Thompson Sampling

原文请狂击这里 概述 汤普森抽样(以下简称TS)是EE方法的一种,所以提到TS不得不介绍一下EE。 EE全称Explore & Exploit,假设在一个广告系统中尝试选择一个最佳的广告展现给用户,那么Explore指选择一个之前没有被(或者很少被)展现的广告来观察用户是否喜欢、而Exploit指在已经被大量用户验证过的广告中选择一个最好的展现给用户。 所以可以看到Explo...

Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time

原文请狂击这里 概述 这一片论文和上一篇介绍Youtube推荐架构的论文很像,也是结合了工程和算法实现的文章。这一篇主要介绍了来自Pinterest的新推荐架构Pixie(这名字读起来像是在喊我一样……尴尬),Pixie走了一条和Youtube截然不同的推荐路线。其以Random Walk算法为主扩展和升级实现了Pixie。 不同于之前介绍的绝大部分算法都是端到端的有明确的训练目标的模...

Deep Neural Networks for YouTube Recommendations

原文请狂击这里 简介 这篇论文是Google出品的讲解YouTube中推荐算法的论文,整体上看工程意义可能要大于研究的意义,是一篇很好的讲解推荐系统、算法的综述。其中涉及到非常普遍的大规模推荐系统的工程实现方法以及对应的算法环节,从系统角度讲几乎任何推荐系统都脱离不了这个框架,在这个框架之上各种工程实现与算法实现分别从不同的角度调优这个系统。 以下我将简单的介绍一下这篇论文。 方法 ...

Field-aware Factorization Machines for CTR Prediction

原文请狂击这里 简介 强烈建议在阅读本文之前阅读一下上一篇FM的介绍,因为FFM(Field-aware Factorization Machines)就是在FM的基础之上改进了联合特征分解方法。 在FM方法中每一个特征都会学习得到一个向量,该向量用于和其他特征的向量运算得到两个特征的联合的权重,那么这个向量可以理解为特征在一个稠密空间中的映射,或者说是一种包含语义信息的映射。那么很容...

Factorization Machines

原文请狂击这里 简介 简单的说FM(Factorization Machine)是一类自动特征组合算法。相比于传统的SVM、LR等模型,FM可以自动的进行特征的组合运算用以替代一部分人工特征工程的工作,并且计算量可控对于海量输入特征仍然可以尝试使用这个方法。另一方面,对于稀疏特征SVM等模型相对难以取得特别好的效果,而FM应用分解的方法可以很好的处理稀疏的输入。 相比较于其他的分解方法...

BPR: Bayesian Personalized Ranking from Implicit Feedback

原文请狂击这里 概述 本文提出了一种对推荐结果进行排序的方法和框架,旨在基于已有的多种推荐算法上应用该算法以提高推荐结果的排序效果。 已有的各种推荐算法其输可以理解为是对物品是否可被推荐的概率分布,而在实际场景下往往是会召回很多个待推荐的物品的,大部分算法直接使用了这个概率分布取得TopN结果来作为推荐候选并且推荐项之间的顺序是按照概率大小来决定的。 这种方法是可行的,但是从原理上讲...

Collaborative Filtering with Recurrent Neural Networks

原文请狂击这里 简介 这篇论文的方法比较直接一些。首先他提出了目前常见的协同过滤算法都没有考虑时序的问题因此不能很好的学习用户的长期、短期兴趣。因此本文提出使用RNN网络来建模用户的历史数据,以便于在推荐中可以体现出用户的长期、短期兴趣的变化。 方法 对用户推荐被建模为一个序列预测问题。给定用户历史,那么模型的输入是$Item_1, Item_2, …, Item_{i-1}$模型的...

LINE: Large-scale Information Network Embedding

原文请狂击这里 简介 本文提出了一种名为LINE的算法来计算图中的顶点的向量表示。关于图的顶点的向量表示上一篇DeepWalk: Online Learning of Social Representations以及写的比较详细了,这一篇主要会集中在LINE这个算法上。 与上一篇DeepWalk不同LINE具有更加直观的建模目标,其尝试学习一组顶点的向量表达使得这些向量之间的内积经过变...