2015年11月12日星期四

阿里双11单日最终成交912亿

  对双11并没有定下成交量指标的阿里巴巴11日24时再次创造了奇迹:11月11日当天交易量达到912.17亿元人民币,比2014年双11成交额提升近60%,而2009年阿里巴巴第一次双11的销售额5200万元人民币。阿里巴巴CEO张勇表示,这不仅仅是一个数字,这说明双11已深入人心,反映了 消费者的力量,也反映了互联网的力量。他说,这次双11阿里巴巴将申请吉尼斯纪录的尝试,首先将申请的是坚果、汽车等八项吉尼斯世界纪录。

  今年是阿里巴巴第七年举办双11购物节,2009年第一年双11交易额5200万元,2010年交易额增至9.36亿元,2011年成交52亿元,2012成交191亿元,2013年成交达362亿元,2014年成交额571亿元,2015年成交额912亿。

  在912亿这个最终数据出来之前,马云现身媒体直播间时表示,阿里没有对今年双11定过销量目标。而能确定是双11至少要办百年,要比阿里巴巴活得长,“今年我们在北京搞双十一,明年会是纽约,巴黎,伦敦,东京,世界各大著名城市。”

  现场,他表示过去三年他对双11的预测都很准,这一次他也在三个月前写下数字放进抽屉,但他并未透露自己的猜测。

  许多商家在双11之前已经备战数月。在这场天猫双11活动中已蝉联三年家具类目第一的林氏木业负责人马灿兴说,今年双11开始之前,他们已经做了“保5冲6”的业绩目标,并按此做了“50%成品、50%半成品”的备货准备,而最终,林氏木业在天猫双11活动中成交了5.11亿元。

  对于本次双11强调的O2O战略,马灿兴表示,天猫店的营销其实也带动了线下实体店的业绩,而此前林氏木业实体店也可是做双11聚客准备。就在刚刚的11月11日这一天,林氏木业单店成交额超过1500万。

  而连续卫冕鞋服类目冠军的骆驼负责人万金刚表示,作为商家很真的很感谢阿里天猫平台,骆驼最终的业绩成交是4.12亿,“但销量要冲,名词要争,利润也不能丢”万金钢表示,这是健康的双11,是可持续的双11。

  全球化是今年阿里双11的重大战略之一,由于时区问题,速卖通等平台的数据其实还未最终结算。在北京观战了2015双11的西班牙国家日报中国通讯员荣哈维被最终的912亿的成交数据震惊了。他说,西班牙本身并没有类似这种节日,“以前西班牙人会过美国黑色星期五,而现在中国的双11也正在越来越多被西班牙人知晓,亲眼在中国看见了这个数字,还是觉得很神奇。”

  而据阿里巴巴张勇透露,今年双11,有坚果、牛奶、蜂蜜、汽车、手表、手机八种产品,将申请吉尼斯世界纪录。

  “我们的梦想也是能够把这个双11,从一个中国的消费者节日,更多更好地走向一个全球的消费者节日。”张勇表示。

2015年11月11日星期三

京东能否对攻阿里

  在双11前夕,腾讯和京东联手召开发布会宣布推出“京腾计划”,使得平台方、品牌商、用户有机的连接起来,让这句互联网产业形成共识的口号有了落地的可能。

  一年一年又一年,11月11日这个在中国实质上仅次于春节的第二大节日离我们越来越近。相比往年今年的双11有了很大的变化,这里指的变化不仅仅是商品和服务层面,更指的是行业竞争格局的巨大变化。当然,从今年双11开始,往年诸如亏快递爆仓、账户被盗、订单异常、先提价后打折等弊端将会大幅度减少,我们的消费者的购物环境和体验将会越来越好。

  双11原本只是电商平台独有的光棍节促销,后演变成全行业的狂欢。从今年开始我们线下的商户也开始全面的开展各种双11的促销活动,并且和我们线上的电商巨头进行合作,共同把双11在2015年进行了一次彻底升级。

  下面我来说下今年双11电商竞争格局和消费者参与方面的几个变化。

  阿里+苏宁对攻腾讯+京东的双巨头格局形成?

  今年以来,随着腾讯和京东开始真真意义上“穿了一条裤子”,双方资源强强联合互补后,凭借着腾讯社交媒体平台的积累和京东在物流、大数据、开放平台等方面的优势能量,使得业界普遍有一种观点认为2015年的双十一主角变成了两家:一家是阿里和苏宁、一家是腾讯和京东的联手,其他平台更多的是旁观者,这两大阵营将会消耗掉用户大部分的双11开支预算。

  京东固然作为后起之秀,近来屡屡抢了阿里风头,尤其是和腾讯结合后,可以利用到腾讯多年来积累起来的中国互联网最广阔的用户资源,这次双11必然会成为大赢家。近来很多品牌商户也开始主动宣传其在京东的页面广告,甚至一些产品在京东的销量多少与否成为了市场评判其成功与否的标志。所以,基本上可以预计2015年的双11,京东平台的交易额会大幅超过去年。

  但,也不代表其他平台或者商户就没有了一搏之力,现在我们的很多传统企业也开始觉醒,主动的利用互联网的渠道和模型开始进行改造升级,他们在这次双11中,也有望创造出一定的成绩。

  电商格局巨变:模式的裂变

  2015年的双11,京东能够引发超过以往任何一年的关注,很大的原因在于京东和腾讯联手推出的京腾计划,这项由马化腾和刘强东亲自站台推出的战略级杀手锏,一度登上媒体的各大头条板块。

  其实在我看来,京东和腾讯“京腾计划”很好理解,并没有大家所想的那样虚无缥缈。这个计划其实就是京东利用了腾讯的社交平台和属性,可以和品牌商家真正的“玩起来”或者“互动起来”,而这个玩耍的过程不再是平台和品牌商的双簧戏,而是我们用户全面参与的社交和电商结合的新狂欢。

  就在“京腾计划”发布后不到半个月,京东就在这个双11小范围试探“京腾生态”的“电商+社交”能量,联合优质厂商在朋友圈发起“品牌竞猜”。猜谜活动的25亿红包优惠支持用户直接在微信内京东商城的平台上购买,打造出微信购物闭环,给谨慎探索“社交+”的京东及其合作商家提供了同步用户属性数据、购物行为数据的机会,进而为后续的资源匹配、深度营销打下基础。

  电商格局巨变的背后本质是模式的裂变,而模式的变化最后深层次原因就在于:原本消费者就是消费者,而现在消费者成为了参与者和规则的制定者!在以往商户生产出来什么产品我们消费者就得买什么,而现在我们消费者需要什么,商家就要生产什么,这项变革看起来很简单,但操作起来很困难,这个变化需要社交网络和大数据的告诉发达才有可能实现,而现在腾讯和京东的结合真正意图也正在此。

  凯撒的归凯撒 用户的归用户

  有句话叫做凯撒的归凯撒,用户的归用户。双11这个热热闹闹的节日,看起来是归电商平台的,本质上却是归用户的。这是一场由电商平台发起,全体网民集体参与的大狂欢,网民的意志决定了这场狂欢的规模和走向。

  也就是说,那些真正尊重用户、尊重网民、尊重市场规律的电商平台才能脱颖而出。随着移动互联网和社交3.0时代的来临,去中心化的开放模式已是大势所趋,基于大数据的分享、推荐和基于用户的口碑和评价将会成为主流。一款商品甚至一家电商平台能否成功,就在于看他能否去中心话,用更接地气的方式来满足用户的需求,并且让用户用脚来投票,选择一款商品或者一种服务。

  总之,关于电商行业,不管怎么发展,最终遵循的一条定律是得用户者得天下,而不是之前得渠道者得天下。

  来源:丁道师投稿

2015年11月10日星期二

我所理解的大数据个性化推荐

  想起要写这篇文章,一方面是昨天终于把项亮写的《推荐系统实践》给看完了,另一方面是自己负责的推荐系统项目已经处于一个多版本迭代的阶段了,并且从最近的AB测试效果来看,新提交的算法模型还是有一定的进步的,如今已经把流量全部切换到了新算法中。

  所以,结合看书的一些思考,以及实际操作的一些感想,总是有一些想要表达、分享的东西,不吐不快啊~~ 哈哈!

  不过在说个性化推荐之前,说两个题外话。

  首先就是关于看书这个话题,我在《这些年,这些挖掘机算法,这些反思》一文中,曾经说到。看书是提升自我的一个最佳途径,我说过曾给自己定了一个每月看完一本书的目标,说来惭愧,至今只能算面面强强完成任务。不过关于看书这个观点,个人还是坚持自己的看法的。

  首先是如何给自己挤出看书的时间,一是上下班地铁的零碎时间,二是睡觉前,三是敲代码搬砖搬累的时候。我想说的是,想要提升自己,书是一定要找时间看的。记住,这个时间不是为别人挤的,是为了未来你的薪水能够提上那么个一两档而挤的!

  其次,关于看书的方法。以前,我看书只是试图理解作者的意图,然后从中吸取能够吸取的知识。现在,我看书喜欢拿着一支笔,边看边涂涂画画。

  我试图去理解作者说的话,然后结合自己的认知,写下自己的感性,甚至是依据自己的认识反驳作者的观点,然后事后去求证。对于我不熟悉的领域,我会写下看完后的一些体会。

  然后就是对于部分章节,如果我认为其价值量并不值得我去细究,我会迅速的跳过,毕竟时间还是挺值钱的。

  所以,后期以来,只要是我看过的书,一些章节要么是涂涂画画了很多东西,要么是崭新的页面。总结起来就是,看书不能看死书,要有一定的效率和方法,找到适合自己的,然后从中获益!

  OK,说了不少题外话,言归正传。

  一、由这本书想到的一些东西

  先来对这本书(《推荐系统实践》)来个整体评价吧。

  个人对这本书的定位就是:它不是一本推荐系统的工具书,所以他不会详细的介绍推荐系统的一些算法,更多的笔墨在于讲述在设计个性化推荐系统中的一些衡量点、一些思维方式(这个我认为更重要,原因后面细说,甚至于书中的一些实验参考个人认为可看可不看)。

  所以,感觉这本书的题目取的有点稍稍不合理~~

  好吧,咱不纠结他的书名了,说一说一些书中个人认为值得一起分享的东西吧。这些东西都是看书之后,结合实践操作的一些感想。

  并且,你会发现这章的内容,绝对不会是书中内容的重复,对于开挖掘机特别是开推荐系统挖掘机的人来说,相信我,我的观点会有用的!

  (1) 首先谈一谈关于推荐系统评测

  我先列一下作者列举的评测指标:用户满意度、预测准确度、覆盖率、多样性、新颖度、惊喜度、信任度、实时性、健壮性、商业目标。然后作者说,在设计推荐系统的时候,要尽量的考虑这些指标,特别是推荐的结果尽量满足多样性、新颖、能够惊喜就更好了。

  关于这一点,其实个人观点有点不一样,我认为评测推荐结果只有一个指标就够了,那就是商业价值,能够提升商业价值,给业务带来更多利益的推荐系统,就是好的推荐系统。

  至于说推荐的多样性、新颖度,如果多样化的推荐结果能够提升价值转换,那我们就在设计推荐系统的时候适当的提高多样性的权重,同样,如果新颖的东西能够提升价值转换,那么我们就提升新颖的权重。这才是回归推荐系统的本质!

  在这一点上,在个人的实际操作中也是这样做的。我们会首先定好我们需要达到的目标,比如转化率或者是收益转换,我们调整算法的唯一依据就是:转化率提升了?如果是,那么我们的算法改进就是有效;如果不是,那么这次改进就是一个失败的改进。

  至于说书中的每次实验,都评估覆盖率、多样性以及其他等几个指标,在我看来,其实是没有必要的。

  结合实践来说,因为你不敢保证提升你的推荐覆盖度就一定能够提升转化率,换言之,如果挖掘长尾能够提升转化率,那么,我们就适当提高覆盖度,并且尽量支持多样性。然而实际的业务场景是很复杂,这种保证并不是绝对的,需要依据于实际的情况而定,说白,那就是实际操作。

  既然说到了实际操作,那我们说一说评测方法相关的东西吧。

  书中列举了三种方式:离线实验、用户调查、在线实验。

  首先说一下离线实验,个人认为在推荐系统中,利用已经现成的用户行为轨迹(即推荐之后是否点击之类的数据),来预测一个推荐系统并不是很靠谱,只能做为一个参考。

  因为,例如推荐这种场景,并不是如分类这种的模型,没有一个绝对值,对就是对,错就是错,它只是一个预测程度的提升。

  其次,用户调查这种方式,有一定参考性,但是前提是调查的量要足够,如果取的量不够,其意义是不大的。所以,这是一个耗费巨大成本的工程,在实际的操作中并不可取。

  所以,个人认为其重点应该是在在线实验,而且严格来说是AB测试。说白点就是,我们把数据分流,一部分数据走A推荐算法,一部分走B推荐算法,然后收集AB算法的推荐结果导致的用户行为,根据核心价值一对比结果,一目了然。

  但这样,或许就有人有意见了:在线系统是一个很严肃的事情,怎么能在线上进行未知效果的算法实验呢?

  关于这个问题,首先,算法上线之前对于新算法肯定是需要进行一定的评估的,比如离线实验,虽然说不能绝对依靠它,但是作为一个参考完全是可以的。

  其他的一些诸如统计调研工作也是不可缺少的,在数据量较大的情况下,是能反映一些问题的,然后算法的设计总是有依据的,这些就是依据。换言之,这些前提工作能够保证,即使你的新算法不会比现成的算法好,但也不会出现大幅度下降的情形。

  如果出现了这种情况,只能说明你们的初期工作做的太烂,你们的算法设计方案是瞎搞的。

  其次,我们设计的AB测试机制,必然是可以调节流量分配的,如果不是,那么设计者去面壁吧。在AB测试分流中,我们完全可以控制新算法的流量,达到一个可以观察到效果,又能保证失误在可控的范围内。

  (2) 冷启动,这是一个很严肃的问题

  关于推荐系统的冷启动,作者专门看了一个单章来说这个问题,But,在书的最后又提出了一个观点:忽略推荐系统冷启动的问题,因为,只要你的推荐系统设计的足够好,是不担心数据问题的。

  但在我认为,冷启动是个大问题,特别是对于初入此道的人来说,是绕不开的一个问题。对于冷启动,有一个好的机制进行解决,那么,我们的推荐系统才有一个好的开端。

  诸如推荐系统中的最经典的协同推荐算法,其核心依赖就是用户行为数据,在一个推荐系统初期,用户行为是很少的,那么这就是我们急需解决的问题。

  辣么,如何累积用户行为数据呢?

  并且,请注意,在累积用户行为数据的前提下,我们需要尽可能的保证推荐的有效性,也就是说,让用户更有可能去点击你的推荐,对于公司来说,你尽可能的创造价值,对于你本身业务来说,你也可以尽快的收集到更多的数据嘛!

  举个简单的栗子。我要做一个类似于今日头条这种APP,进行各种新闻头条个性化推送。一句话,咋整?

  这就是冷启动中的冷启动了,因为整个系统都是新的,文章是新的,用户是新的,没有任何用户数据,没有观看记录,没有顶踩行为。无法体现用户偏好,甚至于连文章是否是热点我们都不知道。

  这个时候,怎么办?按照书中所说,利用用户的注册信息,然后结合商品信息,进行推荐,这个基本思路是没有问题的。在这里,商品其实就是各种新闻头条。

  但是,这种方式局限性也很大,一方面,在注册时信息有限,并且很多时候这种信息是带有欺诈性质的,所以我们不能过度依赖于其。

  这个时候,怎么办?请忽略针对于用户个性化的推荐,我们只要掌握大体趋势就好了。那么,如何掌握大体趋势。借助外力!

  刚才说了嘛,类似今日头条。今日头条肯定做了类似的工作,例如在你没有登陆的情况下,肯定同样提供了推荐列表。并且可以肯定的是,这个推荐列表是有数据支撑的,并不是胡乱推送的。也就是意味着,这批推荐名单是比较容易被普通大众所接受的,换言之,是能够提升点击率的。

  那我们如何利用它呢?我们复刻一个推荐列表出来。当然,并不是要你直接把人家的文章拿过来直接放上,要是这样,人家就该告你了。

  我们可以通过计算相似度的方式,针对于今日头条的每一个推挤,在自己的文章库里计算一个最相似的文章出来,顶上去。不依赖于任何己方的数据,一个推荐列表就出来了。

  至于说效率问题,其实类似这种新闻头条的推荐列表,其变化并不是实时的,所以,计算的代价完全是可以承受的。

  至于说如何计算相似度,那就是另外一个范畴了,这里只是提供一个思路。

  说到思路,那么,通过这个栗子,我想要表达的意思也差不多了,那就是处理这种冷启动的问题,我们的处理思路是:借助类似产品的现有成果,并以此为依据。

  虽然有点无赖,但是能解决问题,无赖就无赖吧~~

  在收集到第一手行为轨迹之后,往后的事就方便多了,该怎么滴怎么滴吧~~

  (3) 上下文信息与规则打分模型的关系

  书中有提到,所谓上下文信息,主要两方面:时间上下文,地点上下文。

  在我认为,其实是远远不够的,一切可能对于结果有影响的第三方因素都是可以参考的。所谓第三方因素,个人认为可以定义为:与用户个性化没有显性关联的因子。比如前文说到的时间、地点,又如季节、天气等等诸如此类。

  说到这些,不得不说到规则打分模型。

  说到规则打分模型,简单解释一下吧。所谓规则,即我们自己定义的一系列操作规范;至于打分,则意味着有某项操作,我们就给某项操作加分。最后看看谁的分多,我们就选择谁。换个专业点的术语就是规则权重模型,好吧,其实就是权重计算。

  很简单是吧,但是别忽略它的重要性。个人从来就不认为推荐系统就是协同推荐之类的算法作为代表。

  推荐系统,这是一个浩大的工程,以协同推荐为代表的算法只是其中的一个因子,它必然是综合了各种各样的东西的。而权重模型是一个很简单,很原始又很有效的方式。

  如何定义不同外在因子对于推荐结果的影响,也就是如何针对于不同外在因子赋予其应有的权重比。这需要数据的统计!

  特别是在当期大数据的背景下,这种基于统计的规则权重模型愈显有效。大规模的数据统计是能够体现数据趋势的,这点毋庸置疑!

  好吧,我承认,这也是为何我把题目中数据加了个“字”的直接原因。

  并且在实际的操作中,很多推荐系统的结果都是通过规则权重模型呈现的;还有就是多种推荐方式时,是通过规则权重模型把多种方式结果整合,以达到结果最优化。

  所以,在你的推荐系统算法没有丝毫思路的时候,何不尝试尝试走规则权重模型的路子?通过权重模型去修正你的推荐结果,你会有惊喜的!

  (4) 无处不在的长尾以及马太效应

  长尾分布或者说长尾效应,这个名词解释应该不用我多说了吧。实际上,在现实生活中,这是一个很常见的现象。

  然后长尾分布导致的直接结果就是马太效应,即通俗点说就是强者愈强,弱者愈弱。

  即,比如一些热点物品,其附带的行为数据越多,其得到的推荐机会就越大,然后被展现的机会越多,然后再次被推荐的机会越多,然后…陷入死循环了,其他物品还有存在的必要吗?!

  所以,作者在实验结果中除了准确率,另外一直很强调的一个指标就是:覆盖率或者说多样性(这也是为何我我一直跳过他实验描述部分的原因,感觉参考意义不大)。

  对于说我们是否需要挖掘长尾,我的观点跟我之前提到的依然一致:如果挖掘长尾有益提升我们的商业价值,那我们就想方法提高覆盖度,换言之就是降低热点物品的权重;如果挖掘长尾对于我们提升价值转换并没有益处,那我们为何要这么做。

  极端点的栗子就是:假如我每天推荐的是固定这几个物品,从不改变,但是,它创造的价值比其他任何流弊推荐系统产生的价值都高,那么,它就是一个好的推荐!

  这又回归到了我之前的观点:衡量推荐系统好坏的唯一标准就是,它是否能够提升价值转换!

  那么,我到底该不该挖掘长尾呢,大家都挖?还问这个问题的人一定是个死脑筋。是否挖掘长尾,看业务场景,然后进行充分的AB测试,来决定是否提升覆盖度、多样性,提升多少,这一切的标准唯一衡量就是,它能给我带来更多的money吗?

  如果它能给我带来更多的money,长尾就长尾吧,马太就马太吧,又何妨?

  二、我那悲惨的推荐系统实践经历

  写这个之前,我仔细的反思一下,我策划并且实施的那个推荐系统算是推荐系统吗?然后我想了想,感觉应该还算是,只不过不是典型推荐系统,但是在整个实施的过程中,思考的方式还是可以借鉴的。

  并且,可以预见的是,实际的工程操作哪有像教科书似得,都是特定场景,特定条件下的产物。也就是说,没有通用的推荐系统,即使有,肯定也是不好用的!

  我想,在整个过程中,一些思考,一些处理问题的方式,对大家在以后类似工程的实施中还是有一些参考意义的。

  所以,我还是决定把它写下来~~

  (1) 业务场景是这样滴

  还记得那会儿是三月份还是二月份来着,我所在的A公司上线了在线教育频道,一段时间后,主持运营在线教育的B君突发感想,博客频道辣么多流量,随随便便不就可以引一大坨流量过来了吗?于是乎,任务跑到了我所在的数据部。

  需要说明的是,A公司主要是做IT技术论坛社区博客的,而在线教育客户也是程序猿,所以业务上并不冲突,这个引流思路也是对的。

  言归正传。

  我当时一看,这不是推荐系统么!然后再仔细一看,这是推荐系统吗?好吧,我承认,有点绕口了。

  我们首先来回顾一遍,我们正经的推荐系统是什么样的。吃个栗子,啊不,举个栗子:我们在一个视频网站上看视频,然后下面给你推荐了一坨视频,可能是根据你的偏好,也可能是根据网站用户的数据给你推,反正不管,这是正经的推荐系统;你在某宝买东西,然后浏览物品的时候,下面列出一坨东西,这是正经的推荐系统;等等诸如此类。

  然后再回到我们的场景,我在浏览一片IT技术博文,然后下面你给我推荐一坨在线教育视频。这叫啥事儿!

  对比一下发现了没有,上述的场景跟我们的场景哪里不一样?是的,他们推的东西都是一类,而我们的东西完全是两套东西,一个是IT技术博文,一个IT在线培训视频,他们有着不同的属性。

  如果运营在线教育B君说,blogchong sir,我想在我们在线教育频道做视频的推荐,来给整一套吧。

  那我会很愉快地按照行业标准,迅速的整一个推荐系统出来,然后按部就班的调算法,优化效果,从此过上快乐的生活!

  But,事实摆在眼前,需要面对就是这么一个业务场景。我仔细想了想,这是一个推荐系统,只不过是一个不那么正儿八经的推荐系统。

  然后设计方案、组织人手、推动项目进行等这个活落到我头上了。这是上天的安排,对我的考验吗?事实上是组织给我的安排,对我的考验。顿时泪牛满面~~

  好吧,那就干吧!

  (2) JUST OT IT

  在那之前,虽然对于数据挖掘领域有所涉猎,但是在推荐这一块,还是处于基本理论了解到水平,并且当前部门里并没有其他太多的可参考的东西。

  我开始着手调研这个业务场景,然后很杯具的发现,业内基本没有出现类似的这种业务场景。是的,有谁能够想到要从X事物关联到Y事物啊,但事实就是如此。

  然后我开始分析,在博客与视频之间到底有什么样的联系。我挨个梳理两者的属性列表,然后发现他们其实还是有共同点的,比如:他们主要IT方向的,他们都有中文Title,都有tag,都有des也就是详细地中文描述。

  是的,我们无法从业界进行参考,我们无法通过用户行为进行参考(相当冷的启动),那么他们两唯一的关联就是主题了。

  抛开用户行为,推荐相同或者相似主题的内容,这是不会错的,这是推荐系统的常规方式之一。

  于是按照这个思路,我开始做设计。一开始,对于很多方面的思考都不成熟,所以映射也比较简单,直接通过博客的tag去找视频。

  方案开始实施,考虑到后期视频内容量的增长,我使用博文tag通过搜索引擎的方式聚合出视频,于是推荐列表有了。

  产品经理C君说,光通过博文进行推荐不行啊,我们需要考虑那些热点视频。好吧,那就加上吧,于是,我在推荐列表中加了一部分观看次数TopN的视频。

  C君又说,光有博文推荐出来以及最热视频也不行啊,我们得考虑用户。于是,我和擅长数据批量处理D君把公司里所有活跃用户近一个月的博文浏览行为跑了一遍,其实就是看用户看了写了那些博文,并且对所有博文tag根据读写不同权重进行排序,选择前N作为用户的核心技能。而且,我们在调度中心做成了定时任务,定时更新用户画像中技能字段。

  好吧,用户的tag也有了,剩下的过程与博文没啥区别了。

  接着需要考虑的问题就是,三种方式得来的列表,我们该怎么分配,因为推荐位就那么几个,总的分一分吧。

  然后C君说,拍脑袋吧,于是,我们拍脑袋给他们定了个权重。

  只怪我当初太年轻,太好骗,啥也不懂~~

  好吧,不管怎么样,我们的第一版推荐系统正式上线了(没法离线评测),然后我让BI小组的G君给网页上埋了点,进行结果收集。

  BI报表出来了,结果差强人意,这是显然的。

  (3) 工作还得继续

  我和数据分析小组的E妹一起跟踪行为历史log,发现了其实很多博文很多用户根本就没有tag,这样会导致我们都给人家推的是Hot数据。换言之,很多根本是毫不相干的。

  于是,我开始着手解决这个问题。没有tag,那我就给造tag。在推荐的时候,我通过博文的Title,进行分词,并且把停用词去掉,把分出来的词填充到临时tag中,用于视频的聚合,并且通过直觉略微调整了下三种方式的权重。

  结果又好了辣么一点点。

  这事被F君知道了,他说,如果要获取一个比较客观的博文主题,为何不从整个博文中进行抽取呢?有道理!

  我跟D君开始进行主题抽取的研究,并且最终又把800G的较新博文跑了一遍,在数据中心为它填充了一个新的主题词描述字段。妈妈再也不用担心我的tag了!

  于是乎,我们的结果又好了辣么一点点。

  又过了一段时间,数据分析小组的G妹通过分析发现,其实很多视频课程跟我们的博文相关度并不是很大的。我说不对啊,我们抽取tag词中,虽然有些不相关的词,但是基本上对应的技能大部分还是比较靠谱的呀。

  然后我再梳理了一遍通过tag词聚合视频课程的过程,确实存在课程不是很匹配的情况。

  原因在于主题词抽取虽然大部分情况下都把对应的技能词给提取出来了,但是权重排序很难做到很准确,而我们的检索引擎匹配又是匹配更多的词的结果,权重会较高。

  于是,我认为应该把主题词分主次。举个简单栗子,假如主题词有三个:hadoop、应用、开发。那么,我完全可以认为,hadoop其实才是最主要的词,其他两个都是次要的。

  就比如,我希望匹配到是hadoop视频课程,而目前结果恰巧那种“XX应用开发视频教程”会排在前面。当然,如果能完全命中“hadoop应用开发教程”,那就更好了。

  我跟G妹开始梳理在线视频教育的技术点,把认为能够体现技术特征的词整理成了一份数百词的核心词字典。

  于是,在聚合逻辑上,我会优先考虑核心词的命中,然后才考虑次要的词。这样,我们的结果似乎又好了一点点。

  后续,我们又做了一些小的修改,但发现,结果提升的幅度越来越小。

  如果按照这个路子下去,估计我们的结果也就这样了。

  里程碑式的跨越,是在我跟F君进行的一次深度的讨论。

  (4) 里程碑式的跨越

  在讨论之中,我们在深刻反思,我们的路子走的对不对。假设在主题词提取的足够正确的前提下,我们是否全盘考虑了所有词对于视频匹配的贡献呢?

  然后关于视频属性的命中,我们又在考虑,命中位置对于匹配度的贡献是一样的吗?

  除了视频中文相关的一些中文描述,难道没有其他的一些属性能够给我们的推荐建议带来一丝贡献吗?

  于是,我一方面让D君继续优化主题提取的准确率,一方面思考新的设计方案,推翻原来的方案基础上进行思考。

  常规的协同推荐路子走不通,那我们就走规则权重模型。在这个方向偷摸滚打这么久,总是需要长点记性的。

  于是我列举了一些可能为模型带来贡献的属性,并且初步设计了一个嵌套了两层的规则权重模型。通过几次的小组会议,增删了一些属性,并且稍微的修改了一下模型。

  其中需要说明的就是,我添加了不少视频中与博文没有任何关系的属性,我们的目的在于,这些属性或多或少都是有影响的。

  于是我着手开始进行视频相同统计属性的量化操作,诸如发布时间无穷增长的值,诸如是否收费这样的二值属性,进行0到1之间的量化。

  有了量化,我们的E妹就可以根据数据分析,那些指标跟点击率是正相关的,那些是无相关的。我们进一步刨除了一些无相关的统计属性。

  对于初始阶段,我们没有任何数据可以参考进行权重设计,于是在慎重考虑之后,我为嵌套的两层规则模型设计了一个看起来比较合理的权重比。

  然后在数据初筛的阶段,使用每一个主题词进行视频N值提取,然后在N*M个初筛的视频中,根据规则模型对N*M个视频进行打分(这会牺牲一部分性能,但是这种思路为部门内部搜索优化项目提供了参考)。然后按照要求的个数进行截取就OK了。

  其中有一点需要说明的就是,在我们的场景中,登陆用户的比重与游客的比重是1/60,所以,我们的重心一直不在用户身上,这个就不多说了。

  还有一个跨越式的进展就是,我设计了AB分流测试机制。当时回想一下,冷汗淋淋啊,之前辣么多的版本,我们就这样闷头直上了,那可是线上的系统啊。之所以没有出问题,一大部分原因就是,在新版本中,我们进行了足够的思考。

  好了,如今,有了AB分流机制,我在保证系统不受大影响的情形下,在转化率可能下降并且可接受的范围内,为新模型分了1/4的流量。别小看这四分之一的流量,那可是上百万的流量啊。

  不用等多久,因为我提前让G君埋好了点,第二天我们就看到了效果,具体的数值俺就不多说了。我们果断的把流量全部切到了新模型中。

  此后,我们的工作重点在于如何有效优化权重比例。这一点,我跟E妹进行讨论分析,最后E妹的敏捷思维还是说服了我。

  E妹说,我们是在有数据倾向的前提下来预测权重值,这不就是逻辑回归嘛,跟计算逻辑回归的参数有何区别呢?啊不,区别还是有的,区别就是我们需要的是正参数。

  好吧,后续的我就不多说了,再说这就是一篇小说了。

  后续我们又做了一些其他思考,比如我们认为技术应该是分层级,加入一个技术水平分高中低三级,如果博文体现出来的技术水平是初级的,那我们是不是应该适当的给人家推荐对应中级的技术视频。

  又诸如,技术之间是有关联的,人家看hadoop的博文,是不是可以适当的给人家推荐spark的视频课程?这种关系如何提取?

  其中涉及到的技术以及其他种种,我就不多说了,再说下去,我就得写到凌晨两点了。

  (5) 做一个象征性的总结吧

  也不算是总结吧,整个过程反倒像是我在记流水账了。但不管怎么样,有些观点我认为还是有意义的。

  首先对于我们不熟悉的领域,我们需要果断的去做,有些东西是需要吃过一点亏才明白的,毕竟书上的东西只是书上的东西,这句话可明白?

  其次,在做新算法改进,乃至于其他改进,或者诸如其他项目时,我们需要经过慎重的思考,然后再做方案,然后再实施。这也是为何我们在AB测试机制出来之前,无数次“勇敢”上线,覆盖线上版本,而没有出问题,效果没有下跌的直接原因。

  针对于推荐系统的设计,我想说的就是,我们需要解决的是主要矛盾。针对于我们的这个项目实践来说就是,我们的一切努力方向就是提升流量从博客频道到在线教育频道的转化率。

  至于说试图挖掘长尾,我们尝试过,呈现推荐的多样性我们也尝试过,但是,这不是我们的目标,我们只会在转化率最合适的地方挺住脚步,而不是一味的提升多样性。还是那句话:能给你带来更多money的推荐系统,才是好的推荐系统,其他的管他呢!

  关于推荐系统另外一个建议就是,我们不要拘泥于某种形式,我们需要切实地参考业务场景,提出最适合自己的设计方案。很多方案,只有你想不到,没有做不到的,结果如何,试一下就知道了。

  作为项目的推动者组织者,我们需要承担更多的责任,例如任何让各个方面的人进入到其位置中,并且及时协调各个方面的进度,这很重要。

  团队的力量很强大,一个重要体现就是,初始方案可以你来做,但是通过小组讨论,你会发现众人的智慧是很强大的,自己认为再完美的方案也是有改进之处的。

  多多与他人讨论沟通交流,每个人都有其强大之处,我们需要虚心学习。他山之石可以攻玉,这句话永远都是对的!

  三、题外话,我的小伙伴们都去哪儿了

  细细想来,如今一晃已经是近一年过去了。推荐系统项目已经停留了有一段时间了,又在忙其他项目了。

  时间过得真快,F君离开A公司已经很长一段时间了,细细想来,F君学识丰富,每一次和他的讨论都有很大的收获,他亦是我心中半师半友的伙伴。

  D君紧随F君之后不久离开,据说都去了某视的数据云部门。D君是一个踏实肯干的人,所以与他相处也很愉快。

  就在前一段时间,E妹也离开了公司。E妹的敏捷思维至今还给我留下深刻的印象,在陷入迷茫之中,往往有很多突发奇想又有很大帮助的点子。

  对于他们的离开,我颇具悲伤、甚是怀念。

  我祝福他们在新的公司里,能够过得更快乐,赚更多的money。

  至此,我也祝福所有动物园里的动物,不管是程序猿也好,设计狮也好,产品狗也好,希望你们过得好,珍惜每一个在你身边与你一起战斗过的伙伴。记得时常联络,偶尔聊聊技术,偶尔一起去奥森公园打打三国杀,哈哈~~

  好吧,到这里,我这篇很长很长的文章(估计有近万字了)也该结束了,困了=_=,都一点了,差不多洗洗睡了。

  总的来说,这篇文章延续了我以往的风格,正如《这些年,这些挖掘机算法,这些反思》一文那样,带点技术话题,带点故事性质。

  在此,我祝福所有搞技术的、不搞技术的,都能看得爽~~

  来源:投稿,作者:博客虫,作者公众微信号:博客虫(ID:blogchong) ,原文链接

2015年11月9日星期一

腾讯发布miniStation 宣布进军主机市场

  11月9日,腾讯miniStation微游戏机发布会在北京竞园艺术中心召开,正式进军客厅游戏硬件行业。据了解,miniStation搭载腾讯自研TencentOS,在游戏内容和游戏操控等多方面的体验针对国内玩家定制。在发布之前就已经与多家国内外知名游戏厂商牵手,目前已经确认登陆miniStation游戏大作名单如下:

  - 腾讯全新MOBA游戏《全民超神》;

  - 腾讯格斗游戏《火影忍者》;

  - GameLoft出品的FPS游戏《N.O.V.A.3》、《现代战争5》和《狂野飙车8》;

  - 采用虚幻3引擎打造的经典RPG巨作《无尽之剑》(Infinity Blade);

  - 台湾音乐世界开发商雷亚游戏Rayark Games最新推出3D动作类角色扮演游戏《聚爆》(Implosion)。

腾讯发布miniStation 宣布进军主机市场

  此外,腾讯还暗示未来将继续扩展miniStation的硬件功能,体感、VR虚拟现实均在考虑之列。

  有关miniStation的具体上市时间和售价有望在即将开始的发布会上正式公布。

  据报道,miniStation实际上并非是单纯意义上的游戏机,而是类似电视盒子的产品,分为高配版和低配版,分别由国内电视厂商cw和1x负责生产。miniStation将搭载TencentOS系统,可以和手机无线连接,玩家在游戏时以电视屏幕作为显示器,手机当作手柄来操控。

  我个人不看好基于Android的游戏机,因为游戏商不会在盗版横行的平台开发游戏,毕竟开发商不是慈善机构,需要赚钱才能继续开发,很多经典的3A大作都没有移植到PC上,那就更不会移植到Android上了。

GoDaddy域名转出攻略

  目前在国内有很多家域名商,想要转移域名的时候会受到种种阻拦,要你提供各种材料,否则就不给转移。Godaddy虽然是国外的域名商,但是作为全球域名商的老大,它的域名转出还是比较容易的,下面笔者就给大家介绍一下Godaddy域名转出教程。

  一、域名解锁

  登录到GoDaddy账户,在“DOMAIN”一栏里选择自己想要转移的域名,点击后面的“Launch”。

  进入Domain信息后台,找到“Lock”这一行,一般地都是“on”状态,表示域名是锁住的状态。

  点击“Manage”进入更改为“off”状态,解锁,保存。解锁之后该域名就可以正常迁出了。

  二、获取转移码

  返回到Domain信息后台找到:Authorization Code选项,点击“Email my code”,点击“send”按钮,获得转移码。

  向Godaddy官方索要转移码。转移码是域名商转移域名最重要的凭证,之后会收到一封标题是“****>>Infomation You Requested”的邮件,其中Authorization Info后面的就是转移码,去域名接收方使用。

  三、域名转入

  到新注册商提交转入,填写转移码,付款后等待转入。

  在收到GoDaddy的确认信后,回到GoDaddy账户中,点击DOMAINS,再选择Transfers,点击Pending Transfers Out可以看到要转出的域名,在弹出的对话框中选择“Accept”即可。

  可以点击新注册商的Transfer一栏,查看转入状态。顺利的话,几个小时内就可以完成。转入后,Domain一栏中会列出。

  注意,新注册、续费、转入的域名,60天后才可转出。

2015年11月7日星期六

Apple ID设置教程指南

  关于iPhone的安全,一个是手机本身的安全,一个是AppleID的安全。作为一个用户,我们为了保障自己的iPhone以及个人信息的安全,所能做的无非是保护好自己的apple ID帐号等内容。今天,笔者在这里就教一下大家如何玩转AppleID,保障大家的隐私安全。

  首先是注册AppleID:

  方法一、通过网页注册Apple ID

  访问 https://appleid.apple.com ,点击“创建Apple ID”即可注册,Apple ID可用于App Store、iCloud、Game Center、FaceTime、 iMessage等。

  方法二、通过iCloud注册Apple ID

  iCloud的作用是将手机上的用户数据备份到服务器的一项功能,只需要注册一个Apple ID即可使用这个功能。依次进入:设置→iCloud→免费获取 Apple ID,然后根据需求填写:生日,姓名,电子邮件地址,密码,安全信息,并同意条款和条件。完成上述步骤后Apple会发送一封电子邮件到您填写的邮箱,登陆电子邮箱点击激活连接就完成了Apple ID的注册。

  而注册好的AppleID如何能保障它的安全呢?如果邮箱与密码泄露,其实AppleID可以更换邮箱。

  更改AppleID邮箱方法:

  1、前往 https://appleid.apple.com 。

  2、选择“管理您的Apple ID”,然后登录。

  3、选择“Apple ID和主要电子邮件地址”旁边的“编辑”。

  4、输入要用作Apple ID的电子邮件地址,然后选择“储存更改”。Apple将向该地址发送验证电子邮件。

  5、打开来自Apple的电子邮件,然后单击“立即验证”。

  6、登录后就可以使用新的邮箱登陆Apple ID了。

  AppleID救援邮箱很重要

  大家都知道,忘记密码了可以通过回答安全问题解决。如果安全问题的答案忘记了呢?这个时候就可以使用救援邮箱重置安全问题了。苹果会通过救援邮箱对你的身份进行确认。所以,我们最好尽早设置好救援邮箱,以免忘记密码又忘记安全问题时无计可施。

  设置办法:

  1、前往 https://appleid.apple.com 。

  2、选择“管理您的Apple ID”,然后登录。

  3、点击左侧的“密码和账户安全”。

  4、输入你的账号设置的安全问题,一般回答两个就可以了。

  5、点击“继续”后,找到“救援电子邮件地址”,点击“添加救援电子邮件地址”。

  6、点击“存储”。

  7、打开来自Apple的电子邮件,然后单击“立即验证”。

  8、登录后就可以使用新的邮箱登陆Apple ID了。

  最高效的安全验证:Apple ID两步验证

  两步验证是一种防止他人访问您帐户的额外安全保护功能,即使他们有您的密码,但是由于缺少密钥,也不能直接登录你的账号。这个密钥是系统随机生成的,私密性极高,除了用户别的人几乎无法获知,盗号难度相当高。不过,开启两步验证后只要涉及修改密码都需要恢复密钥,比较麻烦。

  设置办法:

  1、前往 https://appleid.apple.com 。

  2、选择“管理您的Apple ID”,然后登录。

  3、选择“密码和账户安全”,验证身份。

  4、点击“两步验证”下方的“开始设置”。

  5、此次苹果会提示你,“如果确认开启两步验证,在修改密码时不仅需要密码及验证码,还要输入恢复密钥,此外如果忘记密码也同样需要恢复密钥”,因此请牢记密钥,建议最好写在纸上,不要记录在任何电子介质上,这是苹果官方给出的建议。

  6、完成以上步骤后,Apple ID两步验证即正式开启,在手机上也可以找到“两步验证已开启”的字样。

  综上,一旦发现账户密码泄露,及时更换邮箱、密码,设置救援邮箱,可保账户问题遗忘,而开始两步验证,则可保账户无忧。至于哪一个方式适合你,自己选一个吧?

Apple ID设置教程指南

阿里巴巴全现金收购优土

  11月6日晚间消息,阿里巴巴集团和优酷土豆集团今天宣布,双方已经就收购优酷土豆股份签署并购协议,根据这一协议,阿里巴巴集团将收购优酷土豆集团,这项交易将以全现金形式进行。

  在交易完成时,除阿里巴巴集团外,优酷土豆的股东将有权以每股ADS(美国存托凭证)27.60美元的价格获得现金。这一价格较优酷土豆2015年10月15日的当日收盘价溢价35.1%(即优酷土豆收到阿里巴巴集团私有化要约的前一天),较优酷土豆在2015年10月15日前三个月的加权平均收盘价溢价49.9%。

  在优酷土豆董事会独立特别委员会的建议下,优酷土豆董事会已经一致同意并购协议和此项交易,并且建议优酷土豆的股东投票授权批准这一并购协议和这项交易。

  优酷土豆主席兼CEO古永锵表示:“我们相信与阿里巴巴的结合将会最大化优酷土豆的股东价值,并且显著的让我们的客户、用户和团队受益。我们热切希望和阿里巴巴合作,发展我们的多屏娱乐和媒体生态。我们有信心,我们的广告和用户业务通过与阿里巴巴平台以及支付宝的合作,优酷土豆将会快速增长,增强市场地位。在阿里巴巴的支持下,优酷土豆作为中国领先的多屏娱乐和媒体平台的地位,得到了有力的巩固。”


  这项交易预计于2016年第1季度完成交割,并且需满足例行的交割条件,其中包括代表优酷土豆至少三分之二股份的股东在特别股东大会上出席或者委托投票同意。阿里巴巴集团已与优酷土豆主席兼CEO古永锵、成为基金以及他们的相关方达成协议,根据协议,上述各方作为优酷土豆的股东,将会以他们持有的所有普通股投票支持这项交易,并且反对任何对这项交易构成竞争的交易。阿里巴巴集团和上述协议相关方,合计拥有的优酷土豆股份总投票权的约60.6%。

  这项交易完成之后,古永锵会继续担任优酷土豆董事会主席兼任CEO。如果交易完成,优酷土豆的ADS(美国存托凭证)将会停止在纽交所挂牌交易。

  摩根士丹利亚洲担任阿里巴巴的财务顾问,Simpson Thacher & Bartlett LLP担任阿里巴巴的美国法律顾问,方达律师事务所和Walkers分别担任阿里巴巴的中国和开曼群岛法律顾问。

  摩根大通(亚太)担任优酷土豆特别委员会的财务顾问。Skadden,Arps,Slate,Meagher & Flom LLP担任特别委员会的美国法律顾问,权亚律师事务所和Conyers Dill & Pearman分别担任特别委员会的中国和开曼群岛法律顾问。Kirkland & Ellis担任JP摩根的法律顾问。