2014年2月1日星期六

IMDB评分排名算法

  IMDB网站是目前互联网上最为权威、系统、全面的电影资料网站,里面包括了几乎所有的电影,以及1982 年以后的电视剧集。IMDB的资料中包括了影片的众多信息,演员,片长,内容介绍,分级 ,评论等,就个人买碟而言,很大程度上也是参考IMDB的得分。 它所特有的电影评分系统深受影迷的欢迎,注册的用户可以给任何一部影片打分并加以评述,而网站又会根据影片所得平均分、选票的数目等计算得出影片的加权平均分并以此进行TOP250(最佳250部影片)和Bottom100(最差100部影片)的排行。

  由于影片资料的更新和所得评分的不断变化,TOP250和Bottom100必定是份动态的名单,但大部分出色(或者说是受大众欢迎的)影片的位置会相对不变,于是这份TOP榜单也就有了窥视大众电影口味的意义。评选最佳250部电影时只考虑正式的投票者的投票结果。分值系统采用10分制,最低为awful(令人厌恶)的1分,最高为excellent(出类拔萃)的10分。值得注意的是,虽然很多影片在资料系统中得分很高,但由于未能达到TOP所要求的最低1250张的投票数而无法参加排行。因此,很多曲高和寡(至少在美国)的优秀影片未能列入其中。尽管如此,这份名单对选看影片仍具有重要的参考价值。

  这里就有一个问题:热门电影与冷门电影的平均得分,是否真的可比?举例来说,一部好莱坞大片有10000个观众投票,一部小成本的文艺片只有100个观众投票。这两者的投票结果,怎么比较?如何才能公平地反映出一部电影真正的质量?

  一个合理的思路是,如果要比较两部电影的好坏,至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少,那么应该设法为它增加一些观众。在排名页面的底部,IMDB给出了它的计算方法。

  根据IMDB网站上公布的TOP250评分标准:

  imdb top 250用的是贝叶斯统计的算法得出的加权分(Weighted Rank-WR),公式如下:

  weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C

  其中:

  R = average for the movie (mean) = (Rating) (是用普通的方法计算出的平均分)

  v = number of votes for the movie = (votes) (投票人数,需要注意的是,只有经常投票者才会被计算在内,这个下面详细解释)

  m = minimum votes required to be listed in the top 250 (currently 1250) (进入imdb top 250需要的最小票数,只有三两个人投票的电影就算得满分也没用的)

  C = the mean vote across the whole report (currently 6.9) (目前所有电影的平均得分)

  仔细研究这个公式,你会发现,IMDB为每部电影增加了1250张选票,并且这些选票的评分都为6.9。这样做的原因是,假设所有电影都至少有1250张选票,那么就都具备了进入前250名的评选条件;然后假设这1250张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。

  这样做拉近了不同电影之间投票人数的差异,使得投票人数较少的电影也有可能排名前列。

  IMDB上的评分完全来自于网民的评价,凭的是参与评价的网民的自身喜好,参与评分的网民越多,IMDB的评分越有可靠性。

  看到这个公式,我们就能明白为什么IMDB的排名最有权威性,虽然它是一个以英美观众为主的网站,但依然受到全世界影迷的推崇,这和它以科学为主导的客观公正性是分不开的。别的各种所谓排行榜都可以伪造,可以花钱买,或者是一种商业游戏,但是IMDB不是,所以这就是它的价值。

2014年1月31日星期五

对联想“吃剩饭”策略的简单解读

  近日,有消息传出,联想重启了对IBM低端服务器部门的收购工作,外界预计联想有望以不超过25亿美元的价格竞得IBM的低端服务器部门。当然,这里说的低端也是相对的,IBM的低端产品到联想手里也是宝。

  这一幕是不是似曾相识!没错,早在2005年联想就以12.5亿美元(当时折合人民币100亿)的价格收购了IBM的个人电脑部门,虽然收购后饱受病垢,但最终联想在质疑声中一路成长,到2013年成为了全球排名第一的PC企业。

  联想的这种举措,我们可以称之为“吃剩饭”策略。“吃剩饭”策略是IT行业的特有的做法,即以较低的价格获得市场领导者濒临淘汰的产品,进而重新规划和改造,进而来补足自身弱点或者进入全新的领域。按照这个解释,中国实质上的第一艘航空母舰“辽宁号”也是“吃剩饭”策略下的产物。

  那么,联想此次吃IBM的剩饭,竞购IBM低端服务器部门,意欲何为呢?丁道师认为最核心的目的在于:花钱买时间、买技术,切入商业解决方案,布局IT服务领域。

  个人电脑瓶颈来临之后,PC巨头怎么办?

  俗话说,它山之石可以攻玉,在谈联想布局解决方案之前,我们先来看看之前的PC老大IBM是怎么做的。IBM早前是卖大型机和个人电脑的企业,后来随着一众后生晚辈的崛起,IBM的市场遭遇挤压,增长乏力。彼时的IBM已经是超级巨头,但最终大船调头进行转型,主营业务放在了IT服务上面,经过这么多年的发展,这个老巨人又再次重生,实现了大象跳舞的经典转型案例。后来在IBM成功之后,另外两家全球TOP3的电脑公司惠普和戴尔也遇到了PC业务增长的瓶颈,怎么办呢?

  几乎是同一时间,惠普和戴尔都确定了学习IBM的转型战略,当然这两个企业从来不想承认他们的做法有模仿IBM之嫌疑。在决定不以卖电脑为主营业务之后,惠普和戴尔大刀阔斧的开始改革,这期间他们两家公司进行的一些动作是:不断的收购能够帮助他们完善IT服务的企业,资金从数千万到数十亿美金不等。 这两年经常可以发现戴尔和惠普和云计算、大数据、解决方案、服务器架构等一些高大上的名词联系起来,但这两家企业学习IBM的方式并没有活动成功,能够被大型企业认可的还是IBM所提供的信息系统相关的一整套IT架构方案。

  与其学习IBM 还不如把他买下

  正所谓东施效颦,徒增笑尔。事实上,在惠普和戴尔学习IBM转型之际,联想并没有冷眼旁观,也有过几番取舍的心理斗争,杨元庆虽然到处宣传联想成为PC市场的老大,但内心深处非常冷静的判断出:PC真的到瓶颈了,老大又能怎么样?未来联想也必需转型,切入企业和机构服务市场。

  企业IT服务这个市场有多大,我认为仅仅在中国每年至少是上数千亿的市场需求,但可惜的是CIO这样的职位在中国大部分的大型企业也没有。而有CIO的企业,他们用的信息系统很多也都是IBM和戴尔提供的。中国目前还没有一家企业真正能做这样的事情,2012年团购网站要做ERP信息系统,吴波本来想的省钱找国内企业做以下,但后来发现只有IBM可以做这个事情,最终据传拉手网花费了6000万让IBM做了这个信息系统。6000万对中等企业来说真是一笔大的开支,我想哪天拉手网如果倒下了,这6000万的系统也要承担10%的责任,同理哪天拉手网崛起了,这6000万的系统也有10%的功劳。

  联想作为中国乃至全球的PC老大没有理由放弃这么大的一个市场,而且基于联想在中国这么多年的耕耘,联想只要有合适靠谱的产品和服务,获得的客户数量会非常可观。

  在未来智慧化的中国,商业企业、政府大楼、SHOPPINGMALL、学校、机场、医院等等内部都需要一套完整的IT解决方案,这个市场所蕴含的潜力超过了联想目前做的任何一个业务,联想想买IBM服务器部门,意在未来的市场。(本文作者系速途研究院院长丁道师)

美味书签宣布将关闭服务

  美味书签做出了一个“艰难的决定”,由于产品发展方向的变化,停止了美味书签的更新,并将在2月15日后关闭网站,用户现在可以登录网站导出书签文件。美味书签是Delicious的中国本地化产品,2012年进入中国,Delicious是历史悠久的知名免费书签网摘社交网站,主要用于和别人分享和交流书签。

  以下是美味书签的声明原文:

  我们非常遗憾但却不得不告知您,美味书签和美味爱读的服务将会关闭。

  在两年多以前的二零一一年末,AVOS 的中国团队开始运转。当时 AVOS 刚收购了即将被 Yahoo! 关闭的 Delicious,挽救了这一开创 Web 2.0 时代的传奇性的产品。中国团队的不少成员都是 Delicious 的老用户,所以也非常兴奋。在二零一二年,我们很自然地开发了 Delicious 的中文产品美味书签,以及由它衍生出的产品美味爱读。并且在二零一三年,我们还负责了 Delicious 新版的设计和开发,发布后得到了国外老用户和媒体的好评。

  但是在二零一二年美味书签和美味爱读发布后,我们从数据上可以很明显地看出,在国内从零开始发展这样的产品是非常困难的,因为 Web 2.0 的产品形态已经很难适应移动互联网时代用户获取和消费信息的习惯和需求。所以在二零一三年我们迅速改变了在中国的产品方向,开发和发布了更为成功的新产品。本着对用户负责的态度,虽然书签和爱读的开发停止了,我们仍然进行着维护并保持它们运行了一年多,直至今日。

  目前从我们的日志可以看到,这两个产品的活跃用户已经非常少,但它们仍然消耗着不少资源。比如美味书签每天会从微博等社交帐号导入很多内容,而美味爱读会定时从每个帐号的 RSS 订阅列表抓取大量的文章,但这些内容的绝大部分是不会被任何用户看到的。耗费掉的存储、计算和流量资源无论对我们还是对第三方都是很大的浪费。在这样的情况下,除了把产品关闭,已经没有更好的选择。

  做这样的决定对团队来说是非常不易的,因为这两个产品代表了大家在二零一二年的努力。我们非常感谢使用我们的产品并不断给我们提供意见和反馈的用户,是你们激励着我们在创业路上不断尝试和进步。好在同类别的产品有不少选择,如果您现在仍然在使用美味书签或美味爱读,应该不难找到优秀的替代品。我们为您准备了导出数据的工具,以便迁移到其他产品。如果您需要我们协助进行数据导出或迁移,请发送邮件到 [email protected],我们会尽快回复。

  再次感谢您。我们会怀念书签和爱读与您共渡的时光。

  关键时间点:

  二月十五日前,产品网站仍可以正常登录和使用;二月十五日后,我们会关闭服务的主要功能,但会保留数据导出功能。

  美味书签/美味爱读团队

2014年1月26日星期日

社交网络的本质,兼论Google Reader的倒掉

  咱国大多数网络公司都想做社交平台。这真是一个非常有意思的事情,之前多次的失败经验告诉我,如果你真想在互联网上做点事情,除非有特别牛B闪闪的产品,那么有两样东西是绝对不能碰的,其中一个叫“社交”,另外一个叫“平台”。而现在的公司,基本都喜欢一次性两个一起做。这背后的价值究竟有多大,请看之前的那篇《产品,渠道》。

  平台暂且不说,但是社交,真的是一件比较复杂的事情。尤其是在当前,中国互联网大的格局已定,很难有比较大的变化的时候,正常的用户使用习惯已定,要让他重新熟悉并适应一个全新的社交网络,确实困难。而通常的做法是,去找那些巨头们还没有涉足的某一块细分的小众市场,比如“手办交易”,然后在里面做出自己的特色。直到有一天,小众市场做大,被巨头们注意到,然后就开始上演“生、死、腾讯”的故事。

  这个世界上,没有无缘无故的社交。

  一个用户,想要开始使用一个新的社交网络,至少要满足几个先决条件——

  • 安全感。不管是熟悉的品牌,还是已经有认识的朋友,或者其他什么原因,没有安全感的地方是不会变成社区的
    好友关系。有了安全感,下一步就是建立好友关系。社交的核心是人与人的交流,所以无论是让用户邀请好友,还是帮他寻找新的好友,没有关系,社交根本也无从谈起
  • 话题。尽管这是一个,我们每个人都知道的因素,但是如果没有话题,即使已经熟悉的好友也不会产生交流的动力。没有了话题,社交就只是一潭死水
  • 这三点,单独看起来都似乎还挺简单,但是如果想要把他们结合起来,却又是那么的困难,以至于即使我们都知道方法,但是真正成功的产品,依然屈指可数。

  等等,似乎我们遗漏了点什么。上面我们一直都在讨论,如何营造一个社区,如何让用户和用户交流起来。可是,这种社交网络的本质,是什么呢?

  说起来,Google一直在社会化方面不断的进行努力。不过有趣的是,Google是从Gmail和Greader,这两个完全的工具化产品开始下手的,但是都没有收到特别的成功,直到几乎出动所有资源的Google+,终于收到了效果。

  很久以前,我就曾经写文章分析过,Google所想要实现的价值,但是并没有更加深入的去想过这个问题,直到greader的倒掉,迫使我重新开始进行这样的思考。为什么google即使拼着牺牲品牌价值,也要去狠心砍掉一个能够带来巨大用户忠诚度的成功产品?难道我的思路哪里出了问题吗?

  这个问题暂时放一下,既然Google想做SNS,那就让我们去看看,到底什么是SNS。恰好,我们刚给分析完,一个成功SNS做应该具有的三要素。那就让咱们来回顾一下——

  1. 可以安心的使用
  2. 有好友一起用
  3. 有可以和好友讨论的话题

  很好,那么,可不可以把这三点重组一下呢,让我们把顺序倒过来试试看——

  1. 拥有有趣的话题
  2. 话题在好友间传播
  3. 最终被我所看到

  至此,我们终于捉住了一点线索。如果把这重组后的三点总结起来的话

  让有趣的话题,通过好友的传播,被我所阅读

  这可真是一个有趣的观点呢,于是现在我们得到了一个全新的结论

  好友关系,更多是作为内容传播的渠道

  我们可以继续沿着这个思路继续走下去,来对比一下新浪微博和微信朋友圈。这两款产品是如此的相似,却又如此的不同。

  • 新浪微博:很多认识但是不熟的朋友,不断的向我传递有趣的内容
  • 微信朋友圈:很多认识而且非常熟悉的朋友,不断的向我传递可能没那么有趣的内容

  尽管朋友圈里经常会有很多,没什么价值,对我也没有太多吸引力的内容出现,可为什么感觉上,他和新浪微博却能不相上下呢?

  这里,我们可以先举个栗子。比如我某一天,突然想买个1000元左右的手机,就在一个熟悉的QQ群里大吼了两声。果然很快,就有一个不太熟悉的人出来推荐了一个从没见过的但是看来似乎不错的牌子。于是,我犹豫了。正在这时,一个我很了解的群里的大牛出现了,他不仅支持了之前的人的推荐,而且还说这款手机我用过功能很多挺爽的。于是,我立刻就下定了决心。

  虽然这个栗子可能有点偏激,但他很好的说明了一个现象:好友的推荐,可以增加内容的价值。

  很好,现在我们已经得到了所有需要的内容。

  • SNS的本质,是内容的传递
  • 好友关系,是内容传递的一个渠道
  • 好友的推荐,可以增加内容价值

  是否有点熟悉?其实,这不就是Greader所做的事情吗。让我们来对比一下——

  • Greader的内容来自于用户添加的来用,而SNS的内容来自于用户找到的好友
  • Greader中用户信任的来源的内容更有价值,SNS中用户信任的好友的内容更有价值

  在这个模式下,无论Greader还是SNS,他们做所的,其实都是同样的事情,让用户更好的看到最有价值的信息。但是相对于SNS,Greader所不能做到的事情在于

  • 内容的传递是单向的,用户可以阅读,但却很难获取认同感
  • 用户关系只能增强信息价值,但是却弱化了价值背后所存在的,活生生的人

  于是,这就能很好的解释,为什么Greader在Google大战略中的弱势地位。这是一个,只能让用户消费内容,但是却无法创造内容的工具。这样的工具,对于用户固然有巨大的价值,但是对于Google,谁在意呢?

  来源:投稿,作者:LoliBeta,原文链接

产品和渠道

  我一直认为,任何一个产品,无论他的形态是什么,甚至无论他是不是互联网产品,其本质都是用来竞争的。竞争的对象多种多样,但是目的都是为了让更多的人来用。所以这就对产品有了更多的要求,比如,要能满足用户需求,要体验出色,要比其他产品都更加创新,等等。

  所以为了实现这个目标,不同公司的产品,就会有不同的手段。不过,基于Copy2China这样大环境下,总有那么一些公司,选择使用简单粗暴的方法。比如创新工场啥的,又比如,腾讯。

  确实,腾讯使用了一些不是那么光彩夺目的方法,可却总能获得成功。这到底是为什么呢?

  在市场营销学里,有一个很著名的概念,叫做4P。4P是众多市场营销方法中的一种,但他所做的事情是告诉你,如何把产品卖给用户。这不管对于任何行业,都是一样的。以下是来自于维基百科的解释——
市场营销人员E. Jerome McCarthy在1960年提出了4P分类[2] ,然后全世界的市场营销者开始使用这个模型。

  • 产品 – 产品是满足消费者需求的物品,可以是有形产品,或者是无形的服务。无形服务可以是旅游业、酒店业和金融业等等。有形物品是物理存在的形式。一般例子是大量生产的有形物品,如汽车或者一次性产物剃须刀片等。令一种大量生产的无形产品如电脑操作系统。
  • 价格 – 是消费者愿意支付产品的费用。调整价格对于市场策略有深刻的影响,需要根据产品的价格弹性,一般来说,会影响需求和销售额。
  • 促销 – 代表各种市场营销者使用的沟通方式,可以让不同的群体可以了解产品。促销一般包括:广告, 公共关系, 个人销售和销售促销。
  • 产品位置 – 把产品放在正确的位置,让消费者可以方便获得。

  想必大多数读者都没有接触过市场营销,要理解这个概念确实有些抽象。我们来尝试举个栗子。以满大街都能见到的加多宝来说——

  • 产品:怕上火,喝加多宝
  • 价格:比可乐略贵,比功能饮料略低
  • 促销:路边到处可见的广告,超市、饭店里各种的促销员
  • 产品位置:大片铺满,随处可以买到的超强渠道能力

  这就是加多宝的实力。我一直认为,拥有这样的渠道和品牌运作能力,才是加多宝,或者说王老吉品牌的真正成功之处。至于饮料的配方本身,恐怕那仅仅只是一个起点而已。

  4P的本质,无外乎做到以下几点:正确的产品、合适的价格和用户群、随处可以看到、随手可以买到。

  说完了饮料,让咱们重新回到互联网,去看看腾讯。

  尽管一个是卖糖水的,一个是互联网公司,可他们之间的相似之处,却非常的多。如果能够理解加多宝的成功,那么后面的,就容易理解多了。让我们尝试用相同的思路去分析一下腾讯的游戏——

  • 产品:尽管可能没有创新,但是这些游戏肯定是同类型里品质最高的
  • 价格:Q币多方便啊,最多充个QQ会员又不会死人
  • 促销:腾讯产品上每一个能看到的按钮,都有一整个团队的人,在去想怎么搞出有意思的动静
  • 产品位置:这个概念比较特别,下面单独提

  上面还有一点是没有提到的,腾讯游戏的“产品位置”。其实严格来说,产品位置这是一个比较模糊的概念,通常我们更喜欢用的是,“渠道”。一个成功的渠道,可以完美的实现,让用户可以随手,以最方便的形式获取产品。这对于大多数公司来说,都是重中之重。比如现在大多数的手机游戏和网页游戏公司,基本都需要依托于强势的渠道。

  但是这个问题,对于腾讯来说从来不是问题。因为腾讯有一个最重要的渠道,QQ帐号。统一的帐号系统,不仅给用户带来了方便,而且也带来了用户的好友,这里面拥有巨大的价值。

  当然了,4P只是众多方法中的一个,这显然还并不是真理,但是他却可以很好的帮助梳理思路和解决问题。

  作者:LoliBeta,原文链接

2014年1月24日星期五

中国用户使用代理软件的分析

  1月21日下午,国内大量网站域名解析出现故障而无法访问,其域名IP均被解析到了65.49.2.178这个陌生IP上,整个过程持续近1小时。据估计此次事件影响全国三分之二以上网站,包括新浪、京东、淘宝等知名网站都受影响,有人戏称65.49.2.178必将载入中国互联网史册。

  对于本次互联网事故,某CDN加速服务对这个IP地址进行了一番分析,发现了一些有趣的数据。

  65.49.2.178是什么?

  65.49.2.178的IP归属地显示为美国Dynamic Internet Technology公司,而该公司的主要产品即为一款代理IP软件。

  在这家CDN服务日志中,共发现包括65.49.2.178在内的19个同一C段IP地址,也就是说,至少有19个同段IP在过去一个星期访问过该CDN节点网络。

  政府网站成攻击重点

  在19个IP中,发现其中有两个IP 65.49.2.171、65.49.2.184在过去一周曾经有过攻击行为。而攻击的主要目标为软件下载网站、政府网站,政府网站受攻击比率高达34%。据分析,攻击政府网站主要是使用已知应用漏洞对网站进行漏洞探测,尝试窃取敏感信息。其次为XSS跨站攻击,而XSS跨站攻击的一个主要应用方式即为网络钓鱼。

  为什么这个代理服务会出现攻击行为呢?仔细分析一下,发现这不奇怪,因为这个IP本身就是代理的IP,中国的黑客通过美国这个代理软件进行网络攻击,这是一个很常用的跳板技术,也就是说,为了防止被对方网站发现,通过一个跳板来扫描各个网站的漏洞,这样对方网站日志里留下的就是代理的IP地址,而不是黑客自己的真实IP,理论上讲跳板越长,攻击者越不容易被发现,这样,很多网站被黑客扫描了漏洞,却不知道是谁扫描的。

  不过,不能因为被攻击的网站留下了这个IP,因此就说这个代理软件公司是搞网络攻击的。

中国用户使用代理软件的分析

  65.49.2.178主要访问色情网站

  如上文所述,该IP所在公司主要的产品即为一款代理IP软件,经分析确认该IP确实为该代理软件的服务IP之一。也就是说使用该IP的访问均是通过代理访问,对日志中访客访问请求来源Referer分析发现,该IP主要访问网站类型为色情网站,高达64%。

中国用户使用代理软件的分析

  由于这个代理软件的用户绝大多数是中国用户,因此通过这个数据可以分析出中国用户主要使用代理软件做什么,从这个数据上看,中国用户使用代理翻墙软件的主要需求就是看色情网站。另外还有中国黑客使用代理软件当做跳板,来扫描各个网站的漏洞。

   

2014年1月23日星期四

域名解析故障是因为根服务器遭攻击吗?

  环球时报发布了一篇文章,称中国国内大面积域名21日15时左右出现解析异常情况,致使部分用户无法正常访问网站。国家互联网应急中心22日证实,是由于根服务器遭受网络攻击所致。

  在另一篇文章中,环球时报称,在此次事件中,各大网站均被劫持到65.49.2.178这个IP上,通过查询,发现该IP位于美国北卡罗来纳州卡里镇Dynamic Internet Technology公司,大量中国知名IT公司的域名被解析到该地址,这家公司与研发某翻墙软件的是同一家公司。环球时报暗示是这家公司发起的网络攻击。

  实际上,环球时报自己也在文章中说了,全球13个根服务器大部分都放置在美国,其余在英国、瑞典、日本各一个。如果攻击根服务器,应该攻击美国才对,而不是攻击中国,更何况,如果成功攻击了域名根服务器,那么全球的网络都会受到影响,全球网民上网都会出现故障,而不单单是中国网民,而实际情况是,只有中国网民的上网出现了故障。

  如果发动网络攻击的是这家翻墙软件公司,那么攻击者不应该将全中国网站都解析到自己的服务器上,这显然会对其服务器造成DDOS,使其立刻宕机,变成了自己攻击自己。

  此外,“网络攻击论”的另几个理由是,百度某二级域名和DNSPod源代码出现奇怪文字的情况,经过分析,这和此次域名解析故障无关,百度该子域名并不涉及任何百度业务,从Internet Archive网站显示,从2010年到2012年,该页面一直只有一行英文,因此应该是百度开发人员自己调试时候随便写的,并没有证据表明该网站曾经被黑。DNSPod源代码的奇怪文字也是其自己恶搞,并且很久以前就已经存在了,和这次事件无关。

  总之,目前互联网所有根服务器均由美国政府授权的互联网域名与号码分配机构ICANN统一管理,负责全球互联网域名根服务器、域名体系和IP地址等的管理,这种管理方式目前看来是安全可靠的,中国的这次网络域名解析所引发的问题,还是先找找中国网络自己的问题吧。