2015年5月15日星期五

手机卡恶意补卡盗刷漏洞

  中国移动连续两个月给我发短信,要求对手机号码“实名登记”,并给出5元的话费补偿,如果不登记的话,中国移动称“有可能会影响号码正常使用”,我不清楚这个影响是否表明其有权强行停机。

  我不愿意身份证实名使用手机的一个原因是安全性,目前我使用的SIM卡,补卡需要服务密码进行补卡,只有我的服务密码不泄漏,别人就无法对我的SIM卡进行补卡。

  但是,如果将手机号码实名登记后,就可以使用身份证进行补卡。这会带来巨大的风险。如果别人乐意,他们随时可以用一张假身份证把你的SIM卡给补办走。如此,你的手机绑定的支付宝,财付通,快捷支付,网游账号,你的联系人信息,你的通话记录,你的QQ号等等所有一切的账户安全信息都随之瓦解。

  关于手机“补卡”漏洞诈骗,相关的案例已经非常多了,百度搜索一下“手机  补卡 银行卡”就可以看到不少案例,例如不法分子可以持一张假冒身份证,去偏远的移动营业厅办理补卡业务,成功办理后,即可用这个手机号重置用户的网银登录密码,提取用户所有绑定的网银、手机银行或支付宝的余额。而营业厅业务都很繁忙,每天仅补卡就有数十起,根本无法对用户身份证进行核对。

  据警方介绍,通过补卡进行盗刷的方式有两种,一种是通过第三方支付平台把储户账户上的资金通过购物或小额支付等方式盗刷,另一种是获取储户银行卡密码后,通过网银转账方式把钱转走。其犯罪手法可以简单地概括为四个字,即“补卡截码”。犯罪嫌疑人利用伪造的受害人身份证,到通讯运营网点补办与银行卡绑定的手机卡,然后在盗刷、盗转受害人银行卡时,利用所截获的短信等动态验证码信息,在没有银行卡密码或网银支付密码的情况下将钱转出。

  而目前,警方给出的解决方法是,如果手机使用中出现长时间没信号或无法使用时,要警惕是否被他人补办了自己的手机卡。开通网银的账户,最好不要有大额存款,一旦发现手机卡被复制、被挂失要立即报警,如果更换手机号,一定要及时解绑相关的银行卡。

  而实际上,这种防范方法根本没从源头解决问题,我的手机突然没信号,不一定是被人补卡的原因,有可能是所在地区本身信号就不好,一没信号就去移动营业厅去查询手机是否被补卡根本行不通,而且通常犯罪分子在补卡后几分钟内即可进行银行转账,导致用户财产损失,去营业厅停机时间根本来不及,如果一个人出门,在大街上四处借别人手机去停机也不现实,因此,我觉得最好的防范方法还是不进行“实名登记”,这样犯罪分子就无法通过假冒身份证进行补卡盗刷了,我的手机服务密码只有我知道,犯罪分子破解密码并不容易,因此也无法通过服务密码进行补卡。

阿里巴巴错过了什么?

  2015年,5月伊始,阿里换帅的新闻满天飞,在股价跌破80美元之后,阿里巴巴公布了上市后的第三份财报,与之而来的惊喜是60后的陆兆禧退居二线,没错,这里用的是惊喜,5 月 10 日,也就是马云在 2 年前宣布离任 CEO 的那个日子,张勇接替陆兆禧成为阿里巴巴新任 CEO 的消息在 5 月 7 日通过马云的一封内部邮件被公示。

  尽管这不是一个令人太意外的消息,但是还是引起了业内的哗然, 遥想当年,陆兆禧以阿里资深救火队员的姿态成为马云接班人,2000年就已经加入阿里集团的老陆,是支付宝业务的早期元老之一,并且在2011年,职业经理人卫哲引咎辞职后,陆兆禧出任了出任B2B CEO,不过陆兆禧最为人关注的成绩,应该是2014年,在他的任内完成了阿里赴美上市。但也随着其在移动之役中的失误被掩盖了,顶着“马云接班人”的沉重王冠,他所有的失误被人无限放大, 2014年底,在全网流量由PC向移动分流之际,陆兆禧的处境更添了一些悲壮的意味。

  回顾移动社交之战,来往更像一口黑锅

  众所周知,2013年阿里换帅之后,马云其实一直处在一种“退而不休”的状态,仍以董事长身份执掌大局; 众所周知,阿里是一家强调价值观的公司,而马云本身就是阿里价值观的体现,在这样的强人领导文化氛围中,酒陆兆禧无法离开马云的影子,完全掌握局面,于是,我们才看到2014年3月,强推来往失利之际,一直在幕后垂帘听政的老马看不下去了,跳出来剥夺了陆兆禧掌管无线业务的权限。

  时至今日,阿里工作人员的名片中,依然把来往作为仅有的两项联系方式之一,而在2014年,陆兆禧几乎投入了主要的无线资源力推“来往”的结果虽然在如今看来更像一个笑话,但事实,如果深入思考,就会发现,在微信火爆流行,并且有意切入电商之时,推出一款防御性的移动社交产品与腾讯对抗,几乎成了阿里上下唯一的选择。有分析师认为,来往的失败并不是策略失败,而是产品失败,以及被打断所以不够彻底,来往项目下线后,从世界杯足彩到2015春节的红包大战中,一枝独秀的微信实现了完美偷袭。由此开始,可以说腾讯已经在阿里深深地埋下了一颗诡雷。连马云也在内部邮件中写道:“以前,我们对别人、别的行业呼吁天变了。今天我们发现自己头顶上的天也变了,我们脚下的稳健土地也在变化……”

  高德失利,LBS和O2O结合只是看上去很美?

  可以说,来往失利之后,陆兆禧退位已成定局。更不用说在他手下的高德地图,在LBS界双重绞杀下变得平淡无奇的事实,但其实如果把高德地图的失利全部归咎于陆兆禧,似乎也有些冤枉,客观的说,哪怕百度地图经过一年多的试水,也发觉培养用户通过地图为媒介到线下商店进行生活服务的消费有点困难,但在2013年之时,放眼市场上的移动端产品,地图是少数用户数破亿,因此所有的地图玩家们,都蜂拥而入地在地图中加入O2O属性,单纯地把流量入口当作商业价值,从而忽略了一个事实:对于用户来说,手机地图需要摆脱工具属性,真正成为移动互联网入口还有很长的路要走。

  随着2014年, 俞永福高调接手高德并表示:O2O不是LBS的未来,高德应该回归地图本身之后。从辉煌上市,到阿里入股,高德地图,这个曾经的市场第二,彻底沦为了弃子。

  2015互联网+大背景下,或成巨头O2O决胜年

  事实上,作为O2O代表的团购行业,美团和大众点评这两家公司的对抗,已经成为了腾讯与阿里之间的博弈。

  尽管在移动和社交及LBS上遇冷,但是今年阿里与其他巨头的碰撞,依然集中在O2O领域,众所周知,互联网+的风口,与最早触网的第一代电商无关,从本质上仍然是属于O2O的,阿里深知自己在O2O领域的局限性,所以早在2011年就对美团持有相当的股份,而腾讯对大众点评的持股更是高达20%,在过去,大众点评和美团的模式不同,前者是信息即媒体属性,靠广告盈利,美团则是直接交易,但随着2013年以后O2O行业的各种深入挖掘,现在两者的发展方向最终却走向了殊途同归。

  伴随着2015互联网+的大浪潮,腾讯和阿里在O2O领域展开的无形大网势必产生新一轮的碰撞,更不用说还有一直虎视眈眈的百度糯米了。

  再谈支付宝,在线支付永远的阿里的底牌

  O2O最重要的一环在于线上支付环节,目前微信钱包虽然占有了一定的份额,但是真正成熟还有很长的路要走,尽管支付宝曾经与阿里爆发出股权之争,但是无论如何,依然是“关起门来自家事”

  尽管对于传统的实体商户而言,无论是支付宝,还是微信支付,相比较传统的收单模式都具有优势,眼下应联手与银联争夺市场。但实际上,技术迭代和生活习惯改变,正面临前所未有的加速改变当中,马云非常清楚,支付环节的竞争,将直接影响到阿里的脉门,这也是阿里的底牌。

  从当年张建锋一统淘宝、天猫、聚划算再到阿里健康、阿里医疗,从俞永福接管阿里妈妈再到阿里汽车、阿里智能生活事业部,阿里正在围绕各个垂直业务进行多元整合和拆解。而每一次的人事变动,无不能看出马云一直的战略眼光和深深的忧患意识。

  背水一战的张勇

  而在职业经理人出身的张勇上任后,阿里巴巴的调整仍将继续。未来张勇将如何挽回在移动社交、O2O等业务上失掉的先手,给自己背后退而不休的老马一份安心,将是他最需要解决的难题。

  在张勇出任集团CEO同一时间,阿里巴巴发布了截至3月31日的2015财年第四季度及全年财报。在一串仍维持上涨,事实上不容乐观的数字背后,我们不知道阿里会走向何方,但有理由相信,这对张勇来说,绝对是是背水一战。

  来源:投稿,作者:关中舍予,原文链接。作者微信:shuyang9451

2015年5月13日星期三

这些年,这些挖掘机算法,这些反思

  写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较�的就是,由于boss不在,我们讨论讨论着就成了吐槽大会,倒是有一半时间在吐槽产品以及业务部门了。

  不过这也算是一件可喜可贺的事情了,这也可以看做是我们数据部门,已经由开轻型挖掘机向深挖阶段迈步了。

  因此,借此机会,也对自己接触过的,了解过的,或者做过的一些勉强称得上算法的东西做一个梳理。其实,就个人来说,本身就不是做算法出身的,在大学时代,学习的反倒是网络方面多一些,更不知数据挖掘算法为何物。

  其实,就所谓算法而言,个人认为,我有个同事说的很对:所谓算法,并不是说那些复杂的数学模型才是算法,哪怕是你写的一个简单的计算公式,只要能够解决现有业务的痛点,有了自己的模型思路,它就是一个算法,只是它可能不够通用,只能解决特定业务需求而已。

  在大规模的数据前提下,其实很多复杂的算法过程,反而效果没有这么好,或者说,我们会想方设法去简化其过程。

  举个简单栗子:假设有一批大规模数据集,就以近千万篇博文为例。如果提供一篇博文,让你去查询与其相似度最高的top N,那我们的通常思路是什么?通常的做法是计算这篇博文与其他博文的相似度,至于相似度的计算方法就很多了,最简单的就是计算其向量夹角,根据向量夹角判定相似程度。OK,就算你用最简单的计算过程,你试想一下,运算近千万次需要多久?或许,有的人说,俺使用hadoop,利用分布式的计算能力来完成这个任务,但如果实际操作起来,你就会发现这是一个多么蛋疼的事情。

  再举一个简单栗子(好吧,多吃点栗子):比如SVM,这是一种难以收敛的算法,在大数据的前提下,有些人希望使用它,但又希望使用更多的数据来训练模型,毕竟手里数据量太大,很多人还是希望使用尽量多的数据训练的,以达到模型更准确的目的。但是,随着训练数据量的增大,像SVM这种难以收敛的算法,其耗费的计算资源还是很巨大的。

  东拉西扯说了这么多,自个的梳理工作还没有完成呢!

  一、这些年,我开过的挖掘机

  (1)最早接触的应该是贝叶斯的分类了

  贝叶斯算是分类算法中最简单的算法了,初学挖掘机算法的人十有八九第一个爱上的绝对是它。其实,贝叶斯的原理真的很简单,就是依据统计学的最大概率原理。这么简单,但是就是尼玛这么好用,多年依然屹立不倒。

  训练过程就缺乏可陈了,基本上贝叶斯的都这样,由于是文本,所以一套流程下来,分词,去停词,作为最基本的知识点向量,然后就计算模型概率了。不过比较有趣的是,分类过程是放在Storm里头做的,相当于这是一个实时的分类业务。

  (2)说到了文本,自然少不了分词算法了

  其实说到分词算法,反倒没啥可说的。如今互联网上各种开源的分词工具,都已经做的很好了,效果也差不了多少,想进一步改进的话也够呛。至于说深入到分词算法的内部,涉及上下文法分析,隐含马尔科夫模型等东西,如果是个人出于兴趣去研究,那我没话说;如果是小公司,花费人力物力去优化分词效果,我只能说他们闲着蛋疼;如果是大公司,人家金多任性也是可以理解的。

  所以,至今来说,个人对于分词方面的东西,也仅限于初步了解分词算法的衍变,内部大概涉及的算法,以及几种分词工具的使用。

  其实,在文本挖掘方面,仅仅针对于文本的分词是不够的,因为我们使用分词拆分出来的单词,往往很多跟业务都是没有关系的,通常做法是,建立对应业务字典,至于字典的建立,当然也是需要分词的,再进行进一步的加工,甚至可能会加上一些人工的工作。

  (3)下一个就是实时热点分析了

  我也不知道这算不算是算法,说到实时,自然跟Storm又有关系了(好吧,我承认我是搞这个之后开始接触数据的)。说到实时热点,可能大伙儿都摸不着头脑,举个简单栗子就明了了。

  玩hadoop的童鞋都知道WordCount这个经典栗子,MapReduce在Map到Reduce的过程中,自动将相同的Key通过类似hash的方法聚合到一起了,所以,统计单词这个需求通过MR来做是辣么的简单。

  那Storm的实时WordCount呢?好吧,这也是一个能够记录到实时技术领域史书上的经典案例(好吧,其实它就是一个Storm的HelloWorld)。Storm虽然没有类似MR那种自动Hash的功能,不过它也提供了一种数据分组流策略,也能达到类似的效果,并且它不像MR那样是批量的,它是实时的、流式的,也就是说你能动态的获取到当前变换的单词词频。

  实时热点分析,如果我们把热点映射成单词,那我们是不是就可以实时的获取到当前Top N的热点了。这个方向可是有很大的研究价值的,实时地掌握了用户的热点导向,我们就可以动态的调整业务策略,从而衍生更大的数据价值。

  不过,总体来说,这个数据模型更多依靠的是Storm这个实时工具的本身功能,模型设计上的东西反倒是少了。至于说算不算是算法模型,就跟前面所说的那样,看个人看法吧,你说是就是了~~

  (4)国内很成熟的一种建模——推荐

  就目前在国内做数据挖掘的来说,可能分类与推荐是做的最多的两种方向。分类就不多说了,就比如刚才所说的贝叶斯,简直就是分类中的鼻祖算法了。

  可能一说到推荐算法,有人脑海里立马就闪现出关联规则、协同过滤、余弦相似性等这些词。这是没错的,但我要说的不是这个。其实个人想说的是推荐就两个方向:基于用户,基于内容。

  我们需要注意两点,我们推荐的对象是用户,或者说是类似用户这种有动作行为的实体;而推荐的东西则就是内容,他没有动作行为,但是他有不同的属性,或者用更砖业说法描述就是他必然有知识点。

  基于用户推荐,我们看重的不是内容这个实体,而是用户本身的行为,我们认为用户的行为必然隐含着一些信息,比如,人的兴趣导向,那么既然你有了相关的行为,那么我按照你的行为去给你推荐一些东西,这总是有一定道理的。

  基于内容的推荐,我们的侧重点则是内容,这就跟用户的历史行为无关了。我们潜意识的认为,既然你会看这个内容,那么跟这个内容有关系的内容,你是不是也感兴趣呢?或许这样说有失偏颇,但是大体方向是对的。

  至于之前说的那些关联规则也好,协同过滤也好,余弦相似性也好,其实就是研究知识点与知识点之间关系所建立的模型。

  针对于基于内容推荐,其知识点就是内容之中的各种属性,比如影片推荐,其知识点可能就是各种评论数据、点播数据、顶踩数据、影片类型、演员、导演以及其中的一些情感分析等等;又比如博文,其知识点可能就是一个个带权的词,至于这个词就涉及到词的抽取了,再说到词的权重,可能就会涉及到TFIDF模型、LDA模型了。

  而针对基于用户,其知识点最直接的体现就是用户的行为了,就是用户与内容之间的关系,不过深究下去,又会发现,其实跟内容的知识点也紧密联系,只不过这可能不止一个内容实体,而是多个内容实体的集合。

  (5)文本单词的加权模型

  前面正好提到了TFIDF以及LDA模型,所以顺带也就讲讲文本单词相关的加权模型吧。

  说到文本挖掘,可能大部分人都熟悉TFIDF模型,既然涉及到了,那就简单的说一说。我们知道,文本的知识点就是一个个的单词,虽然都是单词,但也总有哪个词重要程度高一点,哪些词重要程度会低一点吧。

  或许有人会说,出现多的词就重要。没错,那就是词频,简单的来想,这种思路并没有错,并且,早期的文本挖掘模型就是这么做的。当然,效果肯定是一般般的。因为那些经常出现的词往往都是一些没用的常用词,对文章的作用并不大。

  直到TFIDF模型的出现,才根本性地解决了文本挖掘知识点建模的问题。如何判断一个词的重要程度,或者专业点的说法就是判断其对文章的贡献度?TFIDF通过词的词频来加大词在文章中的权重,然后通过其在多个文章中的文档频率来降低其在文章中的权重。说白了就是降低了那些公共词的权重,把真正贡献度大的词给暴露出来。这基本就是TFIDF的基本思路了,至于词频权重怎么加大,文档频的权重怎么降低,这就涉及到具体的模型公式了,根据不同的需求进行调整就OK了。

  关于文章知识点主题建模的另外一种很重要的模型,那就是LDA模型了。它是一种比较通用的文章主题模型,它通过概率学原理,说白了就是贝叶斯,建立起知识点(也就是词),主题和文章的三层关系结构。词到主题有一个概率矩阵,主题到文章也有一个概率矩阵的映射关系。

  好吧,LDA不能再说下去了,再说下去就露馅了。因为,俺也不是很懂啊。对于LDA,虽然部门内部有在使用,但是我没有做过具体的模型,只是和同事讨论过它,或者更确切的说向同事请教过它的一些原理以及一些设计思路。

  (6)相似度计算

  相似度计算,比如文本的相似度计算。它是一个很基础的建模,很多地方就用的到它,比如刚才我们说到的推荐,其内部关联的时候,有时候就会涉及到计算实体间的相似度。

  关于文本的相似度,其实方法有很多。通常会涉及到TFIDF模型,拿到文本的知识点,也就是带权的词,然后通过这些带权的词去做一些相似度的计算。

  比如,余弦相似模型,就是计算两个文本的余弦夹角,其向量自然就是那些带权的词了;又比如,各种算距离的方法,最著名的欧式距离,其向量也依然是这些词。还有很多诸如最长公共子串、最长公共子序列之类的模型,个人就不是很清楚了。

  总之,方法很多,也都不是很复杂,原理都很像。至于哪个合适,就得看具体的业务场景了。

  (7)文本主题程度——信息熵

  曾经和同事尝试对数百万的博文进行领域划分,把技术博文划分成不同的领域,比如大数据领域、移动互联网领域、安全领域等等,其实说白了还是分类。

  一开始我们使用贝叶斯进行分类,效果还行,不过最终还是使用SVM去建模了。这都不是重点,重点是我们想对划分到某一领域下的技术博文进行领域程度判断。

  我们想了很多办法,尝试建立了数据模型,但效果都不是很理想,最终回归到了一个最本质的方法,那就是使用文本的信息熵去尝试描述程度,最终结果还是不错。这又让我再一次想到同事说过的那句话:简单的东西不一定不好用!

  信息熵描述的是一个实体的信息量,通俗一点说就是它能够描述一个实体的信息混乱程度。在某一个领域内,知识点都是相似的,都是那些TFIDF权重的词,因此,是不是可以认为,一个文本其信息熵越小,其主题越集中越明显,信息的混乱度越低,反过来说,有些文本主题很杂乱,可能包含了多种领域的一些东西,其领域的程度就会降低。

  最起码表面上,这种说法是行得通的,并且实际的效果还不错。

  (8)用户画像

  用户画像这个方向可能是近两年比较火的方向了。近年来,各大互联网公司,各大IT企业,都有意识的开始从传统的推荐到个性化推荐的道路衍变,有些可能做的深一些,有些可能浅一些。

  商业价值的核心是用户,这自然不用多说。那么如何结合用户进行推荐呢,那就是用户的属性,那关键是用户的属性也不是一开始就有的,我们所有的只是少量用户的固有属性以及用户的各种行为记录。我们连用户是啥子里情况都不清楚,推个毛啊!

  所以,我们需要了解用户,于是对用户进行用户画像分析就很有必要了,其实就是把用户标签化,把用户标记成一个个属性标签,这样,我们就知道每一个用户大概是什么情况了。一些商业行为,也就有了目的性。

  至于说如何对用户的每一个画像属性进行填充,这就看具体的情况了。简单的,用几个简单模型抽取到一些信息填充进去;复杂的,使用复杂的算法,通过一些复杂的转换,给用户打上标签。

  (9)文章热度计算

  给你一大坨文章,你如何判断哪篇文章比较热,哪篇文章比较矬,换个说法就是,我进入一个文章列表页,你能给我提供一个热文章的排序列表吗?

  可能大部分的思路都很直接,拿到文章能够体现热度的属性,比如点击率、评论情感分析、文章的顶踩情况,弄个简单加权计算模型,咔咔就出来了。

  本质上这没错,简单的模型在实际的情况中不一定不好使,部分属性也的确能够体现出一篇文章的热度,通过加权计算的方式也是对的,具体的权重就需要看具体情况了。

  但如果这么做的话,实际上会出现什么情况?今天我来了,看见了这个热度推荐列表,明天我来了,还是看到这个列表,后天我来了,依然是这个列表。

  尼玛,这是啥情况,咋天天都是这个破列表,你要我看几遍?!不错,这就是现实情况,造成的结果就是,越热的文章越来越热,越冷的文章越冷,永远的沉底了,而热的文章永远在前头。

  如何解决这个问题?我们把时间也加入参考,我们要把老文章通过降权的方式,把他人为的沉下去,让新文章有出头的机会。这就是说,需要我们把创建时间也加入权重中,并且随着时间推移,衰减其热度权重,这样,就不会出现热的一直热,冷的一直冷了。至于衰减的曲线,就需要看具体业务了。

  这样就能解决根本问题了吗?如果文章本身信息量就不够呢,比如,本身大部分就是新文章,没有顶踩,没有评论,甚至连点击曝光都很少,那用之前的模型就行不通了。

  那是不是就无解了呢?方法还是有的,比如,我们寻找到一个相似的站点,他也提供了类似最热文章推荐的功能,并且效果还很不错。那么,我们是不是就可以借助它的热度呢?我们通过计算文章相似度的方法,复刻出一个最热列表出来,如果站点性质相似,用户性质相似,文章质量不错,相似度计算够准确,相信这个热度列表的效果也是会不错滴(这方法太猥琐了~~)。

  (10)Google的PageRank

  首先,别误会,我真心没有写过这个模型,我也没有条件去写这个模型。

  认识它了解它,缘自于跟几个老同学合伙搞网站(酷抉网)。既然搞网站吧,作为IT人猿,一些基本的SEO的技术还是需要了解的。于是,我了解到:想要增大网站的权重,外链是不可缺少的。

  我跟我几个老同学说,你们去做外链吧,就是逮住网站就放咱网站的链接。他们问到:一个网站放的链接越多越好吗?放的网站越多越好吗?啥网站放比较好?这都不是重点,关键是他们问:为毛啊?

  把我问的那个是哑口无言啊,于是我一怒之下就去研究PageRank了。PageRank具体的推演过程我就不说了(况且凭借我这半吊子的水平也不一定能说清楚),其核心思想有几个:当一个网页被引用的次数越多时,其权重越大;当一个网页的权重越大时,其引用的网页权重也随之增大;当一个网页引用的次数越多时,它引用的网页给它带来的权重越低。

  当我们反复迭代路上过程时,我们会发现某个网页的的排名基本就固定了,这就是PageRank的基本思路。当然也有个问题需要解决,比如,初始网页如何给定其初始权重,高计算迭代过程如何简化其计算过程等等。这些问题,在Google的实际操作中,都做了比较好的优化。

  (11)从互联网上定向抓取数据

  其实我估摸着这跟算法没很大关系了,不过既然有数据的获取设计流程,也勉强算是吧。

  之所以有这个需求,是那段时间搞网站搞嗨了,给自己整了个工作室网站,想给别人尤其是一些小企业搭建包括轻度定制企业网站(是不是挺瞎折腾的-_-),也确实是做了几个案例(我的工作室网站:www.mite8.com,有兴趣去看看)。

  于是乎,俺就想啊,如何给自己找客户?工作室的客户应该是那些小企业的老板,并且还必须是目前没有企业门户的。作为一个搞数据的程序猿,并且还是开挖掘机的,虽然是半路出身非蓝翔毕业且无证上岗,但好歹是挖过几座山头的呀。

  如今是互联网横行的时代,他们总会在互联网上留下一些蛛丝马迹,我要把它给逮出来!我的目标很明确,我要拿到那些无企业网站的企业邮箱,然后做自己EDM营销(电子邮件营销)。

  1)我先从智联检索页面,抓取了企业规模小于40人的企业名称,事实证明智联招聘的页面还是很好解析的,都是静态的,并且格式很规整,所以很容易就分析出一批小企业的企业名来了;

  2)拿到了企业名,我如何判断这个企业已经有了独立的企业官网?通过分析,我发现通过搜索引擎检索这个企业名的时候,如果有企业官网的话,一定是在首页。并且其页面地址也是有一定规律的,那就是:独立官网的开头通常是www开头的,长度一般不会太长,收尾通常是index.html、index.php以及index.asp等等。

  通过这些规则,我就可以将那些有企业官网的企业名给pass掉了。其中遇到了两个难点,一个就是搜索引擎的很多页面源码都是动态加载的,于是我模拟了浏览器访问的过程,把页面源码给抓取下来了,这也是爬虫的通用做法;第二个就是,一开始我尝试的是通过百度去获取,结果百度貌似是有放结果抓取的一些措施,导致结果不如人意,于是我换了目的,使用的是360的检索,问题就解决了(事实证明百度在搜索引擎方面比360还是强了不少的),并且效果也差不多。

  3)解决了排除的问题,那根本的问题就来了,我如何拿到企业的企业邮箱?通过分析搜索引擎的返回结果,我发现很多小企业喜欢用第三方网站提供的一些公司黄页,里头包含了企业联系邮箱;还有部分公司发布的招聘信息上会带有企业邮箱。

  通过数据解析,终于拿到了这部分数据,最后还做了一些类似邮箱是否有效的基本解析等等。最终拿到了大概3000多个企业邮箱,有效率达到了80%以上。

  问题是解决了,但还是有些地方需要优化的:首先就是效率问题,我整整跑了近12个小时,才把这3000多个邮箱给跑出来,太多需要解析的地方,并且模拟的浏览器在效率上不高;其次就是对邮箱的有效不是很好判断,有些邮箱根本就是人为瞎写的;还有就是部分网站对邮箱进行了图片化混杂处理,即做成了类似的验证码的东西,防抓取,我没有对图片类的邮箱数据进行解析,其实这个问题也是有解决办法的,我们拿到一些样本图片,进行图片字母识别的训练,这样就能解析出其中的邮箱了。

  总体来说,这次体验还是挺有成就感的,毕竟在业余的时间解决了自己实际中的一些痛点,熟练了一些所学到的东西,或者说实施的过程中学到了很多东西。

  ps:github上检索webmite就是这个项目了,我把代码托管到了github上,或者从我的博客上进入。

  二、对自己做一个总结吧

  其实个人的缺点很明显,首先就是没有经过系统的数据挖掘学习(没去过蓝翔,挖掘机自学的),也就是野路子出身。因此对很多算法的原理不够清楚,这样的话,对于有些业务场景,可能就提不出有建设性的意见了。并且,对于很多算法库的使用,还是不够了解的。

  其次就是在数学功底上有所欠缺。我们知道,一些复杂的算法,是需要有强大的数学基础的。算法模型,其本质就是数学模型。因此,这方面也是我的短板吧。

  由于个人是由做大数据偏向挖掘的,基于大数据模式下的数据挖掘过程,可能跟传统的数据过程有很大的不一样。比如,数据的预处理过程,大数据挖掘的预处理很多依赖的是目前比较流行的分布式的一些开源系统,比如实时处理系统Storm、消息队列Kafka、分布式数据收集系统Flume、数据离线批处理Hadoop等等,在数据分析存储上可能依赖的Hive以及一些Nosql会多一些。反倒对于传统的一些挖掘工具,比如SAS、SPSS、Excel等工具,个人还是比较陌生的。不过这也说不上是缺点吧,侧重点不一样。总体而言,大规模数据的挖掘将会是趋势。

  三、给小伙伴们的一些建议

  说了这么多,前面的那些东西可能对大伙儿的用处并不是很大,当然对于开挖掘机的朋友还是有一定帮助的。现在我想表达的东西可能跟挖掘就没有直接的关系了,更多的给动物园动物(程序猿,攻城狮)的学习以及自我进化的建议。

  (1)为了学到东西,脸皮是毛玩意儿?

  对于这点,个人可是深有体会。想当年(好吧,这个词还是很蛋疼的),大学那会儿专业是信息安全,偏向于网络多一点,因此在语言方面更多的是c和c++,对于java可是连课都没有开的,说白了就是用java写个HelloWorld都不会。

  刚毕业那会儿,兴冲冲地跑去公司写c,结果不到一个月,新项目来了,需求变了(尼玛,开发最怕的就是这句话),变了就变了吧,尼玛要研究大数据,用c能干毛啊!一些个开源系统工具,十个倒是有九个是java写的。当时我就哭了!

  于是就纠缠着一个同组的伙伴,逮住时间就问他问题,有些问题在熟悉java的人看来,绝对是白痴又白痴的。但是对于初学者来说,绝对是金玉良言,人家一句话的事,如果自己去查找,可能是几个小时都搞不定。一个月之后,总算入门了,后面就轻松多了。

  往后的一些日子里,遇到了一些问题,总是会厚着脸皮缠着交流群中的一些大拿们死问,慢慢地就进步了。近段时间,开始学习scala,幸好旁边有个scala小高手,哈哈,可苦了他了~~

  所以,遇到自己不懂的东西,不要怕自己的问题简单不好意思问,一定要脸皮厚!你连这么简单的问题都不懂,你还有资格担心自己的脸皮?!

  (2)交流与分享

  对于交流与分享这点感想,缘自于2012年末研究Storm的那段时间。Storm在2012年那会儿,并不像今天这样火,研究的人也不多,无处交流,可用的资料就更少了,所以解决起问题来很费事。

  当然其中有几个博客给我的帮助还是很大的,包括了“大园那些事儿”、“庄周梦蝶”等几个博客,都是早期研究Storm并且分享经验技术的博客。当时我就萌生了写博客的想法。

  在往后的时间里,我花费了很大一部分精力,将我学到的Storm相关的东西整理了出来,并且由于当时感叹没有一个很好的交流平台,创建了“Storm-分布式-IT”技术群(群号191321336,主要搞Storm以及大数据方面的,有兴趣的可以进来),并把整理的资料、代码、经验分享到了平台以及博客中。

  由于我一直主张“进步始于交流,收获源于分享”这个理念,不断有搞技术的朋友加入到这个大家庭中,并且不断的把一些经验技术反馈到群贡献中,达到了一个良性的循环。 短短不到两年的时间,群已经发展到了千人,并且无论是技术氛围还是群员素质,在IT技术群中绝对可以算的上名列前茅的。

  就个人从中的收获来看,这种交流是能够学到很多的东西的,你要相信三人行必有我师,这句话是有道理的。而分享则是促进交流的基石,只有让大家意识到自己所收获的东西是源自于别人的分享,这样才能让更多的人参与进来。

  其实说了这么多,想表达的意思就两点:多多与他人交流,听取他人的意见;至于分享自己的所得,这就是属于良心发现了。

  (3)多看书,随时给自己大脑补充营养

  其实这点也不止是给大伙儿的建议,也算是给自己的一个告诫吧。

  个人在这方面做的也不是很好,很久之前给自己定了一个目标:一个月看完一本书。结果工作的问题,其他杂七杂八的事情很多,这个一直没有落实下来,至今买来的《我的互联网方法论》才看了前几章。最好的案例算是上上一个月,我花费了近一个月上下班等地铁、倒地铁的零碎时间,终于把《构建之法:现代软件工程》给看完了。

  书中有没有颜如玉我不知道,但书中肯定有黄金屋。平时多看一些书,多学一些,跳槽时跟面试官总是能多唠一些的,哈哈,提薪酬的时候是不是底气就足了些?!

  关于说看书的内容,工作中涉及的一些必须了解,必须看的我就不多说了。如果业余时间比较多,还是推荐多涉猎一些其他相关领域,毕竟,人不可能一辈子就只窝在自己那一亩三分地上的;就算你一直坚持某个技术方向,随着时间的推移,技术的升华也必然会涉及到其他很多的相关知识。

  所以,多看书,多充实一下自己,这一定是对的!

  (4)经常梳理一下自己,整理一下自己

  经常给自己做一下梳理工作:自己目前掌握了哪些东西,目前自己缺乏什么东西,掌握的东西够不够,缺乏的东西如何去弥补。这些都是需要我们经常去反思的,只有整理清楚了自己,才知道自己要干什么,才有目标。

  当然梳理完了,你还需要去实际操作,不然的话,你会发现,每一次梳理,结果都是一样的。我们需要在每一次梳理过后,进行对比,了解自己进步了多少。当然每一次梳理,都是为了给自己做一个计划,计划自己大概需要在哪些方向进行加强。

  其实很多人一到了跳槽季就犹犹豫豫,其实他们对目前的工作已经是有所不满的了,但是总感觉自己能力不够,可能辞了也难找工作。这是因为他们对自己认识的不够,连他自己都不明白自己到底有多少料,那么,请问面试官会知道吗?

  如果,你对自己掌握了多少东西都一清二楚,核心领域已经熟悉了,相关领域也有所涉猎,那么你还在担心什么呢?如果真有面试官对你说no,你可以说:hi,刚好我也没什么时间,我还回去挑选offer呢!

  (5)善于在实际生活中寻找学习的动力

  人是懒惰的,很多时候,有些事情可做可不做的,往往人都是不去做的,也不愿意去深根究底。

  这个我很想学,那个我也很想了解,关键是一到大周末,我更想躺被窝!说到底,就是没有学习的动力!

  也就是说,我们要善于在实际的生活中,寻找到推动我们取学习的理由。

  举几个简单的栗子:

  1)之前也说过,有段时间在研究网站。为了让网站推广出去,各种去研究SEO,现在来看,自己虽然远远达不到一个SEO专业人员的标准,但最起码是知道了为毛通过搜索引擎检索,有些网页就排在前面有些就排在后面(PageRank算法);也知道了怎么去编译一篇文章,更好的方便搜索引擎收录(等俺失业了,不搞挨踢了,去做网编估计也是行的,又多了一条活路,哈哈)等等。

  2)为了给EDM寻找目标,我自己使用业余的时间去分析互联网上的数据,然后写代码,跑数据,测试数据等。其实,在那之前,我对爬虫的了解是不多的,对于网页数据的解析也不在行,这完全都是通过“从互联网抓取有用数据”的个人需求上去驱动的。还不止如此,拿到邮箱之后,为了让EDM邮件看起来更“砖业”一点,我开始自学如何使用html来制作好看的电子营销邮件页面。

  3)曾经有一段时间,工作很是清闲,突发奇想的把大学时想写小说的梦给圆了。于是就开始在纵横小说网上写小说。不过,这都不是重点,重点是纵横要求每一个作者给自己的小说配小说封面。我去问了一下,尼玛一张破封面需要20多大洋。心想,一张破封面就要20大洋,自己都是搞IT的人,干脆不自己P一个呢。于是,我开始捡起了大学时期放弃的PS学习计划,只用了两个星期,PS基本功能就熟练了。后来的话,自己的封面当然是搞定了,并且还服务了至少数十位作者朋友们。当然,这都是题外话了。至于小说,哈哈,不但签约了,稿费还是挣了上千大洋,关键是过了一把写小说的瘾。在PS技术方面,虽然跟专业的前端人员比不得,但是改改图、修修照片还是木有问题滴。

  4)远的太远,说一个近一点的事吧。前一段时间开始学习scala,其实就个人需求来说,写那个项目用java来写也完全能够搞定,但关键是我对我自己说,错过了这次机会,下次说不定啥时候才有决心去学习这个很有前途的语言了。于是,狠下心使用这个全新的语言去开发,过程虽然磕磕绊绊,毕竟马上使用一种陌生的语言去敲代码是很蛋疼的事,但一个星期来,结果还是不错的,最起码一些基本的用法是会了。完事开头难,熟悉了一些基本的东西,剩下的就是累积的过程了。

  其实这些归结起来就一个观点:我们要适时的给自己找一些理由,逼着我们自己去学习,去获取新的东西,去提升自己。

  或许有人会说,哥我天天加班,还有毛线时间去问问题、去交流、去看书,大周末的好不容易有假期了,吃饱了我不去睡觉去给自己找动力干不给钱的活,我脑抽啊?!好吧,如果你是这么想的,抱歉耽误了你这么多睡觉的时间。

  其实上面说了这么多零碎的栗子,关键还是在于态度!你有没有想学习的欲望,有没有提升自己、升华自己的想法,有没有升职、加薪、当上UFO、迎娶白富美的念头。是的,这些东西都是自己去做的,没人逼你。如果你有这些想法的话,那么这些东西多多少少还是有一些帮助的。

  除了对待事情的态度,我们的心态也很重要,看待事情要乐观一点。前几天,群里有个搞互联网招聘的朋友问我:你是搞技术的吧?我说是。他说我认识很多搞技术的都很闷,不像你这么开朗。我说我不想哪天死在了马桶上~~

  搞IT的给大部分人的映象确实是闷骚、不善言谈、不善交际。其实也是,每天大量的工作,领导又开会训人了、产品这边需求又改了,确实让人疯狂。工作压力大是IT人的标准属性了。

  我们需要调整好自己的心态,就像之前所说的,学习一个东西,虽然可能会占用本来就不多的业余时间,但是我们应该不是那种单纯为了解决问题而去学习,去获取,当成一种提升自己、升华自己的途径,而不是逼不得已的无奈之举。如果一份工作,你确认自己不喜欢,那就别犹豫,果断跳吧!脑中有货还怕找不到买家!

  时刻警醒自己对待任何事情要有一个好的态度,认清自己,抓住一切机会提升自己、升华自我,保持一个良好的心态,这就是我想说的东西。

  吭吭唧唧说了一大坨,其实我也知道很多是废话,但是我依然希望,我的这些废话能够帮助到你,做为同一个动物园里的人,一起努力吧!

  来源:博客虫投稿,原文链接。作者公众微信号:博客虫(ID:blogchong)

2015年5月12日星期二

宽带运营商为什么限制家庭网络上行宽带

  随着移动互联网的兴起、“云时代”的到来,把文件存储在网盘、把拍好的照片、视频分享到网上,已成为网民越来越普遍的需求。网速快慢,不仅指下载速度,还需要更多需要提高上传速率。

  而恰恰是在上传速率上,中国的宽带运营商显露出了严重的不足——上下行不对称已经形成默认的潜规则,用户的上行带宽远远低于下行带宽。

  ADSL时代,上行下行不对称是技术问题,ADSL(Asymmetric Digital Subscriber Loop)技术是一种不对称数字用户线实现宽带接入互连网的技术,它采用频分复用技术把普通的电话线分成了电话、上行和下行三个相对独立的信道,从而避免了相互之间的干扰,一根线缆内多条电线上的对称信号会显著地限制数据传输速率与线缆的有效通信长度,在大多数情况下,其下行与上行带宽之比可达到10:1的比率。

  到了光纤时代,光纤具有频带宽、容量大、信号质量好、可靠性高等特点,是目前宽带业务发展的方向。是利用两条光纤分别负责上行和下行,不存在ADSL上下行不对称的技术问题,以PON技术为例,下行和上行是频分复用,互不影响,并且因为光纤传输的原理,即使你家离局端20公里,速率也不会有太大变化。

  从拨号上网的ADSL时代发展到光纤,技术上已经解决了宽带网络的上下行速率对等问题。但是,实际上,光纤用户依然被宽带运营商限制了上行带宽,即使是光纤入户的百兆带宽,上传带宽也不足4M。

  为什么宽带运营商要限制家庭用户的上行宽带,我看主要原因就是为了省钱。网民长期以来的网络使用习惯造成了上行带宽使用少于下行带宽,如果宽带运营商给予上下行相同的速度,会造成资源浪费。而把上行带宽资源销售给机房的企业专线租用客户,则会获得更多的利益。托管在机房的服务器需要大量上行带宽,而并不需要太多下行带宽,而且带宽价格非常昂贵,往往机房10M上行专线租用的费用就是家庭100M费用的5、6倍,因此,把下行带宽出售给家庭用户,上行带宽出售给机房的企业用户,就成为宽带运营商谋取利润的手段。

  因此,如果宽带运营商不限制家庭上行宽带,一大原因是怕用户在家庭光纤里搭建网站影响他们的企业专线租用业务,很多企业可能会使用家庭光纤来搭建网站,而不去机房托管主机,造成宽带运营商的利益损失。因此,宽带运营商不仅仅不会提高家庭上行宽带,还会通过动态IP,限制80端口等方式来禁止家庭光纤用户私自搭建网站。

  在早期的互联网环境下,上行下行不对称的确符合用户实际的上网需求,普通人上网大都是下载很多,上传很少,因此不需要太多的上行带宽。然而到了现在的互联网云时代,视频聊天、云存储等应用都需要大量上传带宽,网络使用的多样化必然将导致上行下行的需求同时存在,因此,宽带运营商再限制上行带宽,就已经确实影响到用户的整体网络体验。因此,从互联网行业的长远发展来看,宽带运营商如果不好好面对上行带宽限制的问题,就可以会对整个互联网产品带来限制,不利于互联网产品的高速发展。

怎么让更多的人点开你的微信内容?

  还记得关注第一个微信公众号的时候,很是兴奋,天天可以看到喜欢的文章,觉得自己好幸福。一个月后……手机里的微信公众号像自己会配种一样,繁殖了一大串,有一天想起了第一个公众号,往下翻了好久都没有找到。是的,初恋的模样都已经忘得一干二净了。

  其实这就跟当初下载APP是一样的,下第一个APP的时候心里美滋滋的,后来,手机里最不缺的东西,除了自拍照就是堆成山的APP。

  对于运营微信公众号的人来说,这个现实是需要睁大眼睛去面对的。以前可能每个人都围着你的公众号看,但是现在每个人都有数十个甚至上百个微信号,怎么把注意力分配给你?

  其实,一个人经常看的微信号也就是相对固定的几个,不会每天一大串公众号去翻来覆去。所以,你要想办法脱颖而出,成为用户的几个宠儿之一。

  以上全是废话,下面开始告诉你怎么让公众号脱颖而出,提高被点击的概率。

  最关键:选好题

  内容的选题比命根子还重要。选题是战略问题,内容质量只是技术问题。有时候做内容做到内分泌失调都没什么人看,就是选题没有选好。你给的东西,不是他想要的,就是一次强暴,做起来就是吃力不讨好的。

  要选好主题,你首先要知道粉丝想要什么。应该做到以下几点:

  搞清楚你的粉丝是什么样的人

  他们的兴趣爱好、年龄职业、地域分布等等,这些人口统计学特征你都要懂。对粉丝基本的了解都没有,是很难选个好题的。

  搞清楚你的粉丝关心哪些内容

  粉丝关心的内容可能很多,但是跟你相关的有多少?你要搞清楚他们希望从你这里得到什么,在你这个领域会遇到哪些问题。第一选择就是收集他们的回复;第二选择是查看SEO搜索词;第三,如果有客服,你可以多跟客服聊一聊。

  看看你的行业里已经有什么内容了 

  知道了你的粉丝想要什么,不要马上就给他,还要看看有没有其他同行已经给他了。如果别人已经做过的内容,并且都比较权威了,你就别去浪费时间了。所以,你要对行业内的内容结构做一个调查,争取你给粉丝的东西,是别人给不了的。

  做好了以上三项,基本上就能选好一个让粉丝心动的主题了。选题做好了,后面做内容一定是很轻松的,不要太纠结问题是否华丽、图片是否精美。如果你的主题正中粉丝的痛点和痒点,粉丝是没有什么招架之力的。

  技术性优化

  当然,优化一下技巧性的东西,会让你的内容锦上添花。比如以下技巧:

  标题技巧:标题是微信文章的一把钥匙,没有起好标题会把很大一部分人挡在门外。你的标题一方面是要吸引粉丝,另一方面是要把一长串的公众号PK下去。

  视觉化正文:微信的内容不应该走深度阅读的路线,所以要尽量让内容读起来轻松点。第一原则就是不要让文字连成片,把文章视觉化会更好。

  推送时间:如果你总是在偏门的时间推送你的内容,那它可能一直垫底,粉丝要把你找出来也会费很大的劲。主流的推送时间是上班路上、中午休息、下班路上、晚饭后、睡觉前。

  选个好头像:头像是公众号列表中展现出来的要素之一,记得要醒目、独特,不要大众化。

  总结一下:

  做用户最关心的内容,而不是做最精美的内容。所以,选好题最重要,这是必答题,否则你会耗费很多时间和精力。技术性优化多花心思,这是加分项。

  来源:张飒的博客投稿,原文链接

Facebook全球社交网络广告市场份额

  美国市场研究公司Strategy Analytics发布最新报告称,2014年Facebook在社交网络总广告支出市场上所占份额为75%,表明Facebook在社交网络领域中占据的霸主地位并未显示出滑坡的迹象。

  报告显示,在总额153亿美元的社交媒体广告市场上,Facebook占到了114亿美元。在2014年中,这个市场的规模增长了41%。相比之下,去年Twitter的广告收入为12亿美元,在市场总额中所占比例为8%。根据Strategy Analytics在报告中作出的预测,到今年年底为止,社交广告市场总额将达198亿美元,到2016年底则将进一步增长至242亿美元。

  报告还指出,社交网络用户在2014年中首次超过20亿人大关。尽管并未正式进入中国市场,但Facebook的月度活跃用户人数仍达14亿人,在总人数中所占比例为68%。中国社交网络用户在全球用户总数中所占比例近25%。

  Strategy Analytics分析师Leika Kawasaki在报告中指出:“整体而言,社交网络市场继续在所有地区都显示出强劲的增长,原因是各大社交网络平台都在通过改进数字媒体内容整合的方式来推动使用量增长。虽然Facebook目前在全球社交网络市场上占据主导地位,但由于并未进入中国市场的缘故,令QQ空间和腾讯微博等中国本土社交网络得以在迅速扩张的中国数字广告市场上变得越来越受欢迎。”

  这份报告还提供了其他一些数据,概列如下:

  -近一半(46%)的社交网络用户居住在亚太地区;

  -2014年中北美社交网络用户在人口总数中所占比例最高(64%),其次则是西欧,为55%;

  -美国在全球社交网络广告支出中所占比例最大(41%),2014年的总额达到了62亿美元,同比增长35%;

  -英国是第二大的社交网络广告支出市场,在2014年全球社交网络广告支出市场总额中所占比例为8.2%,略高于中国(8%);

  -美国2014年的每用户社交网络广告支出最高,为31.37美元,预计2015年将增长27%,达到39.84美元;

  -2015年全球社交网络用户人数预计将增长至22亿人,在全球人口总数中所占比例为31%;

  -报告预计,到2019年底全球社交网络用户人数将达27.2亿人,在全球人口总数中所占比例为36%。

2015年5月11日星期一

“流量货币化”大有可为

  运营商开始进行流量货币化实践,推出诸如“流量包”“流量银行”等流量平台,进一步提升用户的流量使用效率和使用价值。流量能否实现货币化,最关键的一点就是流量货币化后能否实现用户价值提升和运营商量收增长的双赢。本文探讨运营商如何构建更为有效的流量经营体系、建立一个有吸引力的流量运营交易平台。

  通信网络的升级换代加速了移动互联网的高速发展,与此同时,伴随着移动互联网的蓬勃发展,数据流量也呈现出爆发式的增长,流量对语音、短信等传统业务的替代作用愈发明显,流量经营逐渐成为运营商增量增收的关键举措。

  3G时代运营商流量经营采取的是粗放式的发展策略,拉动总流量呈指数级上升,但“量收剪刀差”却未见缩小;进入4G时代,运营商流量经营将更趋于精细化运营,不断注重“客户流量价值的提升”,那么,如何才能提升用户流量价值?

  “流量货币化”运营模式逐步兴起

  面对流量的高速增长,用户对流量使用的诉求也在不断变化,如流量过期不清零、流量转赠转售、用流量置换语音或短信等业务,多样化的需求使得流量在互联网市场作为一般等价物的属性不断强化,“流量货币化”的概念一时间成为各运营商、虚拟运营商及互联网企业竞逐的热点。

  何为“流量货币化”?流量货币化,就是指存在于通信网和移动互联网生态系统内,以流量作为交换媒介,用于换取一定量的内容和服务,同时,流量又可作为一般等价物进行流通、可以累积、可以赚取、可以买卖、可以相互转赠。

  “流量货币化”赋予了流量更多的内涵和功能:

  首先,对运营商而言,流量成了所有业务的中心,可以对其他服务和业务进行标的,如1M流量=1分钟通话时长=1条短信,如此,有了统一的标的物,运营商未来的产品套餐结构将更加简化。此外,流量货币化能让更多的剩余流量得以利用,释放其价值,运营商也能从中获取更多的增量收入。

  其次,对用户而言,流量货币化使得用户对流量的支配更加自由,用户每月流量不够用可以向其他用户或服务机构购买,自己剩余的流量也可以卖给其他有需求的用户,而且用户还能通过参与一些活动赚取一定量的流量,这使得流量流通的活跃度大大提升,对于促进整体流量的提升大有帮助。

  再次,流量货币化为众多的虚拟运营商和互联网企业带来了新的发展机遇。虚拟运营商可以通过流量赠送的方式与自身主营业务进行捆绑融合推广,如上淘宝购物免费赠送流量;OTT企业可以利用流量来提升个人用户对自己服务或产品的使用,如玩腾讯游戏赠送腾讯视频定向流量等。

  可以预见,流量货币化之后,流量所具备的属性边界将不断扩大,不仅通过流量累积、转赠提升了用户体验,而且通过赚流量、兑换等方式增加了流量消费的场景,多方参与的模式进一步打通了前后向经营的链条,使得运营商、企业、用户等产业链上下游之间的结合更加紧密,从而主导整个产业链的资源分配和支付交易,激发用户流量使用潜力,带动流量业务健康高速增长。

  “流量货币化”的商业模式兴起之后,运营商、虚拟运营商乃至电商都相继开展了运营实践:

  中国电信于2014年年底推出“流量宝3.1版本”,主要通过发行“牛币”,牛币作为一般等价物进行流通,用户在流量宝客户端上可通过购买和好友互赠的方式获取牛币,再用牛币进行流量兑换(1牛币可兑换1M流量),牛币跨月不清零,可以赠送给好友,可兑换成电信、移动、联通三网流量及WiFi时长,海外流量卡等功能。

  中国联通不甘落后,也在去年11月底正式推出“流量银行”,一个针对3G、4G用户的流量管理与交易的平台,提供流量赚取、转赠、销售等功能,同时也为企业用户提供精准、高效的营销推广服务,入驻流量银行平台的企业,通过设计各种创新营销推广活动,从而吸引用户积极参与互动和分享,提升企业推广效率。联通表示:未来,用户甚至还可以将第三方积分(如信用卡积分、超市会员积分等)与流量相互兑换,用流量来进行购物结算,真正实现流量的货币化功能。

  中国移动亦跟随推出了自己的流量交易平台——爱流量。其与电信、联通推出的流量平台并无明显差别,也可实现“买流量”、“赠流量”、“发红包”、“讨流量”、“赚流量”等功能。但有所不同的是,“爱流量”限制注册用户必须为中移动用户,还规定该平台上所有流量获取、买卖、转赠等的对象均必须为中移动用户。

  此外,虚拟运营商也逐步加入战局,阿里联手三大运营商推出面向网购用户的“流量钱包”,按照“游戏”规则,用户通过在淘宝、天猫(微博)购物或参加商家活动,即可获赠一定的流量,同时这些流量可像零钱一样“零存整取”。巴士在线推出的“10020流量银行”则更为激进,通过剩余流量留存、流量共享、语音和流量可互转、流量自由交易市场等达到流量增值变现的目的。

  从各方“流量货币化”经营模式的实践中,不难看出,运营商、虚拟运营商、互联网企业“流量货币化”均处于摸索和试验阶段,并未进行大规模的投入和推广,同时也暴露出了诸多的问题和不利因素,这些都将是未来推动“流量货币化”发展所要克服的障碍,只有多方合力才能使“流量货币化”经营模式落到实处,从而实现多方共赢。

  “流量货币化”面临的问题

  流量货币化运营模式尚处在发展初期,将来能否成功,还需要时间和市场来检验,但就目前的发展态势而言,所处的困境和遇到的问题也不少。

  一是运营商流量货币化目前都是各自为政,没有形成统一的运营理念和共识。从三家运营商推出的流量管理平台,我们可以看出,电信的“流量宝”已经实现了三网(电信、移动、联通)手机流量兑换、流量赚取以及转赠等功能,并支持Chinanet、CMCC WIFI免费上网、海外流量兑换;联通的“流量银行”也打破了传统的运营商界限,所有运营商的用户都可以参与其中,真正实现无障碍的跨平台运营;但是移动的“爱流量”却不相同,仅限中国移动用户注册和使用。三大运营商之间的流量互通暂时无法解决,且三大运营商的流量单价也各不一致,经常变动,没有一个统一的定价标准,这极大影响了流量兑换的范围、效率和成本,还存在流量变现套取等问题,这些都将成为流量货币化的阻碍。

  二是流量货币化盈利模式仍不明晰,还处在摸索阶段。对运营商而言,流量货币化后,诸如用户流量不清零、用户间流量买卖、流量转赠等政策的推出,使得运营商存在流量收入下降的风险,例如某用户月套餐含500M流量,但每月只用了不到250M,由于流量可以转赠,他便将剩下的流量免费赠予超流量的亲朋好友使用,这就使得部分超流量客户可以通过共享他人的流量从而减少向运营商直接购买,导致运营商流量收入下降,但对于用户的流量转赠行为运营商是收费的,这一减一增是否会影响运营商整体流量收入,需要进行具体的测算和分析。

  三是用户参与程度仍不高,没有形成良好用户使用习惯。说到底,流量货币化其本质还是旨在通过用户间的社交、互动等行为,将原本处于闲置的流量利用起来,进一步提升流量的使用价值,激发用户的流量使用潜力,达到量收双增长的目的。现阶段,由于运营商套餐流量过月清零、流量平台仍处于初步推广阶段,许多功能和服务还不完善,且并未大规模宣传推广,使得用户间的流量转赠、交换、流量赚取等行为并不频繁,大部分用户还是持“每月流量用不完就算了,月套餐流量用完了继续向运营商购买”的做法和态度,并没有将用不完的流量赠予他人或者出售,用完了去向朋友索取、低价向其他用户购买或者自己去赚取的想法。如何引导用户更多去参与流量的流通,形成新型流量使用习惯,将是流量货币化规模开展的基础。

  四是流量货币化的监管问题。流量货币化后,流量便可以充当网络虚拟货币,但目前并没有相应的法律法规对其进行监管和约束,如何防止不法份子利用其进行犯罪活动,还需要制定更为合理完善的运营监管机制。

  流量货币化是运营商互联网转型的又一重大突破,机遇与挑战并存,如果能建立起合理完善的流量货币化体系,这一创新的流量经营模式必能引导产业链的优化升级和商业模式的巨大变革,从而爆发出巨大的商业潜能。

  “流量货币化”经营模式的出路

  流量货币化大有可为,那么,如何才能进一步盘活用户流量资产,消除流量经营障碍,提升流量价值呢?通过分析,我们可以从以下几个方面着手:

  首先,优化流量货币化平台的服务和使用体验,建立流量货币化经营闭环体系。运营商需形成统一业务规划和运营标准,努力打破三网流量不互通的限制,更加大胆的去尝试创新;建立合理的平台服务收费、流量监控、流量交换等制度,提升用户体验;清晰掌握流量的来源、交易过程和去向,引导用户进行安全可靠的流量交易;逐步扩大流量价值范围,如支持流量直接购买音乐、视频、游戏、兑换积分等增值服务,强化与互联网应用内容服务的对接。

  其次,加强流量平台的营销推广力度,引导用户真正去“玩转流量”,激发用户深层次的流量消费。运营商需通过多渠道、多触点的宣传,提升流量平台的覆盖规模;引入更具吸引力的娱乐、休闲、支付、理财等互联网应用服务,拉动用户流量消费需求;逐步尝试用户自我定价、自由交易、自我创造内容等互动性和参与性更高的运营模式,从而提高用户体验,增强用户粘性,例如如果用户仅是进行新闻浏览、微博、微信等简单服务,那就支付少一点的流量;如果是在线视频、音乐、游戏等,那就支付更多的流量;如果需要更高的服务要求,诸如在线炒股,用户则可以支付更高的流量来保障整个服务的流量性,这种更具个性化和差异化的服务体验想必更受市场所欢迎。

  最后,建立更加完善的支撑和规范的监管体系。数量级如此庞大的流量流通平台,所投入的人力、物力等资源必定不少,且需要具备更高的要求,这样才能保证整个体系的正常运转。此外,为保障用户流量账户和交易过程的安全性,防止不法份子投机取巧,流量货币化监管体系必须不断优化,并对流量的产生过程、交易方式、价格费用等进行更加细致的设计,才能使流量货币化一直在正确的轨迹上运转。

  通过以上分析,我们可以知道流量货币化虽然才刚起步,但却给运营商、虚拟运营商、互联网企业带来了更多的遐想空间,通过流量货币化打破传统运营观念,不断优化流量生态系统,提升用户的流量体验和服务价值,必然能为流量市场注入前所未有的活力,其所蕴含的商业价值也将逐步显现。

  来源:投稿,作者:赛立信通信研究部  曹先震,赛立信竞争情报网。