-月光博客

2015年5月19日星期二

Android M会是Mooncake吗？

　　五年前，谷歌毅然离开中国大陆市场，而Android的应用商店Google Play也登录不上了。如今，Android M快要来了，谷歌会选择回来中国吃Mooncake吗？

　　中国大陆市场的大金矿

　　当中国开始对互联网内容进行“指导工作”时，谷歌这个美国企业“不羁放纵爱自由”，最后拐头就走。它本以为自己一个卖广告的，就算自己一个搜索页面广告没了，还有千千万万个网站愿意用我的广告。

　　但随着智能手机的发展，中国大陆市场的互联网价值潜力井喷式释放，直到最近安卓在中国大陆的占有率高达70%，但谷歌在这其中一分钱都捞不到。根据调查，全球Android的应用商店流量占比中Google Play仅占1/4多一点，而其他地方都被中国大陆各种各样的应用商店分走了，可见其潜力之大，但有些用户想付费都难，只好用盗版。而Android的竞争对手iOS上的App Store在最近两年在中国大陆的盈利不断创新高，游戏收入甚至仅次于美国和日本。

　　尽管中国人的正版意识仍不高，但随着各个方面的发展，加上中国本来人就多，且中国方面政府正加紧对知识产权相关法律法规的完善，如此一来正版运动的时机快成熟了，然后随便占上个百分之几都能占上个大数目，就像是一座全身都是金子的山，而且是越来越多金子的山，占个一两块地你也发了（当然你也要有能力才行，因为竞争的也很多）。

　　谷歌要吃月饼吗？

　　每一次Android的代号都以英文字母的排序下来的甜品，这次泄露出来的今年Google I/O大会上发布的自然是Android M，但在真正发布推送之前我们都不知道谷歌要吃什么。网络上遍布着各种猜测，那它会回来中国吃月饼吗？

　　去年12月10日，谷歌在上海举办开发者大会，其内容是向中国开发者介绍Google Play的相关细节和公布支持中国开发者在google Play上以中国为开发者所属国发布付费软件，虽然仅仅是在列表上增加一个选择，但这足以令人产生无限的猜测及油生的激动。谷歌是打算回来了吗？但随后却又再无动作了，这件事也随风而去了。

　　虽然有谷歌高管曾表示对中国大陆市场有关注及表达中国大陆市场的重要性，但过去了半年时间仍不见有什么风声。这个坐落在旧金山的公司就此放弃掉这座新金山，做匹好马不吃回头草？变数太大，也只有时间能给我们答案。

　　这个月饼吃起来不容易

　　假若谷歌真的回来过中秋，它的月亮也未必是圆的亮的。

　　如今国内有大大小小的应用商店，基本一个品牌一个商店，还有些第三方的，虽然都是以卖广告形式盈利，但市场基根还是挺牢固的，想插条腿进来也没有多少位置，除非放大招。

　　那谷歌要如何出招呢？我们知道在国际市场上没有谷歌服务的Android手机几乎是没人要的，厂商必须付费来购买谷歌服务，然后用户也自然地用Google Play来安装应用，而Google Play不允许有应用可以用来安装应用，所以自然独占了，虽然仍有Amazon Store这类的应用商店，但用的人还是很少，因为可能很多国际友人都不知道如何开启安装未知来源应用按钮，就像大多数人不知道开发者模式怎么开启或者根本不知道有这样的东西一样，而且反正两个都是付费应用还是要付费的，所以就安安乐乐的用着手机自带的，这样体验不亚于App Store.细心的读者可能会发现，我全篇文章描述Android时都用“Android”，唯独说其在国内占比时用“安卓”两个英文，因为在我看来有谷歌服务的叫“Android”，没有的叫“安卓”。那么问题来了，所有国行手机都是自动勾选安装未知来源的，甚至有的开发者在做ROM的时候直接把这一选项隐藏了，无法取消，如此一来，正版应用商店Google Play的正版应用就没人会买了。

　　所以谷歌要让Google Play占领市场，就要将整体谷歌服务引进，再找来国内外付费应用开发者给他们服务支持+灌输“商业鸡汤”+抱团起诉国内盗版软件提供者（未必成功），然后联合其他厂商要求使用自己的服务（为了和谷歌保持良好关系，厂商们还是会妥协的，因为反正这方面自己也赚不了多少钱），更狠的是取消允许安装未知来源应用，走大开发小封闭的道路（但这样有违背谷歌的开放的主旨，应该迫不得已不会有），或者是像苹果那样解锁才能这样安装。这样一来基本扫清了阻碍。

　　只是，Google要回来做“谷歌”吗？

　　它会让机器人吃月饼吗？

　　来源：Kaisam投稿，原文链接。

2015年5月18日星期一

京东1.7亿美元战略投资金蝶软件

　　京东集团与金蝶国际软件集团今日联合宣布达成合作协议，京东将出资13亿港币现金（约1.71亿美元）认购金蝶约10%股份。此外，金蝶与京东计划达成战略合作伙伴关系，携手为中小企业提供基于云服务的ERP整合解决方案。受此消息影响，金蝶的股价今日开票即上涨10%。

　　此次投资的认购价格为每股4.6港元，为协议签订前15个交易日金蝶每日收盘价格的平均值。预计该交易将于2015年第二季度完成。

　　金蝶国际软件集团董事局主席兼CEO徐少春表示，我们很高兴与京东结成伙伴关系，这是金蝶发展史上的里程碑。我们将以此为契机，整合双方庞大、优质的企业客户和用户资源，创新发展金蝶与京东电子商务及仓储物流解决方案，加速推进金蝶云服务业务，为双方客户提供卓越的一站式服务体验，继续领跑企业移动互联网市场。

　　京东集团CEO刘强东（微博）表示，作为中国领先的企业级解决方案供应商，金蝶是京东理想的合作伙伴。我们希望进一步探索将京东一流的电子商务和物流IT方案与金蝶领先的ERP解决方案相集成，将整合方案迁移到企业云平台，以更好地满足中国市场日益增长的企业级解决方案的需求。

　　金蝶国际软件集团有限公司总部位于中国深圳，始创于1993 年。金蝶为世界范围内超过400万家企业、医院和政府等组织提供软件产品与云服务，用户数超过5000万，连续十年稳居中小企业ERP市场第一。

　　京东是中国最大的自营式电商企业。京东拥有全国电商行业中最大的仓储设施。截至2015年3月31日，京东在全国范围内拥有7大物流中心，在43座城市运营了143个大型仓库，拥有3，539个配送站和自提点，覆盖全国范围内的1，961个区县。

2015年5月17日星期日

谈谈响应式网站前端设计

　　一段时间之前我对响应式的概念还是Bootstrap、Amaze之类的框架组件，用过几次也不以为然，我想国内搜索引擎在提供移动搜索结果页时还是会给移动网站加分的，却不能像google一样识别响应式网站，可能还需要一段时间发展。但毫无疑问的是现在Web趋势转向移动优先，当然如果你用域名或者其他解决方案也不是不可以，只是响应式可能更简单一些，发展前景也是不错的。

　　这两三个星期我每天都在写响应式页面，借此累积了不少响应式页面和ajax的经验。我大致的梳理了几个响应式页面的重点，如果想往这方面发展或是对它有些兴趣，希望能给大家一点帮助。

　　控制大小

　　习惯了PC页面的前端开发者可能更加喜欢用pc来控制大小，但在响应式的页面中出现更多的是em和rem，用它们来控制字体大小甚至是框体大小对整体的效果非常明显。

　　打个比方，我的字体设置是10px/20px/30px等等不同的，网站上不同的地方自然字体会有大小的差异这是必然的，如果一个页面足够复杂或是文字足够多的话，这些字体的大小设置也是一个量很大的工作，不过在响应式页面中你设计完它们并不是完事：你用手机浏览一下页面会发现字体会撑的很大，甚至有个别标题撑满了手机屏幕，这对移动端用户的体验影响可想而知。因此你要开始写媒体查询，然后发现一个页面有几十个字体需要设置，如果把它们在不同分辨率下一一调整你可能需要写百句以上的css代码，但如果你用em/rem，就能够把工作量大大减小，同时还能够保证字体的统一比例。

　　关于em/rem的解释大家可以自行搜索，网上这类教程数不胜数，实际上它们就和px一样简单，当我开始用之后也不过只花了几分钟熟悉它们。就像前面说的一样，你也可以用它们来控制框体的大小，然后再响应式的页面下统一缩放，当然这需要足够多的计算。另外值得一提的是字体图标也可以用它们来控制，具体可以参考不同“字体图标”的官方文档。

　　百分比

　　解决缩放问题的思路有好几种，最适合新手的无疑是百分比式的布局，在关键的宽度设置下百分比能够起到出乎意料的效果：

　　box1{ width:100%;}

　　ul{ margin:0 2%;}

　　我并不是推崇全部使用百分比来布局，但有时候这可能会大大减少工作量，给box1宽度设置100%之后它会自动以宽度填充满整个浏览器，不管你是手机PC什么分辨率，它总是有很好的表现。这时候你给box1下面的ul设置左右2%的margin也是如此，随着浏览器窗口大小改变时ul的实际margin大小也会随着变化，这么一说大家多少也都理解了百分比布局的概念。

　　当然有时候也不会有想象中的效果，特别是在较小的分辨率上时，原来看似不错的百分比设定会显得很怪，因为响应式多数时候只约定宽度，长度都是由文档和浏览器来决定的，这时候想要在所有的终端上都有很好的体验就需要Media Query来解决问题。

　　Media Query

　　通俗的解释就是CSS的媒体查询功能，它既能够准确的识别设备也能够自己设定分辨率或者宽度，w3cshool里有Media Query的参考文档，如果你嫌文档太多我可以粗略的解释一下它的工作原理。

　　在有必要的时候你可能会给一个box设置高度，当box拥有500px高度时它可能在PC上看起来不错，但用手机打开时就有些吓人了，整个box充斥了页面，里面的内容排列混乱，严重的影响了用户体验，这时候你就可以使用媒体查询Media Query，用它单独的为不同大小的设置不同的高度，比如640/320打开时box时就分别处于300/200px的高度，这样看起来就不错了。

　　大家可能会想到import，实际上媒体查询就可以这样理解，它为不同的宽度或设备设定了类似于import的css规则，保证了实际渲染完成页面的效果。

　　媒体查询也可以为一个页面准备多个不同的CSS，当设备大小不同时使用不同的CSS文件，如果样式文件比较大也可以考虑这种方法。

　　说说框架

　　我见到过和实际使用的前端框架中，不少都是富前端类型的设计，并不建议新手前端盲目的使用框架来布局，不管框架看起来多美好。在实际的使用过程中大家可能会发现很多问题，比如类名太多太复杂（在没有很多的css经验时可能对约定的类名所知甚少）、样式冲突。引入资源过多导致页面繁重、偏离设计效果等等。

　　就拿bootstrap来说，如果你要设计一个类似于google的搜索框就显得很难，google类型的搜索框实际上是将一个input包含在box里面，然后在这个box里面再加上左右图标，如果你用bootstrap来做可能会出现很多莫名奇妙的冲突，但实际上你得到了什么呢？一个圆角一个行高？还是他的百分比宽度呢？这些用css来写只不过是几句代码的事。

　　还有一些框架过度的依赖AJAX，它们也许想法很好，大量的AJAX在前端看起来的确很酷，对用户的友好性也足够强，但大量的请求对服务器并不友好，可能会使服务器的实际负载大大下降。总之还是一句话，按实际需求来解决问题，框架并不是万能的。

　　来源：维特博客投稿，原文链接。

互联网+来了，你准备好了吗？

　　“互联网+”的观念已经开始向全民化发展，如果说现在你还不知道什么是“互联网+”那么不能说你OUT了，只能说赶紧回到你属于你得星球吧。当然如果你对地球仍恋恋不舍，那么可以慢慢的读完本文，让李振杰带你明明白白互联网+，让你为这个突如其来的新思想做好全方位的准备！

　　“互联网+”的前世今生

　　早在2007年张荣寰就提出了“互联网+”的理念，不过2007年的中国互联网不过是一个冲浪工具而已，也就是说时机还不够成熟，而这个理念也仅仅是在互联网以及科技圈里面小范围的传播一下而已；2013年11月，腾讯老大马化腾再次提出“互联网+”的观念，认为什么都可以互联网+，让我们见识到大公司的高瞻远瞩以及超前的运营理念，同时“互联网+”的理念再也整个互联网乃至于科技领域引起了轰动；当然马总提出这个观念的时候，相信马总的铁蹄已经早就踏入“ 互联网+”这块领地了，就如同经验这个东西，当别人分享给你的时候其实别人早就会了，也许人家用的是2.0版本，传授给你的不过是1.0版本而已。不过作为我们普通人，既然无法做第一个吃螃蟹的人，那么能够喝点螃蟹汤也足以成为暴发户了，可惜的是我们往往连汤也喝不上，没办法谁让我们是普通人呢。时间指针到了2015年3月5日，李克强总理在政府工作报告中再次提到“互联网+”这个大思想，这次经过总理的金口说出之后，有如排山倒海之势轰击了整个世界。因为一旦从政府工作报告中体现的东西，那么就是一个信号，就是一个趋势，意味着国家的重点发展方向，跟着这个方向走，保准让你少说也是一个暴发户，当年的下海经商，后来的互联网卖东西等都是一个很好的佐证，当然也意味着“互联网+”出世的时机已经成熟。

　　成功的前辈

　　北京大学深圳医院，他们在刚开始和就医160接触的时候每天的门诊量是6000人，门诊楼人满为患，因为门诊楼的设计只能容纳7000人。后来通过几年通过互联网进行预约挂号的尝试，现在北京大学深圳医院的门诊预约已经超过了50%.现在北京大学深圳医院的门诊量是10000人左右，一天有5000个是通过网上预约的，秩序好了很多。很多科室已经实现百分之百预约，秩序就非常的好。以前这个医院上午10点钟左右是最高峰的，通过错峰就诊的方式，10点钟左右的时候比以前少了一半人，以前下午没什么人的时候，现在就有很多人，使医院的门诊量得到了大幅度的提升。现在他们逐步想把收费处取消，逐步通过网络的方式来实现。

　　现在各大医院都已经开始网络预约挂号，其带来的便利绝对是空前的。同时通过互联网进行病例共享、专家会诊等颠覆医疗这个特殊传统行业的互联网思想正在逐渐开展，相信互联网+医疗将给世界带来更多不可思议的便利。

　　“滴滴打车” App改变了传统打车方式，建立培养出大移动互联网时代下引领的用户现代化出行方式。较比传统电话召车与路边扬招来说，滴滴打车的诞生更是改变了传统打车市场格局，颠覆了路边拦车概念，利用移动互联网特点，将线上与线下相融合，从打车初始阶段到下车使用线上支付车费，画出一个乘客与司机紧密相连的o2o完美闭环，最大限度优化乘客打车体验，改变传统出租司机等客方式，让司机师傅根据乘客目的地按意愿“接单”，节约司机与乘客沟通成本，降低空驶率，最大化节省司乘双方资源与时间。

　　截至3月底，滴滴打车在全国已经突破1亿用户，日均订单量也突破了521.83万，覆盖了包括北、上、广、深等超过178家一二线城市，使用滴滴打车的司机也超过了90万。同类型的还有快的打车等很多打车软件，完全打破了我们对出租车的传统想法。

　　还有很多成功的互联网+的案例，这里就不一一举过，互联网+的名号这么响亮，相信不久的将来所有的案例都会铺天盖地的充斥整个互联网，到时候不用我说你完全可以娓娓道来了。

　　互联网+的未来

　　其实不仅是马化腾的腾讯，包括马云的阿里巴巴，李彦宏的百度等等各大网络公司早就开始了“互联网+”的时代，早就尝到了鲜儿，接下来一定是大动干戈、大动手脚、大资金注入，新一轮的互联巨头之战才刚刚开始。

　　抛开巨头之战，其它公司也将带上自己的传统项目开始他们的“互联网+”之旅，因为正如开篇所说，这是总理的号召，这是国家的导向，连国家政策都解读不明白还怎么谈赚钱？所以，将来将不存在所谓的传统行业，更多的都是互联网+时代的新型行业，在互联网的大平台下，进行大数据理念发展，还是那句话，跟上时代的脚步你才不会被抛弃，而现在的时代叫“互联网+”。

　　当然“互联网+”的到来势必也会让我们与蜗牛般的网速告别，迎接以M进行计算的网速阶段。同时作为我们普通人，网络也将成为你吃饭睡觉之外的一个必备生存技能，毋庸置疑。另外，除了目前的网络充话费、交水电燃气费等费用之外，大家可以把自己的眼光扩散到月球，然后再回望地球，发动所有的大脑神经去想象，所有你曾经做过或者想做而又不敢做的事情，还有那些你想都没想过的事情，都将随着“互联网+”的到来而呼之欲出，将占满你生活的每一个角落，不要不相信，事实会让你见证奇迹就在不远的前方！不等到奇迹诞生的时候你再去震惊不已，其实读过本文的你已经完全可以现在就接受“互联网+”的“洗礼”，因为至少你从思想上已经对“互联网+”的到来做好了预热的准备，你说对吗？

　　来源：李振杰投稿，原文链接。

2015年5月15日星期五

手机卡恶意补卡盗刷漏洞

　　中国移动连续两个月给我发短信，要求对手机号码“实名登记”，并给出5元的话费补偿，如果不登记的话，中国移动称“有可能会影响号码正常使用”，我不清楚这个影响是否表明其有权强行停机。

　　我不愿意身份证实名使用手机的一个原因是安全性，目前我使用的SIM卡，补卡需要服务密码进行补卡，只有我的服务密码不泄漏，别人就无法对我的SIM卡进行补卡。

　　但是，如果将手机号码实名登记后，就可以使用身份证进行补卡。这会带来巨大的风险。如果别人乐意，他们随时可以用一张假身份证把你的SIM卡给补办走。如此，你的手机绑定的支付宝，财付通，快捷支付，网游账号，你的联系人信息，你的通话记录，你的QQ号等等所有一切的账户安全信息都随之瓦解。

　　关于手机“补卡”漏洞诈骗，相关的案例已经非常多了，百度搜索一下“手机补卡银行卡”就可以看到不少案例，例如不法分子可以持一张假冒身份证，去偏远的移动营业厅办理补卡业务，成功办理后，即可用这个手机号重置用户的网银登录密码，提取用户所有绑定的网银、手机银行或支付宝的余额。而营业厅业务都很繁忙，每天仅补卡就有数十起，根本无法对用户身份证进行核对。

　　据警方介绍，通过补卡进行盗刷的方式有两种，一种是通过第三方支付平台把储户账户上的资金通过购物或小额支付等方式盗刷，另一种是获取储户银行卡密码后，通过网银转账方式把钱转走。其犯罪手法可以简单地概括为四个字，即“补卡截码”。犯罪嫌疑人利用伪造的受害人身份证，到通讯运营网点补办与银行卡绑定的手机卡，然后在盗刷、盗转受害人银行卡时，利用所截获的短信等动态验证码信息，在没有银行卡密码或网银支付密码的情况下将钱转出。

　　而目前，警方给出的解决方法是，如果手机使用中出现长时间没信号或无法使用时，要警惕是否被他人补办了自己的手机卡。开通网银的账户，最好不要有大额存款，一旦发现手机卡被复制、被挂失要立即报警，如果更换手机号，一定要及时解绑相关的银行卡。

　　而实际上，这种防范方法根本没从源头解决问题，我的手机突然没信号，不一定是被人补卡的原因，有可能是所在地区本身信号就不好，一没信号就去移动营业厅去查询手机是否被补卡根本行不通，而且通常犯罪分子在补卡后几分钟内即可进行银行转账，导致用户财产损失，去营业厅停机时间根本来不及，如果一个人出门，在大街上四处借别人手机去停机也不现实，因此，我觉得最好的防范方法还是不进行“实名登记”，这样犯罪分子就无法通过假冒身份证进行补卡盗刷了，我的手机服务密码只有我知道，犯罪分子破解密码并不容易，因此也无法通过服务密码进行补卡。

阿里巴巴错过了什么？

　　2015年，5月伊始，阿里换帅的新闻满天飞，在股价跌破80美元之后，阿里巴巴公布了上市后的第三份财报，与之而来的惊喜是60后的陆兆禧退居二线，没错，这里用的是惊喜，5 月 10 日，也就是马云在 2 年前宣布离任 CEO 的那个日子，张勇接替陆兆禧成为阿里巴巴新任 CEO 的消息在 5 月 7 日通过马云的一封内部邮件被公示。

　　尽管这不是一个令人太意外的消息，但是还是引起了业内的哗然，遥想当年，陆兆禧以阿里资深救火队员的姿态成为马云接班人，2000年就已经加入阿里集团的老陆，是支付宝业务的早期元老之一，并且在2011年，职业经理人卫哲引咎辞职后，陆兆禧出任了出任B2B CEO，不过陆兆禧最为人关注的成绩，应该是2014年，在他的任内完成了阿里赴美上市。但也随着其在移动之役中的失误被掩盖了，顶着“马云接班人”的沉重王冠，他所有的失误被人无限放大， 2014年底，在全网流量由PC向移动分流之际，陆兆禧的处境更添了一些悲壮的意味。

　　回顾移动社交之战，来往更像一口黑锅

　　众所周知，2013年阿里换帅之后，马云其实一直处在一种“退而不休”的状态，仍以董事长身份执掌大局；众所周知，阿里是一家强调价值观的公司，而马云本身就是阿里价值观的体现，在这样的强人领导文化氛围中，酒陆兆禧无法离开马云的影子，完全掌握局面，于是，我们才看到2014年3月，强推来往失利之际，一直在幕后垂帘听政的老马看不下去了，跳出来剥夺了陆兆禧掌管无线业务的权限。

　　时至今日，阿里工作人员的名片中，依然把来往作为仅有的两项联系方式之一，而在2014年，陆兆禧几乎投入了主要的无线资源力推“来往”的结果虽然在如今看来更像一个笑话，但事实，如果深入思考，就会发现，在微信火爆流行，并且有意切入电商之时，推出一款防御性的移动社交产品与腾讯对抗，几乎成了阿里上下唯一的选择。有分析师认为，来往的失败并不是策略失败，而是产品失败，以及被打断所以不够彻底，来往项目下线后，从世界杯足彩到2015春节的红包大战中，一枝独秀的微信实现了完美偷袭。由此开始，可以说腾讯已经在阿里深深地埋下了一颗诡雷。连马云也在内部邮件中写道：“以前，我们对别人、别的行业呼吁天变了。今天我们发现自己头顶上的天也变了，我们脚下的稳健土地也在变化……”

　　高德失利，LBS和O2O结合只是看上去很美？

　　可以说，来往失利之后，陆兆禧退位已成定局。更不用说在他手下的高德地图，在LBS界双重绞杀下变得平淡无奇的事实，但其实如果把高德地图的失利全部归咎于陆兆禧，似乎也有些冤枉，客观的说，哪怕百度地图经过一年多的试水，也发觉培养用户通过地图为媒介到线下商店进行生活服务的消费有点困难，但在2013年之时，放眼市场上的移动端产品，地图是少数用户数破亿，因此所有的地图玩家们，都蜂拥而入地在地图中加入O2O属性，单纯地把流量入口当作商业价值，从而忽略了一个事实：对于用户来说，手机地图需要摆脱工具属性，真正成为移动互联网入口还有很长的路要走。

　　随着2014年，　俞永福高调接手高德并表示：O2O不是LBS的未来，高德应该回归地图本身之后。从辉煌上市，到阿里入股，高德地图，这个曾经的市场第二，彻底沦为了弃子。

　　2015互联网+大背景下，或成巨头O2O决胜年

　　事实上，作为O2O代表的团购行业，美团和大众点评这两家公司的对抗，已经成为了腾讯与阿里之间的博弈。

　　尽管在移动和社交及LBS上遇冷，但是今年阿里与其他巨头的碰撞，依然集中在O2O领域，众所周知，互联网+的风口，与最早触网的第一代电商无关，从本质上仍然是属于O2O的，阿里深知自己在O2O领域的局限性，所以早在2011年就对美团持有相当的股份，而腾讯对大众点评的持股更是高达20%，在过去，大众点评和美团的模式不同，前者是信息即媒体属性，靠广告盈利，美团则是直接交易，但随着2013年以后O2O行业的各种深入挖掘，现在两者的发展方向最终却走向了殊途同归。

　　伴随着2015互联网+的大浪潮，腾讯和阿里在O2O领域展开的无形大网势必产生新一轮的碰撞，更不用说还有一直虎视眈眈的百度糯米了。

　　再谈支付宝，在线支付永远的阿里的底牌

　　O2O最重要的一环在于线上支付环节，目前微信钱包虽然占有了一定的份额，但是真正成熟还有很长的路要走，尽管支付宝曾经与阿里爆发出股权之争，但是无论如何，依然是“关起门来自家事”

　　尽管对于传统的实体商户而言，无论是支付宝，还是微信支付，相比较传统的收单模式都具有优势，眼下应联手与银联争夺市场。但实际上，技术迭代和生活习惯改变，正面临前所未有的加速改变当中，马云非常清楚，支付环节的竞争，将直接影响到阿里的脉门，这也是阿里的底牌。

　　从当年张建锋一统淘宝、天猫、聚划算再到阿里健康、阿里医疗，从俞永福接管阿里妈妈再到阿里汽车、阿里智能生活事业部，阿里正在围绕各个垂直业务进行多元整合和拆解。而每一次的人事变动，无不能看出马云一直的战略眼光和深深的忧患意识。

　　背水一战的张勇

　　而在职业经理人出身的张勇上任后，阿里巴巴的调整仍将继续。未来张勇将如何挽回在移动社交、O2O等业务上失掉的先手，给自己背后退而不休的老马一份安心，将是他最需要解决的难题。

　　在张勇出任集团CEO同一时间，阿里巴巴发布了截至3月31日的2015财年第四季度及全年财报。在一串仍维持上涨，事实上不容乐观的数字背后，我们不知道阿里会走向何方，但有理由相信，这对张勇来说，绝对是是背水一战。

　　来源：投稿，作者：关中舍予，原文链接。作者微信：shuyang9451

2015年5月13日星期三

这些年，这些挖掘机算法，这些反思

　　写这篇文章，缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较�的就是，由于boss不在，我们讨论讨论着就成了吐槽大会，倒是有一半时间在吐槽产品以及业务部门了。

　　不过这也算是一件可喜可贺的事情了，这也可以看做是我们数据部门，已经由开轻型挖掘机向深挖阶段迈步了。

　　因此，借此机会，也对自己接触过的，了解过的，或者做过的一些勉强称得上算法的东西做一个梳理。其实，就个人来说，本身就不是做算法出身的，在大学时代，学习的反倒是网络方面多一些，更不知数据挖掘算法为何物。

　　其实，就所谓算法而言，个人认为，我有个同事说的很对：所谓算法，并不是说那些复杂的数学模型才是算法，哪怕是你写的一个简单的计算公式，只要能够解决现有业务的痛点，有了自己的模型思路，它就是一个算法，只是它可能不够通用，只能解决特定业务需求而已。

　　在大规模的数据前提下，其实很多复杂的算法过程，反而效果没有这么好，或者说，我们会想方设法去简化其过程。

　　举个简单栗子：假设有一批大规模数据集，就以近千万篇博文为例。如果提供一篇博文，让你去查询与其相似度最高的top N，那我们的通常思路是什么？通常的做法是计算这篇博文与其他博文的相似度，至于相似度的计算方法就很多了，最简单的就是计算其向量夹角，根据向量夹角判定相似程度。OK，就算你用最简单的计算过程，你试想一下，运算近千万次需要多久？或许，有的人说，俺使用hadoop，利用分布式的计算能力来完成这个任务，但如果实际操作起来，你就会发现这是一个多么蛋疼的事情。

　　再举一个简单栗子（好吧，多吃点栗子）：比如SVM，这是一种难以收敛的算法，在大数据的前提下，有些人希望使用它，但又希望使用更多的数据来训练模型，毕竟手里数据量太大，很多人还是希望使用尽量多的数据训练的，以达到模型更准确的目的。但是，随着训练数据量的增大，像SVM这种难以收敛的算法，其耗费的计算资源还是很巨大的。

　　东拉西扯说了这么多，自个的梳理工作还没有完成呢！

　　一、这些年，我开过的挖掘机

　　（1）最早接触的应该是贝叶斯的分类了

　　贝叶斯算是分类算法中最简单的算法了，初学挖掘机算法的人十有八九第一个爱上的绝对是它。其实，贝叶斯的原理真的很简单，就是依据统计学的最大概率原理。这么简单，但是就是尼玛这么好用，多年依然屹立不倒。

　　训练过程就缺乏可陈了，基本上贝叶斯的都这样，由于是文本，所以一套流程下来，分词，去停词，作为最基本的知识点向量，然后就计算模型概率了。不过比较有趣的是，分类过程是放在Storm里头做的，相当于这是一个实时的分类业务。

　　（2）说到了文本，自然少不了分词算法了

　　其实说到分词算法，反倒没啥可说的。如今互联网上各种开源的分词工具，都已经做的很好了，效果也差不了多少，想进一步改进的话也够呛。至于说深入到分词算法的内部，涉及上下文法分析，隐含马尔科夫模型等东西，如果是个人出于兴趣去研究，那我没话说；如果是小公司，花费人力物力去优化分词效果，我只能说他们闲着蛋疼；如果是大公司，人家金多任性也是可以理解的。

　　所以，至今来说，个人对于分词方面的东西，也仅限于初步了解分词算法的衍变，内部大概涉及的算法，以及几种分词工具的使用。

　　其实，在文本挖掘方面，仅仅针对于文本的分词是不够的，因为我们使用分词拆分出来的单词，往往很多跟业务都是没有关系的，通常做法是，建立对应业务字典，至于字典的建立，当然也是需要分词的，再进行进一步的加工，甚至可能会加上一些人工的工作。

　　（3）下一个就是实时热点分析了

　　我也不知道这算不算是算法，说到实时，自然跟Storm又有关系了（好吧，我承认我是搞这个之后开始接触数据的）。说到实时热点，可能大伙儿都摸不着头脑，举个简单栗子就明了了。

　　玩hadoop的童鞋都知道WordCount这个经典栗子，MapReduce在Map到Reduce的过程中，自动将相同的Key通过类似hash的方法聚合到一起了，所以，统计单词这个需求通过MR来做是辣么的简单。

　　那Storm的实时WordCount呢？好吧，这也是一个能够记录到实时技术领域史书上的经典案例（好吧，其实它就是一个Storm的HelloWorld）。Storm虽然没有类似MR那种自动Hash的功能，不过它也提供了一种数据分组流策略，也能达到类似的效果，并且它不像MR那样是批量的，它是实时的、流式的，也就是说你能动态的获取到当前变换的单词词频。

　　实时热点分析，如果我们把热点映射成单词，那我们是不是就可以实时的获取到当前Top N的热点了。这个方向可是有很大的研究价值的，实时地掌握了用户的热点导向，我们就可以动态的调整业务策略，从而衍生更大的数据价值。

　　不过，总体来说，这个数据模型更多依靠的是Storm这个实时工具的本身功能，模型设计上的东西反倒是少了。至于说算不算是算法模型，就跟前面所说的那样，看个人看法吧，你说是就是了~~

　　（4）国内很成熟的一种建模——推荐

　　就目前在国内做数据挖掘的来说，可能分类与推荐是做的最多的两种方向。分类就不多说了，就比如刚才所说的贝叶斯，简直就是分类中的鼻祖算法了。

　　可能一说到推荐算法，有人脑海里立马就闪现出关联规则、协同过滤、余弦相似性等这些词。这是没错的，但我要说的不是这个。其实个人想说的是推荐就两个方向：基于用户，基于内容。

　　我们需要注意两点，我们推荐的对象是用户，或者说是类似用户这种有动作行为的实体；而推荐的东西则就是内容，他没有动作行为，但是他有不同的属性，或者用更砖业说法描述就是他必然有知识点。

　　基于用户推荐，我们看重的不是内容这个实体，而是用户本身的行为，我们认为用户的行为必然隐含着一些信息，比如，人的兴趣导向，那么既然你有了相关的行为，那么我按照你的行为去给你推荐一些东西，这总是有一定道理的。

　　基于内容的推荐，我们的侧重点则是内容，这就跟用户的历史行为无关了。我们潜意识的认为，既然你会看这个内容，那么跟这个内容有关系的内容，你是不是也感兴趣呢？或许这样说有失偏颇，但是大体方向是对的。

　　至于之前说的那些关联规则也好，协同过滤也好，余弦相似性也好，其实就是研究知识点与知识点之间关系所建立的模型。

　　针对于基于内容推荐，其知识点就是内容之中的各种属性，比如影片推荐，其知识点可能就是各种评论数据、点播数据、顶踩数据、影片类型、演员、导演以及其中的一些情感分析等等；又比如博文，其知识点可能就是一个个带权的词，至于这个词就涉及到词的抽取了，再说到词的权重，可能就会涉及到TFIDF模型、LDA模型了。

　　而针对基于用户，其知识点最直接的体现就是用户的行为了，就是用户与内容之间的关系，不过深究下去，又会发现，其实跟内容的知识点也紧密联系，只不过这可能不止一个内容实体，而是多个内容实体的集合。

　　（5）文本单词的加权模型

　　前面正好提到了TFIDF以及LDA模型，所以顺带也就讲讲文本单词相关的加权模型吧。

　　说到文本挖掘，可能大部分人都熟悉TFIDF模型，既然涉及到了，那就简单的说一说。我们知道，文本的知识点就是一个个的单词，虽然都是单词，但也总有哪个词重要程度高一点，哪些词重要程度会低一点吧。

　　或许有人会说，出现多的词就重要。没错，那就是词频，简单的来想，这种思路并没有错，并且，早期的文本挖掘模型就是这么做的。当然，效果肯定是一般般的。因为那些经常出现的词往往都是一些没用的常用词，对文章的作用并不大。

　　直到TFIDF模型的出现，才根本性地解决了文本挖掘知识点建模的问题。如何判断一个词的重要程度，或者专业点的说法就是判断其对文章的贡献度？TFIDF通过词的词频来加大词在文章中的权重，然后通过其在多个文章中的文档频率来降低其在文章中的权重。说白了就是降低了那些公共词的权重，把真正贡献度大的词给暴露出来。这基本就是TFIDF的基本思路了，至于词频权重怎么加大，文档频的权重怎么降低，这就涉及到具体的模型公式了，根据不同的需求进行调整就OK了。

　　关于文章知识点主题建模的另外一种很重要的模型，那就是LDA模型了。它是一种比较通用的文章主题模型，它通过概率学原理，说白了就是贝叶斯，建立起知识点（也就是词），主题和文章的三层关系结构。词到主题有一个概率矩阵，主题到文章也有一个概率矩阵的映射关系。

　　好吧，LDA不能再说下去了，再说下去就露馅了。因为，俺也不是很懂啊。对于LDA，虽然部门内部有在使用，但是我没有做过具体的模型，只是和同事讨论过它，或者更确切的说向同事请教过它的一些原理以及一些设计思路。

　　（6）相似度计算

　　相似度计算，比如文本的相似度计算。它是一个很基础的建模，很多地方就用的到它，比如刚才我们说到的推荐，其内部关联的时候，有时候就会涉及到计算实体间的相似度。

　　关于文本的相似度，其实方法有很多。通常会涉及到TFIDF模型，拿到文本的知识点，也就是带权的词，然后通过这些带权的词去做一些相似度的计算。

　　比如，余弦相似模型，就是计算两个文本的余弦夹角，其向量自然就是那些带权的词了；又比如，各种算距离的方法，最著名的欧式距离，其向量也依然是这些词。还有很多诸如最长公共子串、最长公共子序列之类的模型，个人就不是很清楚了。

　　总之，方法很多，也都不是很复杂，原理都很像。至于哪个合适，就得看具体的业务场景了。

　　（7）文本主题程度——信息熵

　　曾经和同事尝试对数百万的博文进行领域划分，把技术博文划分成不同的领域，比如大数据领域、移动互联网领域、安全领域等等，其实说白了还是分类。

　　一开始我们使用贝叶斯进行分类，效果还行，不过最终还是使用SVM去建模了。这都不是重点，重点是我们想对划分到某一领域下的技术博文进行领域程度判断。

　　我们想了很多办法，尝试建立了数据模型，但效果都不是很理想，最终回归到了一个最本质的方法，那就是使用文本的信息熵去尝试描述程度，最终结果还是不错。这又让我再一次想到同事说过的那句话：简单的东西不一定不好用！

　　信息熵描述的是一个实体的信息量，通俗一点说就是它能够描述一个实体的信息混乱程度。在某一个领域内，知识点都是相似的，都是那些TFIDF权重的词，因此，是不是可以认为，一个文本其信息熵越小，其主题越集中越明显，信息的混乱度越低，反过来说，有些文本主题很杂乱，可能包含了多种领域的一些东西，其领域的程度就会降低。

　　最起码表面上，这种说法是行得通的，并且实际的效果还不错。

　　（8）用户画像

　　用户画像这个方向可能是近两年比较火的方向了。近年来，各大互联网公司，各大IT企业，都有意识的开始从传统的推荐到个性化推荐的道路衍变，有些可能做的深一些，有些可能浅一些。

　　商业价值的核心是用户，这自然不用多说。那么如何结合用户进行推荐呢，那就是用户的属性，那关键是用户的属性也不是一开始就有的，我们所有的只是少量用户的固有属性以及用户的各种行为记录。我们连用户是啥子里情况都不清楚，推个毛啊！

　　所以，我们需要了解用户，于是对用户进行用户画像分析就很有必要了，其实就是把用户标签化，把用户标记成一个个属性标签，这样，我们就知道每一个用户大概是什么情况了。一些商业行为，也就有了目的性。

　　至于说如何对用户的每一个画像属性进行填充，这就看具体的情况了。简单的，用几个简单模型抽取到一些信息填充进去；复杂的，使用复杂的算法，通过一些复杂的转换，给用户打上标签。

　　（9）文章热度计算

　　给你一大坨文章，你如何判断哪篇文章比较热，哪篇文章比较矬，换个说法就是，我进入一个文章列表页，你能给我提供一个热文章的排序列表吗？

　　可能大部分的思路都很直接，拿到文章能够体现热度的属性，比如点击率、评论情感分析、文章的顶踩情况，弄个简单加权计算模型，咔咔就出来了。

　　本质上这没错，简单的模型在实际的情况中不一定不好使，部分属性也的确能够体现出一篇文章的热度，通过加权计算的方式也是对的，具体的权重就需要看具体情况了。

　　但如果这么做的话，实际上会出现什么情况？今天我来了，看见了这个热度推荐列表，明天我来了，还是看到这个列表，后天我来了，依然是这个列表。

　　尼玛，这是啥情况，咋天天都是这个破列表，你要我看几遍？！不错，这就是现实情况，造成的结果就是，越热的文章越来越热，越冷的文章越冷，永远的沉底了，而热的文章永远在前头。

　　如何解决这个问题？我们把时间也加入参考，我们要把老文章通过降权的方式，把他人为的沉下去，让新文章有出头的机会。这就是说，需要我们把创建时间也加入权重中，并且随着时间推移，衰减其热度权重，这样，就不会出现热的一直热，冷的一直冷了。至于衰减的曲线，就需要看具体业务了。

　　这样就能解决根本问题了吗？如果文章本身信息量就不够呢，比如，本身大部分就是新文章，没有顶踩，没有评论，甚至连点击曝光都很少，那用之前的模型就行不通了。

　　那是不是就无解了呢？方法还是有的，比如，我们寻找到一个相似的站点，他也提供了类似最热文章推荐的功能，并且效果还很不错。那么，我们是不是就可以借助它的热度呢？我们通过计算文章相似度的方法，复刻出一个最热列表出来，如果站点性质相似，用户性质相似，文章质量不错，相似度计算够准确，相信这个热度列表的效果也是会不错滴（这方法太猥琐了~~）。

　　（10）Google的PageRank

　　首先，别误会，我真心没有写过这个模型，我也没有条件去写这个模型。

　　认识它了解它，缘自于跟几个老同学合伙搞网站（酷抉网）。既然搞网站吧，作为IT人猿，一些基本的SEO的技术还是需要了解的。于是，我了解到：想要增大网站的权重，外链是不可缺少的。

　　我跟我几个老同学说，你们去做外链吧，就是逮住网站就放咱网站的链接。他们问到：一个网站放的链接越多越好吗？放的网站越多越好吗？啥网站放比较好？这都不是重点，关键是他们问：为毛啊？

　　把我问的那个是哑口无言啊，于是我一怒之下就去研究PageRank了。PageRank具体的推演过程我就不说了（况且凭借我这半吊子的水平也不一定能说清楚），其核心思想有几个：当一个网页被引用的次数越多时，其权重越大；当一个网页的权重越大时，其引用的网页权重也随之增大；当一个网页引用的次数越多时，它引用的网页给它带来的权重越低。

　　当我们反复迭代路上过程时，我们会发现某个网页的的排名基本就固定了，这就是PageRank的基本思路。当然也有个问题需要解决，比如，初始网页如何给定其初始权重，高计算迭代过程如何简化其计算过程等等。这些问题，在Google的实际操作中，都做了比较好的优化。

　　（11）从互联网上定向抓取数据

　　其实我估摸着这跟算法没很大关系了，不过既然有数据的获取设计流程，也勉强算是吧。

　　之所以有这个需求，是那段时间搞网站搞嗨了，给自己整了个工作室网站，想给别人尤其是一些小企业搭建包括轻度定制企业网站（是不是挺瞎折腾的-_-），也确实是做了几个案例（我的工作室网站：www.mite8.com，有兴趣去看看）。

　　于是乎，俺就想啊，如何给自己找客户？工作室的客户应该是那些小企业的老板，并且还必须是目前没有企业门户的。作为一个搞数据的程序猿，并且还是开挖掘机的，虽然是半路出身非蓝翔毕业且无证上岗，但好歹是挖过几座山头的呀。

　　如今是互联网横行的时代，他们总会在互联网上留下一些蛛丝马迹，我要把它给逮出来！我的目标很明确，我要拿到那些无企业网站的企业邮箱，然后做自己EDM营销（电子邮件营销）。

　　1）我先从智联检索页面，抓取了企业规模小于40人的企业名称，事实证明智联招聘的页面还是很好解析的，都是静态的，并且格式很规整，所以很容易就分析出一批小企业的企业名来了；

　　2）拿到了企业名，我如何判断这个企业已经有了独立的企业官网？通过分析，我发现通过搜索引擎检索这个企业名的时候，如果有企业官网的话，一定是在首页。并且其页面地址也是有一定规律的，那就是：独立官网的开头通常是www开头的，长度一般不会太长，收尾通常是index.html、index.php以及index.asp等等。

　　通过这些规则，我就可以将那些有企业官网的企业名给pass掉了。其中遇到了两个难点，一个就是搜索引擎的很多页面源码都是动态加载的，于是我模拟了浏览器访问的过程，把页面源码给抓取下来了，这也是爬虫的通用做法；第二个就是，一开始我尝试的是通过百度去获取，结果百度貌似是有放结果抓取的一些措施，导致结果不如人意，于是我换了目的，使用的是360的检索，问题就解决了（事实证明百度在搜索引擎方面比360还是强了不少的），并且效果也差不多。

　　3）解决了排除的问题，那根本的问题就来了，我如何拿到企业的企业邮箱？通过分析搜索引擎的返回结果，我发现很多小企业喜欢用第三方网站提供的一些公司黄页，里头包含了企业联系邮箱；还有部分公司发布的招聘信息上会带有企业邮箱。

　　通过数据解析，终于拿到了这部分数据，最后还做了一些类似邮箱是否有效的基本解析等等。最终拿到了大概3000多个企业邮箱，有效率达到了80%以上。

　　问题是解决了，但还是有些地方需要优化的：首先就是效率问题，我整整跑了近12个小时，才把这3000多个邮箱给跑出来，太多需要解析的地方，并且模拟的浏览器在效率上不高；其次就是对邮箱的有效不是很好判断，有些邮箱根本就是人为瞎写的；还有就是部分网站对邮箱进行了图片化混杂处理，即做成了类似的验证码的东西，防抓取，我没有对图片类的邮箱数据进行解析，其实这个问题也是有解决办法的，我们拿到一些样本图片，进行图片字母识别的训练，这样就能解析出其中的邮箱了。

　　总体来说，这次体验还是挺有成就感的，毕竟在业余的时间解决了自己实际中的一些痛点，熟练了一些所学到的东西，或者说实施的过程中学到了很多东西。

　　ps：github上检索webmite就是这个项目了，我把代码托管到了github上，或者从我的博客上进入。

　　二、对自己做一个总结吧

　　其实个人的缺点很明显，首先就是没有经过系统的数据挖掘学习（没去过蓝翔，挖掘机自学的），也就是野路子出身。因此对很多算法的原理不够清楚，这样的话，对于有些业务场景，可能就提不出有建设性的意见了。并且，对于很多算法库的使用，还是不够了解的。

　　其次就是在数学功底上有所欠缺。我们知道，一些复杂的算法，是需要有强大的数学基础的。算法模型，其本质就是数学模型。因此，这方面也是我的短板吧。

　　由于个人是由做大数据偏向挖掘的，基于大数据模式下的数据挖掘过程，可能跟传统的数据过程有很大的不一样。比如，数据的预处理过程，大数据挖掘的预处理很多依赖的是目前比较流行的分布式的一些开源系统，比如实时处理系统Storm、消息队列Kafka、分布式数据收集系统Flume、数据离线批处理Hadoop等等，在数据分析存储上可能依赖的Hive以及一些Nosql会多一些。反倒对于传统的一些挖掘工具，比如SAS、SPSS、Excel等工具，个人还是比较陌生的。不过这也说不上是缺点吧，侧重点不一样。总体而言，大规模数据的挖掘将会是趋势。

　　三、给小伙伴们的一些建议

　　说了这么多，前面的那些东西可能对大伙儿的用处并不是很大，当然对于开挖掘机的朋友还是有一定帮助的。现在我想表达的东西可能跟挖掘就没有直接的关系了，更多的给动物园动物（程序猿，攻城狮）的学习以及自我进化的建议。

　　（1）为了学到东西，脸皮是毛玩意儿？

　　对于这点，个人可是深有体会。想当年（好吧，这个词还是很蛋疼的），大学那会儿专业是信息安全，偏向于网络多一点，因此在语言方面更多的是c和c++，对于java可是连课都没有开的，说白了就是用java写个HelloWorld都不会。

　　刚毕业那会儿，兴冲冲地跑去公司写c，结果不到一个月，新项目来了，需求变了（尼玛，开发最怕的就是这句话），变了就变了吧，尼玛要研究大数据，用c能干毛啊！一些个开源系统工具，十个倒是有九个是java写的。当时我就哭了！

　　于是就纠缠着一个同组的伙伴，逮住时间就问他问题，有些问题在熟悉java的人看来，绝对是白痴又白痴的。但是对于初学者来说，绝对是金玉良言，人家一句话的事，如果自己去查找，可能是几个小时都搞不定。一个月之后，总算入门了，后面就轻松多了。

　　往后的一些日子里，遇到了一些问题，总是会厚着脸皮缠着交流群中的一些大拿们死问，慢慢地就进步了。近段时间，开始学习scala，幸好旁边有个scala小高手，哈哈，可苦了他了~~

　　所以，遇到自己不懂的东西，不要怕自己的问题简单不好意思问，一定要脸皮厚！你连这么简单的问题都不懂，你还有资格担心自己的脸皮？！

　　（2）交流与分享

　　对于交流与分享这点感想，缘自于2012年末研究Storm的那段时间。Storm在2012年那会儿，并不像今天这样火，研究的人也不多，无处交流，可用的资料就更少了，所以解决起问题来很费事。

　　当然其中有几个博客给我的帮助还是很大的，包括了“大园那些事儿”、“庄周梦蝶”等几个博客，都是早期研究Storm并且分享经验技术的博客。当时我就萌生了写博客的想法。

　　在往后的时间里，我花费了很大一部分精力，将我学到的Storm相关的东西整理了出来，并且由于当时感叹没有一个很好的交流平台，创建了“Storm-分布式-IT”技术群（群号191321336，主要搞Storm以及大数据方面的，有兴趣的可以进来），并把整理的资料、代码、经验分享到了平台以及博客中。

　　由于我一直主张“进步始于交流，收获源于分享”这个理念，不断有搞技术的朋友加入到这个大家庭中，并且不断的把一些经验技术反馈到群贡献中，达到了一个良性的循环。短短不到两年的时间，群已经发展到了千人，并且无论是技术氛围还是群员素质，在IT技术群中绝对可以算的上名列前茅的。

　　就个人从中的收获来看，这种交流是能够学到很多的东西的，你要相信三人行必有我师，这句话是有道理的。而分享则是促进交流的基石，只有让大家意识到自己所收获的东西是源自于别人的分享，这样才能让更多的人参与进来。

　　其实说了这么多，想表达的意思就两点：多多与他人交流，听取他人的意见；至于分享自己的所得，这就是属于良心发现了。

　　（3）多看书，随时给自己大脑补充营养

　　其实这点也不止是给大伙儿的建议，也算是给自己的一个告诫吧。

　　个人在这方面做的也不是很好，很久之前给自己定了一个目标：一个月看完一本书。结果工作的问题，其他杂七杂八的事情很多，这个一直没有落实下来，至今买来的《我的互联网方法论》才看了前几章。最好的案例算是上上一个月，我花费了近一个月上下班等地铁、倒地铁的零碎时间，终于把《构建之法：现代软件工程》给看完了。

　　书中有没有颜如玉我不知道，但书中肯定有黄金屋。平时多看一些书，多学一些，跳槽时跟面试官总是能多唠一些的，哈哈，提薪酬的时候是不是底气就足了些？！

　　关于说看书的内容，工作中涉及的一些必须了解，必须看的我就不多说了。如果业余时间比较多，还是推荐多涉猎一些其他相关领域，毕竟，人不可能一辈子就只窝在自己那一亩三分地上的；就算你一直坚持某个技术方向，随着时间的推移，技术的升华也必然会涉及到其他很多的相关知识。

　　所以，多看书，多充实一下自己，这一定是对的！

　　（4）经常梳理一下自己，整理一下自己

　　经常给自己做一下梳理工作：自己目前掌握了哪些东西，目前自己缺乏什么东西，掌握的东西够不够，缺乏的东西如何去弥补。这些都是需要我们经常去反思的，只有整理清楚了自己，才知道自己要干什么，才有目标。

　　当然梳理完了，你还需要去实际操作，不然的话，你会发现，每一次梳理，结果都是一样的。我们需要在每一次梳理过后，进行对比，了解自己进步了多少。当然每一次梳理，都是为了给自己做一个计划，计划自己大概需要在哪些方向进行加强。

　　其实很多人一到了跳槽季就犹犹豫豫，其实他们对目前的工作已经是有所不满的了，但是总感觉自己能力不够，可能辞了也难找工作。这是因为他们对自己认识的不够，连他自己都不明白自己到底有多少料，那么，请问面试官会知道吗？

　　如果，你对自己掌握了多少东西都一清二楚，核心领域已经熟悉了，相关领域也有所涉猎，那么你还在担心什么呢？如果真有面试官对你说no，你可以说：hi，刚好我也没什么时间，我还回去挑选offer呢！

　　（5）善于在实际生活中寻找学习的动力

　　人是懒惰的，很多时候，有些事情可做可不做的，往往人都是不去做的，也不愿意去深根究底。

　　这个我很想学，那个我也很想了解，关键是一到大周末，我更想躺被窝！说到底，就是没有学习的动力！

　　也就是说，我们要善于在实际的生活中，寻找到推动我们取学习的理由。

　　举几个简单的栗子：

　　1）之前也说过，有段时间在研究网站。为了让网站推广出去，各种去研究SEO，现在来看，自己虽然远远达不到一个SEO专业人员的标准，但最起码是知道了为毛通过搜索引擎检索，有些网页就排在前面有些就排在后面（PageRank算法）；也知道了怎么去编译一篇文章，更好的方便搜索引擎收录（等俺失业了，不搞挨踢了，去做网编估计也是行的，又多了一条活路，哈哈）等等。

　　2）为了给EDM寻找目标，我自己使用业余的时间去分析互联网上的数据，然后写代码，跑数据，测试数据等。其实，在那之前，我对爬虫的了解是不多的，对于网页数据的解析也不在行，这完全都是通过“从互联网抓取有用数据”的个人需求上去驱动的。还不止如此，拿到邮箱之后，为了让EDM邮件看起来更“砖业”一点，我开始自学如何使用html来制作好看的电子营销邮件页面。

　　3）曾经有一段时间，工作很是清闲，突发奇想的把大学时想写小说的梦给圆了。于是就开始在纵横小说网上写小说。不过，这都不是重点，重点是纵横要求每一个作者给自己的小说配小说封面。我去问了一下，尼玛一张破封面需要20多大洋。心想，一张破封面就要20大洋，自己都是搞IT的人，干脆不自己P一个呢。于是，我开始捡起了大学时期放弃的PS学习计划，只用了两个星期，PS基本功能就熟练了。后来的话，自己的封面当然是搞定了，并且还服务了至少数十位作者朋友们。当然，这都是题外话了。至于小说，哈哈，不但签约了，稿费还是挣了上千大洋，关键是过了一把写小说的瘾。在PS技术方面，虽然跟专业的前端人员比不得，但是改改图、修修照片还是木有问题滴。

　　4）远的太远，说一个近一点的事吧。前一段时间开始学习scala，其实就个人需求来说，写那个项目用java来写也完全能够搞定，但关键是我对我自己说，错过了这次机会，下次说不定啥时候才有决心去学习这个很有前途的语言了。于是，狠下心使用这个全新的语言去开发，过程虽然磕磕绊绊，毕竟马上使用一种陌生的语言去敲代码是很蛋疼的事，但一个星期来，结果还是不错的，最起码一些基本的用法是会了。完事开头难，熟悉了一些基本的东西，剩下的就是累积的过程了。

　　其实这些归结起来就一个观点：我们要适时的给自己找一些理由，逼着我们自己去学习，去获取新的东西，去提升自己。

　　或许有人会说，哥我天天加班，还有毛线时间去问问题、去交流、去看书，大周末的好不容易有假期了，吃饱了我不去睡觉去给自己找动力干不给钱的活，我脑抽啊？！好吧，如果你是这么想的，抱歉耽误了你这么多睡觉的时间。

　　其实上面说了这么多零碎的栗子，关键还是在于态度！你有没有想学习的欲望，有没有提升自己、升华自己的想法，有没有升职、加薪、当上UFO、迎娶白富美的念头。是的，这些东西都是自己去做的，没人逼你。如果你有这些想法的话，那么这些东西多多少少还是有一些帮助的。

　　除了对待事情的态度，我们的心态也很重要，看待事情要乐观一点。前几天，群里有个搞互联网招聘的朋友问我：你是搞技术的吧？我说是。他说我认识很多搞技术的都很闷，不像你这么开朗。我说我不想哪天死在了马桶上~~

　　搞IT的给大部分人的映象确实是闷骚、不善言谈、不善交际。其实也是，每天大量的工作，领导又开会训人了、产品这边需求又改了，确实让人疯狂。工作压力大是IT人的标准属性了。

　　我们需要调整好自己的心态，就像之前所说的，学习一个东西，虽然可能会占用本来就不多的业余时间，但是我们应该不是那种单纯为了解决问题而去学习，去获取，当成一种提升自己、升华自己的途径，而不是逼不得已的无奈之举。如果一份工作，你确认自己不喜欢，那就别犹豫，果断跳吧！脑中有货还怕找不到买家！

　　时刻警醒自己对待任何事情要有一个好的态度，认清自己，抓住一切机会提升自己、升华自我，保持一个良好的心态，这就是我想说的东西。

　　吭吭唧唧说了一大坨，其实我也知道很多是废话，但是我依然希望，我的这些废话能够帮助到你，做为同一个动物园里的人，一起努力吧！

　　来源：博客虫投稿，原文链接。作者公众微信号：博客虫（ID：blogchong）