2015年5月31日星期日

关于携程瘫痪事件“真相”的5点疑问

  5月29日凌晨4点15分,携程官方微博发布声明:5月29日1:30分,经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及APP已于28日23:29全面恢复正常。对用户造成的不便,携程再次深表歉意。

  至此,5月28日在整个中国互联网掀起轩然大波的“携程5.28瘫痪事件”真相水落石出。这条迟来的真相显然无法让业界信服,为什么迟迟不公布瘫痪原因?为什么在携程公布所谓“真相”之前已经有业界提前公布?为什么携程低级安全失误一犯再犯?

  显然,携程5.28事件所谓真相疑点重重,值得我们去逐一思考,携程到底还隐瞒了什么?

  为什么业界提前就知道是“内鬼”

  携程5.28瘫痪事件发生在上午,说明是内部人员所为的真相是在29日凌晨发布,然而在5月28日下午时,就有多位网络安全资深人士向速途网透露携程事件系内鬼所为,并非如支付宝的外部原因导致的故障。为什么业界人士提前知道内鬼所为?携程瘫痪事件发生之前,携程内部到底经历了什么?

  为什么迟迟不公布瘫痪原因?

  一般来说,中国大型互联网企业偶尔发生故障在所难免,但绝大部分情况下互联网企业能够第一时间解决,而如果第一时间无法解决,则第一时间也会说明故障原因,以此来打消公众的猜测和恐慌。 携程方面,第一时间如果无法解决故障,也应该告知用户和公众故障原因,但为什么直到当天深夜才将原因告知用户?公众的知情权真的这么难保障吗?

  为什么不公布真相细节,失误操作的原因是什么?

  既然已经查明了系内部人员导致了此次故障,携程为什么不公布具体原因? 到底是内部人员操作失误还是蓄意攻击? 如果是无意导致的过失,完全可以大大方方的宣布“这次事件是因为内部人员失误操作,并非传言的数据被物理删除,我们已经严肃的处理了相关责任人”。如果是蓄意攻击,那属于家丑,不好外扬可以理解,但造成如此的的损失,是否应该给广大消费者除了道歉之前的其他赔偿呢?

  艺龙为什么也瘫痪了?

  携程在瘫痪后,建议用户访问艺龙网。但随后艺龙网也跟着瘫痪,无法访问。携程作为艺龙网第一大股东,是否应该分别说明这两起网络瘫痪事件?另外,艺龙和携程不管是管理体系还是服务器的机房线路均是独立分开的,艺龙遭遇的这次网络瘫痪和携程的瘫痪是否有直接关系呢?还真的只是一场巧合?

  为什么携程频发低级网络安全事件?携程内部到底怎么了?

  携程作为中国最大的旅行网站,为什么一而再,再而三的发生非常低级的网络安全事件?到底是技术问题还是管理问题?携程为什么没有能够从泄密门事件发生后升级安全体系?携程内部到底怎么了?

  在笔者看来,携程连续多次出现非常低级的网络安全问题,这已经不是单纯的技术层面问题,更是管理层面出了漏洞。说明了我们传统的互联网巨头在进行转型升级的过程中,往往只注重业务和产品本身,忽略了基本的管理规律,如果不完善公司制度和管理机制,携程即使这次不出问题,下次也会出现其他严重问题。

  附录:携程5.28瘫痪事件回顾

  5月28日上午11:09,携程称因为部分服务器疑似遭到不明攻击,导致官方网站及APP暂时无法正常使用。

  5月28日下午14时许:携程瘫痪事件刷爆微信朋友圈,引发各种原因猜测。

  5月28日下午15时许:携程网站声明暂时无法提供服务,正在紧急修复,并且官网顶部提示用户访问艺龙旅行网(笔者注:近期携程成为艺龙网第一大股东)。

  5月28日下午17时许:艺龙网瘫痪,无法访问,30分钟后艺龙网恢复访问。

  5月28日23:29时,携程官方微博宣布经技术人员抢修,携程官方网站及APP全面恢复正常。经过排查,携程郑重声明,数据没有丢失,预订数据也保存完整。

  5月29日凌晨4时:携程宣布此次事件系内部人员操作错误导致,而此前5月28日上午携程方面的口径是“疑似遭到不明攻击”。

  来源:投稿,本文作者系速途研究院院长丁道师 微博:丁道师 微信公众:dingdaoshi123

2015年5月29日星期五

谷歌发布照片应用Google Photos

  5月29日消息,北京时间凌晨消息,谷歌今日在美国旧金山召开了一年一度的开发者大会。会上,谷歌正式发布了旗下新款照片应用Google Photos,这是一款云端照片、视频存储和管理工具。谷歌同时宣布Google Photos今日登陆安卓、iOS和网页平台,没有存储量的限制,可以无限免费的存储云端图片和视频。

  在照片和视频越来越多且越来越难管理的现实情况下,Google Photos可以给这些资料一个家。据Anil Sabharwal介绍,Google Photos可以自动同步用户所有终端设备上的照片视频。按照时间、地点、事件等信息,Photos可以将用户的照片视频自动分类。用户可以方便地管理自己的影像。

  通过深度学习,用户不用标注,Google Photos能够自动识别出相关的人物及事件。只要选中照片中的某个人物,设备中关于此人的所有照片就会全部显示出来。

  Google Photos同时具备了视频编辑功能。用户可以将照片组合成动画短片,并可以加入一些特效,增强视频的趣味性。

  另外,谷歌把照片分享功能做了增强和简化,可以对Google Now说“get a link”,然后就自动对每张照片生成一个链接,用户可以按照自己的意愿分享这些链接。

  谷歌宣布,用户在Google Photos没有存储量的限制,用户可以无限制的免费存储自己的照片和视频等资料。并且从今天开始提供,支持Android、iOS和桌面网页平台。

携程瘫痪映射出的企业数据管理乱象

  继支付宝昨天被一个农民工大哥的锄头打败之后,今天,携程也“挂”了。今天的头条是属于携程的,CDN、联想+范冰冰、黄晓明+baby已经哭晕在厕所。

  携程故障现在已经发生了4个小时,依然未见恢复迹象,这是继前不久网易全服务趴下,到昨天支付宝光纤被挖掘机挖断,中国的互联网企业巨头被各类安全事件挖的体无完肤,深其原因,还是因为国内企业对安全问题的漠视,大家都忙于业务、忙于竞争,所有的资源都投入到一线业务中去了。

  特别企业数据的管理和保护这个领域,一旦出现问题,造成的损失无法弥补,这和国人的观念不无关系,就像买保险一样,大家都抱着侥幸心理,万分之一的几率,但是万一发生了呢?有一个数据可以例证,到微博上搜索一下备份,上面有近1亿条用户记录痛哭流涕的抱怨自己没有及时备份个人数据而终身遗憾,或遗憾终身!

  今天携程事件,据说是内部人为删除了所有的数据,包括服务器的根目录数据,相信备份肯定有,毕竟是上市企业,有严格的审计过程,数据如何管理、如何备份和恢复、涉及到哪些流程、有没有权限管理,应该都有四大会计所来做审核。我的一个朋友,当初在1号店负责运维时,因为1号店被沃尔玛收购,作为上市企业的关联交易公司,当时沃尔玛派KPMG来做详细的审计,核心岗位和管理层都被做了访谈,并出具了详细的操作流程,他亲自参与这个过程,审计是做了,但在执行人心中是非常没有底气的。这位朋友之前呆过的几个大的互联网公司都有做数据管理流程和备份恢复服务,但是因为这些安全业务比较边缘,所以在整个公司关注程度很低,并没有落到实处。

  所有的公司都有做数据管理和备份,无论是小微企业老板自己手动用U盘或者硬盘拷贝、还是大的互联网公司有专门的运维人员专项负责、传统的中大型企业用专业的软硬件工具,关键是99%的公司都没有做数据管理流程、备份和恢复的演练,恢复的数据到底可不可用,如何快速的恢复等操作演练。

  再来看看欧美环境,再小的一家公司,都有专业的数据管理软件或者专业的IT维护人员,他们极其重视数据,视数据为企业生命,所以在欧美,做数据管理和保护的IT公司不下500家,像IBM、HP、Dell、EMC、赛门铁克、康沃、飞康、爱恩铁山、CA、carbonite这些老牌的上市公司,还有很多新型的互联网创业公司,如Datto、code42、durva、Rubrik等企业。而中国该领域企业少之可怜,国内的IT软件公司绝大部分是代理欧美产品,极少数是自己维护开发,无法保证专业性。

  有消息称,此次攻击直接导致了携程网站的数据库被删除。接连发生在互联网巨头身上的灾难,让我们再次看到了数据备份的重要性。安全是细活,但安全更是无绝对的,无论工作做得多细,团队的技术实力多牛,都无法做到绝对安全。数据备份作为数据安全的最后一道防线,可以有效杜绝人为原因和技术原因造成的数据丢失。通过数据备份的分布式管理,将代码、数据库、文件等进行异地容灾保护,加上有效的集中管理平台,就可以在数据发生损坏或丢失时自动进行恢复。

  目前,国内在企业数据管理和保护该领域企业只有多备份等少数几家公司,国内的IT软件公司绝大部分是代理欧美产品,极少数是自己维护开发,无法保证专业性。究其原因,数据管理要做的非常专业实属不易,该领域属于基础技术领域,要与各类操作系统、硬件平台、文件系统、网络和安全领域交互,比如分块、去重、压缩、上传下载、增量、加密、索引、存储分层、海量小文件、备份和恢复时间窗口、集中管控等综合技术难点。传统的IT企业不愿意做基础研发、还靠代理或者买单机版软件垂死挣扎,新型互联网企业不愿意做也看不上这个不性感且极度垂直的2B领域。

  最后,想问一下,晚上去股市抄底携程靠谱吗?

  来源:投稿,作者:程小微

2015年5月27日星期三

企业网站SEO优化方案实例

  早先曾经受邀帮助某企业网站进行了一次SEO优化分析,解决这个网站存在的种种不规范的页面状态,最终提高连该网站整体的页面排名何权重,这里月光博客就和大家分享一下这个案例,希望能和大家一起探讨一下这个SEO优化方案的优劣。

  一、网站当前状况

  该企业网站有一个16年的域名,网站的程序为企业自己开发的CMS程序,Google权重正常,而百度权重相对较低,说明网站在百度搜索里竞争力较低。

  二、网站存在的问题

  1、网站安全性

  通常网站安全性较好的话,会比较容易获得较好百度排名,如果网站具有重大安全漏洞,则可能会被百度降权甚至除名,从目前情况下看,该网站在百度中的安全性检测效果不好,需要将全部安全漏洞修复,否则不但百度权重难以提高,而且会带来网站被黑客攻击的危险。

  另外,网站内的论坛存在spamer发布的黑链,数量不少,有可能会导致百度搜索引擎的惩罚,导致网站被降权。
 
  2、死链接情况

  死链接决定了搜索引擎爬虫对网站的爬行情况,一个网站存在死链接不是什么好事,首先一个网站如果存在大量的死链接,必将大大损伤网站的整体形象,再者搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且网站在搜索引擎中的权重会大大降低。

  对于不存在的页面,应该返回 404 信息, 目前返回302信息,属于不正常情况,302的重定向跳转非常容易被搜索引擎惩罚,属于黑帽作弊。应该立刻修改,在404页面返回正确的404信息,并提示一个页面地址, 不要立刻进行302跳转,而是等待几秒后通过javascript进行跳转。

  一些过期的内容搜索引擎抓取会返回500错误,应该使用301重定向页面。

  单独建立一个404的html页面,该页面显示一段时间后,使用javascript的方式重定向到网站首页,具体HTML页面代码,建议参考新浪的404页面。

  三、网站结构优化

  网站的布局过于传统,应该在网站底部加入网站的二级导航或者网站地图,如此方便客户也方便搜索引擎。

  网站目录的组织方式采用:首页-》栏目页-》内容页。网站顶部增加面包屑导航,底部增加主要栏目的导航,导航地址增加到所有页面上。

  增加robots.txt和sitemap.xml文件。同时提交sitemap.xml到各个搜索引擎。

  四、网站页面优化

  1、网站描述及关键词的密度

  网站描述是为了搜索引擎及客户更直观的了解网站本身,了解网站服务和产品信息。关键词及关键词密度决定了网站关键词在搜索做网站制作或者网络推广的人估计没有谁不知道SEO的,即搜索引擎优化,这是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。

  问题:网站标题仅为公司名称,也不能准确表达网站的主题,keywords标签里的关键词太多,同时关键词在网站首页无法显示,说明了搜索引擎很难判断网站的关键词。

  建议:在网站Title里,最好将“首页”两字去掉,或者放在后面,突出企业的核心关键词,另外增加“官网”以及企业的核心口号到Title后面。

  重新选择keyword,keyword应该在首页具有一定出现频率,且密度大于2,例如企业名称等关键字。

  2、网站的图片和flash优化

  问题:网站存在了大量的图片和幻灯的表现形式,网站显得好看,但不实用。

  解决:对于所有图片均需要在图片加上 alt 说明,如此搜索引擎才能知道网站讲述了哪些内容。尽量减少Flash并增加文字信息。

  3、H标签优化

  问题:网站文章的标题没有增加H标签,而是通过字体大小来显示。

  解决:所有文章的标题都放在H1标签中,而小标题就放在H2标签上。H1和H2标签的样式通过全局CSS来控制。

  五、内容优化

  问题:网站内容更新量少,不利于网站在各个搜索引擎的收录。

  解决:网站的内容是非常重要的一部分, 经常更新并且原创的内容是搜索引擎的一个重要因素,我们主要通过以下三个方面来进行网站的内容维护:

  1.根据目标关键词制定内容更新计划。

  2.分析长尾关键词,进行整站长尾布署。

  3.看具体情况,建设站内专题栏目,以丰富网站内容。

  效果跟踪与评测分析:根据日志和统计系统分析每日从搜索引擎带来的流量,分析客户的来路等等,经过统计分析,可以更好的了解访客的动态,并可以根据情况调整优化策。

  主要的措施包括:主站增加内容更新频度,并将更新的内容通过新浪微博、新浪博客等外部平台发布,带回反向链接。

  六、外链优化

  问题:反向链接少,反向链接的文字大多是企业名称,不利于优化业务关键字。

  解决:加强外链建设,向各大分类目录提交网站,从而增加网站的知名度。同时在其他第三方网站里面提交主站信息,与同类型网站交换友情链接,适当购买合适网站的外链,来增加整个网站的反向链接数量。

  在社交网络上,多提交一些原创的高质量文章,同时在文尾加上网站的链接,建议优先使用新浪微博,同时在新浪微博上绑定新浪博客,然后在新浪微博上发布长微博,自动同步到新浪博客,这样新浪博客上文章也会增加官网外链。

  对于网站上的官方软件产品下载,建议将软件产品提交到各个下载站、手机应用推荐站等。争取在各个知名下载站上提高产品的曝光度。此外,软件下载站,手机应用推荐等网站提交成功后,通常还会有一个反向链接地址,可以提高友商官网的域名权重。

  七、媒体软文

  问题:在百度指数中,官方核心关键词的百度指数一直低于竞争对手的百度指数。

  解决:百度指数的媒体关注度可以通过发布软文的方式来提高。所谓“软文”,就是指通过特定的概念诉求、以摆事实讲道理的方式使消费者走进企业设定的“思维圈”,以强有力的针对性心理攻击迅速实现产品销售的文字模式。软文推广的作用在于提升品牌为主,从而带动流量的提升,让更多对公司网站内容感兴趣的人们更好的了解公司,进而成为公司的实在客户,为公司带来更多的订单。通过各大门户网站,在里面发布一定的重要新闻,可以有效提高品牌的知名度,这就是通过建立新闻的模式达到的推广效果。(让有质量的新闻报道定时出现在品牌网站上)

  效果评估:软文效果评估以百度指数的指定关键词的媒体关注度为指标。

  八、百度竞价排名

  问题:对于某些核心关键词,在百度上搜索,通常前几名都是百度推广竞价广告,官网自然排名第一却排在后面。

  解决:对于有商标的关键词,可以联系百度申请品牌保护,这样竞争对手就无法投放这个关键词,自然排名就会上去了。对于无法进行品牌保护的关键词,只好也投放百度竞价,提高关键词和目标网址的关联度,以期待使用较低的金额获得较多的点击量。

  综上所述,针对这个网站存在的问题,建议采取以下几个优化步骤:

  第一步:进行网站内部优化,杜绝死链接,加强网站内部链接建设,(内部链接也是反连接,反连接即入站链接,对网站的排名有决定性作用!)。

  第二步:修改后的网站链接及地图重新向搜索引擎提交,向分类目录提交网站。

  第三步:内容建设,主站增加内容更新频度,多对外发布高质量原创文章,并将更新的内容通过新浪微博、新浪博客等外部平台发布,带回反向链接。

  第四步:国内优化需要加强百度产品建设,在百度知道、百度文库、百度经验等百度类网站提交主站信息,或者通过购买高权重百度外链来增加百度权重,来宣传网站、产品和服务。

  第五步:采用竞价排名和SEO优化相结合,为了要让网站更容易被搜索引擎接受合的策略、SMO和SEO相结合的策略,多管齐下,重质量和数量,全面提高网站的权重。

  因为该网站为企业自己的开发人员进行开发,因此需要针对网页开发人员指定一个网页开发规范,下面是专门针对该企业的SEO网页设计规范。

  企业网页设计规范

  1.页面:为每个网页添加合适的标题,如果是网站首页,则标题建议使用站点名称或者站点代表的公司、机构名称;其余的内容页面,标题建议做成与正文内容的提炼和概括。标题使用倒序,格式为“页面标题_栏目标题_网站名称”。标题中应当包含该页面最重要的目标关键词。每个页面的标题应该各不相同。

  2.标签:充分利用网站首页或者频道首页的 description 标签,提供此网页内容的概括说明,形式为<meta name="description" content="此网页内容的概括说明" />.内容页面不添加description 标签和 keyword 标签。

  3.导航:确保网站导航都是以html的形式链接。网站应该有明晰的导航和层次结构,网站上重要的网页,应该能从网站比较浅层的位置找到,确保每个页面都可以通过至少一个文本链接到达。站内的页面都要有链接至首页,链接结构为:首页-内页-首页,相关联的网页内容要做互链,如文章下方的“相关文章”功能。所有页面之间应该有广泛的互联,如果无法实现这一点,可以考虑建立一个网站地图。如果站点地图上的链接超过 100 个,则需要将站点地图拆分为多个网页。

  4.链接:使用文字而不是flash、Javascript等来显示重要的内容或链接。当链接到相关内容时,请使用能确切描述该内容的文字。比如,当你为浏览者提供更多Photoshop信息的链接时,使用诸如“关于Photoshop的更多信息”的描述,而不只是“更多信息”。

  5.图片:尽量使用文字而不是图片来显示重要的名称、内容或链接。如果必须对文字性内容使用图片,使用“ALT”属性来加入一些描述性的文字。网站上重要的图片,如:logo,照片,导航图片等,都需要使用“ALT”加上描述。

  6.改版:网站改版或者网站内重要页面链接发生变动时,应该将改版前的页面301永久重定向到改版后的页面。网站更换域名,应该将旧域名的所有页面301永久重定向到新域名上对应的页面。

  7.框架:不要使用frame和iframe框架结构。

  8.URL:尽量使用简单的URL地址,如果网站采用动态网页,尽量减少参数的数量和控制参数的长度。

  9.CSS/JS:样式表尽量放在页面的顶部,脚本尽量放在页面的底部,尽量使用外部的CSS和JavaScript文件。

  10.其他:利用网络服务器上的 robots.txt 文件。告诉抓取工具哪些目录可以抓取,哪些目录不可抓取。创建一个sitemap.xml文件并提交到Google Webmaster和百度站长平台。

2015年5月26日星期二

DT时代变革的反思

  DT一词,翻译过来即数据科技。可以说,这并不是一个新词,但它真正引起我注意的是阿里研究院最近写的一本书《互联网+:从IT到DT》。阿里作为国内IT技术的引领者,其技术定论不可轻易忽视之!

  我们先撇开DT不说,我们先来看一看IT。

  从1936年的图灵机的发明到1945年冯。诺依曼机的出现,这些都是计算机发展的基石,甚至于往后各种大型计算机、小型计算机的诞生,严格意义上来说,这都不是IT.真正IT技术的开始应该是万维网的发明,这标志着信息进入了互联的时代。

  国内互联网技术的发展比国外稍微的晚了那么几年,但其发展势头远不是其他国家能比的,97年的时候只有60万网民,而现在已经超过了6亿,其增长速度可见一斑。

  可以说,如今互联网已经影响到了人们衣食住行甚至是政务等方方面面。

  这是一个IT时代!

  对于这个定论,或许大部分人都不会反对。但是有一天,有人突然对你说:人类正在从IT时代步入到DT时代。

  DT时代,数据科技时代。我们一只脚已经踏入了数据科技时代?为何这么突然?!

  这并不突然,这一切的一切都是那么有预见性!

  DT时代来临——变革在悄然发生

  数据科学家一词,最早是在09年被提出来的。当然,它的提出并不是一个轰动性的事件,甚至可以说还有很多人并不赞成突然出现这一科学分支。

  然而就在几个月前,有人在腾讯科技上发表了一篇文章《数据科学家可能成为2015年最热门职业》,我们暂且不去评论这篇文章的观点是否正确,但是它已经给出了一个信息—数据,已经引起了人们的“警惕”!

  如今,在各大招聘网站,我们可以随意的搜索一下“数据挖掘”,各大公司企业的针对于这个岗位的需求如同雨后春笋般的出现。

  同样,通过各个招聘网站平台等,我们可以发现不断有新的职位名称被创新出来,如数据工程师、数据分析工程师、Hadoop工程师等等。

  数据挖掘工程师这个岗位或许早就有了,那么大数据挖掘工程师呢?一字之差,但蕴含的意义却相隔千里。

  或许有人会说,这些都是从程序猿、攻城狮的角度看到的,这并不能代表宇宙大众的意思。

  好吧,我们换个思路来思考这个问题。不过咱还是接着说招聘,我曾写过一篇关于大数据时代招聘模式的文章,分析了一下招聘网站到底“懂不懂”我们(求职者)需要什么。

  其实答案是显而易见的,我们打开了一个招聘网站,呈现在我们面前的是一个个恰巧是我们想要投递的职位;我们打开一个电影,侧栏显示的是一个个相关的电影,要么恰巧是同类型的,要么恰巧是同一个演员的电影;我们在网上购物,底栏显示的恰巧是你需要的东西。

  好吧,不止如此,我们看文章、搜索问题、网上预约旅行甚至是看新闻,总是会在一些不经意的角落里发现我们刚好需要的信息。好巧!

  这并不是巧合!个性化定制已经体现在我们生活中的方方面面。我们暂且不去考虑这个个性到底有多个性,不可否认的是,与传统的信息展现来对比,它的确是起作用了。

  是的,我们猛然发现:人,作为一个在互联网上主动寻求信息的主体,已经开始变得“被动”起来了。

  曾几何时,信息已经变得如此“主动”。但是,这一切让我们感到又是那么自然。

  究其所因,其背后的数据是“罪魁祸首”。是的,数据把我们“出卖”了!

  我突然想到了前一段时间发生的一个事。出于某种原因的需求,我需要一批小企业、小公司的联系方式。按照我们传统的做法,肯定是找相关领域的人,依赖其关系脉络,拿到这一批联系方式。

  但是我突然发现,我们在相关领域并没有熟识的朋友,或者说即使有,也不可能拿到这么多的联系信息。

  最终,我还是拿到了近3000多个企业邮箱。风过留痕,雁过留声。如今是一个互联网“横行”的时代,只要是个行为实体,总是会在互联网上留下足迹的。我以智联招聘为源头,使用爬虫、网页信息提取、数据分析挖掘等相关技术拿到了这一批数据。

  这次的事让我再一次感叹互联网信息量的浩瀚、伟大。信息技术“沧海桑田”般的快速变迁,十几年积累的底蕴,互联网上蕴含信息就如同一座巨大的金山。“卑微”如斯的人都能从中“窃取”一份小小的财富,那么浩瀚地球中的其他万千大众呢?

  数据竟然已经变得如此有用,数据的影响力竟然强大如斯!这一切的变化是那么的顺其自然,是那么的悄无声息。

  或许,真如马云所言:人类正从IT时代走向DT时代!

  在数据处理需求急剧上升的今天,是什么在支撑着数据的变现?

  DT时代的骨骼——大数据处理平台的衍变

  是的,正是数据处理平台,或者换种说法:一套完整的数据处理流程。

  从数据的采集、清洗、流式实时计算、数据落地。在大多数时候,这一套完整的流程过后(或许会没有流式实时计算),这才真正进入数据的价值挖掘阶段,包括了数据的离线计算,通过一系列的建模挖掘其隐含的商业价值。

  当然,在大数据遍地的今天,数据的收集也好、处理也好、挖掘也好,我们想必也要加一个“大”字了。

  那么,在DT时代来临的今天,能够支撑这一流程得以流通的正是数据平台,或者说是大数据处理平台。

  它将是支撑DT时代来临的骨骼!

  当然,大数据处理平台也不是一开始存在的,它也必然经历着一系列的衍变。才形成今天我们看到的,或这或那的数据平台形式。

  就在不久前,我曾在storm-分布式-IT技术群中发起了一次近千人的话题讨论(当然,实际参与讨论的人远没有这么多,很大一部分人还是喜欢静静的围观的),其核心就是当前互联网公司中大数据平台发展的现状。

  当时的讨论过程很剧烈,汇聚了各个企业公司的大牛小牛、程序猿、设计狮、产品狗,总之各种动物都有,众说纷纭,各有各的观点看法,但总体来说就目前几种大数据平台的形态,大家还是有比较一致的看法的。

  (1)大数据处理平台的终极形态——深度挖掘

  数据已经完美流通,包括了完整的大规模数据采集系统、数据预处理清洗系统、数据流式实时计算系统、大规模数据存储系统、大规模离线计算系统;拥有全面的数据监控调度系统,能够方便地低成本地进行数据流程监控、调度,实时掌握数据的动态变化;拥有完善符合自身业务需求的机器学习算法库,数据挖掘层面,已经进入了数据深层挖掘阶段。

  其中以BAT为代表。在国内,BAT一向是技术的引领者,因此他们在数据价值挖掘这一方面,也确实做到了领先地步。

  (2)其次是大数据平台完善,处于数据浅层挖掘状态

  同样,这种形态的企业公司,数据平台的数据已经完全打通,他们已经在开始尝试挖掘数据的潜在价值,意图达到数据的变现。

  当然,或许是由于技术积累的问题,或许是人力物力的原因,他们并没有能力做深一层的探索、挖掘,但是他们却一直在努力。他们缺少是一套完善的,适合自己的,又能够方便使用的数据挖掘库。

  处于这种形态的公司也不少,诸如CSDN、去哪儿、艺龙等等,他们在个性化的道路上孜孜不倦地探索着。

  (3)数据流通,处于数据统计分析阶段

  这种形态的数据中心,大规模数据处理平台已经基本搭建,数据已经能够流通,处于大规模数据的统计分析阶段。

  这种类型的公司,他们更多倾向于对数据仓库的建立,对大批量数据进行存储、统计并且分析数据的走势以及变化。所以,就Hadoop生态来说,他们可能更倾向于使用Hive之类的技术或者工具。

  处于这种形态的公司是占大多数的,典型如刚组建大数据部门的短短一年时间的360,当然还有很多很多类似的公司,数不胜数。

  他们希望摸清楚自己到底掌握了什么样的数据,这些数据到底是怎么变化的,通过对这些数据的了解以及掌控,他们才能更好做出更合理的商业决策。

  在不久的将来,在他们已经充分掌握了数据的规律,他们也必然会向数据潜在价值挖掘方向努力。

  (4)数据整合,平台搭建阶段

  这种形态下,数据尚未流通,整个体系尚未搭建起来。

  或者说,很多企业公司,在以往的情况下,各个部门产品,其数据都是分开维护的。需要维护多份数据,成本高;数据的利用率低,数据不连通。

  他们意图将数据进行整合,有一套完整的收集、清洗以及落地的流程,因此,他们尤其缺少懂得数据收集、数据清晰以及数据大规模落地的人才。或者,换个更通俗的说法,他们缺少懂得hadoop生态平台的人。

  这种公司也不少,诸如金山的西山居,智能手机界的黑马小米等。

  (5)数据量不够,但然仍意图搭建一个大数据处理平台

  这一部分公司大部分都是小公司,在数据量层面上,他们并没有很急切的需求,去搭建起一套完善的数据处理平台。

  或许是受大数据潮流影响,但是,从长远的角度来看,随着数据量的增长,这也必然是一个趋势。

  所以,他们往往也会花费少量的人力物力,在这一方面上进行技术预研,或者搭建起一个简单的小规模数据处理平台。

  其实,简单来看,这是大数据处理平台的五种不同形态,但这又何尝不是大数据处理平台的一个衍变过程呢?!

  在DT时代来临的今天,你是否清楚自己处于一个什么的位置,将来又将向何处发展变迁?

  只有将骨骼搭建起来了,我们才能、才有资格去谈论如何挖掘数据的潜在价值。

  我们不止需要骨骼来支撑DT这一体系,更需要源源不断的血液来激发它的活力。

  DT时代的血液——数据从何处而来

  是的,前面我们说了很多很多,但一个关键的问题不可忽视:数据从何处而来?

  如果说大数据处理平台是支撑DT的骨骼,那么数据就是DT的血液。那么如何造血就是大家所关注的问题了。

  (1)企业的业务数据

  数据最直接来源就是各个企业公司自己产生的业务数据,或许是某些公司拥有很强的预见性,多年前就已经开始收集自己的数据,也或许是他的无意之举。

  但不管怎么样,他把自己的历史数据给保留了下来。当然,有部分公司,本身产生数据的速度就足够快,数据量也足够多,他们就不必担心这个问题了。

  (2)互联网的隐藏数据

  前不久,有一个朋友在群里问了一个比较复杂问题,是关于数据抓取解析方面的。

  可能是他问的问题太深奥,也可能是恰巧群里大牛都不在,总之就是没有人解决。

  有人就问了:哥们,你研究这个这么深干吗?他回答了一句:抓取数据啊,难道你们研究处理的数据不是从网上抓取的吗?

  这句话让我猛然惊醒:有人已经开始向互联网这座公共金山动手了。

  十几年的底蕴,隐藏了多少数据财富?在DT时代来临的今天,必定会越来越多的人去挖掘它的价值,只不过这需要一定的技术、一定手段而已。

  (3)移动互联网数据的暴涨

  相对于互联网,移动互联网的发展历史并不长,但他的发展可谓是日新月异。

  如今,随着智能手机的普及,3G、4G网络的推广,移动互联网产生的数据正在处于爆炸似得增长。

  同样,这是一座新的数据金山,需要我们去开采它。

  (4)传统以及线下数据的接入整合

  随着总理的一句“互联网+”,传统行业开始纷纷与互联网进行结合,这带来的最直接影响是:线下数据的接入与整合。

  或许有人会说:传统行业能有多少数据。可千万不能小看传统行业的数据,毕竟他们有着近乎数十年,远超于互联网的历史,其累计的数据量亦不可小看。

  随着“互联网+”的进一步发展,线下接入的数据也将是DT时代的血液之一。

  (5)网连万物——万物都可以产生数据

  说道物联网,其实很多年前就有人说他一定会火起来,但是之前却一直没有火起来。究其因,不在乎两个:一是移动网络成本过高;二是终端感应技术尚未发展到这个阶段。

  但如今不一样了,随着3G、4G网络的普及,移动网络成本大幅度下降;智能终端感应技术的快速发展也让物联网这一技术方向不再是概念。

  我们可以看到,众多互联网公司已经开始纷纷布局智能领域了,包括智能家居、智能交通、智慧城市、智能办公等等。

  在DT时代,感应终端也将是一个巨大的数据产生源,一个DT时代造血的源头。

  在DT时代即将来临的今天,不止是数据处理以及数据获取这两个方面值得我们反思,还有其他的方方面面需要我们去思考。

  通过不断的反思,不断的改进,我们做好最充分的准备,迎接DT时代的到来!

  来源:投稿,作者:博客虫,作者公众微信号(博客虫,ID:blogchong),关注最前沿的IT技术,关注最热的IT时讯,分享最蛋碎的工作吐槽!

互联网巨头缘何盯上了企业级市场这块蛋糕

  如果用最为简单粗暴的方式细分互联网市场的话,大抵可以分为消费级市场和企业级市场,前者是C端,服务个人用户,后者是B端,服务企业用户。当然,两个市场间并不存在明显的楚河汉界,发展到一定程度的企业都会有具体的业务去涉及相应的市场,比如BAT等互联网巨头们。

  在B端最具代表性的就是发展了几十年的企业软件市场,最近,京东和金蝶的合作给一直很安静的企业软件市场终于带来了一丝涟漪,紧随其后,阿里和用友的绯闻更是让这一丝涟漪泛起了不小的浪花。

  简单翻阅一下,我们已经不难发现,互联网巨头已经纷纷开始企业级市场的布局:

  在智慧城市的口号下,除了与用友的绯闻之外,阿里已经先后与东软、浪潮等老牌企业签署了战略合作关系,加上自身发展迅速的阿里云、刚刚发布的阿里钉钉等,在企业级市场上,阿里已经部下重兵;

  而号称“连接一切”的腾讯,更是在“互联网+”的大旗下,凭借微信、QQ两大利器逐步洗牌企业即时通讯市场,5月20日,腾讯宣布将QQ音视频云通讯服务正式开放给企业级市场,加上之前的微信企业号、微信连Wi-Fi,企鹅军团已经准备好了。

  凭借一个搜索引擎,就让40万企业用户皆入彀中的百度也在去年推出了企业直达号,并声称将与全国100个市、县政府展开合作,重点扶持当地企业的发展。李彦宏更是在去年就预见到了企业级市场的快速发展。

  360、京东也凭借着几次并购,在企业级市场的山头上成功的插上了自己的旗。

  那么,为什么互联网巨头突然爱上了企业软件市场?

  在已经过去的2014年,中国软件行业成为最为积极拥抱新趋势的一拨人,大体可分为两类:

  颠覆者:这些公司在“云计算”“大数据”“移动互联网”“互联网+”等趋势下,凭借SaaS化、场景化、移动化的服务转型,针对企业的某一项具体业务进行模式上的创新,迅速获得资本市场的青睐。崔牛会创始人崔强认为,这些企业正在试图改变原先软件的交付方式和渠道模式,并将成为中国未来10年或者更长时间里企业级的创新者和颠覆者。代表企业包括多备份、销售易、明道等

  转型者: 去年5月,彭博引述知情人士报道称,中国政府正推动国内银行清理国际商业机器(IBM)公司制造的高端服务器,并用国内品牌予以替换。这标志着“去IOE”、“去SOA”已经从口号变成了具体行动,以往高大上的IT巨头在的背景下纷纷实施了大规模的裁员,并波及到了整个亚太地区,这对国内软件行业是一个机遇更是一个挑战,如何在企业互联网化这短暂的几年中把握新的需求与应用的市场,是用友、金蝶、东软等企业需要考虑的问题。

  据Gartner预测,在客户关系管理(CRM)市场这个云端主战场内,销售自动化系统(SFA)等领域的基底价格预期至2018年将下降25%.这表明颠覆者与转型者之间的价格侵蚀、用户争夺、渠道争夺上的竞争在2015年将更为激烈。

  从互联网企业自身来看,这也是在企业级市场的跑马圈的最好时机。互联网巨头或为入口、或为平台,手中握有大量的企业用户资源,除为这些企业提供外部的销售渠道之外,也迫切需要借助企业软件进一步了解各企业供应链上的实际情况,尤其是对一些非互联网厂商的了解。

  合作之后,互联网企业不仅获得了软件能力,还将获得百万计的企业用户,抓住这些企业用户,并协助这些企业完成互联网化、移动化、云端化,才能在未来的发展中执得牛耳,才能让云端、移动端的积累得以落地。互联网巨头的加入,不仅会为企业级市场增加新鲜的血液,也将会推到企业级市场的围墙,届时,软件服务将会像互联网服务一样,不仅变得简单,还将无处不在。

  相比于经历过PC互联时代的美国的企业级市场来说,中国的企业级市场多年来一直处于市场教育阶段,企业的平均寿命更短,信息化的程度更低,但随着新一波创业浪潮的到来以及原有企业的不断沉淀,中国的企业级市场正在成为下一阶段的重要增长引擎。

  来源:投稿,作者:程小微

请把网络安全作为公司战略之一

  为什么尽管企业每年花费数十亿美元购买最新的安全产品,聘请最棒的安全工程师和分析师,但在黑客面前却变得比以往更加不堪一击?摩根士丹利(Morgan Stanley)、塔吉特(Target)、索尼(SONY)、特斯拉(Tesla)等公司近年来的网络攻击事件不仅造成了一次次危机公关,塔吉特、索尼两家公司CEO还因此被迫辞职,塔吉特更是打算支付1000万美元来和解数据泄露诉讼案。信息安全公司赛门铁克(Symantec)发布最新报告称,大约有5/6的大公司遭到过各种黑客攻击,2014年针对大公司发动的黑客攻击数量更是比上年增加了40%.现在,我们不得不承认过去在网络安全方面的工作很大程度上是失败的,并且正义的一方在这场“战争”中正处于劣势。

  云计算、大数据、物联网在改变我们的同时,也让敌人变得越来越难以对付:首先,在矛与盾的博弈中,矛只需成功一次,而盾需要次次成功才能确保安全。其次,很多人需要在工作中寻找点刺激,在他们看来,当海盗显然比当水手更为有趣的多;第三,现在的普通大学生都可以轻松拥有7个IP接入设备,黑客们只需要一个很简单的花招就能成功发起攻击。

  当然,哭喊着“完了,未来作为商业和通信领域的重要支撑的互联网已不再值得信任”是于事无补的,我们不妨试着从黑客的角度去审视公司的网络安全:

  1、大多数公司的安全策略都是被动应对的;

  2、公司安全绝大多数依靠常见的恶意软件检测和无精确指导的自动威胁防护;

  3、公司并不清楚自身网络的具体内容、其所使用的云设备、设备上运行的应用程序以及供应链和合作伙伴的安全状况;

  4、对于CEO、CFO来说,他们更关心可用性和成本的问题,而非IT系统的整体安全性。

  这些要点(当然不会是全部)就是黑客们可以利用的公司安全系统的弱点。现在我们需要把角色转化过来,面对黑客的进攻,企业应该怎么做(这才是最关键的):

  首先,要比黑客们更了解你的公司,了解你所面对的风险

  很多企业都声称自己的数据是安全的,但直到黑客走了之后,他们才惊讶的发现“哦,天啊,我忘记了这些设备上还有这些数据”。所以,公司必须尽最大可能了解他们可能面临的特有威胁情况:

  我们的哪些数据容易受到攻击?被攻击之后最坏的结果是什么?

  黑客为什么攻击我们?是盗取数据、恶意破坏还是一场恶作剧?

  谁在攻击我们?职业黑客,还是竞争对手?

  ……

  千万不要和黑客们玩打地鼠的游戏,这会让你什么事情都做不好。相信我,如果对这些问题你的企业都已经全面了解的话,那么,你一定会知道在攻击来临时,哪些是与最强大的对手和最大商业风险有关的事项?哪些是需要优先识别最重要的资产和关注最稀缺的资源。

  其次,像管理库存一样管理你的数据

  你可以将你的数据当作库存来管理,Endgame的CEO纳撒尼尔?C?菲克认为:公司必须以最简单的形式识别和监控其相互关联的资产。比如,开发者是否在没有告知的情况下操作了1000个虚拟机?在企业最有价值的数据库服务器上运行的是哪些应用程序?员工是否将新设备与公司的网络相连?偏远的子公司是否有了新的合作伙伴?HVAC(供热通风与空调)系统是否以某种方式与销售终端相连?通过这些问题可以快速找到数据管理上存在的安全缺陷,当然,这是好事儿。公司必须对库存盘点一样对数据进行动态、实时地盘点,持续地监控,并以简单直观的方式向安全和运营团队呈报。

  再次,积极一点

  对,积极一点,或者说是“积极防御”,虽然也有时被戏称为“反黑”,但公司采取进攻策略显然是不明智的做法:一方面,即便只是为了自身的防御而未经允许进入他人的网站是同样是非法的;另一方面,在未知的情况下升级软件对于公司来说是并不是明智的做法。企业可以采取的措施其实是一种入侵检测技术,入侵检测技术是网络安全技术和信息技术结合的产物,使用入侵检测技术可以实时监视网络系统的某些区域,当这些区域受到攻击时,能够及时检测并立即响应。

  最后,做好数据备份,“不要把鸡蛋放在一个篮子里”

  数据备份是企业IT架构重要的组成部分,也是防止黑客攻击、系统故障等原因导致的数据丢失的最后一道防线。在国外,数据备份是网络安全领域重要的业务分支,前文提到的的赛门铁克(Symantec)、企业级软件公司甲骨文(Oracle)、信息技术解决方案公司IBM都提供了数据备份服务,一些专注于数据备份的公司如CommVault、梭子鱼、Box等公司也在近几年内获得了不错的市场份额。相比于美国,在国内由于企业历史和重视程度上的差异,数据备份还是一个较为的细分市场,不过,随着大数据、云计算概念和技术的普及,越来越多的企业开始关注自己的数据备份工作,除华为、浪潮等企业之外,诸如多备份这种基于SaaS的数据保护公司也获得了更多的机会。

  网络安全一直是一个很沉重的话题,沉重的原因不在于它造成的损失,而是它所带来的恐惧。一个企业的网络安全与企业中的每一个人息息相关,将网络安全比作为一场“战争”并不为过,而只有管理者、软件开发人员、安全团队和投资者联合起来才能扭转局势,才能够全副武装地抵御不断来犯的敌人。

  很遗憾,在这场持久战中我们没有办法做到百战百胜,所以,请把网络安全作为公司长期战略之一。

  来源:投稿,作者:程小微