2015年10月30日星期五

数据防泄漏DLP技术深度剖析

  在企业中提到数据保护,大家可能常常想起文档,很少有人会关注文档中的内容,对数据的管理也比较单一,通常就是全加密、全授权,对文档的重要性不做区分,随着社会的发展,文档的格式越来越多,安全事件的不断爆发,使得人们对数据的关注度发生了变化,数据也分成了结构化数据和非结构化数据,更加的关注文档内容中的敏感信息,使用文档的应用有哪些,对不同类型的文档、含有不同内容的文档有区别的管理和存储。

  以前要管控数据,大多是强管控,直接全部隔离,或者全部加密,我们称之为囚笼、枷锁式的管控,在实际的数据生产、使用、流转中带来了很多不必要的麻烦,人们需要更加灵活的方式来处理数据,此时,智能化的数据安全管控应运而生,企业管理员可以按照数据的重要程度有针对性的对数据进行控制。

  数据防泄漏的核心能力

  什么是DLP呢?字面上翻译为“Data Leakage(Loss) Prevention数据泄露防护”,其核心能力就是内容识别,通过识别可以扩展到对数据的防控。内容识别应该具备的识别能力具体来说有关键字、正则表达式、文档指纹、确切数据源(数据库指纹)、支持向量机,针对于每一种能力又会衍伸出多种复合能力。

  DLP还应该具备防护能力,防护范围包括网络防护和终端防护。网络防护主要以审计、控制为主,终端防护除审计与控制能力外,还应包含传统的主机控制能力、加密和权限控制能力。

  总的来说,DLP其实就是一个综合体,最终实现的效果,应该是智能发现、智能加密、智能管控、智能审计,也是一整套的数据泄露防护方案。

  数据防泄漏的组成

  下图说明DLP的实体配置,以及不同模型在组织内的常驻位置。“网络 DLP”产品常驻于 DMZ 中,而其他产品则常驻于企业 LAN 或数据中心。 除了“终端 DLP”产品以外,所有其他产品都是以服务器为基础。

数据防泄漏DLP技术深度剖析

  数据防泄露通用技术

  为了预防数据丢失,无论数据的存储、复制或传输位置在哪里,都必须准确地检测所有类型的机密数据。如果没有准确的检测,数据安全系统就会生成许多误报 (将并未违规的消息或文件标识为违规) 以及漏报 (未将违反策略的消息或文件标识为违规)。误报会大量耗费进行进一步调查和解决明显事故所需的时间和资源。漏报会掩盖安全漏洞,导致数据丢失、潜在财务损失、法律风险并有损组织声誉。因此需要准确的检测技术来做保障。为了确保最高的准确性,DLP 采用了三种基础检测技术和三种高级检测技术。

  基础检测技术

  基础检测技术中通常有三种方式,正则表达式检测(标示符)、关键字和关键字对检测、文档属性检测。基础检测方法采用常规的检测技术进行内容搜索和匹配,比较常见的都是正则表达式和关键字,此两种方法可以对明确的敏感信息内容进行检测;文档属性检测主要是针对文档的类型、文档的大小、文档的名称进行检测,其中文档的类型的检测是基于文件格式进行检测,不是简单的基于后缀名检测,对于修改后缀名的场景,文件类型检测可以准确的检测出被检测文件的类型,目前支持100多种标准的文件类型,并且可以通过自定义特征,去识别特殊的文件类型格式的文档。

  高级检测技术

  高级检测技术中也有三种方式,精确数据比对 (EDM)、指纹文档比对 (IDM)、向量分类比对 (SVM)。EDM 用于保护通常为结构化格式的数据,例如客户或员工数据库记录。IDM和SVM 用于保护非结构化的数据,例如 Microsoft Word 或 PowerPoint 文档。对于 EDM、IDM、SVM 而言,敏感数据会先由企业标识出来,然后再由DLP判别其特征,以进行精准的持续检测。判别特征的流程包括DLP访问和检索文本及数据、予以正规化,并使用不可逆的打乱方式进行保护。

  DLP 检测是以实际的机密内容为基础,而非根据文件本身。因此,DLP不只能检测敏感数据的检索项或衍生项,而且能够标识文件格式与特征信息格式不同的敏感数据。例如,如果已经判别出机密 Microsoft Word 文档的特征,DLP就能够在相同的内容以 PDF 附件的方式通过电子邮件进行提交时,将其准确检测出来。

  精确数据比对

  精确数据比对 (EDM) 可保护客户与员工的数据,以及其他通常存储在数据库中的结构化数据。例如,客户可能会撰写有关使用 EDM 检测的策略,以在消息中查找“名字”、“身份证号”、“银行帐号”或“电话号码”其中任意三项同时出现的情况,并将其映射至客户数据库中的记录。

  EDM 允许根据特定数据列中的任何数据栏组合进行检测;也就是在特定记录中检测 M 个字段中的 N 个字段。它能够在“值组”或指定的数据类型集上触发;例如,可接受名字与身份证号这两个字段的组合,但不接受名字与手机号这两个字段的组合。

  由于会针对每个数据存储格存储一个单独的打乱号码,因此只有来自单个列的映射数据才能触发正在查找不同数据组合的检测策略。例如,有个 EDM 策略请求“名字 + 身份证号 +手机号”的组合,则“张三”+“13333333333”“110001198107011533” 可触发此策略,但是即使 “李四”也位于同一数据库中,“李四”+“13333333333”“110001198107011533”也不能触发此策略。EDM 也支持相近逻辑以减少可能的误报情形。对于检测期间所处理的自由格式文本而言,单个特征列中所有数据各自的字数均必须在可配置的范围内,方可视为匹配项。例如,依默认,在检测到的电子邮件正文的文本中,“张三”+“13333333333”“110001198107011533”各自的字数必须在选定的范围内,才会出现匹配项。对于含有表式数据 (例如 Excel 电子表格) 的文本而言,单个特征列中所有数据都必须位于表式文本的同一行上,方可视为匹配项,以减少整体误报情形。

  指纹文档比对

  “指纹文档比对”(IDM) 可确保准确检测以文档形式存储的非结构化数据,例如 Microsoft Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。IDM 会创建文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。

  IDM 首先要进行敏感文件的学习和训练,拿到敏感内容的文档时, IDM采用语义分析的技术进行分词,然后进行语义分析,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度去确认被检测文档是否为敏感信息文档。这种方法可让 IDM 具备极高的准确率与较大的扩展性。

  向量机分类比对

  支持向量机(Support Vector Machines)是由Vapnik等人于1995年提出来的。之后随着统计理论的发展,支持向量机也逐渐受到了各领域研究者的关注,在很短的时间就得到很广泛的应用。支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,利用有限的样本所提供的信息对模型的复杂性和学习能力两者进行了寻求最佳的折中,以获得最好的泛化能力。SVM的基本思想是把训练数据非线性的映射到一个更高维的特征空间(Hilbert空间)中,在这个高维的特征空间中寻找到一个超平面使得正例和反例两者间的隔离边缘被最大化。SVM的出现有效的解决了传统的神经网络结果选择问题、局部极小值、过拟合等问题。并且在小样本、非线性、数据高维等机器学习问题中表现出很多令人注目的性质,被广泛地应用在模式识别,数据挖掘等领域。

  SVM比对算法适合那些具有微妙的特征或很难描述的数据,如财务报告和源代码等。使用过程中,先将文档按照内容细分化分类,每一类文档集合有属于本类的意义,经过SVM比对,确定被检测的文档属于哪一类,并取得此类文档的权限和策略。 同时,针对SVM的特点,可以进行终端或服务器上的文档按照分类含义进行分类数据发现。

  IDM和SVM的比对区别是,IDM将待检测文件的指纹和训练模型中的每一个文件进行指纹比对;而SVM是将待检测文件向量化,并归属到某一类训练集所建立的向量空间。

  数据防泄漏控制与加密技术

  设备过滤驱动技术

  一种设备过滤驱动编程技术,可实现对终端任意设备(USB端口、打印机、光驱、软驱、红外、蓝牙以及网卡等)的安全保护及控制。自动识别硬件信息、用户标识、存储设备与非存储设备、授权设备与非授权设备等信息。

  文件级智能动态加解密技术

  一种文件级过滤驱动编程技术,通过实时拦截文件系统的读/写请求,对文件进行动态跟踪和透明加/解密处理。其主要优点:文件加/解密动态、透明,不改变使用者的操作习惯;性能影响小,系统运行效率高;不改变原始文件的格式和状态,同时,部署和内部使用非常方便。

数据防泄漏DLP技术深度剖析

  显著特征为:加密强制性、使用透明性、保密彻底性、应用无关性、灵活拓展性。其发展历经三个阶段:单缓存过滤驱动技术、双缓存过滤驱动技术和虚拟文件系统技术(LayerFSD)。目前商业市场上大多数内核级加密厂商均采用单缓存过滤驱动技术,少量厂商已发展到双缓存过滤驱动技术,而发展到虚拟文件系统技术(LayerFSD)并实现产品化的厂商则屈指可数

  网络级智能动态加解密技术

  一种网络过滤驱动编程技术,俗称NDIS和TDI技术,可实现对网络传输协议及网络应用协议数据的过滤和控制。目前该类技术主要应用于防火墙、VPN、网络准接入等相关领域。

数据防泄漏DLP技术深度剖析

  磁盘级智能动态加解密技术

  一种磁盘级过滤驱动编程技术,也称全盘加解密技术(FDE,FullDiskEncryption),其核心技术工作于操作系统底层,可实现对包括操作系统文件在内的硬盘所有数据的加密保护。

数据防泄漏DLP技术深度剖析

  采用基于物理扇区级的加密方法,可将保存在硬盘上的所有数据进行加密,与文件加密方式不同,磁盘加密能够加密硬盘上的任何数据,当然也能够加密操作系统,非授权用户不仅看不到硬盘上的文件内容,而且也看不到保存在磁盘上的任何文件的名称!文件级的加密方式一般均能获得加密文件的文件名称,使用时间等信息,甚至能从临时文件、磁盘交换文件中获取一定的内容信息,而磁盘加密使硬盘上的所有数据均处于加密状态,得到加密硬盘的人无法得到任何信息。因为在加密的分区中,根本就没有文件的概念!更不要说文件的名称和内容等信息。

  为方便用户操作和不改变用户的计算机使用习惯,采用的动态加密和解密的方法,在操作系统和磁盘之间安装了一个数据加密和解密程序,该程序不需要用户的干预,自动对存储到磁盘的数据作加密运算,对从磁盘读取的数据做解密操作,用户在正常使用计算机的时候,根本感觉不到此程序的存在。

  数据防泄漏产品演变

  囚笼型DLP产品

  这个阶段的产品主要特点为 设备强管控,采用逻辑隔离手段,构建安全隔离容器

  自2000年后国外的安全管理产品相继涌入中国,刚开始是概念式引导,慢慢的转化为产品,有名的产品厂商包括Symantec、LANDesk,2005年至2008年他们在中国的市场占有率已经到了80%。2008年以后,随着发展国内产品开始大量进入市场,至今国外终端管理类产品已经被国内产品大量替换,虽然市场已经呈现出饱和状态,但每年还有将近4000万元左右的份额来自于这个强管控的终端管理产品。

  枷锁型DLP产品

  这个阶段的产品主要表现为 文档强管控,提供内容源头级纵深防御能力;数据文档的分类、分级、加密、授权与管理

  与终端管理不同,数据加密与权限控制产品已经将关注点从设备变化成了具体的数据文件,控制方式更加细粒度化,保密方式更优秀,从2007年开始至今,市场中涌现出很多有实力的优秀厂商,因为国家的监管要求,加密类产品只能获得相关保密资质、密码认证才可以在国内使用,所以使得国外产品无法在国内大面积的销售,加密和权限类产品至今为止每年还拥有10亿元左右的市场份额,各个行业都有数据防护的需求,虽然市场竞争激烈,但使用者还是担心数据会被加密绑架,而且是全局范围内的。不过还好目前所有产品都很成熟,很稳定。

  监察型DLP产品

  监察型的产品则是 行为强审计,利用准确关键字对数据操作行为的审计,文档的新建、修改、传输、存储、删除的行为监察

  行为审计,分为网络行为审计和终端行为审计,网络行为审计可以有效的监控员工工作时间的网络访问行为,而终端行为审计可以更有针对性的完成对关键数据文件的操作行为。审计产品与其他网络和终端产品共存,可以互相补充,至今市场占有率依然很高,不过随着发展很多网络和终端产品的不断完善和提升,单独行为审计产品已经无法顺利的存活,多元化开始受到客户青睐。

  智慧型DLP产品

  到了智慧型产品则追求 智能管控,可识别、可发现、可管理,提供共性管控能力

  为了更加全面的对数据进行管控,终端管理产品与加密权限类产品做了很多组合的方案,但都是属于全局强管控,有一定的局限性,无法应用到更加复杂的数据环境中,在这种情况下世界各地又不断发生着各种各样的数据泄密事件,人们对数据的重视程度就落在了内容上,这时,内容感知型DLP产品应运而生,通过内容来识别数据的重要性,通过内容来为数据进行分类,通过内容来对数据进行级别划分,智能化的管控方式也带来了便利性和灵活性。

  自2013年以来,国内大力推动国产DLP产品的生产和应用,在金融行业和运营商行业更是掀起了一个潮流,但国内产品还处于一种萌芽阶段,产品的不成熟和不稳定为DLP国产化的道路带来了阻力,很多终端、加密和审计厂商开始转型,但真正的DLP产品不超过三家。

  来源:绿盟科技投稿。

2015年10月29日星期四

谷歌应用商店Google Play重返中国的影响

  近期,关于谷歌重返中国市场的消息在不断发酵,包括大量购买中文域名,IP地址解析直接指向“中国北京谷歌公司”,与国产手机厂商接洽的一系列动作,都看出谷歌在逐步为重新入华作准备。作为谷歌生态圈重要组成部分的Google Play,则有望率先入华。

  消息称,谷歌计划将部分服务落地中国市场,打造相对完整的一套服务体验,前期包括Play应用商店、Play游戏等,并不包括音乐、书籍和电影资源。届时用户可以通过绑定银联卡购买应用及游戏。

  为什么会是Google Play

  谷歌搜索当年退出中国,是谷歌高管对于中国政府针对谷歌搜索引擎的过滤制度严重不满,双方的要求差距非常大,因此不得不退出。而在谷歌退出中国相当长的时间内,谷歌搜索和Google Play等服务都是可以在中国正常访问的,直到2014年5月,谷歌的服务才被中国完全屏蔽,使得中国用户无法访问谷歌的几乎所有服务,包括Google Play在内。

  Google Play应用商店和谷歌搜索的情况并不太相同,Google Play里的应用和开发者都是可控的,同时在Google Play上线的应用都必须通过审核才能上线,违反Google Play条款的应用都会被下架,这也不违法谷歌的道德准则,因此谷歌和中国政府双方的交集还是非常多的,毕竟苹果能做到的,谷歌也可以做到。

  从成功案例上看,苹果应用商店和Google Play属于完全相同的性质,并且苹果应用商店在中国运营的非常成功,不但为苹果公司赢得了大量的利润,并且在2015年9月份,苹果音乐、电影、图书三项服务也进入了中国,使得苹果的生态内容系统全面打通,这也让苹果在中国的营收增长99%,成为苹果公司新的盈利增长点。

  因此,谷歌只要学着苹果的样子做,按照中国有关部门的要求,在中国建立一套单独的帐号体系,并将Google Play的相关服务器都架设在中国境内,只要相关部门不刻意为难,Google Play在中国上线并没有什么太大的阻碍。一旦谷歌和中国政府的关系缓和了,谷歌搜索和Gmail等服务终究也会被允许访问的。

谷歌应用商店Google Play重返中国的影响

  Google Play会怎样

  可以预见,如果一切顺利的话,Google Play不久即将进入中国市场,那么,Google Play进入中国后,会给中国Android生态体系带来怎样的影响?对用户、厂商来说都分别带来哪些影响?

  目前中国的Android应用市场可谓是乱象横生、群魔乱舞,盗版、山寨应用横生,不仅给Android开发者带来了极大的困扰,也给普通用户都带来了极大的危害。

  对于开发者来说,耗费大量的精力和财力才得以脱颖而出的应用被盗版和剽窃,不但经济上受损害,品牌形象也可能受损。而一些承受能力小的开发者甚至会面临灭顶之灾。这极不利于良性移动产业链的形成和发展。

  对普通用户而言,许多盗版应用会利用设备权限来抓取隐私信息,甚至偷偷点播运营商SP服务,偷跑流量,给用户带来严重的隐私安全风险和经济财产损失,或者大量弹出广告,让用户的使用体验大幅下降。

  至于国内的第三方Android市场,更是纵容了盗版软件、恶意软件的存在。至于用户正版意识差,国内法律监管不严,Android系统盗版相对容易等都是应用市场极端混乱的原因之一。

  因此,这三方的恶性循环,导致国内开发者没办法开发付费软件,在Android平台上赚不到钱,普通手机用户则受到大量广告、恶意应用、木马病毒的干扰,使用体验下降,国内的第三方Android市场也因为这些问题导致口碑下降,用户忠诚度低。最终导致的结果,就是平台商和开发商双输,用户则转移到iPhone平台,这也是为什么那么多中国用户喜爱iPhone的原因之一。

  而做为Android正统的应用商店Google Play的回归,对于规范目前混乱的Android市场,会起到很好的作用。

  首先,国内的华为、中兴等厂商都是OHA(open handset alliance)成员,根据移动应用软件分发协议,谷歌要求其在手机里预装Google Play应该不成问题,这就会使得Google Play的市场占有率大幅提升,使得Google通过Play应用商店掌握Android流量入口。

  接着,谷歌可以展开盗版打击服务,大力打击第三方Android市场上的盗版应用,同时大力发展Google Play上的付费正版应用,这样,国内的Android开发者就可以通过Google Play盈利,开发者赚到了钱,就有能力和资源为Android开发出更好更优秀的应用,引导用户从iPhone上回归Android平台。

  对于用户来说,Android手机的价格相比iPhone要便宜的多,如果Android平台上能有正规的应用市场,提供优质可靠的应用,那么用户重返Android平台也是有可能的。虽然中国的Android使用者养成的用“免费”软件的习惯,但随着时间的推移,将会有越来越多的用户在Google Play上购买正版软件,就像现在很多用户在苹果应用商店购买正版软件一样。

  对于第三方应用商店来说,Google Play入华也是一种激励,再像过去那里瞎搞是不行了,要想超越Google Play,就必须为用户着想,提供更优质的服务和应用,否则用户就会用脚投票,再也不来访问你的应用商店了。

2015年10月28日星期三

拨开大数据的迷雾

  之所以有这么一个话题,确实是有原因的。就在前几天,我又收到了一个同行的邮件,是向我咨询关于大数据方向的问题,他们想涉足大数据这个领域,或者说已经涉足大数据这个领域,只是不知道下一步该如何进行,很是迷茫。

  于是我想,这么多人都在纠结自己到底该在大数据领域中如何前行,面对于大数据这个看起来很泛的概念,并且有愈演愈乱的趋势,我们确实需要好好的理一理。

  于是就有了这个话题。这个圈子到底是干吗的,涉及的技术到底有哪些,我们到底该如何入手,该如何进一步提升自己。

  对于个人来说,很庆幸一毕业就在这个圈子里偷摸打滚,虽然不能说懂多少,但还是很愿意把自己的一些观点分享给大家,能帮的上忙当然是好的,帮不上忙纯当个人的吐槽了。

  理清大数据的脉络

  我们先来理一理大数据这个圈子的脉络,先来确定一个问题:我们所说的大数据,研究其的核心价值在哪里?

  是的,这是一个很奇怪问题,像是在几年前,大数据这个词突然就火了,然后就一直火,然后火的一塌糊涂。我们再来思考一下这个问题,在数据量未增长到一定规模,或者说大家还没有意识到数据成长到了一定规模,又或者说相关技术支撑尚未成熟的时期,数据被人关注的并不是太多。

  在大数据技术日渐成熟时候,特别是以hadoop生态为代表的技术圈日渐丰富,在数据规模日渐增长的今天,对于数据研究的人也越来越多。

  于是,越来越多的人投身其中。我们需要先明白我们的目的:挖掘数据中的价值。这里所谓的挖掘并不是狭义上的数据挖掘的概念,而是包括了对于杂乱数据的整理以期发现其体现的业务现状,通过对大批数据的统计分析达到对业务的调整以及决策,通过对大批量数据的潜在关系或者趋势的挖掘实施相关个性化的策略等等。

  说白了就两个字,价值。不管是大的价值还是小的价值,我们需要从数据中获利,这是我们的根本目标。也就是说,我们在大数据这个圈子里所干的一切,都是为了榨干数据潜藏的价值。

  明白了核心价值所在,我们再来关注一下我们的研究实体——数据。

  我们的数据从哪而来?我们的数据拿过来就可以用吗?榨干数据的价值,用榨汁机榨吗?数据到底该怎么处理?是的,我们要用到哪些技术?

  围绕怎么榨干数据这个问题,我们可以衍生出很多很多的问题,都是需要我们一一去解决的,这也就是为何很多人迷茫的直接原因。

  杂乱无章,无从下手。这是很多新手或者说已经身陷其中的程序猿都面临的一个问题。

  不可否认的是我们的研究实体始终是数据,我们是围绕它在转的,确定了这一点,剩下的问题,我们一个一个的来理。

拨开大数据的迷雾

  数据从何而来?

  对于这个问题,答案还是比较多的。

  在此之前,虽然很多企业公司对于数据,并没有很大的研究,但是潜意识的把那些产生的数据都收集起来了,如今在有能力研究或者进一步处理的前提下,这就是一个不可估量的数据量。在传统的数据收集方式上,主要以现成文件或者传统数据库的方式体现。

  企业公司线上业务产生的业务log。这应该是最常见的一种数据来源,当前很大一部分同行处理的应该都是这种数据。这种数据的格式主要是按时间切分的log文件。

  互联网公开数据。这部分数据源有以下几个特点:获取难度高,数据比较杂乱。想要使用这一部分数据,其成本也是相对较高的。所以,就目前来说能够使用这部分数据的企业还是比较少的,但在未来它必定是一个主流数据来源。

  除此之外,随着移动互联网的发展,移动终端带来的数据也越来越多,成为一种新型的数据来源。当然进一步延伸,包括了各种智能终端产生的数据。

  数据拿来就能用吗?

  答案显然是否定的,就连怎么拿数据都是一个大问题。这就不得不说到一些大数据领域数据收集相关的技术了,比如比较流行的Scribe以及Flume等,他们都是为解决多节点日志收集而产生的解决方案。我们通常产生的数据都是分散在各个不同节点上的,我们需要用到这些数据,进一步从数据中提取价值,前提是能统一收集到这些数据。而这些开源的日志收集系统解决了分散数据如何集中的痛点。

  此外,对于存储在关系型数据库中的传统数据,我们需要通过一定的转换,让其导入到我们的大数据处理平台中,比如数据仓库中等等。这就涉及到一些数据转换的开源系统,比如sqoop之类的。

  而对于互联网上公共数据,这就涉及到各种网络爬虫、网页解析相关的技术。

  并且对于绝大部分数据来说,在获取之后并不能直接使用,典型如各种业务数据,我们需要进一步提取其中我们所需要的信息。而对于爬取的互联网数据,更是纷杂凌乱,我们需要进一步的进行筛选,进一步的清洗,最终拿到有用的基础数据。

  对于数据的清洗、预处理,大规模离线处理典型如MapReduce,内存处理典型如Spark Streming,数据流式处理典型如Storm等。

  在数据传递的过程中,我们又涉及到了各种消息队列;在整个数据平台中,涉及到了分布式协调、分布式监控、任务调度等相关的知识。

  不管在各个环节也好,或者说最终处理的数据也好,我们需要进行存储,这就涉及到分布式存储、非关系型数据库、大规模数据仓库等相关的技术。

  榨取数据的价值!

  在数据经过层层处理之后,终于到了我们的目的所在了。对于部分业务来说,在经过精提纯的数据已经是可用的了,可以直接呈现了,这就直接体现了数据价值,不多说。

  对于部分数据,我们需要进行进一步的统计分析,然后把握数据体现的业务趋势、业务变化,这可以算是大数据BI的领域,也算是数据价值的体现。

  而对于部分数据,不能直接使用,并且其数据直接体现的状况对于我们并没有太大的作用,这个时候我们需要进一步的挖掘其潜藏的价值。典型如个性化推荐,我们希望通过一定的数据模型,建立起现有数据与未来数据的关系,进一步实施我们个性化业务,提升商业利益。这也是一种数据价值的体现。

  我们来梳理一下整个过程!

  在最开始阶段,我们进行初始数据的收集工作,根据不同的业务场景,可能会涉及到的一些技术领域:分散日志收集技术,诸如Scribe、Flume为代表的开源日志收集系统;数据消息传递相关的技术,各种开源的消息队列MQ,诸如ActiveMQ、RocketMQ、Kafka等;各种爬虫技术、网页解析技术;数据库数据转换技术,如Apache的Sqoop等;

  在数据处理阶段,通常我们会有两种不同的处理方式,一种是在数据落地之前,我们进行预处理,典型如Storm为代表的实时处理系统,还有近一两年比较火的Spark Streming;还有一种就是落地之后进行的批量离线处理,如Hadoop的MapReduce,以及使用Spark进行处理。当然,对于数据的预处理,并不是说一定要用到什么框架,但是这个过程肯定是需要的,我们需要对数据进行进一步得过滤、规整操作。

  然后是数据的落地,对于规整之后的数据,我们需要进行落地存储,然后才能做进一步的处理。对于一般性的大规模存储,目前有很多开源的分布式文件系统方案,典型如HDFS,但更多的是存入数据仓库中,或者一些NoSQL中。其中以Hadoop生态中的Hive以及Hbase为代表。

  然后在整个数据被规整到存储落地的过程中,是一整套完整的数据处理流程,是一个完善的数据处理平台,我们可能还会涉及到一些分布式的协调系统,典型如Zookeeper;还涉及到一些分布式平台的监控,如Ganglia和Nagios的结合使用,以及Puppet、Zabbix等等相关技术。

  然后接着就是数据的价值体现,对于部分业务来说,处理过的数据已经是可以直接使用了,例如通过数据仓库的操作,直接对外展现;而部分数据则是需要对其进行统计分析,例如通过对Hive的各种操作,生产的各种BI报表,我们则可以从中找到现有数据的规律,进而完善我们的业务策略;而部分业务则希望现有的数据对未来数据能够产生影响,所以引入了各种数据深度挖掘的东西,例如在大规模数据挖掘场景下的Mahout以及Spark的MLlib等;还有部分业务则是想把这些数据作为一个搜索数据源,那这个时候我们会对数据索引化的操作。

  在如上的这些过程中,虽然在使用的技术上可能会有所出入,但是这个基本流程是不变的。通过这个梳理,我们知道在这个过程中,我们会涉及到哪些流程,然后才能说在大数据的这个圈子里,我们到底该往哪个方面发展。

  定位自己的位置

  如上所言,在大数据整个领域中,涉及的东西很多,需要掌握的处理问题的思路也很多。但我们的精力是有限的。

  我很庆幸自己一毕业就投身其中。最早开始接触是构建数据中心平台,包括了一整套数据接入,实时处理以及离线处理的东西。在往后的工作中又陆续接触到了大数据领域中数据仓库以及数据大规模缓存相关的技术,逐渐补充我在大数据领域的空白,并且陆陆续续在NoSQL、搜索、网页解析、爬虫等方面也有所了解。而如今,一边做着数据处理相关的工作,一边依托于大规模的数据,在此基础上进行数据潜在价值的挖掘,比如正在研究的推荐系统,热度排名模型研究等等。

  在整个体系中,其实也是可以分为两类的,由于在这个圈子里大量使用了各种开源的平台系统,因此对于平台人员的需求量也是很大的,保证大规模集群以及平台的正常运行,也是一个很有挑战的事;然后就是纯开发人员,需要考虑的东西就会更多一些。

  对于初入这个领域的人来说,首先需要确定自己的兴趣所在,然后结合如上所说的脉络,找到自己的切入点,想一下子都整明白是不可能的,找准自己的兴趣点,然后逐渐完善自己对大数据的认知体系。

  名词解释:大数据(Big data或Megadata),指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的形式的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

  来源:投稿,作者:博客虫,作者公众微信号blogchong

2015年10月26日星期一

安卓出现高危漏洞WormHole漏洞

  乌云网发布了一个名为WormHole的漏洞,该漏洞影响Android上数个用户量过亿的app,无需接触手机,只要连接了网络,无论root与否都有被安装应用和远程控制的风险,该漏洞细节将会在漏洞修复后在乌云主站对外公布。

  WormHole漏洞的危害和风险有多大呢?风险如下:

  1.无论是 wifi 无线网络或者3G/4G 蜂窝网络,只要是手机在联网状态都有可能受到攻击。攻击者事先无需接触手机,无需使用DNS欺骗。

  2.此漏洞只与app有关,不受系统版本影响,在Google最新的android 6.0上均测试成功。

  3.漏洞可以达到如下攻击效果:

  - 远程静默安装应用

  - 远程启动任意应用

  - 远程打开任意网页

  - 远程静默添加联系人

  - 远程获取用用户的GPS地理位置信息/获取imei信息/安装应用信息

  - 远程发送任意intent广播

  - 远程读取写入文件等。

  据爆料者称,包括百度在内的不少热门安卓应用都被感染了WormHole漏洞,初步统计有三亿用户受到影响,用户应该尽快升级应用到最新版本,如果最新版本也没有修复漏洞,用户应尽快删除受影响的应用。

安卓出现高危漏洞WormHole漏洞

  乌云网发布了一个名为WormHole的漏洞,该漏洞影响Android上数个用户量过亿的app,无需接触手机,只要连接了网络,无论root与否都有被安装应用和远程控制的风险,该漏洞细节将会在漏洞修复后在乌云主站对外公布。

  WormHole漏洞的危害和风险有多大呢?风险如下:

  1.无论是 wifi 无线网络或者3G/4G 蜂窝网络,只要是手机在联网状态都有可能受到攻击。攻击者事先无需接触手机,无需使用DNS欺骗。

  2.此漏洞只与app有关,不受系统版本影响,在Google最新的android 6.0上均测试成功。

  3.漏洞可以达到如下攻击效果:

  - 远程静默安装应用

  - 远程启动任意应用

  - 远程打开任意网页

  - 远程静默添加联系人

  - 远程获取用用户的GPS地理位置信息/获取imei信息/安装应用信息

  - 远程发送任意intent广播

  - 远程读取写入文件等。

  据爆料者称,包括百度在内的不少热门安卓应用都被感染了WormHole漏洞,初步统计有三亿用户受到影响,用户应该尽快升级应用到最新版本,如果最新版本也没有修复漏洞,用户应尽快删除受影响的应用。

2015年10月25日星期日

文化部官方微博回应质疑:感谢意见欢迎拍砖

  作为首个以部委名称开通的微博,@文化部一直备受广泛关注。昨日下午2时许,@文化部官方微博开腔回应质疑称:“初来乍到,小编多有不周。感谢大家这些天的建议、意见!我们既然有勇气开通,也一定会面对、承担、改进,希望能得到大家的理解与包容。欢迎大家多多拍砖,我们仍将继续以不删帖的态度,把微博越做越好!”

  对于此帖,网友仍不遗余力跟帖评论。截至昨日下午5时24分,该条微博已评论数为4481,转发数为2406,点赞数为1369。

  网友有赞有弹

  记者发现,网友有赞有弹,也有网友持保留态度。

  点赞者主要是看到了@文化部勇于发声与积极改错的精神。@麦先生同学称,支持文化部,那么多的中央机构,唯有文化部敢开先河,这份勇气和担当足见其诚心诚意。当前文化乱象,社会问题,也不是一个文化部能够解决,但至少这个官博打开了一条草根通达庙堂的平台,值得点赞。

  批评者则表达了各种意见,网友@虎男伟狮说:兼听使人进步,删帖使人落后。不过,不少网友对此番表态持保留态度。@腹黑的黑猫称,立帖为证,以观后效。网友@BK君评论说,其实你删不删都无所谓,但是民意呼声得进了你的眼睛和耳朵才行啊。

  “人民日报政文”发评论

  10月15日,@文化部 发出首条微博,引发广泛关注,公众跟帖评论汹涌。评论中有赞赏,也有调侃、吐槽,乃至谩骂,大多数网友将矛头直指“禁剧”。也有网友表示遭遇删评,“发完帖子,就不见了”。截至昨日下午5时许,文化部官微粉丝数已逾26.5万。

  为何此时发声?记者注意到,昨日@文化部此条回应帖是以跟帖评论形式发布。

  其所评论的帖文为@澎湃新闻:【人民日报政文评“文化部开博被喷后删评”:一味高冷何必发声】微信公号“人民日报政文”发文称,文化部能开通微博,对政府职能部门与公众来说本是好事一桩。但是,文化部微博管理人员在负面评论暴增情况下,一味地“删帖”也是操之过急,这种表面的“减法”只能陡增民意的不满,“敢于直面负能量,才是真的正能量”。

  来源:广州日报

2015年十大网络文明用语

  日前,教育部和国家语言文字工作委员会联合公布了2014年中国语言生活状况报告。这是教育部、国家语委连续第十次向社会发布年度语言生活状况报告。这次报告以非常严厉的口吻批判了网络低俗语言,提出了规范网络文明用语势在必行。

  在报告发布之际,教育部相关负责人也特别指出了“草泥马”、“�潘�”、“逼格”等低俗词汇,表示这些造词格调不高、品位低下,却被报纸、广播电视等媒体使用。网络低俗语言大量涌现,聚集了社会戾气,网络低俗语言已到了非治理不可的程度。

  一石激起千层浪,教育部和国家语言文字工作委员会发布的报告在主流媒体的报道下,引发了各界极大的热议。可以说,铲除网络低俗用语,弘扬文明网络用语已经成为了社会共识,但我们只看到了对低俗用语的举例和批判,却没有很好的说明哪些文明用语需要去弘扬,去提倡广大网民使用。

  由此,我综合了近年来互联网上主流的热点事件和词汇,总结出来以下十大词汇,这些新时期出现的网络词汇现在已经广泛的用于新闻报道、欢迎致辞、论文写作、教辅教材、通俗文学等领域。我认为我们在惩恶的同时需要扬善,而这些网络文明用语词汇真是我们需要推广使用的。

  给力

  给力一词是近年来资格最老牌的网络文明词汇,早在2010年起就风靡网络,被广泛应用,目前通过百度搜索“给力”,相关网页多达3800万。2010年的11月10日,《人民日报》头版头条标题《江苏给力“文化强省”》,就此“给力”一词奠定了其文明用语的龙头地位。

  用法举例:2015年前三季度中国国产电影太给力了, 表现优于进口片,占据了60%的票房份额。

  点赞

  随着微博、微信等社交网络平台的出现和火爆,“点赞”一词的使用场景也愈加丰富,甚至“点赞”作为一个动词时,成为了广大网民每天必备的动作。2014年最后1天,习大大在新年致辞中表示“我要为伟大的人民点赞”。让人不得不感慨,网络文明用语连习大大也用的这么熟练了。

  用法举例:过去两年打老虎,拍苍蝇的成果斐然,我们要为中纪委点赞。

  蛮拼的

  蛮拼的这个带有港台腔的网络用语,一开始感觉就像“酱紫”、“黑凤梨”这种词汇一样,说的绕口、听的别扭。但在习大大2015新年贺词“我们的各级干部也是蛮拼的”之后,也迅速的成为了媒体和网民使用的高频词汇。

  用法举例:很多互联网公司了抢时间研发新的产品,程序员经常在公司打地铺,真是蛮拼的。

  正能量

  正能量本来是一个物理词汇,和负能量这个词汇一样本没有任何褒义和贬义之分。但随着互联网的发展,出现了一些负面的事件和情绪后,需要正面的信息和事件来对抗,来提振士气。“正能量”这个词汇在中国就变得有感情了,目前已经成为最能代表中国网络文明用语的一个词汇。

  用法举例:海淀区学习雷锋月,20万中小学生网上签名传播正能量。

  亲

  一开始在旺旺和客服聊天,听到“亲”这个词汇时,吓得面红耳赤,赶紧把笔记本电脑合上,生怕被老婆看到。后来我们知道这是网络购物中,使用频率最高的一个词汇,这么一个简单的词汇把消费者和商家的距离拉近了。

  用法举例:亲,我们这个包邮的,现在可以放到购物车,等双11的时候再下单付款哦。

  逆袭

  在生活中,我们大部分的人都是普通人,不是富二代,没有高学历,颜值不高,但人人都有梦想,都需要被认可。所以“逆袭”这个词汇成为了网络用语中最励志的一个,在人生低谷的时候,通过自己的努力,逆袭成为人中龙凤是我们每个人努力的目标。

  用法举例:从山西贫困城市阳泉走出来的青年李彦宏,通过留美求学,然后回国创办百度成功实现逆袭,成为万众瞩目的科技大佬。

  接地气

  接地气是我最喜欢的一个网络文明用语。相比其他高冷网络词汇,“接地气”这个词汇让人感觉真的接地气,更容易应用在多种场景。这个词汇最能反映底层普通民众的愿望、诉求、利益。

  用法举例:自从八项规定出台后,各大高级饭店的菜品价格大幅度下降,老百姓也能消费得起了,真是接地气的举措啊。

  萌萌哒

  萌萌哒,也作么么哒,有“太可爱了”的含义,是特别萌的可爱用法。萌萌哒多诙谐形容自己的萌化形象,也经常用于各种文章和帖子内容的回复,代替“呵呵”等略显贬义的词汇。

  用法举例:今天穿上这身新衣服后,真是被自己帅哭了,萌萌哒。

  伐木累

  随着奔跑吧兄弟的火爆荧屏,节目中的“伐木累”也火爆网络,伐木累是英语family的音译,指的是家人。这个词汇经常在形容团队融洽或者友情长久的时候用,有时候也用于提醒朋友学好英语,不要出现闹太套的笑话。

  用法举例:站以来,不要哭,我们是伐木累,你有难关大家帮你度过。

  朝阳群众

  随着平安北京在微博上一次次的播报各种案件,社会上各种引发关注的案件被公众所熟知。在这个过程中,朝阳群众多次出现,为各种大案要案的破获立下了汗马功劳。近年随着微博的盛行,中国各地都出现了“朝阳群众”,朝阳群众正在和雷锋精神一样,发挥的作用越来越大,范围越来越广。朝阳群众火爆的背后是警民合作、共建和谐社会的美好愿景。

  用法举例:再次举报明星涉毒 朝阳群众又立新功。

  来源:丁道师投稿