2013年5月20日星期一

如何通过百度快照分析中文分词和百度排名

  很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。

  笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

  之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。

  当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。

  百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。

  1、短关键词

  以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。

  打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。

  打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。

  2、长尾关键词

  以“小说阅读网”为例,以下是首页搜索结果展示

  打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。

  但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。

  搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。

  我们或许可以看出两个情况:

  1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。

  2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。

  百度快照颜色有何意义?

  另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。

  笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。

  当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。

  来源:北漂书生博客投稿,原文链接

2013年5月17日星期五

Google+信息流改版

  Google+近日发布了新版,除了界面上的变化之外,最大的变化是信息流的改变,信息显示由单行的消息变成多行的消息,和Pinterest的显示方式类似,又有些像Facebook。

  根据用户屏幕的大小,Google信息流会以两栏或者三栏的方式显示,用户也可以在“更多”里设置信息流布局,在iPhone上则只有一栏。

  目前Google+信息流默认为多栏显示,这种显示方式,对于大量图片信息的网站来说是友好的,然而,多栏模式对于文字阅读体验却很差,尤其是大量的文字信息阅读,用户阅读大量信息,一般视角都是从上往下垂直扫描,而在多栏状态下,用户的视角将上下左右随机运动,阅读效率和阅读体验将会大幅下降,对于文字信息阅读反而不方便了。

  Google+信息流的多栏设置显然影响了用户的阅读习惯,用户虽然可以在“更多”里设置信息流布局,但是经过测试,新版Google+的单栏信息流显示非常窄,可视内容太少,效果还不如以前的版本。

Google+信息流改版

  因此我觉得,新版的Google+信息流改版,对于文字内容浏览来说是一大伤害,这让Google Reader的用户群更不可能选择Google+了。而在图片浏览上,Google+未必又能比得上那些专业的图片网站。这样改下去,Google+的用户恐怕会越来越少。

2013年5月16日星期四

Google发布全平台通讯应用Hangout环聊

  Google今天发布了全平台的文字、视频聊天系统Hangout,中文名为“环聊”,支持Android、iOS以及Chrome多平台,支持视频通话,支持多人视频群聊,对话内容可以长时间保存。

  新版Hangout可以发送图片或表情符,了解其他人看到了哪条消息或是否正在打字,还可以随时向朋友发送消息(即使他们暂时没在线也能收到)。用户可以将任何对话升级为可容纳 10 个朋友的视频聊天室,还可以使用各种应用和视频特效,给自己的脸上加点装饰。Hangout环聊既支持桌面电脑和笔记本电脑,也支持 Android 和 Apple 移动设备。

  除了支持多人同时进行视频聊天外,现在这项服务已经推广到了更多的场合,比如工作视频会议、远程教学等等。用户还可以点这里观看各种主题的公开环聊直播

Google发布全平台通讯应用Hangout环聊

  我也简单测试了一下Google Hangout,其iPhone版没有在中国市场上线,但可以从美国市场下载到,和Google+好友发起聊天后,对方如果开了Gmail,可以直接在Gmail内置的Gtalk中聊天,无需安装应用。如果对方也安装了手机版Hangout,其聊天内容会在手机和浏览器上同时显示。聊天记录保存在Gmail的“聊天记录”栏目中,图标和Gtalk有区别。

  在手机上也可以用Google Hangout进行多人视频聊天,经过测试,Google Hangout支持前后摄像头和语音,视频聊天感觉有些卡,可能为了节省流量,视频清晰度不太好。

  Android版下载地址:https://play.google.com/store/apps/details?id=com.google.android.talk

  iOS版下载地址:http://itunes.apple.com/app/id643496868?mt=8

  Chrome插件地址:https://chrome.google.com/webstore/detail/hangouts/nckgahadagoaajjgafhacjanaoiihapd

2013年5月15日星期三

UGC社区类产品系列3:内容如何流动

  前些天写了UGC社区类产品系列:1、违规内容的处理2、如何让用户创造内容。前2节反响不错,今天继续该系列,聊一下内容如何流动。

  先破题,内容如何流动,换个方向思考,即你是如何接收到信息的。把内容当做零散的信息组成体,即内容流动问题实则是信息流体系的建设问题。接下来从三个体系的建设,一起窥探内容如何流动的秘密。

  层级关注体系

  最早接触的社区是康盛出品的DZ论坛,用户只能通过主动参与帖子互动后,你才会授粉默认关注了该帖子,然后呢,通过消息系统传送该帖子的相关更新告知与你。

  DZ论坛还没有将关注体系显现出来,所有的参与帖子然后收到更新推送都是通过后台默认记录进行。这个时期的DZ论坛关注体系就是帖子(发起帖子、参与帖子回复、顶贴等互动),即一层关注体系

  百度知道通过用户关注分类和关键词、问题同问,然后在用户个人首页接收到来自这三方面的动态信息,即两层关注体系(备注:关注分类和关键词,只是范围不同,其实还是属于关键词一类关注体系)

  知乎2012年8月改版前通过用户关注话题、问题、人,然后在用户的个人首页接收到来自这三方面的动态信息,即三层关注体系

  关注体系设计的越多,的确更有助于让内容流动。但用户通过个人首页接收所有的信息量,造成信息消费成本增大,大喊悲催和烦躁不安。此时的解决方案是将多层关注体系分权重展示,即权重最高的放到个人首页,其他权重低的通过其他入口展示。

  权重高低取决于某层关注体系对内容价值取向的影响力大小。比如知乎2012年8月改版,在个人首页显示关注人的信息动态,话题通过话题列表聚合页展示。因为通过关注人带来的问题内容价值大于通过话题带来的问题内容价值,即信息源颗粒度更小,噪点更低,价值更大。

  产品形态:个人首页、频道聚合、消息系统
设计原则:在设计关注体系的过程中,一定要结合自己的产品找到可能多的关注体系,然后根据给你产品带来的价值大小分权重展示。最后所有关注体系中用户参与互动的内容,全部依托于消息系统进行传递。

  智能推荐体系

  关注体系有别于智能推荐体系,前者由用户主动设置关注信息源产生信息流动,后者由系统生成数据模型的信息源产生信息流动。

  智能推荐体系的建立,一般从用户和内容两个维度出发。

  从用户出发,可以根据用户行为(赞这个的用户也赞那个)、用户关系(你们有24个共同好友)、用户兴趣(读了这本书的同学也读这些书)等建立推荐体系;

  从内容出发,可以根据相关内容(关键词关联的内容)、内容消费(推荐擅长该内容的人)、内容流行(热门内容推荐)等建立推荐体系。

  豆瓣根据用户对书籍的看法、品味,寻找相似品味人的书籍;无觅相关插件根据内容关键词计算关联度进行相关文章推荐。严格意义上讲,豆瓣是标准的UGC智能推荐体系的产品。只要是个东西,在豆瓣都能找到东西之间的共性维度,寻找尽可能多的维度建模进行推荐,这点值得我们深挖学习。

  产品形态:推荐模块、热度频道
设计原则:社区注定以内容为主体,人的关系辅助存在,不要担心用户之间产生关系哦。内容和用户之间可以交叉组合推荐。

  内容组织体系

  在UGC产品中用户进行内容组织的过程属于高级行为,非常的有价值。既然是UGC产品,用户创造的内容自然五花八门零零散散,促进用户进行内容组织,有利于内容流动。

  内容组织体系的建立,一般从结构化和关注化入手。

  从结构化出发,用户将碎片多维度串起来,整个UGC产品的内容由无序变得有序,形成一张有结构的网。用户通过关键词检索,可以找到某个结构单元。解决用户信息获取,促进内容流动。比如下厨房搜索各种菜单。

  从关注化出发,用户将自己喜欢的文章放到了某个列表,其他用户无意间发现并订阅关注了这个列表。此时,这个列表通过消息系统形成了另一个关注体系,促进内容流动。比如豆瓣读书豆列。

  产品形态:自定义收藏列表、个人主页展示列表
设计原则:内容组织遵循内容颗粒度所属原则和产品相关原则,比如下厨房的单个内容是菜谱,收集多个菜谱就是菜单;豆瓣的单个内容是书,收集多本书就是书单(读书豆列)。寻找小颗粒在现实生活中的所属对象,形成产品形态,最终构成产品核心架构。

  结语

  内容如何流动,就是从内容和人的属性上入手,找到信息流动方向和数据挖掘的维度以及内容组织的颗粒度关系。

  来源:投稿,作者Gauin,微信公众账号Gauin’s Blog,原文链接

传苹果调整售后政策取消以修代换

  据国外媒体报道,Appleinsider从匿名苹果员工处获悉,苹果正在酝酿售后服务政策的大幅修改,预计将在今年秋季率先在美国推出。新政策将为苹果每年节省10亿美元开支。

  目前苹果采取的是以修代换的售后政策,购买产品后一年内,如果用户的一款iPhone、iPod或者iPad出现了故障后,无论是送店还是邮寄维修,苹果将换给用户一款类似的新设备,即所谓“整机换新”。但是,苹果交给用户的“新手机”保留了旧iPhone的后壳,而更换了内部的手机配件。

  但是,在政策调整之后,这些损坏的产品将进行维修,最终返还到用户手中的产品将是完全修复的产品,而不是更换翻新的产品。

  苹果的“以修代换”做法曾经遭到央视315的质疑,成为央视抨击苹果“欺诈”的一大论据。在“3·15”风波中,苹果被《人民日报》等媒体批为“无与伦比的傲慢”。

  业内人士透露,苹果此前在回收故障iPhone后,交给用户的虽然是一部翻新机,但除后盖外的机体均采用全新零件,成本并不低。相比之下,在实施保修新政后,售后服务显然拉低了成本。苹果的保修新政不仅节约了成本,更扫除了日后拓展中国市场的一大隐忧,可谓“一箭三雕”。但是,中国消费者并未从中获得太多好处。

2013年5月14日星期二

Google合并三大服务存储空间为15GB

  据谷歌官方博客报道,谷歌即将在未来几周内将整合Google Drive、Gmail 和 Google+相册的存储空间,原先Gmail服务提供的免费存储容量为10G,Google Drive和Google+相册共用5G免费容量,整合之后三者统一使用15G的免费存储空间。

  这个存储空间的合并计划将在未来几周内实施,对于大多数用户来说,这是有利的,很多重度Gmail用户并不太使用相册,或许还有一些重度Google Drive网盘用户并不太使用Gmail,合并空间后,对于不少使用单一服务的用户来说,可以使用的免费空间变得更多了。

  不过,如果用户同时是Gmail、Google Driver和Google+相册的重度用户,那么我建议他注册三个Google帐号,每个帐号使用一个Google服务。

  如果用户感觉自己的存储空间不够用,还可以购买付费的存储空间,价格为100G容量每月4.99美元,200G容量每月9.99美元;原先的25GB容量每月2.49美元的选项取消。

Google合并三大服务存储空间为15GB

  这次的合并存储空间不仅仅针对Google Driver用户,Google Apps用户也会同样合并存储空间。整个计划将在未来几周内实施。

2013年5月13日星期一

苹果应用商店没有逃税

  近日有专家称按中国海关法,苹果公司是关税的纳税义务人,苹果应用程序商店(App Store)销售应用软件属于进口物品,该缴纳关税,还有专家据此称“苹果应用程序商店在华逃税”。针对这个说法,网易新闻在“网易另一面”发表专栏指出,根据世贸组织相关协定,中国并不能针对苹果应用程序商店征关税。

  网上跨国软件下载是WTO免关税的国际服务贸易

  世贸协定中具有法律效力的《服务贸易总协定》确定四种国际服务贸易方式,中国仅能对其中的“商业存在”和“自然人流动”征关税

  《服务贸易总协定》(GATS)是世贸组织中第一套有关国际服务贸易的、具有法律效力的多边规则,WTO的服务贸易理事会负责监督GATS的实施,世贸组织成员国若无签订具体的修改承诺条款,就必须全部适用其所有规则。《服务贸易总协定》对世贸组织成员国之间的国际服务贸易做出了明确的定义,有四种服务提供的方式:即跨境交付、境外消费、商业存在、自然人流动。

  “跨境交付”是指从缔约方的境内向任何其他缔约方的境内提供服务,这种服务不构成人员跨境,跨越国境或边界的只是服务本身,不是货物。“境外消费”是指从一缔约方的国境向其他任何缔约方的服务消费者提供服务,这种方式典型的例子是消费者为旅游或求学或看病进入服务提供国领土内。“商业存在”是指一缔约方的服务提供者通过在其他任何缔约方境内的商业存在而提供服务。包括通过设立分支机构或代理机构,提供诸如银行、法律咨询或通信等服务。“自然人流动”是指一缔约方的自然人在其他任何缔约方境内提供服务,一般而言就是允许外国公民进入本国领土内提供服务。如一国的医生、艺术家、教授到另一国从事个体服务。按照《服务贸易总协定》,中国政府只能在世贸缔约国间的“商业存在”和“自然人流动”类服务贸易征关税。

  App store的线上数字服务交易是《服务贸易总协定》中典型的“跨境交付”,加入世贸后的中国不得就此行为征关税

  根据世贸组织专家组对“美国影响赌博服务跨境提供措施案”的裁决报告,《服务贸易总协定》中“跨境交付”是指“服务者自一个成员领土内向任何其他成员领土内的消费者提供服务”。根据WTO中普遍适用的“技术中立”原则,其所涉及的跨境提供模式应包含自一国成员领土内向任何其他成员领土提供服务的任何可能的方式。这意味着服务提供者可以通过任何交付方式提供服务,包括通过书面或电子邮件、电话、传真、互联网在线形式、其他任何一种方式或者几种方式的组合方式。如果一国成员意图排除在跨境提供方式中的一种或几种交付方式的市场准入,该成员应该在具体承诺表中明确写明。

  苹果应用程序商店(App Store)的营业行为,是作为全世界各个软件开发公司的中介商和技术协助者,将开发者上传的软件在苹果应用程序商店发布后提成,属于典型的“跨境交付”。中国作为世贸组织成员,又未在《服务贸易总协定》签订特定的修改承诺或不适用范围条款,不能对App store的数字服务行为征关税。

  软件程序不和硬件配套进口就不用交关税

  根据世贸组织《关于软件海关估价的决定》和《中国关税完税价格办法》,只有有载体的软件才需交关税

  与软件相关的国际贸易并非全部都豁免关税,但要征税的不是网上下载,而是和作为软件载体的硬件设备一起计税。1995年,世贸组织海关估价委员会发布《关于软件海关估价的决定》,对进口计算机软件允许成员国基于两个因素之一征税:硬件载体本身的价格或价值;或者硬件载体加软件的交易价格(已支付的或需要支付的价格)。中国采用第二种方法征关税,即对载体和其中数据库或软件的合并价格征税。2006年《中国海关审定进出口货物完税价格办法》对此有明文规定:第十三条第三款第一项:“含有软件、文字、乐曲、图片、图像或者其他类似内容的进口货物,包括磁带、磁盘、光盘或者其他类似介质的形式”;第三十七条:“进口载有专供数据处理设备用软件的介质……应当以介质本身的价值或者成本为基础审查确定完税价格”。

  苹果app下载不搭配机器就不必交税

  而苹果应用程序商店上的数十万软件并不绑定苹果公司的硬件产品一起输入中国。根据《海关法》,海关对进出境货物、物品、运输工具实施监管并征收关税。苹果应用程序商店的软件服务没有实际的载体,不属于海关监管范畴。

  国内软件开发商而非App Store该交增值税

  中国在苹果应用程序商店上传应用软件的开发公司是自主的销售商,已为自己的销售行为缴纳17%增值税

  苹果应用程序商店的商业模式中,苹果公司并不扮演通常的“成本价进货—商品价销售—挣差价”的超市型分销商角色。软件开发商将应用程序上传到App Store后,能自主运营平台上自有产品或应用、自由定价、自主调整价格。因苹果应用程序商店中的软件开发商是自主销售商,按中国财政部、国家税务总局2011年10月13日发布的《关于软件产品增值税政策的通知》第一条第一款:“增值税一般纳税人销售其自行开发生产的软件产品,按17%税率征收增值税后,对其增值税实际税负超过3%的部分实行即征即退政策。”

  公司只在注册国就营业行为缴增值税,中国政府不能对运营App Store的卢森堡公司收增值税

  苹果对中国用户服务的App Store实际上并非由美国的苹果公司直接经营,而是由其位于卢森堡的关联企业艾通思公司负责运营和管理。艾通思公司是中国的应用程序商店的运营者。应用程序商店向开发商提供信息存储服务,并受其委托向最终用户收取费用,在扣除标准佣金后将全部收益转交给开发商。中国司法部门在最近的2013年4月 “苹果公司被诉侵犯著作权”案中未曾质疑和否定苹果App Store运营商的卢森堡公司身份,自然中国政府也不能逾越法定范围去征收一家卢森堡公司的增值税。

  结语

  如果一个美国人在淘宝网买手机软件,美国政府不会去找阿里巴巴集团收税。事同此理,苹果公司也没有在应用程序商店上逃中国政府的关税。

  文章来源:网易新闻