2013年5月23日星期四

大数据时代SEO数据如何搜集和分析

  在这个人人都高喊“大数据时代”的今天,数据似乎被提到一个前所未有的高度。无论是个人站长还是大中型公司,亦或是大型跨国集团,无论是网络营销还是线下的市场营销都在意识到数据的重要性,凡是都以数据来说话。但是,据笔者了解,在很多中小型公司和个人站长中,对于数据重视有余,却利用不足。

  很多人不清楚需要搜集什么样的数据;也有的不清楚通过什么渠道来搜集数据;还有大部分不清楚搜集整理的数据如何去分析,进而也就不清楚怎么去利用这些数据。所以,很多数据也就仅仅只是数字,无法去转化和为公司利益服务,成了一个华丽丽的摆设或者鸡肋。

  先来说说三类将数据做成摆设的类型:

  1、重视数据但不清楚如何搜集,这是“被数据”类型。对数据处于模糊了解状态,由于生活在这个信息爆炸化时代,耳濡目染各种宣讲数据的重要性,自然也就重视起数据来,知道公司和企业做事和计划要靠数据来支撑。但是由于没有专业的相关数据人员,自己的公司(或者是个人站长)该做哪些数据,通过什么渠道来搜集整理,可谓是一知半解。最后可能是通过头脑风暴和网上的所谓教程来比葫芦画瓢,再加上咨询下同行,东拼西凑而成的数据,这样的数据自然就真的只是摆设了。

  2、了解所需数据但来源不规范,这是“误数据”类型。对数据了解比较了解,由于在互联网或者公司摸爬滚打多年,出于自身原因和目的大概知道该需要什么数据。但是同样由于没有专业的相关数据人员,对于数据的来源和制作并不规范,数据采集也可能存在误差。所以,这些数据就可能失真,利用价值自然也不是很大。其实,这类数据比第一类更加成了摆设。

  3、会做数据但不会解读分析,这是“贱数据”类型。对数据有清楚了解,并有准确的数据来源和较明确的数据需求,但是却等于入宝山而空回,坐拥金矿却不会利用,岂不是把这些可以带来真金白银的数据给轻贱了?只是简单的搜集整理,把数据形成可视化的报表,但是只是这些数据又能说明什么问题呢。

  数据背后的意义是什么,怎样去解读数据来为公司和个人创造价值,怎样去利用数据来规避可能存在的风险,怎样去利用数据分析出现的问题?这些才是数据的真正价值。

大数据时代SEO数据如何搜集和分析

  说的有点多了,其实笔者今天主要讲的是网络营销中有关网站SEO的数据搜集和分析。sem和其他媒体营销基本都有较成熟的数据整理和分析模式,笔者就不再献丑赘述。以下讲的也只是较为大众化的数据模式。

  1、做哪些数据。有关SEO的数据应该需要三方面:

  ①自身及竞争对手网站外部可统计查询数据:这部分数据可以通过外部站长工具综合查询得出。主要包括但不局限于:

  网站网址、快照日期、域名年龄、网站响应时间、同IP网站、pr值、百度权重、各搜索引擎收录量、各搜索引擎反链数、24小时百度收录、百度排名词量、预计百度流量、外链数、标题、meta标签、服务器信息。这些数据除适用于首页外,也可以适当用来查询内页数据。

  可以把这些相关数据做成excel表格,以供定期查询,可按照实际需求增减相关数据的查询。

  查询周期可每日、每周亦或是每月等,按照实际需求和具体情况来。

大数据时代SEO数据如何搜集和分析

  ②网站流量统计数据

  目前现在大部分的公司和站长的网站流量均采用流量统计工具,极大的方便了SEO相关人员统计整理数据的工作。目前比较专业的数据统计工具有CNZZ、51la和百度统计。论专业性来讲,CNZZ比较不错,论百度流量的准确性和敏感度,笔者觉得百度统计还不错。闲话少叙,流量数据主要包括但不限于:

  IP、PV、独立访客、人均浏览量、平均访问时长、跳出率、受访页面和域名、来源、搜索引擎比例、搜索关键词、访客详情、时段分析

  同样建议做成excel表格,以供定期查询,按照实际需求增减相关数据的查询。

  查询周期可每日、每周亦或是每月等,按照实际需求和具体情况来。

大数据时代SEO数据如何搜集和分析

 
  ③可监控关键词数据

  关键词监控比较简单,没什么好说的,只是建议把关键词进行分类监控汇总。主要包括但不限于:

  主关键词、主要长尾词、重要流量词、品牌词

  同样建议做成excel表格,以供定期查询,按照实际需求增减相关数据的查询。

  查询周期可每日、每周亦或是每月等,按照实际需求和具体情况来。

大数据时代SEO数据如何搜集和分析

  2、通过什么渠道来搜集数据

  互联网时代也是工具代替人工的时代,用工具办到的事既快又方便,何乐不为。

  ①自身及竞争对手网站外部可统计查询数据。既然是外部可查询,一般的站长类工具都可以去查询,笔者比较喜欢的有爱站和站长之家这两个在线查询网站。尤其是站长之家在数据方面做得比较专业。

  ②网站流量统计数据。流量统计工具的功能已经丰富了,并且主流的cnzz、51la等都有数据下载功能。

  ③可监控关键词数据。这个如果是个人站长关键词量比较小,那么人工在搜索引擎和后台流量统计去一点点核实查询比较准确。如果批量关键词查询,最好是使用工具去查询,但目前的关键词排名软件在批量查询中一般都会出现误差,如果公司有能力,可以自己开发或编写这类功能的程序软件。

  3、如何分析搜集整理的数据

  成功者半九十,辛苦通过各种渠道观察搜集的数据,最精华的最具价值的地方在于有人看,而且要会看,通过这些数据为自己的网站得到一些启迪,并把它发挥出来为自身创造一定的利益。

  ①自身及竞争对手网站外部可统计查询数据。

  这些数据分析是作为一个SEO分析自身网站和竞争对手最常用也是最基本的能力。通过这些数据(一定时间的观察后可绘制成趋势图)可以比较清楚的了解自身网站和竞争对手的网站优化情况以及在搜索引擎的权重表现。笔者简单介绍下如何去解读这些数据。

  百度快照:一个网站快照越新,起码证明一个网站的内容每天都有新鲜的,百度蜘蛛的抓取更新也是比较频繁的,换言之,快照是百度蜘蛛对该网站的认可度。

  域名年龄:业界普遍认为,同等条件下,域名越老在搜索引擎获得权重相对越高。

  响应时间:这反映出网站的服务器性能的好坏。响应值越大,服务器性能越差,当然无论对于用户体验还是搜索引擎都是极为不利的影响。

  同IP网站:可以查看该IP下有多少网站,可以大致区分出网站所有者是选择网站托管还是购买独立IP,如果是独立IP,顺便可以看出该所有者还有哪些网站,顺藤摸瓜查看其他网站情况,知己知彼。

  PR值:这是之前谷歌官方对网站认可度和权重赋予的一种被外界了解的具体数值体现。虽然现在PR值越来越被淡化,但是作为可以衡量网站优劣标准的一个体现,仍具有参考价值。

  百度权重:这是第三方站长工具根据自身的运算体系揣测的网站在百度权重表现的一种数值,并没有得到百度的官方认可。但是作为站长衡量网站在百度表现优劣的一个参考,也对广大站长具有参考价值。

  反链数:通过站长工具查询的搜索引擎的反链数值其实大多都不是很准确,尤其是百度反链,查询命令得出的结果很不理想,百度反链值其实只是查询的域名相关域的搜索结果。不论如何,对于了解自身的外链途径和寻找了解竞争对手的外链手法也具有参考意义。

  收录量:各搜索引擎的总收录反映出网站在各个搜索引擎的表现。如果了解网站的总页面数,也可以更清楚的判断网站被各个搜索引擎收录的情况,从而分析网站是否存在问题以及存在哪些问题。

  每日收录/24小时收录:反映出网站被搜索引擎蜘蛛喜好程度和网站链接优化程度。

  排名词量:通过查看自己和竞争对手网站的排名词量,可以寻找网站优化的之间的差距,进而查看这些排名关键词相对应的页面优化情况。

  meta标签:查看网站该页面title、description、keywords是如何撰写的,尤其是查看竞争对手。分析为何这样写,会学到更多。

  ②网站流量统计数据

  自身精确的网站流量统计数据可以让站长对网站得到更多的了解。看出网站目前的优化情况,并可以为网站以后运营提供很好的参考。

  流量的分析往往不是单一的,是综合多种数值进行分析判断。这块的分析也是最为复杂的。

  IP:分析往往通过日期对比来进行的,比如本周三与上周三,本月上旬与上月上旬。通过分析查看流量的变化情况,可以看出网站最近的变化。当然也有一些其他因素要考虑,比如天气、节假日、关键词排名、网站服务器有无宕机、新闻事件等等。

  PV:数值往往与跳出率和IP进行对比,从而判断网站的用户体验和用户黏性。

  uv:独立访客量,可以反映出有多少台电脑,也可能接近于多少真实人在访问网站。

  人均浏览量、平均访问时长、跳出率:IP与PV的比值,反映出网站用户体验好坏。

  受访域名和页面:可以看出网站哪些页面比较受欢迎以及在搜索引擎的权重表现。

  来源:访客是通过何种渠道进入到网站的,从而判断网站的受众,再进一步分析受众相关属性,可以更加清楚网站的目标人群以及网站运营策略执行情况。

  关键词:用户是搜索何种关键词来到网站,为网站布置关键词以及寻找关键词优化是一个很好的途径。

  访客属性:通过对访客的地域、教育程度、浏览器、网络接入商、操作系统、终端类型等属性的分析,可以更加详细的了解网站用户的情况,为以后网站的优化和运营提供参考。

  热点图:这个热点图功能,可以让站长看到页面内容被用户点击的情况,反映出网站页面的用户体验度以及为页面内容改进提供参考。

  还有一些就不一一介绍了。

  ③可监控关键词数据

  相对来说这块数据分析较为简单些,通过对关键词分类整理,然后查询在搜索引擎的排名情况,进而对比分析关键词带来的转化,可以看出优化情况。哪些还需要加强,哪些需要维护,哪些词高排名却没有带来实质的意义,进而调整网站优化策略。

  同时通过关键词带来的流量和转化,也可以对比分析其它流量贡献的转化,进而为整个网站运营方向和公司预算做出参考。

  备注:笔者以上所谈网站seo数据搜集整理及分析过程大部分针对中小型公司和个人站长而言,且由于精力有限,介绍内容也相对简易,望见谅。

  来源:北漂书生博客投稿,原文链接

2013年5月22日星期三

苹果应用商店会如何扣税

  前一阵有关专家称“苹果应用程序商店在华逃税”,针对这个说法,“网易另一面”发表专栏指出,根据世贸组织相关协定,中国并不能针对苹果应用程序商店征关税,但是国内软件开发商应该交增值税,那么软件开发商的税应该交多少,怎么交呢?

  软件开发商将应用程序上传到苹果应用商店后,能自主运营平台上自有产品或应用、自由定价、自主调整价格。因苹果应用程序商店中的软件开发商是自主销售商,按中国财政部、国家税务总局2011年10月13日发布的《关于软件产品增值税政策的通知》第一条第一款:“增值税一般纳税人销售其自行开发生产的软件产品,按17%税率征收增值税后,对其增值税实际税负超过3%的部分实行即征即退政策。”

  目前,苹果的软件开发商还没有在应用商店缴税,如何要进行操作的话,应该和国内同类企业类似,那么,同类的中国公司是如何操作的呢?这里以百度联盟为例,有很多第三方开发者在百度网页应用上发布软件,通过里面的百度联盟赚钱,百度联盟针对企业用户支付时,会要求其开具发票,针对个人用户支付时,百度在支付费用前会代扣税。

  个人扣税的具体方式,百度联盟按照国家《中华人民共和国个人所得税法》第八条中规定,代扣个人劳务、报酬所得税(与工资、薪金不同的税目),相关税金将从分成中扣除。劳务报酬所得,适用比例税率,税率为百分之二十,每次收入不超过四千元的,减除费用八百元;四千元以上的,减除百分之二十的费用,其余额为应纳税所得额。也就是说,个人用户在百度联盟每月收入超过800元就要纳税,纳税税率是百分之二十。

  因此如果“苹果应用商店应该缴税”的指控如果成立的话,苹果就可能通过“代扣税”的方式,在支付开发者费用前扣除相关税费,最终受到经济损失的还是中国的那些软件开发者。

  不过,鉴于同为网络商店的淘宝都没有开始向个人用户收税,那么苹果应用商店收税的可能性目前也不太高。

产品经理的自我修养:方法论

  此文为《产品经理的自我修养》系列文章的第2篇。整个系列共4篇:认知模式方法论、眼界、个人知识体系。仅作为笔者的个人成长总结分享,欢迎批评指正:)

  今天聊的方法论,或许给你的感觉就像是聊一位熟悉又陌生的朋友。因为它就在身边,而你却不认识它。

  什么是方法论

  方法论,为解决事情而生。它是解决事情的一种思路和方法套路。

  高中时期写议论文,你一定会用到“是什么?为什么?怎么办?”,这就是一个议论文写作方法论。又比如我自己总结的UGC系列,也是很好的方法论。

  怎么形成方法论

  在读书求学时期,大多数都是死记硬背前人总结的方法论,比如写作议论文三步曲、求方差公式等,题目做多了,看着就知道了答案。这个时期的东西不管有用没用,权当是我们的方法论启蒙。

  对于人一生而言,职业人生是最美丽的。因为在职业生涯中你才会发现自我价值和实现自我价值。发现自我价值,就是让自己牛逼起来;实现自我价值,就是用你的牛逼之处干成一件事。

  方法论不是纯理论,而是实践出真知。在年轻时不能谨小慎微,要多折腾,实践,别老想着给自己画圈圈。一旦你限制了思维的圈圈,你以后想突破就很难了。即年轻时,要尽情的放开,去干,一直到形成自己的方法论后,再收敛一下,在自己擅长的领域深入发展。先放,再收。

  方法论不是一成不变,而是时刻总结检验。站在巨人的肩膀上成长最快,多关注你所在领域的大牛总结的方法论。不管是自己总结的,还是大牛总结的,你都不可拿来就用。时过境迁,彼时非此时,方法论也需要保持更新,与时俱进。

  少看行业新闻评论,少看微博140字真言,多自主辩证的去看前人的总结,多干,多写博客,多更新总结反思。

  讨论:为什么小明跨界一点也不难?

  小刚:感同身受! 虽然没有LZ那么牛逼。

  我是做生物信息,做数据做可视化,做互联网,跟随创业,做顾问咨询等;但其核心从来没有改变,一些基础的数学理论方法+计算机编程技能,解决各种领域的业务问题,而且不同业务领域还大都是类似的问题。

  小强:专业知识学的只是一种思维方式和处理问题的方法论。这些都是可以跨界使用的。(引用自42区的话题讨论)

  产品方法论

  本打算罗列一些我自己和别人的产品方法论。但细想担心误导各位同学,这里就不罗列了。

  授人与鱼不如授人与渔,我只能教会各位如何去形成自己的方法论。至于成长快车道,还是踏实点好。别人的东西拿来用,也只是一知半解不深刻。别人的,永远不是自己的。

  我提一些产品工作中都会遇到的问题,自己把解决的思路和方法总结成方法论,然后分享到文章评论中。

  ①怎么找竞争对手(提示:同类型好找,非同类型需要解构产品)

  ②如何写产品文档(提示:行业内没有标准产品文档,根据实际要求定义好产品)

  ③如何设计产品功能(提示:先学会“增删改查”,再升级学会“显算传”,其实也是MECE思考原则)

  ④如何架构一个产品(提示:学会解构同类产品的产品结构)

  ⑤如何检验产品好坏(提示:需求如何、怎么解决的,结果如何)

  ⑥如何写产品工作邮件(提示:总分总形式)

  {说明}

  关于文章第三部分,本打算放我自己的方法论和其他大牛的方法论的。但介于我对其他大牛的方法论没有实践论证,摘录过来实为不妥。这篇文章只想达到引导性的目的,其他修行还是靠你自己:)

  来源:投稿,作者Gauin   微信公众账号GauinBlog  ,原文链接

2013年5月21日星期二

Flickr大幅改版扩容1TB

  据Flickr官方博客报道,雅虎发布了全新的Flickr,免费提供 1TB 的存储空间,并且没有原先200张照片限制和每月上传流量限制。新版Flickr还增加了幻灯片播放功能和视频上传功能,用户可以上传3分钟的视频,支持1080p分辨率。

  Flickr曾经是最好的网络相册服务,但自从2005年3月被雅虎收购后,Flickr的发展就变得较为缓慢,错过了智能手机高速发展的时代,结果让Instagram迅速普及,并在移动手机端取得了绝对优势,2012年4月9日,社交网站服务巨头facebook以10亿美元的惊人价格收购Instagram。2012年12月,Flickr也在手机端增加了图片滤镜功能,试图复制Instagram的成功。

  实际上,Flickr完全没必要复制Instagram,Instagram属于业余摄影者的社区,让用户使用低端相机(手机摄像头)就可以快速方便拍摄出非常酷的作品,Flickr则定位于专业摄影社区,以摄影师为主,使用单反相机拍摄。Instagram的优势在于易用与快速分享,通过手机快速拍摄出照片,并通过滤镜进行美化;Flickr的优势在于专业和优质,摄影师要通过大量拍摄工作来发布优秀的摄影作品。

  Flickr最应该担心的对手应该是500px,500px的定位就是优秀的摄影师社区,一打开网站,就是大量高清的摄影作品,事实上,500px和Flickr提供的服务之间有着很多相同的特点,其中包括:不限量下载,储存图片等等,而500px Plus的收费价格和Flickr Pro套餐差不多,这也让Flickr考虑如何通过合理的定位继续运营下去。

Flickr大幅改版

  这次Flickr的大幅改版大概就是雅虎的对于Flickr运营模式的一次变革,新版的Flickr去掉免费用户的限制(200张照片显示限制和每月300M上传流量限制)而添加了广告显示,根据Flickr的帮助显示,免费用户有1TB的存储空间,单张照片限制200MB以内(很少有这么大容量的照片吧),单个视频限制3分钟1GB大小,可以无限下载原始尺寸的照片。无广告账户每年费用49.99美元,可以不显示广告(雅虎大概不知道中国用户的浏览器都安装去广告插件),Doublr帐号每年费用499.99美元,具有2TB存储空间(费用太高,用户为什么不去注册2个免费帐号?),这么看来,原有的Flickr Pro用户几乎没有继续续费的理由了。

  Flickr和Instagram不同,Flickr存储的都是未经压缩的大尺寸照片,流量费用很高,这使得Flickr的运营成本颇高,那么,Flickr的这次改版,是否会让付费用户大幅减少?广告带来的收益能否支撑Flickr高昂的流量费用,如果其Flickr盈利大幅降低,是否会导致雅虎最终关闭这个产品?对于中国用户来说,雅虎相册和雅虎邮箱的关闭是一次难以抹去的伤痕。如果Flickr运营失败而关闭的话,对于喜爱这个产品的用户来说都是一大伤害。

2013年5月20日星期一

百度“石榴算法”的发展趋势

  据百度站长平台报道,百度即将针对低质量页面将进行一系列调整,称之为石榴算法。第一期将对此类页面生效:含有大量妨碍用户正常浏览的恶劣广告的页面,尤其以弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告页面为代表。

  石榴算法上线后,广告少、无弹窗的优质页面排序有所提升,相应的含有恶劣弹窗、大量混淆页面主体内容等垃圾广告的页面排序会大幅下降。

  根据百度官方的口吻来推测,这次石榴算法的更新应该只是1.0版本,接下来可能会有一系列的动作,那么除了恶意弹出广告会影响网站整体的排名之外,还有那些内容在不久的将来也可能会被石榴算法击中呢?以下谈谈笔者的看法。

  1、  模板信息过多

  一个网页上几乎全是模板内容,右边栏,左边栏,主导航,底部导航…这个时候问问自己,哪里有内容?可能找起来还真有点困难。这种页面的信噪比过低,对用户不能产生很直接的帮助,同时也会造成搜索引擎资源浪费,这些页面很可能会被将来的石榴击中从而被删除索引库。当然如果你要问我内容应该占多少比例才不会被惩罚,这个笔者没有办法告诉你。不过我们可以问自己这样一个问题:我们是否通过生成大量空模板来企图获取更多关键词排名。如果确实是这样,那么是该收手了,谷歌的熊猫算法已经对此类页面惩罚过了,相信百度的更新也只是时间问题。

  2、  采集、抄袭、伪原创

  一直以来百度对原创内容没有很好的识别机制,往往大站转载小站的原创内容后很可能会认定后者是抄袭者。百度也多次声明会改善这样的机制,否则没有人愿意去写高质量的文章,对百度来说也没有好处,而且目前360势头很猛,一旦360先行一步,研发出这样的识别机制,势必会赢得更多站长的芳心,那么对百度来说打击无疑是很大的。所以在之后推出的石榴算法中是否能够对一些恶意采集、抄袭和伪原创的内容做相应的措施?让我们拭目以待。

  3、  大量无价值翻页

  大网站由于内容过多势必会有一些翻页机制,而有些翻页由于程序本身的问题会返回空内容,而这些空内容页面很可能权重不低,因为翻页链接是全站的,所以这个页面很可能收到许多其他页面指向的链接。但是这个不管是从用户角度还是搜索引擎角度来看,都不符合“高权重”的特质,故此类页面会被搜索引擎扫地出门。

  另外一种翻页是把一篇完整的文章分成很多页数,当然利用翻页机制把过长的文章分页固然是有利于用户体验,但是有些别有用心的站长完全是为了增加页面收录量,把一些看似很短的文章页给他翻个十几页,那这个显然是不行的……

  4、相似内容过多

  这个现象在论坛里面出现的比较多一点,有些人为了获得积分大量复制黏贴其他人发的文章,这样会造成搜索引擎收录过多重复内容从而对网站进行惩罚。所以,论坛的监控还是比较重要的,最好采用邀请机制,通过程序设置尽量避免刷帖事件的发生,也不鼓励通过发帖的量来提升自己的地位或是等级,内容多没有用,内容精才是王道,这点要多学学知乎。

  5、自动回复页面

  很多博客/论坛为了刷人气,往往在有新内容生成的时候会用机器人自动回帖、顶贴,给人一种很热闹的感觉。但是仔细看我们会发现,其实这些所谓的评论都是实现设定好的,倘若把这些评论放到搜索引擎上搜索一下,会出现千千万万雷同信息。故,这些为了专门骗取关注度或者吸引蜘蛛资源而生成的内容一定会受到百度新算法的惩罚。

  总结:如何把石榴“吃掉”?

  站长们无须被一个小小的石榴弄得寝食难安。最好的办法就是把这个石榴吃掉,这东西营养价值是很高的,对自己、对网站是有益处的。故此,尽量避免上述5点错误,专注于为用户提供高质量的内容,别和搜索引擎玩猫捉老鼠,那么不管算法如何变化,我们都不会受到影响,甚至还能逆袭,因为“不听话的孩子”的已经得到了应有的惩罚,听话的孩子自然就脱引而出咯。

  来源:投稿,作者:Fimen,原文链接

基于安卓的网站服务器

  还记得在S60上玩过的手机PHP环境吗?随着ANDROID设备的不断增多,你有没有想过把你的ANDROID设备打造成一个强大的移动服务器?以现在ANDROID设备的硬件,这完全是可行的。ANDROID终端上的PHP环境已经有不少并在逐渐增加。

  不论是网络上流传的还是Google Play上提供的安卓PHP环境,它们大多是Lighttpd\Mysql\Php-cgi相搭配,对于普通用户来讲这似乎够了,但对于PHP发烧友来说这远远不够。

  现在安卓上出现了一个全新的PHP环境!它以NGINX作为Web Server,PHP-FPM与之搭配,提供了常用的MYSQL数据库支持,更是对强大的POSTGRESQL作了支持,这个项目是什么呢?

  它有一个类似于其他集成开发环境的名称,我们简单的称之为ANMPP,即Android Nginx Mysql Php-fpm Postgresql的缩写,安卓ANMPP集成环境提供了完善的PHP和NGINX模块支持。

  ANMPP是需要ROOT的,他类似于Linux下的其他集成环境,ANMPP目前仅支持ARM构架的ANDROID设备。我也提供了另一个基于ARM ANDROID的PHP环境,称之为ALMP,供配置较低的设备使用。

  ANMPP与ALMP是二个完全免费的基于ARM ANDROID的PHP集成环境,其中ANMPP有一个专属的官方主页,ALMP的下载也可以在ANMPP的主页被提供,ALMP是早期制作的。

  尽管这一切看起来是如此的折腾,但是它却包含着一些不同寻常的意义。移动终端,是一个未来的终端,它将被越来越广泛使用。真机测试WEB程序,可能让这些更为真实。ANMPP并不亚于PC上的PHP集成环境。

  来源:肖其顿投稿。

如何通过百度快照分析中文分词和百度排名

  很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。

  笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

  之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。

  当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。

  百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。

  1、短关键词

  以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。

  打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。

  打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。

  2、长尾关键词

  以“小说阅读网”为例,以下是首页搜索结果展示

  打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。

  但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。

  搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。

  我们或许可以看出两个情况:

  1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。

  2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。

  百度快照颜色有何意义?

  另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。

  笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。

  当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。

  来源:北漂书生博客投稿,原文链接