2009年11月8日星期日

实时同步Twitter信息到新浪微博

  如何自动将的Twitter信息同步到国内的新浪微博、开心网、人人网等国内SNS网站,我先前曾经介绍过一个同步方法,该方法虽能实现同步功能,但是同步不是实时的,有大约一小时左右的时差,这个时差是由TwitterFeed引起的,同时该方法的设置较为繁琐,需要多次翻墙。

  因此,我开始尝试一种新的同步方法,开发了一个定时自动读取并同步Twitter信息的Python程序,以简化同步的流程,并缩短同步时间,做到基本实时同步功能。原先的同步的流程图是: twitter -> appspot -> twitterfeed -> ping.fm -> customurl -> huotu -> 新浪微博,新的同步流程变成了: twitter -> appspot -> huotu -> 新浪微博,步骤大为简化,只需在GAE上设置一个定时执行的计划任务即可。

  由于GAE支持Cron Job计划任务,因此,我们的Python程序可以实现每分钟自动调用一次,调用的时候,先从Twitter上抓取用户最新的消息,抓取成功后,将消息同步到嘀咕火兔,然后分发到新浪微博、开心网等,如果设置为每分钟执行的话,同步时差只有一分钟左右的时间,基本实现了实时同步Twitter信息到新浪微博等SNS网站的功能。

  该程序Python程序我在GAE上调试并不太顺利,按照官方的说明配置好了cron.yaml文件,但是更新twitter.py之后,Cron Job计划任务还是不起作用,后台也看不到相关的Cron Job任务。

  后来经过一番研究,终于解决了GAE中Python的Cron Job计划任务问题,原因很简单,因为我的“Google App Engine SDK for Python”是很久以前安装的,那时候GAE还不支持计划任务,因此无法更新cron.yaml文件,重新下载了一个最新版本的“Google App Engine SDK for Python”安装后,Cron Job计划任务更新就成功了。

  不过,新的问题又来了,我发现该应用调用Twitter API的时候,失败率非常高,几乎有一半的情况,调用的时候会提示“Rate limit exceeded. Clients may not make more than 150 requests per hour.”,这让我怀疑GAE的外部IP是不是非常少,还有很多第三方程序在GAE上调用Twitter API,才导致每小时的调用超过150次,否则的话,光我自己的调用绝对不会有这么高的频率,大概是因为Twitter没有将GAE的IP设置为白名单,如果有一天Twitter不限制GAE的IP,那应该就没什么问题了。

  安装使用说明:

  下载方法,使用TortoiseSVN检出这个SVN地址,然后,编辑app.yaml,修改为自己的appspot应用名,接着,修改twitter.py文件的最后一行,将自己的Twitter用户名,嘀咕火兔用户名和密码分别填入,cron.yaml文件里是计划任务设置,然后就可以按照此文的方法进行发布,执行 appcfg.py update 目录名,使用Gmail帐号和密码,就可以发布了。

  发布之后,GAE就可以定时执行twitter.py程序,由于定时执行可以设置最短为1分钟,因此同步速度很快,基本可以实现即时自动同步的效果。

2009年11月6日星期五

Google发布Dashboard服务

  据国外媒体报道, Google发布新服务Google Dashboard,用户通过该服务可查看个人数据的存储情况。

  Google显然明白公众对于其大量存储个人数据存在疑虑。为此,Google将发布Google Dashboard,用户登陆该服务后即可看到Google各类服务中所储存的个人信息,包括Gmail、Youtube、Blogger、Picasa等。

  同时用户可以进行删除数据、更改隐私设置、了解不同服务的隐私政策等操作。据悉,Google将于周四发布该服务。目前Google已经正式对外宣布了此消息,在Youtube上的Google隐私频道可以看到一个介绍Google Dashbaord的视频。

  今年以来,公众和政府均批评Google垄断互联网。目前,Google约占互联网搜索总量的三分之二,同时使用其Google Docs、Gmail、Youtube等服务的人数与日俱增。Google一直试图安抚外界对于隐私问题的不安。此前Google发布了“数据自由前线”(Data Liberation Front),允许用户导出个人数据。Google希望用户拥有数据的控制权,Google Dashboard是Google在数据隐私方面的又一举措。(来源:搜狐IT)

2009年11月5日星期四

WordPress用户密码算法规则

  WordPress系统的用户密码是保存在wp_users数据表的user_pass字段,密码是通过Portable PHP password hashing framework类产生的,密码的形式是随机且不可逆,同一个明文的密码在不同时间,产生的密文也不一样,相对来说较为安全。

  WordPress用户密码产生的过程是,当需要生成用户密码的时候,随机产生了一个salt,然后将salt和password相加,又进行了count次md5,最后和encode64的hash数值累加,就得到了一个以$P$开头的密码,这个密码每次产生的结果都不一样,下面就是产生WordPress密码的代码,将其放在WordPress根目录下,就可以生成一个加密的password,用这个密码替换掉wp_users数据表的user_pass字段即可修改密码。

<?php
 $password = 'abc';
 global $wp_hasher;
 if ( empty($wp_hasher) ) {
  require_once( './wp-includes/class-phpass.php');
  $wp_hasher = new PasswordHash(8, TRUE);
 }
 echo $wp_hasher->HashPassword($password);
?>

  不过,修改WordPress用户密码还有更简单的方法,就是直接将wp_users数据表的user_pass字段修改为32位的md5(passowrd)即可修改密码为password,这样的密码形式当然不是很安全,所以,当这个用户在WordPress登录后,系统会自动将MD5密码修改为以$P$开头的密码。

  WordPress的这种支持简单md5格式的密码使得其他系统(例如Ucenter系统)的用户整合WordPress更为简单。

2009年11月4日星期三

谷歌相关链接Google Related Links内测

  谷歌相关链接Google Related Links是一个在网站上自动显示站内相关文章的小控件,还能推荐相关搜索关键字,帮助站长们提高网站页面浏览量。

  Google Related Links使用TF-IDF技术分析文章的语义,然后根据自动分析的文章语义找出站内的相关文章,增强访问者的浏览体验。

  不过,Google Related Links对于SEO来说没什么用,因为其代码全部是JavaScript代码,难以起到SEO效果。

  现在,我已经在月光博客上启用了Google Related Links,具体效果参见网页左侧的侧栏上部。

  经过我的测试,发现部分页面在IE下会出现提示“Internet Explorer无法打开Internet站点,已终止操作”,并导致无法打开网页。我在博客上反馈了以后,Google的开发人员迅速找到了该BUG的解决方案,就是找到代码中的一行:document.body.appendChild(relatedlinks_js);将其替换成:document.getElementsByTagName("head")[0].appendChild(relatedlinks_js);就可以解决这个问题。

  目前,只有被邀请的用户可以使用Related Links.如果您想试用Related Links,请发邮件到relatedlinks@google.com,并说明您的gmail帐号,网站和网页浏览量。

  谷歌相关链接的工作原理:

  站长如果想使用谷歌相关链接,需要首先登录到Google Related Links上创建一个相关链接,然后拷贝一段js代码到自己的网页上。

  当用户浏览这个网页时,js代码会向Google服务器发起一个http的请求,其中包含了网页的标题。

  Google服务器收到请求后,会首先计算一组和网页相关的关键字(目前主要根据网页标题)作为相关搜索。然后用最好的关键字(相关搜索中的第一个)在Google搜索引擎中做一次站内搜索,将搜索结果作为相关链接。最后根据站长的配置信息生成一段js代码,这段新的js代码会在用户网页上执行并显示相关链接和相关搜索。

  谷歌相关链接的配置方法:

  在配置页面中,有几项配置起来比较难,“域名”,“删除前缀”,“删除后缀”。

  “域名”:这一项用于从Google搜索引擎中做站内搜索时限制返回结果的范围,实际上就是Google的site:搜索功能。所以这不仅可以填域名,还可以填路径,这样所有的相关链接和相关搜索都会限定在这个路径中。比如可以是 “a.com”,  “a.com/path/” 或者 “a.com/path/post”。

  “删除前缀”和“删除后缀”:这两项除了在显示给用户时用于从标题中删除前缀和后缀外,也用于在抽取关键词时从标题中删除前缀和后缀。也许部分站长已经注意到,相关链接显示的标题有时和页面<title> tag中的标题有些差别。主要是“-”前面是否包含空格。当我们提取关键字时,使用的标题是页面的js代码返回的,是包含“-”前面空格的版本。但显示给用户的标题是从Google搜索引擎中获得的,搜索引擎对标题进行了一些处理(例如删除“-”前面的空格,将过长的标题截断),所以我们这时拿到的标题是不包含“-”前面空格的。站长在配置时需要将两个版本的删除前缀和后缀都加到列表中去。比如原标题为“关于洗衣机的一些小技巧 - XX栏目 - YY网站”,那么Google搜索引擎返回的结果会是“关于洗衣机的一些小技巧- XX栏目- YY网站”,如果站长想去掉关于栏目和网站的后缀,则需要添加“ - XX栏目 - YY网站”(用于提取关键字前删除后缀)和“- XX栏目- YY网站”(用于显示给用户前删除后缀)到删除后缀中。

2009年11月3日星期二

搜狗发布云输入法

  搜狗拼音输入法最新发布了一个新产品:搜狗云输入法,与一般输入法最明显的区别在于,搜狗云输入法无需安装,没有本地客户端,跨平台,完全靠服务器运算实现。

  搜狗云输入法是基于JavaScript技术,利用Ajax通信原理,采用B/S架构。具有免安装,跨平台的优点,兼容Windows,Linux,Mac等各个操作系统,兼容各个主流浏览器(IE,Firefox,Chrome)。

  在浏览器的使用方法是,在地址栏粘贴云输入法的链接即可启动云输入法状态栏,通常我们可以使用浏览器小书签工具来保存这个链接,需要启用拼音的时候点一下工具栏即可。

  搜狗云输入法也有一些不足之处,就是只能在浏览器里使用,没法在浏览器地址栏使用,也无法在其他软件(如记事本、Word等)里使用。

  点击访问:搜狗云输入法

法律手段是网站商业竞争手段

  在2008年的中国互联网,搜狐用法律手段保障自己的“北京奥运会互联网转播授权”的权益;在2009年,我们又看到搜狐用法律手段维护权益,向视频网站叫阵,把事件的声音搞得很大,近日在深圳还出现在同一间酒店和迅雷对阵的场面,媒体还报道此事惊动了当地警方。这种现象与其简单说是知识产权的问题,倒不如从本质分析法律手段是互联网网站的商业竞争手段。从四大门户来看,搜狐的商业竞争意识是比较超前的。

  法律问题是公司在发展中无可避免的事情,有时候甚至会让听闻者感到是不可思议的,比如国际知名的阿里巴巴也会遇到商标争夺的法律问题。我不会否认,自己在第一次听到时也是感觉不靠谱的。

  法律手段作为互联网的商业竞争手段,它具有几大特点:

  一、强制执行的超级力量

  通过市场竞争,你可能很难打败一个同级的对手。

  但是通过法律手段,只要你的利益受法律保护,有足够的证据起诉竞争对手,那么通过法律途径打败竞争对手的机会就相对很高的。法院的审判结果是强制执行的,除非败诉方能上诉成功,否则只有执行。

  二、借用法律获得市场保护

  例如商标保护,可以让对手不得使用这个商标,让其品牌重建。

  例如专利保护,可以让对手不得经营自己的专利产品,不得采用自己的专利技术或外观。

  例如不正当竞争的指控,这是常见的官司。一旦获胜,便可以借此打击竞争对手的发展。

  三、知识产权的索赔金额巨增

  现在索赔过亿的官司不再是新鲜事了。这个现象说明了“官司值得打”的问题。所以,互联网甚至出现了以打官司进行索赔的经营业务,并且发展维护版权的联盟。

  四、官司新闻是免费的宣传推广

  法律问题是属于争议问题,在打官司的过程中就会传播各种争议性话题,包括传闻和花边新闻,媒体会主动跟踪报道,观众也会看这部“连续剧”。

  由此可以看到,一间公司走向健康发展,需要有自己的法律顾问,公司形成了一定的发展规模,需要考虑是否成立自己的法律部门。

  现在还有一种发展趋势,不要认为互联网的大公司才会遇到法律问题。现在有不少的地方门户、论坛及行业站点也在注册商标,这就预示将来会引发更多的商标侵权案例,借此打击对手,不得让其使用名称。例如XX是地方某个知名的名称,注册了42类的商标,将来就可以借知识产权打击竞争对手,让其不得在网站使用XX作为网站名称。

  针对这类问题,简哲提供一种规避策略,就是你发现有人申请注册商标后,一是你可以提出商标异议申请;二是你可以去注册一个中文域名,在网站使用中文域名也受法律保护。地方网站的商标还达不到名牌的保护标准,所以这个策略是可以做的,至少是有备无患,不会等到问题发生了才仓惶应战。

  来源:读者投稿。作者简介:简哲,创意人,擅长商业策略设计。原文链接

2009年11月2日星期一

百度凤巢将替换百度竞价排名

  曾因央视曝光而引发各方质疑的竞价排名一度将百度带入前所未有的困惑,现在,李彦宏终于下狠心把这个“钱袋”扔掉,代替它的将是凤巢系统,百度公司宣布,自2009年12月1日起,百度搜索推广专业版(“凤巢”系统)将作为百度唯一的搜索推广产品,全面管理搜索推广的所有推广位置。

  然而,对于凤巢能否像竞价排名一样给百度带来丰厚的收益,业内说法不一。李彦宏似乎对这种反应已有所预料,在宣布12月1日凤巢全面接管的当天,百度第三季度财报随即出炉,净利润同比大增41.7%的强势表现,为凤巢铺了一条平坦的路。

  在半年的时间里,有超过70%的客户主动完成从百度搜索推广经典版向“凤巢”的迁移。据了解,百度之前推出搜索推广经典版尽管解决了“精准”的问题,但企业对搜索营销的要求已经越来越高,“凤巢”倡导的可管理、可优化的全面营销体系对追求更好推广效果的企业而言更有“诱惑力”。

  对于“凤巢”的推出时间问题,百度方面提到,“凤巢”目前已经被广大企业客户熟悉,如果要同时维护搜索推广专业版和经典版两个平台,在一定程度上增加了企业的维护成本,不利于推广效率的持续提升。百度管理层认为,目前已经是合适的时机,让“凤巢”全面替代原来的经典版搜索推广平台。

  来源:人民网