-月光博客

2021年11月30日星期二

如何在社交网络核实消息来源

　　核实消息的出处，很重要，但是怎么核实消息的出处，却不容易，我们正处于社交媒体颠覆传统媒体的时代，过去的新闻，不论怎么转载，都能找到明确的出处。自媒体出现后，来源不清的消息铺天盖地，让人很难判断一个消息的真实来源。

　　怎么核实一个消息，特别是自媒体发布的消息，其首发来源到底是哪里呢？

　　我的查证方法是，按照时间在各个平台进行关键字搜索，日期最前的那个就是首发来源。

　　传统搜索引擎，例如谷歌搜索，在“工具”-“自定义日期范围”里面，可以设置日期。

如何在社交网络核实消息来源

　　在微博里，高级搜索可以选择起始时间和终止时间。

　　在推特的高级搜索，同样可以选择开始日期和终止日期。

如何在社交网络核实消息来源

　　需要注意的是，谷歌和推特等日期只能以天为最小单位，微博的高级搜索却可以精确到小时。

　　在不同的平台先找到第一个发布消息的人，然后按照日期逐步往前推，搜索更早发布消息的人，然后逐步缩小查询范围。

　　下面我就以一个具体案例来说明一下操作方法。

　　比如，前段时间有个很火爆的话题“谷歌翻译”事件，这个消息的首发人是谁呢？

　　由于这个消息是从微博平台引发的，因此消息来源应该是社交媒体而不是传统新闻，因此可以只在微博推特等社交媒体平台进行查询。

　　在微博上以时间进行高级搜索“谷歌翻译”这个词，初步筛选出一条最早的帖子发布于“11月26日14:35”，然后再重新选择时间，将日期选择为11月1日-11月26日14:00，再次搜索“谷歌翻译”，如果没有发现更多相关信息，那么差不多就可以确认这个消息在微博的首发时间就是“11月26日14:35”。

　　同时，在推特上搜索“谷歌翻译 until:2021-11-27 since:2021-11-26”，点“最新”，查询到第一个发布类似消息的是在“2021年11月26日下午4:57”，之后在推特上搜索“谷歌翻译 until:2021-11-26 since:2021-11-1”，如果没有发现更多相关信息，那么差不多就可以确认这个消息在推特的首发时间就是“11月26日下午4:57”。

　　以上是如何在社交网络上核实一个消息来源的方法，这个方法主要用于识别消息的来源和真伪，不过，如果消息来源自没有搜索功能的社交网络，例如微信群、QQ群等，就没办法用这个方法来核实。

2021年11月29日星期一

Blogger页面类型指南

　　Blogger的模板和WordPress等常见的系统不同，所有页面都是用一个模板，因此，进行模板编辑修改的时候，就会需要在模板里区分不同的页面类型才能修改，这里就介绍一下目前Blogger里面的几种模板类型。

　　使用blog.pageType标签可以获得模板类型，其数值是以下类型之一：item, static_page, archive, index, error_page 。

　　1、item：文章页面

　　这里主要是博客的文章页面，也是最常见的页面。文章页面的网址结尾通常为 "/年/月/文章网址.html"，类似这样的格式。使用如下的代码，可以让代码只在文章页面里面执行。

<b:if cond='data:blog.pageType == "item"'>

</b:if>

　　2、static_page：静态网址页面

　　静态网址页面是指的博客的独立静态页面，例如“关于我们”、“联系方式”等，和WordPress的页面功能一样，静态页面的网址结尾通常为 "/p/页面网址.html"，类似这样的格式。使用如下的代码，可以让代码只在静态页面里面执行。

<b:if cond='data:blog.pageType == "static_page"'>

</b:if>

　　3、archive：文章存档页面

　　文章存档页面指的是博客的按照年月进行归档的页面，通常为侧栏“博客归档”小工具产生的页面，使用如下的代码，可以让代码只在存档页面里面执行。

<b:if cond='data:blog.pageType == "archive"'>

</b:if>

　　4、error_page：错误页面

　　一般指的就是类似404页面等错误页面，默认情况下，系统会返回一个信息，信息为：抱歉，您在此博客中查找的页面不存在。

<b:if cond = 'data:blog.pageType == "error_page"' >

</b:if >

　　5、index：索引页面

　　相当于文章列表页面，包括首页、标签页、搜索页面等。下面将分别讲述。

　　使用如下的代码，可以让代码只在主页页面里面执行。

<b:if cond = 'data:blog.url == data:blog.homepageUrl' >

</b:if >

　　使用如下的代码，可以让代码只在搜索页面里面执行。

<b:if cond = 'data:blog.pageType == "index" and data:blog.searchQuery' >

</b:if >

　　使用如下的代码，可以让代码只在标签页面里面执行。

<b:if cond = 'data:blog.pageType == "index" and data:blog.searchLabel' >

</b:if >

　　使用如下的代码，可以让代码只在索引页面里面执行。

<b:if cond = 'data:blog.pageType == "index" and data:blog.searchQuery == "" and data:blog.searchLabel == "" and data:blog.url != data:blog.homepageUrl ' >

</b:if >

　　总结，上面是所有的Blogger模板页面类型，通过修改上面的代码，可以在一个模板里面定制各种类型页面的显示样式和功能，实现Blogger的个性化和定制化。

2021年11月28日星期日

我看谷歌翻译辱华事件

　　11月26日，微博一些营销号发现了一些新的国外公司“辱华”证据，该营销号称，在谷歌翻译的英文翻中文程序中，在英文对话框输入“艾滋病人”等相关词汇，对应的中文翻译就会出现恶毒攻击中国的词汇。

　　最为一个比较懂技术的人，这事情其实一眼就能看明白是怎么回事，但很多外行却不明白，我这里就给大家解释一下这里面的原理。

我看谷歌翻译辱华事件

　　以往的翻译通常都是使用一个一个词地“死译”，由于词义的多变性，同样一个单词在不同的场合下可能会出现完全不同的含义，因此原先的那种翻译效果可谓“惨不忍睹”，翻译质量普遍很差，Google Translate谷歌翻译服务是目前中文翻译领域中表现最为突出的一个，主要原因是谷歌翻译具有人工智能的词义辨识能力，具有机器自动学习功能。

　　谷歌翻译的一个改善翻译质量的功能就是提供用户反馈，当用户使用谷歌翻译一个句子，不满意谷歌的翻译质量，可以提交用户的反馈信息，如果提交的数量足够多，谷歌就会接纳这种信息，用来提升翻译质量。

我看谷歌翻译辱华事件

　　好了，那么我们现在就还原一下事情的真相。

　　营销号事先现在谷歌翻译里输入“艾滋病人”，谷歌会自动识别源语言是“中文”，对应翻译中文也是“艾滋病人”。这时候营销号将源语言设置为英文，显然“艾滋病人”并不是一个英文单词，谷歌便会将其理解为一个新的英文单词，营销号再点击右侧“提出修改建议”按钮，将翻译的内容修改为特定的辱华词语，然后进行提交，对谷歌翻译的数据进行“数据污染”，经过多次数据污染，谷歌翻译即可在将被指定为英文的“艾滋病人”翻译为特定的辱华词语。

我看谷歌翻译辱华事件

　　这实际上就是一个非常简单的微博营销号财富密码，通过这种简单的技术操作可以凭空制造出一条“辱华”新闻来获取流量赚钱，客观上却造就了一个反智社会上愚民的集体狂欢，真不知道这算是这些营销号的悲哀还是整个社会的悲哀。

2021年11月27日星期六

支付宝、微信个人收款码新规即将实施

　　近日，央行发布条码支付监管新通知，明确2022年3月1日起个人收款码禁用于经营性服务且禁止个人静态收款条码被用于远程非面对面收款。据了解，央行新规并非对收款码的商用完全禁止。个人可以将收款码申请变更为经营性用途，但变更的标准相关部门还在研究中。

　　10月13日，人民银行发布的《中国人民银行关于加强支付受理终端及相关业务管理的通知》对收款条码支付提出一系列管理要求，《通知》意在将有明显经营特征的个人收款条码用户，参照特约商户管理。《通知》要求，对于具有明显经营活动特征的个人，条码支付收款服务机构应当为其提供特约商户收款条码，并参照执行特约商户有关管理规定，不得通过个人收款条码为其提供经营活动相关收款服务。

　　经营活动是指企业投资活动和筹资活动以外的所有交易和事项。经营活动主要包括销售商品、提供劳务、经营性租赁、购买商品、接受劳务、广告宣传、推销产品、缴纳税款等。但对于日常生活、消费的非经营性活动的个人收款条码则不需要参照特约商户管理。

　　使用“码牌”或者打印封装的二维码的商户，需要向收款服务机构（如微信、支付宝等）申请转为商用收款码，但消费者日常支付体验和感受不会受到影响。”

　　此外，人民银行有关部门负责人此前就《通知》在答记者问时表示，《通知》要求个人静态收款条码原则上禁止用于远程非面对面收款，确有必要的实行白名单管理，以防止个人静态收款条码被出售、出租、出借用于搭建赌博活动线上充值通道。

　　来源：人民网

2021年11月25日星期四

腾讯旗下APP将暂停更新

　　据网传消息，即日起腾讯计算机主体旗下所有APP将暂停版本更新，各应用商店和分发平台立即执行。对此，腾讯表示，正持续升级APP对用户权益保护的各项措施，并配合监管部门进行正常的合规检测。在此期间，用户可正常下载使用APP现有版本。

　　总台央视记者从工信部了解到，今年以来，在工信部开展的App侵害用户权益专项整治中，腾讯公司旗下9款产品存在违规行为，共计4批次被公开通报，违反了2021年信息通信业行风纠风相关要求。按照有关部署，工信部对腾讯公司采取过渡性的行政指导措施，要求对于即将发布的App新产品，以及既有App产品的更新版本，上架前需经工信部组织技术检测，检测合格后正常上架。

　　腾讯公司11月24日下午表示，公司正持续升级App对用户权益保护的各项措施，并配合监管部门进行正常的合规检测。在此期间，用户可正常下载使用App现有版本。经测试，目前腾讯系App在官方及各应用商店下载一切正常，也未出现下架情况，用户使用并不受到影响。

　　自11月1日《个人信息保护法》生效以来，监管部门加大了对各家企业的用户数据合规监管。11月5日，工信部发布《关于开展信息通信服务感知提升行动的通知》决定，自2021年11月至2022年3月，开展信息通信服务感知提升行动（简称“524”行动），聚焦APP侵害用户权益专项整治、优化企业个人信息处理规则和优化开屏弹窗信息展示方式等。

　　近期，腾讯多次遭到反垄断监管。11月20日，市场监管总局根据《中华人民共和国反垄断法》第四十八条、四十九条作出行政处罚决定，对涉案企业分别处以50万元罚款。其中涉及腾讯系的为13起，涉及阿里系12起，涉及百度系4起等。

　　互通互联方面，9月17日，腾讯发布关于《微信外部链接内容管理规范》的声明中表示，近期，工信部对外链管理提出了专项指导意见，微信将落实“以安全为底线”的互联互通。随后，微信逐步放开外链跳转。

　　稿源：央视新闻

2021年11月23日星期二

常用校验类正则表达式大全

　　很多不太懂正则的朋友，在遇到需要用正则校验数据时，往往是在网上去找很久，结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下，在这里分享一下。给自己留个底，也给朋友们做个参考。

　　一、校验数字的表达式

　　1. 数字：^[0-9]*$

　　2. n位的数字：^\d{n}$

　　3. 至少n位的数字：^\d{n,}$

　　4. m-n位的数字：^\d{m,n}$

　　5. 零和非零开头的数字：^(0|[1-9][0-9]*)$

　　6. 非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$

　　7. 带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$

　　8. 正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$

　　9. 有两位小数的正实数：^[0-9]+(.[0-9]{2})?$

　　10. 有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$

　　11. 非零的正整数：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

　　12. 非零的负整数：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

　　13. 非负整数：^\d+$ 或 ^[1-9]\d*|0$

　　14. 非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

　　15. 非负浮点数：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

　　16. 非正浮点数：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

　　17. 正浮点数：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

　　18. 负浮点数：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

　　19. 浮点数：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

　　二、校验字符的表达式

　　1. 汉字：^[\u4e00-\u9fa5]{0,}$

　　2. 英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$

　　3. 长度为3-20的所有字符：^.{3,20}$

　　4. 由26个英文字母组成的字符串：^[A-Za-z]+$

　　5. 由26个大写英文字母组成的字符串：^[A-Z]+$

　　6. 由26个小写英文字母组成的字符串：^[a-z]+$

　　7. 由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$

　　8. 由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$

　　9. 中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$

　　10. 中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

　　11. 可以输入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+ 12 禁止输入含有~的字符：[^~\x22]+

　　12. 非打印的特殊字符匹配：[\u0000-\u001F]

　　三、特殊需求表达式

　　1. Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

　　2. 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?

　　3. InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$

　　4. 手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$

　　5. 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$

　　6. 国内电话号码(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7}

　　7. 身份证号(15位、18位数字)：^\d{15}|\d{18}$

　　8. 短身份证号码(数字、字母x结尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$

　　9. 帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

　　10. 密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]\w{5,17}$

　　11. 强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

　　12. 日期格式：^\d{4}-\d{1,2}-\d{1,2}

　　13. 一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$

　　14. 一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

　　15. 钱的输入格式：

　　16. 1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$

　　17. 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式：^(0|[1-9][0-9]*)$

　　18. 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9]*)$

　　19. 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分：^[0-9]+(.[0-9]+)?$

　　20. 5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的：^[0-9]+(.[0-9]{2})?$

　　21. 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样：^[0-9]+(.[0-9]{1,2})?$

　　22. 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

　　23 8.1到3个数字,后面跟着任意个逗号+3个数字,逗号成为可选,而不是必须：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

　　24. 备注：这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里

　　25. xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

　　26. 中文字符的正则表达式：[\u4e00-\u9fa5]

　　27. 双字节字符：[^\x00-\xff] (包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))

　　28. 空白行的正则表达式：\n\s*\r (可以用来删除空白行)

　　29. HTML标记的正则表达式：<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)

　　30. 首尾空白字符的正则表达式：^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)

　　31. 腾讯QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)

　　32. 中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)

　　33. IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)

　　34. IP地址：((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

2021年11月22日星期一

“人人影视字幕组”侵权案宣判，被告获刑三年半

　　11月22日，上海市第三中级人民法院公开开庭审理了上海市人民检察院第三分院提起公诉的被告人梁永平涉嫌犯侵犯着作权罪一案，并当庭作出一审判决，以侵犯着作权罪判处被告人梁永平有期徒刑三年六个月，并处罚金人民币一百五十万元；违法所得予以追缴，扣押在案的供犯罪所用的本人财物等予以没收。

　　经审理查明，自2018年起，被告人梁永平先后成立武汉链世界科技有限公司、武汉快译星科技有限公司，指使王某航（另案处理）雇佣万某某、徐某、熊某、姜某某、田某、温某、文某、王某如、胡某某、阳某某（上述人员均另案处理）等人作为技术、运营人员，开发“人人影视字幕组”网站及Android、IOS、Windows、MacOSX、TV等客户端，由谢某洪（另案处理）等人组织翻译人员，从境外网站下载未经授权的影视作品，翻译、制作、上传至相关服务器，通过所经营的“人人影视字幕组”网站及相关客户端向用户提供在线观看和下载服务。

　　经审计及鉴定，“人人影视字幕组”网站及相关客户端内共有未授权影视作品32824部，会员数量共计约683万。期间，被告人梁永平以接受“捐赠”的名义通过涉案网站及客户端收取会员费；指使谢某翔（另案处理）以广西三江县海链云科技有限公司等公司的名义，对外招揽广告并收取广告费用；指使丛某某（另案处理）对外销售拷贝有未授权影视作品的移动硬盘。经审计，自2018年1月至案发，通过上述各渠道，非法经营额总计人民币1,200余万元。2021年1月6日，被告人梁永平在其居住地被公安人员抓获归案，到案后如实供述了犯罪事实。

　　上海三中院经审理认为，被告人梁永平以营利为目的，未经着作权人许可，复制发行他人作品，属于有其他特别严重情节，其行为已构成侵犯着作权罪，依法应予惩处。在共同犯罪中，被告人梁永平起主要作用，系主犯，应按照其所参与的或者组织、指挥的全部犯罪处罚。被告人梁永平到案后如实供述自己的罪行，系坦白，可以从轻处罚。被告人梁永平到案后自愿认罪认罚，并预缴了部分罚金，可以从宽处理。综合本案的犯罪事实、性质、情节和对社会的危害程度等，决定对梁永平从轻处罚，遂作出上述判决。

　　来源：上海第三中院