9/25/2007

中秋节的礼物

u 在前几天更新到了8.6版本,不过8.5依然可以使用。

点击这里下载

9/19/2007

推倒中国防火长城

本文为译文,原文来自eWEEK.
Toppling the Great Firewall of China



忘记你那普通的防火墙吧:中国的信息审查依赖的是狡诈而又古老的技术。

中国的国家防火墙是根本没有防火墙。

中华人民共和国根本没有在国际出口路由器上安装防火墙来封锁国外的网络站点。

实际上,这个独裁政权依赖的是一套久经考验的审查制度,它有一张关键词黑名单,它的路由器深入到因特网的每个角落来检查是否存在这些违禁的关键词。

"一般认为这是一种防火墙——在此之外的东西都被封锁了。我们发现有时候有13个节点来进行关键词过滤(一般只有几个)。有的路径并没有被过滤。"Jed Crandall,一位新墨西哥大学工学院的计算机科学的助理教授告诉eWEEK。

实际上,研究者认为,政府用来阻止用户访问某些它认为含有有害信息的"防火长城"是一座"圆形监狱"——监狱中的人不知道他们是否正在被监视着。(译注:"圆形监狱",原文panopticon,为Jeremy Bentham在1791年提出,大意为将犯人关在一个圆形的牢房中,墙壁是单向透明的,外面的人可以看到里面,里面的人不可以看到外面。这样的方式对于囚犯来说,更多的是囚禁他们的心理而不是身体。链接指向的是英文维基百科上的相关词条)

有来自加利福尼亚-戴维斯大学的人员的一个研究小组,发现他们所谓的"中国防火长城"并不会封锁所有墙外的违法词汇——只要多到让人们知道它的存在而进行自我审查就足够了。

事实上,在研究人员放置了探测器的中国主机中,有28%可以通过没有过滤器的线路与外面进行连接,这证明在中国的出口网络连接上并没有一个GFC关键词过滤器(译注:"GFC",原文如此,国内一般简称为GFW,这里应该是Great Firewall of China的缩写)。

防火墙规避扮演了一个很复杂的角色,它让中国的互联网用户误以为自己一直被封锁。因此研究者正在计划一个新的体系来绕过GFC的关键词过滤,而再也不需要为防火墙规避而费心了。

他们现在在制造一个工具,名叫"ConceptDoppler",提供了另一种出人意料的选择:即,用黑名单上的关键词进行"垃圾攻击"(译注:原文spammify)。首先要确定这些关键词都是些什么,他们传送含有不同关键词的数据包传送到中国,来看含有那些关键词的数据包会被拦截,以及是那些特定的路由器在做黑名单过滤的工作。那些路由器,会将含有非法关键词的数据包访问请求重置,以阻止国内用户下载那些违禁内容。

 研究人员表示,"ConceptDoppler"会像天气预报一样通报中国(以及其它国家)的审查制度的每个小改变。这个工具会通过特定的算法来生成不同的词,以确定中国的关键词黑名单上都写了些什么。迄今他们已经确定了122个关键词,但是他们告诉eWEEK,违禁的关键词应该有几千个。

除了用来编制一张全世界的网络审查地图以外,研究人员计划将ConceptDoppler改造成一件可以对关键词黑名单进行"垃圾攻击"攻击的利器。就像一些垃圾邮件发送者采取的技术一样,它会将违禁的关键词分隔开,或者在中间嵌入一些随机的字符。

"垃圾邮件给了我们启示,"Earl Barr说道,他是加利福尼亚-戴维斯大学的一名主攻计算机科学的研究生。他还在一家报纸上发表过关于这个研究的文章《ConceptDoppler:网络审查的天气预报员》(ConceptDoppler: A Weather Tracker for Internet Censorship)。

"我们找到了最好的垃圾邮件发送工具——来自匈牙利的程序,然后将这个工具用来做一些好事。"Barr说。

按照他们的设想,当中国的一个地址向一个含有黑名单中的关键词的网站发出连接请求时,安装在网站上的一个程序会发出提醒。网站管理员可以激活这个"垃圾制造工具",让传输到中国的数据可以绕过关键词过滤。

许多黑名单中的关键词是可以预料到的,比如"西藏独立运动"(Tibetan Independence Movemen)、"法轮功"(Falun Gong)、"罢工权"(The right to strike)、"天安门广场绝食"(Tiananmen Square Hunger Strike Group)、"美国之音"(Voice of America)等。

而有一些就让人感到惊讶,比如"转换率"(conversion rate),"我的奋斗"(译注:原文为德语"Mein Kampf",阿道夫·希特勒的自传)和"国际地质科学联合会"(International geological scientific federation)。也许这些词在汉语中会部分匹配其它违禁词。

比如说,一篇维基百科上关于西德的一个州的文章,如果翻译为中文,可能里面会有和"法轮功"相似的词句。Crandall 只能这么揣测为什么黑名单上的有些关键词如此怪异。

"我的一个中国朋友告诉我,政府不仅屏蔽对他们有害的信息,他们还屏蔽他们认为'坏的(bad)'。许多和二战有关的网页也被屏蔽了。"

封锁互联网通讯的话,中国并不是唯一的一个。加拿大和英国会封锁儿童色情的内容,德国也会封锁和纳粹有关的网页。

但是说到把关键词过滤使到如此"炉火纯青"的境界,中国就是独一无二的了,Crandall 说道。伊朗用的是更简单的代理服务器过滤器(proxy filtering)来进行关键词过滤,而中国的技术可以让路由器探测到每一个独立网页,因此可以避免整站封锁。按照Crandall 的说法,这种做法更像是一个土办法。譬如,"大屠杀"(massacre)这个词也出现在了黑名单里面,这意味着所有含有这个词的网页都会被封锁。

但是当中国的过滤技术发挥效用的时候,会让封锁看起来是无意中进行的。按照审查员的观点,这是一种更加优秀而文雅的封锁方式。如果对IP进行封锁的话,也许有人可以在另一个IP地址上给被封锁网站的内容做一个镜像。Barr说道。

 然而当使用代理服务器可以绕过审查的时候,这样的方法就遇到了问题。代理服务器迫使审查员要检测网络上每一个节点,这要耗费大量的资源,通过造成单一故障点的方式也行不通了。"要解决这个问题的花费非常昂贵。"Barr 说。

然而无论如何,代理服务器是有明确的协议的。因此他们可以绕过绕过用户在另一个通道对通信协议进行修改。

GFC不仅是一种优雅而难以逾越的封锁工具,对于研究者来说,它本身说明的信息更让人感兴趣。中国的国家防火墙告诉研究者这样一个信息,一个数据包的连接被重置以后,其境外来源也会被跟踪。

"你可以在中国境外通过关键词过滤的方式进行试探,"Crandall 说"我们意识到,在中国境外我们可以找出有多少进入中国的数据包,以及过滤器放在哪个路由器上。我们调节了被返回的数据包,知道它经过了多少个路由器之后被返回的。我们也可以测试一下黑名单里的关键词,如果被复位,我们就知道它被封锁了。"

研究员计划寻找一种更好的方法来确定放置过滤器的位置,并且会使用加利福尼亚-戴维斯大学之外的源点来进行测试。中国现在可能正在使用更加狡猾的技术,比如IP转向。占据因特网上的地利后会让研究员更容易确定是否真的如此。

从这一点上看,使用单一的信息源会阻碍研究院确定封锁点的位置。他们现在所知道的是,中国最大的ISP(网络服务商),中国电信(ChinaNET),通过他们的探测器完成了83.3%的过滤。他们还知道99.1%的过滤发生在中国最后一台出口路由器上,在那里11.8%的信息被过滤掉了。有时候在那里会遭遇13层过滤。

他们还知道的是,其它有志于加入互联网审查行列的国家正要复制中国的技术。


来源: http://www.eweek.com/article2/0,1895,2182514,00.asp

9/15/2007

Google十年

十年前的9月15日,斯坦福大学两名24岁的学生注册了“www.google.com”域名。十年后,这个域名已经成为我每天都不能离开的网站。

最开始上网的时候用的搜索引擎就是Google,那个时候还没有听说“百度”。后来Google因为一些原因在中国无法访问了(而这些原因具体是什么我过了很久才知道),正好又出现了一个号称“中国google”的百度,就开始用百度了。真正开始喜欢Google的时间不长,而最初始的原因比较搞笑,是因为《银河系漫游指南》这本书, 看完连载之后我在百度上搜索书中一句话的英文原文,就是那句“关于声明、宇宙以及一切的终极答案”。最后查出应该是“answer to life, the universe, and everything”,于是我无聊地用google的英文搜索搜了这个句子(那时候连google计算器是什么都不知道),然后发现,google 居然比我还无聊,它的计算器
告诉我,结果就是小说里面写的“42”。

这让我非常兴奋,这就像新认识的一个人也喜欢同样的一部电影一样。

而到了现在,Google 还在做什么无聊的事情我已经不再关心了,重要的是它一直默默地按照它的方式为我提供着服务——尽管由于一些与它自身无关的愚蠢的原因,它的一些服务并不能在我们这个地方使用。现在对我而言,这是最重要的一个公司。我用它搜索信息,我用Gmail 写信发信,用Google Reader 来阅读新闻和其他人的blog,用 Google Calendar 来安排我的日程(上个学期我甚至用它的免费短信提醒功能代替了自己打印的课程表),用picasa管理我的图片,有的图片还传到了它提供的网络相册上以方便外链到别的地方。我无聊而又不想玩游戏的时候会到它收购的Youtube 上找好玩的视频来看,我用gtalk和一些和我一样不是很喜欢QQ的人聊天和沟通(当然QQ 还是不能完全放弃),我用blogger管理着另外两个blog,我用Google Analytics 查看blog的流量(不过我必须承认这是很没有意义的事情),用Feedburner 来烧录Feed,用它的输入法解决了在不同电脑上的词库问题……

然而,Google自从诞生的那一天起,就受到了中国政府的种种封锁,最严重的时候,google.com都完全不可用,而直到如今,在google.com上搜索某些关键词(这个列表正在越来越长),也会出现“该页无法显示”。一些Google的服务至今不可用,比如Google pages,网页快照,blogspot,以及如今的feedburner。等等等等。

我有一个不知道是不是多余的担心:有一天google的一切又不能用了,怎么办?

Google已经为这个世界服务了十年——

十年之后,如果Google没有因为自己经营的原因失败,我们还能用Google吗?

9/14/2007

人人自危的时代

今天点了一个yo2.cn的blog地址,发现下面这个页面:



我想起以前在新浪博客写过一篇文章被删除,两个评论被删除。

在豆瓣写的《激流中国》的影评倒是没被删,但是《激流中国》的页面被删除了。所以那篇影评指向的对象是“deleted”。

发在“译着玩玩”的一篇经济学人的关于中国2008奥运的报道,也在豆瓣的九点页面被删除。

然后还有加入的一些不是很河蟹的小组要么被删除,要么被强行私密。

如果说最开始在新浪博客被删文还有些愤怒的话,现在我已经麻木了。并且开始理解和同情那些网站,包括yo2。

对于yo2来讲,做出上面这个决定,会对他们造成非常大的损失,所以绝对是不得已而为之。

豆瓣在删除小组和文章的时候,发了一封邮件通知。里面有一句:“为了豆瓣的生存……”


这是一个人人自危的时代,我们甚至没有资格“怒其不争”,而只能“哀其不幸”。

——后面那个“其”字,指代整个国家。

9/12/2007

已经不知道该说什么好了

在google中文搜索的七周岁生日这天,GFW送上了一份大礼。

feedburner被彻底和谐。网通线路也无法访问。

那么国内抓虾鲜果应该是收不到这个blog的更新了吧。

没有人告诉我这是为什么,没有人告诉我应该怎么做。

这到底是个怎样的社会?

9/08/2007

几件好玩的事情

在网上发现了这个网站不良信息检索系统。很好玩。据说它可以分析你的blog的河蟹程度。不过我怎么看怎么像是在恶搞呢?
于是我检索了一下我自己的blog,发现其实我很河蟹啊。只有区区几条而已。(顺便说一句:“时代”、“空间”、“群发”这三个关键词也不河蟹?也太搞笑了吧)


20070908022135984

我挺奇怪的,其实我的blog上不止这些不河蟹的东西,基本上每篇文章都有不河蟹的东西才对。而且有两篇翻译的经济学人上的文章,里面应该有很多不河蟹的关键词,像64、游行、XX功、奥运什么的,这些怕都是不河蟹的吧……

我又点了一下结果里面的“不河蟹”关键词链接,发现是一个百度的搜索页面。

顿时醒悟了……敢情是不河蟹的页面百度根本没有收录啊~!

说起百度我想起另外一件好玩的事情:

下面这张图,是译着玩玩这个翻译blog的流量分析结果。绝大多数通过搜索引擎来的都是用的百度。

而他们用的关键词居然……

20070908023155578

虽然我不喜欢百度这个公司,但是我也不鄙视用百度的人。不过我不得不说:用百度的很多人其实很多事情不知道。当然,发生了这些搜索行为至少证明他们想知道。

遗憾的是他们目前还不知道用电驴去下他们正在找的视频,不知道google的网页快照为什么不能用。甚至可能不知道维基百科而只知道百度百科……

没关系,以前我也什么都不知道,一直以为历史书里的历史就是真正的历史。

以前我们一直认为用百度的人比较“低阶”和“娱乐”,不关心什么政治之类的东西。事实证明并不完全是这样的。在超女的海洋中,总还是有两座冰山,厌倦了这种“娱民”生活。

--------------------------------------------------------------------------
PS:

无穷小还发现了一个超级不河蟹的网站:

不良内容2

这个数据很可怕吧,应该立马被和谐吧?
它是我们的人民政府网站

9/02/2007

Feedburner事件中的艺术表现手法

在中国互联网上,一件事能够称得上“事件”不太容易。一般有两种情况:一是这件事情闹得足够大,所有网站都转载这事,甚至惊动传统媒体,引来各路专家。比方说铜须门、卖身救母、海艺,等等“事件”。
另外一种情况,就是这件事情对一部分不小的群体造成了非常严重的影响,但是还有很多人根本对此一无所知,或者说,这件事情对他们没有任何影响。而对于传统的媒体来讲,这件事情就算对他们的总编有极其大的影响,也不会有报纸报道这件事。比方说flickr事件、紫田机房事件、独立博客事件,等等。

说正题:

就feedburner来说,我一直好奇的问题之一就是——为什么现在才封?

feedbunrer这个东西,就像互联网本身一样,生下来就很影响建设河蟹社会。如果有个人的blog内容不河蟹,那么你就不能通过http访问它的内容,但是如果他把自己的feed托管在feedburner上,读者还是可以透过托管以后的feed来订阅他的文章内容。这样,想要封锁信息的目的就不能达到了。(当然,国内知道RSS这个东西的人还是少数,这样也只能保证知道怎么看他的内容的人看到他的内容)

那么为什么现在才封呢?

一个可能是,相关人员——我们现在居然都不知道怎么称呼应当对此负责的人,甚至都不知道他们所在部门的名称——到了最近才了解到RSS是个什么样的东西,正好赶上河蟹们要开会了(说不定就是因为要开会了说要严抓漏洞才发现的),于是才赶紧手忙脚乱地将它封了。考虑到在中国,从来都是老师的智商低于学生的智商,统治者的智商低于被统治者的智商,这个原因虽然荒谬可笑,也不是不可能的。

但实际上这个观点不能成立。如果是现在才知道的话,那么为了营造真正河蟹的开会大环境,就不应该只在电信线路封锁,而不在网通的线路上封锁——在我的feedburner上还是能看到昨天有抓虾和鲜果的爬虫,这大概就是因为他们也有网通的线路。而且,要做得彻底的话,google reader,bloglines也应该被封。

于是只有一个可能——这不过又是一次具有审美价值的艺术行为,或者说,只是一个大艺术行为中间的一个小桥段。
让你们用,让你们有希望,让你们每个人都依赖它,然后——

一个故事是这样的:有一个人的仇人死了,于是要报复在他刚出生的儿子头上。最残忍的报复是,把他从小放在一个很富裕的人家,让他要什么有什么,甚至让他染上毒瘾。然后,等他长大以后,再抛弃他。让他痛不欲生。

这,才是最艺术的报复。

如果说上面那个例子太通俗太离谱,那以《一九八四》为例。

——奥勃良给温斯顿书的目的是什么?奥勃良明显已在却林顿那里得到了确实的证据。以党的方式,直接逮捕是可以的啊?

——给他更大的希望。
——玩弄。
——游戏的快感……
——友爱部抓思想犯不仅仅是为了维护老大领导下的河蟹社会这么一个实用目的,而是上升到了一个游戏和艺术的境界。仅仅将处于求索中的主角抓起来杀死,和帮助他一点点了解真相后,再将其从精神上折磨和摧毁,变成忠于老大的行尸走肉,然后再肉体消灭,哪个更有施虐的美感和快感?
——友爱部的工作是艺术,而不是简单的警察行为,在乎的不是效率,而是游戏的快感

(以上文字均摘自豆瓣讨论,如果没有看过这本书,建议看一下,也不长。不是为了看懂上面的对话,而是为了看到我们将来可能的世界。link)

为什么现在才封feedburner,封也是不完全地封?就是为了让我们存有希望,就是为了让我们(以后)知道,“它”其实是无所不能的。

为什么维基百科、blogspot等等封了又解,解了又封?

因为好玩。

为了让我们一次一次地看到希望,然后一次一次地看到希望的破灭。

最后,让我们害怕。最后让我们就在新浪博客和QQ空间上记流水帐,即使再开放blogger,也没有人再去写关于社会良知的东西,即使再开放维基百科,也没有人去相信上面的文字。

我悲观一点想,这也许就是某些人想建立的和谐社会。