June 2007 – 神仙的仙居

blogbus的猫和狗

June 30, 2007xiezhenye5 Comments

叫bus的狗

似乎是叫blog的猫

　　昨天终于看到了传说中的《我的绅士男友》，果然是如传说中的那般有趣。走过路过看过，回想起里面的剧情，发现一处有意思的地方。女主角叶萌是一个很独立，尊重自身的人，对待感情也是很认真的。但是在采访杨逍的时候，却表现得功利、势利。作为观众，作为局外人，我们可以看到前因后果，而局内人却看不到背后的情景。人们总有一种习惯地认为，“眼见为实”，但有些时候却未必如此。“眼见”的东西可能是片面的，可能是假象，而“眼见为实”的思维却让人们信以为真。古今多少悲剧都是由此而成。好在《我的绅士男友》基本上是一个喜剧，所以后来他们都认识了对方真实的一面。

　　回头想想叶萌为何会有这样的言行。或许如剧中杨逍说的，她在镜头前光鲜惯了，所以显得傲慢自大，但我并不认为如此。之前她主持过另一个征婚活动，见识了许多所谓的钻石王老五，或许还有其他什么经历，让她对那些“成功”男士都有一些防御心理，有意地或无意地要在对方面前掩盖自己的真实思想，甚至是以相反的形式展现自己。也许这才是她“言不由衷”的原因吧。

　　杨逍开始是作为一个成功人士出现的。他过去由于物质上的原因而失败的爱情经历促使他奋斗，成为了一个成功人士。而在他内心深处却留下了自卑的影子，他不确信除了物质上的财富，还有其他什么可以保证对方的幸福。在他失去了他的财富后，也就只能选择离开。突然想到，这个角色的名字和金大侠的杨逍是否有什么关联。

　　黄大伟虽然没多少财富，也算不上绅士，但在我看来却是个比较完美的人，至少是个很天然的，毫无心机的人。不知道现实生活中像他这般的人有多少，不过我觉得，这世上黄大伟这般在平凡中快乐自在的人应该比杨逍这般的绅士更少吧。

　　剧中最后黄大伟和洪飞燕是走到了一起，但是我却怀疑这能否长久。虽然洪飞燕最后认识到了真是的自己，卸下了戴了很久的面具，但由于工作的关系，作为一个女强人，在生意场上仍然要戴着她的面具。这之后她又该如何看待这两个分裂的自己呢？短暂的感动之后，会不会厌倦呢？就像许多王子公主的故事那样，估计编剧也不会去考虑着许多后文吧。

　　居然写了这些角色分析，似乎有些莫名其妙。不管了，睡觉去了。明天要去学校办离校手续了，后天毕业典礼。这就要结束大学生涯了。

体育啊体育

June 22, 2007xiezhenye6 Comments

　　这两天每天都往学校跑一趟，为什么呢？就因为那个要命的体育成绩。我体育一向不好，从有体育课开始就少有及格。大学里四个体育考试挂了三个，其中一个补考过了，还有两个重修。其中一个重修过了之后，由于学校糟糕的教务系统，成绩没登上去，跑了一回后解决了。还有一个因为我自己失误，错过了最后一次考试，成绩没了，这几天主要就在解决这个问题。总算最后和体育系的老师达成了一个都能接受的方案，我再上两次课，补一次考试。今天终于算是搞定了，不容易啊。

　　今天拿到办离校手续的表了。回头研究下盖章方案。请假是要RMB的，还影响工作啊～～～

中文分词方法简介（毕业论文节选）

June 21, 2007xiezhenye6 Comments

　　中文与西方文字不同，西方文字如英文的单词间有空格作为分隔，计算机很容易把一个个词分开。而中文句子里的之间没有分隔，要把中文句子拆分成词就需要使用中文分词技术。由于全文索引采用的是倒排索引技术，所以分词的效果直接决定了搜索的效果。
　　目前的中文分词技术主要有：n元切分、最长匹配、最大压缩、统计语言模型等方法。n元切分，即机械切分。就是把中文句子每n个字分成一个“词”。比如，“我是大学生”用一元切分的结果就是“我”、“是”、“大”、“学”、“生”。二元分词如果采用串分割，结果就是“我是”、“大学”、“生”，采用交叉分割结果就是“我是”、“是大”、“大学”、“学生”。通常，都采用交叉切分，以免在搜索“学生”时无法搜索到结果。同时，交叉分割可以保证查询和索引切分的一致性。但交叉分割的索引大小是串分割的n倍。机械切分并不是真正意义上的中文分词，因为它并没有把句子根据词法和语义分成有意义的词。这种方法实现简单，切分效率高，但会产生很多无用词。Lucene自带的StandardAnalyzer对中文的切分就是一元切分。Lucene Sandbox中的CJKAnalyzer采用的是交叉二元分词。
　　最长匹配法是使用词典来切分的。比如，“我是大学生”根据词典通常会被拆分为“我”、“是”、“大学生”。最长匹配法又分正向最长匹配和反向最长匹配，即从句子的正方向或方向匹配单词。通常反向最长匹配的效果要好于正向最长匹配。也可以把两者结合起来，即双向最长匹配。最长匹配法实现也较简单，分词速度较快，但准确率比较低。采用词典的分词方法的效果很大程度上取决于词典的质量。同时，在遇到词典中没有的词往往就束手无策了。而且，基于词典的分词对于新词，还有人名、地名等往往不能很好地识别。Lucene Sandbox中的ChineseAnalyzer就是采用的反向最长匹配。
　　统计语言模型方法简单的说，就是通过从文本库中统计出字与字之间结合和分开的概率来分词的。比如“我是大学生”，“是”和“大”结合的概率要小于“大”和“学”结合的概率。这种方法不依赖于词库和语法定义，可以适应新词以及人名地名等。但实现复杂，分词速度慢。在上下文信息较少的情况下效果不够好。

Google Calender支持国内的短信提醒了

June 16, 2007xiezhenye6 Comments

　　Google Calender支持国内的短信提醒了。去试验了一下，已经可以发到我的手机上了。其实以前Google Calender就有短信提醒功能，可惜国内没有支持。现在这也算是本地化的一个进步吧。不知道能不能结合企业邮箱和群组使用。

　　在设置里的移动设置页里可以填自己的手机号，如果能收到验证号就OK。在管理日历里可以设置通知的时间。

Safari for windows

June 12, 2007xiezhenye8 Comments

　　苹果的浏览器Safari3的beta出来了，这回支持windows了。下载回去试了一下，居然不支持中文显示………………

　　本来以为可以又多一个选择，至少可以在windows上测试safari的效果。现在还是要先等等，至少等它解决了中文显示问题再说吧。

说说trackback

June 10, 2007xiezhenye7 Comments

　　trackback是blog的一个重要功能，一个没有trackback的blog都不能算是一个完整意义上的blog。trackback的功能是，当你看到别人的文章，有一大堆话想说，可以放在自己的blog上写，同时也能够让对方知道。trackback使blog之间可以互通，不过这个看起来不错的功能似乎用的人不太多（也可能是中国特色？）。或许是trackback用起来不太方便吧。要先找出对方的trackback地址，复制下来，然后加到自己日志的trackback里去。尤其是第一步，往往需要点好几下鼠标。那么有没有什么更好的办法呢？或者可以像rss feed自动发现那样，加入到日志页的meta段里去，这样不需要找trackback地址，只需要直接复制日志地址就可以，或者仿照emule，弄一个trackback://的协议，通过浏览器插件，点击这个地址就能自动跳到自己blog的后台。但是无论哪种方法，都需要有一个统一的标准，才能够真正实现，这个看上去就比较遥远了。那么现阶段，除了在一个BSP内部可以动一点手脚，把trackback弄得方便一点以外，似乎也只能如此了？

筛法找质数之PHP版

June 8, 2007xiezhenye2 Comments

下面的程序会找出 1000000 以内的所有质数。

define(‘MAX_NUM’, 1000000);
$all = array_fill(0,MAX_NUM,0);
for ($i = 2; $i < MAX_NUM; $i++) {
   if ($all[$i] == 0) {
        echo $i,”n”; //测试性能时去掉这行。输出会占据大部分时间。
       for ($j = $i; $j < MAX_NUM; $j+=$i) {
           $all[$j] = 1;
       }
   }
}

毕业体检

June 5, 2007xiezhenye8 Comments

昨天毕业体检。
结果发现，我居然变瘦了！！！原来是65kg，现在变成了61kg。少了8斤肉啊~~~
还有就是，视力居然更好了。两个眼睛都是1.5了。后面一个兄弟说，读了4年大学，眼睛居然还那么好。心里暗暗得意一下。（其实大一的时候眼睛是生过一次病，还休学了半年……）

vim中文问题

June 1, 2007xiezhenye2 Comments

vim上经常会碰到中文显示不正常的现象，也就是传说中的乱码。搜索了一下，在
http://www.chinalinuxpub.com/bbs/showthread.php?t=45475
找到了一个解决办法。但是gbk编码的正常了，utf8的又不对了。于是稍微改了一点。

用户目录下创建.vimrc文件
加入
set fileencodings=utf-8,gb2312,gbk,gb18030
set termencoding=utf-8
set fileformats=unix
set encoding=prc
fileencodings中utf-8要在前面。

这样就能正常显示中文了。配合pietty，可以完全正常显示、编辑中文了。

	nick on 一次连接超时问题排查的历程
	蓝-猫-鱼 on MySQL relay_log_purge=0 时的风险
	tinygourd on MongoDB Sharding 机制分析
	tinygourd on MongoDB Sharding 机制分析
	tlanyan on 升级 centos 内核到 4.x

神仙的仙居

这里是谢振业的blog，分享技术，记录生活

Month: June 2007