第十六章 论坛定制
此时文琦要是能够打开“蜜蜂输入法热q江湖专用版词库。myword”,看到里面的词组内容的话,他就会明白为什么这款蜜蜂输入****是那么地“懂他”——在这份词库文件里面,有大量他自己在《热q江湖》论坛经常使用的句子和词语!
不过可惜,不像是zip文件简单改名的skin皮肤文件,马竞对myword词库文件进行了严格地压缩加密。这么做原本是为了压缩文本文件大小,方便作为附件上传到论坛,不过却也歪打正着地保护了蜜蜂输入法的秘密。
随后文琦就在这个帖子后面的跟帖里面发现了好多熟悉的id,一个个论坛水王纷纷表示这款蜜蜂输入法论坛专版实在是太神奇了,非常地“懂他”,按一两个字母就能把自己想说的话都打出来,实在是太棒了!
“为什么你们那些水王都觉得这款蜜蜂输入法非常好用?秘密全在那个论坛专用版词库上面,它里面应该是把你们经常在论坛上使用的句子都收纳进去了,所以才会按几个字母就会出你的常用句子。”——晓晓小生
很快就有知识帝出来进行科普了,文琦看到这里也是轻轻点头,觉得这位论坛百晓生果然没有说错。
再给这篇帖子加精华以后,文琦关闭了《热q江湖》论坛页面,登录了学校的校园bbs,然后第一眼就看见了被顶到置顶帖之下第一位的那个帖子。
标题:《江大学子必备,蜜蜂输入法江大专版》,点击数157,回复102,发帖时间2006-03-18-13:07:56。
“居然发到这儿来了?”带着疑惑文琦点击进入这个帖子,发现内容和他之前在《热q江湖》论坛看到的内容基本上一致,差不多只是把“热q江湖”四个字提换成“江x大学”,然后皮肤预览图换成带有校徽、院徽图案的“江大专用皮肤”,相应的输入效果图也换成在校园bbs、校图书馆两个网页上面的输入效果图片了。
文琦点击下载了,“蜜蜂输入法江大专用版。zip”,把里面的词库和皮肤文件解压出来安装上。然后在输入框里面打字,他发现果然多了不少江大的专用词汇:校名院名系名班名、课程名、教科书名,都是不用打完完整拼音就出现在了候选词里面。
文琦试着打班级辅导员的名字简称gxy,也立即看到“顾学玉”三个字出现在候选词里面。
想到晓晓小生的分析,文琦试着输入wq,果然看到“文琦”出现在候选词列表里面,再试班上同学的名字,也都能找到。
文琦毫不怀疑,这份“蜜蜂输入法江大专用版词库”里面一定丧心病狂地把全校师生上万名字放了进去。
其实他想的简单了,江大专用词库里面包含的人名超过十万!不仅包括现在在校的全体师生,而且很多过往任教的老师、历届毕业校友的名字也都在里面,不过他们的词频很低,打简拼时候选词太多一般要翻页好多次才能看到。输入他们姓名的全拼,才可以更快地看到他们的名字。
这些名字都是从江大校园网内各级服务器上面搜集来的,因为江大校园bbs的域名是挂靠在江大的jtu。edu。cn域名下的二级域名,导致蜜蜂发布器顺带着把整个jtu。edu。cn网站进行了全站下载。
得益于江大力行无纸化办公,校内各种档案都有电子版,让马竞的“蜜蜂发布器”很轻松地就搜集了大量文本文件,然后提取出了人名和高频词、高频字,然后打包成江大专用词库。
而且当这些人名出现在候选词列表里面时,它们的颜色还与别人大不一样的,男生名字的姓都是蓝色,女生的姓都是红色,有男有女的名字则全是绿色。同时本校人的名字下面还会有浅浅一道背景色,颜色与其所在院徽或者校徽的颜色一致。像是文琦就发现自己班所有人名字下面都有浅蓝的底色,而一起上高数课认识的理学院同学的名字下面就是浅紫色的,他女友的名字下面有浅红色背景,那是外语学院的院徽颜色。
这些特殊的标记,都是源自江大词库,马竞版的词库不只是单纯的根据词频排序的文本文件,其中还有简单的关系数据库的内容。像是“文琦”这个名字,就会和“男”、“能源与动力工程学院”、“核工41班”等词语发生关联,而“能源与动力工程学院”又会与“能动学院”、“能动学院院徽”、赵祺(能动学院院长)等词语发生关联。
传统的词频排序算法,只能根据词语累计输入次数与词语最近输入时间这两个数据调整候选词排序,而蜜蜂输入法引入的这些关联数据可以大大补充单纯词频排序算法的不足,使得蜜蜂输入法的输入效果更加智能更加方便。
在0。9公测版的蜜蜂输入法里面,关系排序算法就被应用到人名候选词的排序里面。
文琦试着打班上同学名字时,发现几个姓李姓刘的同学,名字也不需要翻页,在一大堆刘xx、李xx的候选词里面排名非常靠前。其原理就是蜜蜂输入法的关系排序算法,这些同学和他一个班,都和“能源与动力工程学院”、“核工41班”两个词发生关联,所以词序被大大提高,也拥有同样的背景色。
其实学生名字的背景色是经过特殊算法严重变形的院徽图片,完全看不出校徽的形状,只剩下平均色。只有安装了“蜜蜂输入法江大专用版皮肤套装。skin”文件,取得里面的校徽图标素材,输入法才会在学生和老师名字下面放置校徽色标记。当然,没有安装江大专用词库的话,输入法虽然会根据自动生成的关系数据库放置校徽色标记以及其他标记,但是出错率就要高很多了。
因为是全自动收集整理生成,并且使用了一些暴力破解密码的手段,这个词库里面其实是包含了一些江大的秘密信息的,比如校长会议的会议记录以及一些还未公布的文件的部分内容等。但是因为词库经过词频排序,那些秘密信息通常都很少在文件上出现,词频很低,并不容易被人发现,因此也没引起他人注意,马竞自己也并不知道还有这样的问题。
还要到今年暑期招生的时候,有人发现个别新生的名字可以轻松打出,并且显示样式也是本校人,不过那人并没有深究,只是将这件事作为趣事放到校园bbs上面。
这几张截图后来被有心人看到,分析认为那些被三月份过期江大词库标记为本校人的新生,应该是学校内部招生的结果,由此还引发了一次被称为“江大内部招生门”的丑闻事件。
当然,在江大校方看来,则是泄密事件,甚至一度发文禁用蜜蜂输入法,江大计算机管理中心一度还封堵了蜜蜂输入法的升级端口。
不过那时候马竞已经升级了蜜蜂输入法,对用户词库进行了整理,一些词频极低的非用户自创词被自动清理掉了。同时源自保密文件的一些内容也被删除了,封杀事件最后也就不了了之了,反倒是因为封杀事件使得蜜蜂输入法在江大校园里面知名度大增,更加流行了。手机用户http://