資訊時代的中文電腦
朱邦復
一、資訊時代的意義
人類文明的演進,可以說與資訊發展相輔相成,時到今日,由於微電腦的成功,從而
掀開了資訊時代的序幕。
「資」指「資料」,是靜態的,是人類對宇宙萬事萬物認知的記錄。「訊」則是「訊
息」,是時、空中隨著能量的變化,不斷改變的動態資料。換句話說,資訊也就是文化,
是各民族在不同的地緣環境下,所經驗的生活認知。
人類社會是由眾人所組成,而人與人之間,所有的行為,完全仰仗資訊的溝通。在過
去,語言與文字是僅有的資訊媒介,因為語言屬於動態的訊息,只能供即時的溝通,無法
保留。所有重要的資訊,皆須藉助文字的記載,並利用印刷技術,得以流傳至今。
資訊時代可以說是因為資訊工具之改進而到來的,所謂資訊工具,概指能處理自然界
的各種能量變化,以及人類感官接受的刺激訊號之器材設備。這些器材設備,最大的特色
,就在於能彌補時間及空間對人的限制,從而增進人的能力。
個人能力的增進,其效果可以說是有限。但是若整個社會都在現代化的資訊工具聯結
下,其規模及效率所形成的力量,簡直難以估算!
更何況,資訊時代的下一波發展,必將是「人工智能」的「改朝換代」。在人工智能
的革命浪潮下,人類究竟還能保有多少尊嚴?加上其資訊結構的形式,究竟以何種文化為
背景?都是吾人不可忽視的重點。
值此資訊時代,國家社會的競爭力,可以說完全建立在資訊系統的應用上。同理,一
個國家民族的存亡,在實質上,也不再侷限於人種與制度。資訊代表了一切,也主宰了一
切,唯有成功的資訊系統,才能在未來的世界上存身立足。
二、資訊與生活的關係
不論在什麼社會中,每個人的成長過程,都與環境的適應性息息相關。人不能脫離其
生長的環境,就不能不接受千年萬載所形成的習俗,而成為自我的一部份。
既然資訊就是文化,而習俗正是文化的生活面,因此,一個社會上資訊系統的建立,
就相當於習俗文化的維護。
如果在一個社會中,原有的文化被另一種文化所取代,則生存在該社會的人,必將喪
失其固有的生活方式。這種例証,在人類史上屢見不鮮,以致於一些人種名存實亡,人類
文化形式也日趨貧瘠。
中華文化是優是劣,能否經得起這一波的資訊考驗,目前言之尚早。但是,無可諱言
的,我們這一代,必將為中華文化的存亡,負起歷史的重責大任。
所以,今天的中文資訊系統,其成敗的意義,絕非僅在於能建立多少資料,或能賺取
多少經濟利益而已。影響所及,關係著今後的中國人,是否願意接受另一種文化的洗禮,
放棄千萬年來薪火相傳的生活習俗。
三、中文電腦的特殊性
中文是圖形文字,一字一形,加以字數眾多,字形不定。在技術立場上,中文電腦設
計的難度極大,更兼以從事中文電腦的工作者,大多為電腦專家,認為電腦僅需提供「常
用字及次常用字」已足敷使用。故而制定了13,053所謂的「國家標準碼」,多年來推行的
結果,由於字數不足,只能供民間工商業界使用。
依照應用分類,中文可概分下列三類:
1,流通文字:諸如圖書、新聞、商情、科技、知識、流行口語等,因為日常流通在生
活中,故被一般學者定義為「常用字及次常用字」。
2,登錄文字:諸如地政、戶政、警政、獄政、財稅、海關等,涉及人名、地名,僅以
國內人名用字為例,約有二、三萬字,(大陸則高達四萬以上)。此類文字不僅必要,而
且有隨時增加的可能,故宜有一套造字法則,以資應付。
3,文化文字:古籍、經典、善本藏書等,是人民思想行為之根本、國家民族之瑰寶,
其字數更多,至少應有五、六萬之多。
由此可見,目前的中文電腦,僅僅符合第一類需求。第二、三類則因字數不足,而無
法正式應用。
設若吾人再不正視此一嚴重的課題,一旦流通文字推廣成功,(大陸僅有6763字的所
謂的「國標碼」,更令人匪夷所思。)則中文電腦將成為「殘缺系統」。
不幸當今經濟掛帥,人但見近利,而未識遠憂。人人皆僅將中文電腦視為一種商品,
既為商品,自當唯利是圖,學者專家無不各執一見,難有交集。眾口鑠金之餘,中文電腦
之真正價值與中國文化之意義,遂成為私利的犧牲品。
眾所週知,中文是圖形文字,每字一形,形形各異。若與拼音文字相比,從表面上看
來,拼音文字僅以少數字符,即可組合所有的字形,故中文應用較為困難。事實上不然,
中文是建立在視覺辨識上的文字符號,在心理學上,已經証明人類的行為,百分之八十端
賴視覺,故而視訊效率最高。是以電腦技術發展到能應用「辨識」及「意識」層次時,中
文中形、意的結構,將在「人工智能」的領域中,為人類文化大放異彩。
中文雖具有表意的優點,但不可否認的,由於過去缺乏系統觀念,忽略了「文字序列
」的重要性。所以,僅僅把文字收集齊全,有字有碼尚不能滿足效率的需求。在大量資訊
處理上,字碼「唯一序列」的規律,是否能與使用介面一致,才是中文資訊成敗的關鍵課
題。
所以,中文電腦所面臨的問題,實際上,只有下列兩個。不幸的是,多年來的因循苟
且,坐失良機,如今利益團體群起,遂是非不明矣。
1,中文字碼的收集與排列。
收字應該兼顧前述三類,力求完整。
編碼則有明確的唯一「序列」(Sorting Sequence),蓋大量資料的查尋處理,
全靠編碼序列,如若有多層編碼,則每增加一層,效率即降低一倍。以大型電腦為例
,每部造價皆以百萬美金計,效率降低一倍,相當於需要增加一倍的資金,方能彌補
損失。
2,中文字庫的設計。
有碼應即有字,且其應用成本力求低廉。
以我國為例,未來在台灣起碼應有一千萬台微電腦的應用量,若推及大陸,則又
將以數十倍計。是以中文字庫的有形無形成本,必將是一天文數字。
四、中文電腦的現況及展望
文字編碼,早已有了答案,筆者所發明之倉頡輸入法,係以廿四個「中文字母」,針
對六萬餘字,以視覺辨識原理,分別編碼。由於「中文字母」有先後的排列順序,故所編
之字碼,皆有絕對的「唯一序列」。
此外,筆者為了降低國人應用的成本,早已於民國七十年放棄了個人利益,任由各界
免費使用。但也因此遭人纂改,不同的版本林立,教學方法紊亂,導致若干不便。
然而,倉頡碼最重要的序列功能,卻因筆者經濟實力不足,未能完成「倉頡字典」的
編著,而鮮為人知。更加以「國家標準碼」仍沿用傳統編碼觀念,故而國人對「字序」完
全沒有概念。
至於文字字形,則純粹屬於技術問題,以「國家標準碼」 13,053 字而言,在標準螢
光幕的顯示上,15*16 的字形,每字佔32 字元,共計佔417,756 字元。
以目前的微電腦而言,可供操作的空間約為520KB ,上述中文字形的417,756 字元,
不過為417KB ,似尚有裕餘。然而,隨著電腦處理的功能增加,程式空間的需求經常捉襟
見肘,為了能使用中文,對系統設計而言,必須增加甚大的額外負擔。
不僅如此,前述的15*16 字形,在螢幕160 點/吋 的顯示密度上,其品質遠遠低於人
眼視覺的需求。是以在列印時,又需24*24 ,80 點/吋,甚至字級更大,密度更高的字形
。而當字形加大,記憶體之空間也相對增加。以24*24 為例,每字即佔72字元,一萬三千
字則佔約1.2mb 。如此巨大的記憶空間,唯有放在硬碟中,每到用時,一一到硬碟上去讀
取。而硬碟讀取次數有一定的上限,使用過於頻繁,即導致硬碟的損耗。
這種現象,並非不能避免,筆者所發展的字庫,僅佔用 70KB ,能提供四萬字以上,
且有15*16 24*24 32*32 等多種字形,完全不用硬碟,然並未加以推廣。
唯有掌上型電腦,因記憶空間有限,採用筆者製作的中文字庫,較為有利。目前銓腦
公司出產的掌上型電腦「小袋鼠」,其中文系統及文書處理,即為筆者所設計。
在微電腦方面,由於「美國微軟公司」的「中文視窗」上市,已經一舉攻佔了國人經
營多年的中文市場。在過去,在中文特殊的環境下,外國軟體必須經過修改,方能使用。
正因為有了這層保障,國內的軟體公司才得以生存。而今日,微軟公司的中文視窗可以不
經修改,直接使用外國軟體,對國內的軟體界,確是致命的打擊。
所幸,微軟所採用的中文字數有限,而中文字數甚多,以文化學院所印行的中華大辭
典為例,計收六萬餘字,若參照以各種古籍甚或碑銘,訛誤、錯別以及變體變形字約有七
、八萬之譜。由於這層文化的堡壘,前述的二、三類文字範疇,絕非外人輕易可以跨越。
中文資訊的未來,尚有待更高深的技術,才能真正的達到完滿成熟的境地。
一旦我們把目標鎖定在登錄及文化文字的範疇中,字數及字序的重要性立刻顯現。以
目前微電腦之設計理念,四字元內碼已為舉世公認,四字元內碼可以容納百萬之字,自然
沒有必要再作「削足適履」的標準考量了。
只是數萬字的取碼方法,顯然無法再用注音。且有碼必須有字,為此,筆者以倉頡輸
入法為藍本,開發完成中文大字庫,一碼一字,序列分明。計收有效文字六萬餘,且能放
大縮小,有明、黑、圓、宋、楷等字體,每種字體皆有數十種粗細變化。而全部字庫僅佔
200KB 空間,每秒鐘可提供二千字以上。
上述字庫,筆者無意當作商品,蓋中華文化為中國人所共有,筆者有幸得窺其妙,據
以發展成為技術,理應珍之惜之,俾免為外人挾持,令中文資訊淪為來日之鴉片。
四、結論
電腦技術是一種實驗科學,是非曲直皆需經過考驗。當今所有中文系統,皆未能解決
登錄及文化文字的瓶頸,是不爭之事實。同時,因為政府資訊處理之要求急迫,經費預算
動輒數十億,其中涉及無數之利益團體。因之,此中關鍵,不言可喻。
本文僅就技術立場,闡明中文資訊當前問題及解決之道,並對所言負一切責任。
|