漢字基因ˍ朱邦復ˍ與基因有約(10)

網頁排版者言與基因有約漢字基因工程漢字基因十節課朱邦復工作室網站

1_2_3_ 4_5_6_ 7_8_9_ 10_11_12_ 13_14_15_ 16_17_18_ 19

  偶而檢閱二十年前的舊作《中文電腦漫談》,發現我早就把字庫的基因公開了。可是 時到今日,除了我這老骨頭,居然沒有一個人有興趣。

  市面上的字庫不少,從事這種專業的人材也不下數百,但清一色採用西洋式的「邊緣 描述法」(別讓一些名稱唬住了,其核心都是利用畢氏曲線畫的)。

  作個字庫,只要達到目的就夠了。問題是誰知道製作者的目的是什麼?一切都要最好 的,而且還要「不吃草」的!於是,一套字庫,字不足,變化不多,卻佔了系統一半以上 的空間!我最常聽到的謬論是:「怕什麼,電腦晶片越來越便宜!」

  我懶得跟渾人打交道,為此,我也沒有興趣去看財多大爺的臉色。二十年來,我只靠 一套中文小字庫,64KB吃遍廉價系統,生活不愁,安心研究我的基因。

  責任逃不掉,到了全文字庫,上十萬個邊緣描述的字形,需要千萬字元的系統空間。 這一次,龜兔賽跑的結果,電腦晶片沒有輸,是財主們心痛了。於是有人說,為什麼不用 漢字基因來做字庫呢?

  字庫的基因是什麼?在蒼頡系統中,基因之一:字碼便是字形,其次字首字身結合, 最後用「筆」寫之,就完成了!

  蒼頡字碼字形不多,多的是五六百個字首與近萬個字身(指全文字庫),平均每個字 形有四個筆畫,每個筆畫需兩個字元的向量參數,約佔80KB的資料空間。

  有了資料,蒼頡輸入就是組合的規律,程式照章執行就是。在執行時,我採用中心描 述的方式,可以隨著用筆粗細、使力大小、變形條件等應用參數,一筆一筆地畫出來。比 諸邊緣描述的技巧,變化無限,速度快上百倍,空間更節省萬倍以上。

  在台灣二十年,深悉人性貪逸惡勞的特質,人人興高采烈地「西瓜搶佔大邊」,不肯 另創生機。為了千秋萬世,現在我又要做字庫了,而且是做在CPU中,以便推廣廉價的 中文電書(成本可望在二十美金左右),化育億萬窮苦的子孫後代。

1_2_3_ 4_5_6_ 7_8_9_ 10_11_12_ 13_14_15_ 16_17_18_ 19

位址連結點形式/頁頂