“研制漢字信息處理工程”(“748”工程)
2009-09-17 16:34 來源:中華印刷包裝網 責編:涂運
漢字是中華民族智慧的偉大創造,它一字一義,直觀簡明,語法簡單,詞序排序規則,富于想象和聯想,聯合國各國文字的文件中最薄的總是中文。但是,漢字是一種方塊字,結構復雜、筆畫多、字數多、字體多、一字一音,書寫和讀音都比較困難。 《康熙字典》收入的漢字多達47000多個,現在常用的也有6700多個,這么多的字要認、要記、要用,對于一般老百姓來說確實是一件很困難的事。
20世紀中葉, 電子計算機技術在世界范圍內迅速發展, 極大地推動世界各國社會經濟文化的進步,人類進入了信息化時代。用計算機處理信息,包括數據、文字、圖形、語言等等,但基本的是文字信息處理。西方國家采用拼音文字,一般字母只有幾十個(英文為26個) ,字形簡單,信息量較少,容易實現對文字信息的處理。而我國漢字字數多,印刷用的漢字字體也多,有宋體、黑體、楷體、隸書體等10余種,還有10余種不同字號,印刷用的漢字字模數量超過65萬個,其對應的存儲量超過200億字節,比西文信息存儲量高出上百倍。要使系統軟件具有漢字處理和西文處理互相兼容的能力,許多人都認為是一道難以逾越的障礙,一個世界性公認的難題。
1975年,北京大學王選等一批年輕的學者立志攻克這個世界性難題。那時王選38歲,北大數學系畢業,在北大無線電系任助教。他們接受了國家計委和電子部安排的“漢字信息處理技術”國家重點研究課題中的漢字精密照排項目任務。這個課題因在1974年8月立項,因此被稱為“748工程” 。
王選反復地研究漢字字形的特點和規律,他發現漢字雖然字形繁多,但基本筆畫還是很有規律的,如橫、豎、折等是由基本直線和起筆、收筆及轉折等筆鋒所組成,這種規則筆畫占漢字筆畫總數一半以上。這種規則筆畫以宋體為例,可用4~5個字節表示,這樣對提高壓縮倍數起了重要作用。對不規則筆畫,如撇、捺、點等雖然不規則,但也有一定的曲線變化,也有規律可循,可以用一連串折線逼近其輪廓曲線。王選一連幾個月趴在桌子上用放大鏡分析漢字字形的規律,進行艱苦復雜的統計和比較,精確地計算不同筆畫的曲率變化,再分類合并,用參數描述橫、豎、折等規律筆畫的長、寬、傾斜度及變化多端的各種筆鋒,用輪廓描述點、撇、捺等不規則筆畫,這樣使漢字字形信息量下降數百倍。同時,他還研究出一整套把折線輪廓復原成點陣的快速算法和使文字變倍失真盡可能小的變倍算法。高倍率漢字信息壓縮技術,高速度還原技術和不失真的文字變倍技術是漢字激光照排技術的核心。這項技術的突破就打開了用計算機進行漢字信息處理的大門,表現了中國人的聰明和智慧。
- 關于我們|聯系方式|誠聘英才|幫助中心|意見反饋|版權聲明|媒體秀|渠道代理
- 滬ICP備18018458號-3法律支持:上海市富蘭德林律師事務所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098