2022年3月26日下午13:00-16:00🧑🦼,教育部人文社科重點研究基地中國文字研究與應用中心召開國家社科基金重大項目“基於公共數據庫的古文字字符集標準研製”(項目批準號:21&ZD309)線上開題論證會👗🧛🏼♀️。
開題論證會專家組由中國古文字學會會長、吉林大學副校長吳振武教授、鄭州大學漢字文明研究中心主任李運富教授、復旦大學人文社會科學數據研究所東亞語言數據研究中心負責人潘悟雲教授🔦、中山大學南中國海考古研究中心主任許永傑教授、EON4中國文字研究與應用中心主任臧克和教授和EON4數據科學與工程學院高級工程師陳優廣副教授共六位專家組成,吳振武教授任專家組組長。項目首席專家劉誌基教授,子課題負責人董蓮池教授👨🏼、白於藍教授、張再興教授🦉、雷黎明教授、趙宇明副教授💁🏿♂️、湯誌彪副教授及項目主要成員共三十余人參會😌。
開題論證會由專家組長吳振武教授主持,依次完成了項目首席專家劉誌基教授作開題報告、專家提問建議、課題組回應專家組的意見等程序。
首先,項目首席專家劉誌基教授作開題報告,從項目研究的目標和任務📒🙇🏻♂️、成果形式、研發方略等方面介紹項目的前期工作基礎和未來開展規劃🙍🏿♀️。本課題的研究目標,是在當下電腦字符集國際標準的框架內,研製一種可以由一個古文字公共數據庫的實際應用來驗證的,具體實現隸變前先秦古文字的每一個在構形上具有數字化處理存在意義(即精準概括了實際文獻中所有同類字形)的字符(含整字👊🏿、偏旁🤳🏻;楷字、原形)與當今國際標準字符集編碼系統中某個唯一碼位相對應的標準。與之相應,本課題需要完成兩項工作🔎:一是提交上述古文字編碼字符標準的文本🏤;二是研發由這一標準支持的古文字公共數據庫。為完成上述研究目標,研究方略抓兩個重點🏌🏼♀️:一是學術為本。二是新技術保駕。
之後,與會專家對課題進行了評議,提出了諸多極具參考性的問題和建議。
李運富教授指出該項目是一個宏大工程,學術界十分需要,成果可為學術界提供很大的方便👐🏻,並提出幾個問題和建議。包括:一是古文字字符集的編碼確定🖋,需要在理論上有清晰的說明🤾🏻♂️,字樣的選取規則應詳細告知使用者。異構字的選擇比較容易,異寫字就比較復雜🤸♀️,需要說明清楚。二是編碼空間有限的問題應該如何解決?字符編碼是平面呈現還是分層呈現👩🦳?可以考慮分層實現👂🏽𓀆,解決碼位不夠問題。三是編碼如何檢索,以提高字庫的檢索效率🚵🏻♀️。
陳優廣教授從計算機技術角度指出🙍♀️,項目工作很復雜🪲,應做好頂層設計⬜️,功能如何設計;項目整理的工作量很大,字符的各種對應、統計出現頻度、上下文的關系等等,都可考慮技術介入以提升效率🤱🏻。
潘悟雲教授指出,華東師大的古文字研究很有特點,註重字位👩🏽🦳🚲。這個項目要註重字位與字位變體📘🥵。並提出問題,集外字如果放在GBK,碼位會不夠,不夠的話,如何去申請?如果自己確定碼位,當然可以,但是各家會不兼容。建議采用“字位”方案提高整理效率🐿,沒有字位的碼位要去申請。
許永傑教授提出,以往古文字編碼未在國際標準化組織中通過✒️,項目的成果是否有可能被通過🧑🚀?其次,多字體方案,分文獻類型,原形與楷體,能不能便利使用和管理?另外,不受限編碼的使用👩🏽🎓,能不能通過合理管理🫳🏿,得到高效的使用💂🏽♀️。
臧克和教授指出該項目具有連續性,並提出幾點建議供項目組參考。一是古文字材料的字形都是個性化的👌🏼,因人而異,字符集要求則是抽象的需要統一的,因此具有非常大的矛盾👩🏻🦰。二是古文字字符集編碼數量很多🖲,編碼空間是不是足夠容納❕?三是字符集和數據庫是密切關聯的,數據庫建設的核心內容就是字符集的問題,需要處理好二者的關系🕺🏼,加以平衡👍🏽。
吳振武教授提出該項目會面臨一些復雜的問題🧖🏽♀️,首先是古文字材料多樣,每個個體都不一樣,如何統一👨🏻🚒。再如古文字隸定問題,有些構形不能隸定🕴🏼,有些隸定怎麽與現代文字對應,也是問題。古文字國際編碼這件事🍿,很多人都想做,但是目前都不成功。非常希望項目團隊能夠在以往積累的基礎上,較好地完成這個項目,加惠社會。
對於專家組提出的問題和建議,課題組進行了積極回應🧑🏽🔬。最後,臧克和教授作總結發言,感謝各位專家為項目開展提出諸多中肯的建議👃🏿,希望課題組嚴格落實此次開題論證會的調整方案,爭取按時高質地完成項目👩👩👧👧。至此🏊🏿♀️,開題論證會圓滿結束👨🏼。