2021年8月7日下午,北京大學中文系教授項夢冰應邀做客文學院,于教學三樓3141會議室做了題為“聚類分析在漢語方言研究中的運用”的學術報告。本次報告線上線下同時進行,設3141會議室為主會場,3134、3247兩個分會場。報告由文學院邵燕梅教授主持,文學院部分師生以及2021屆漢語方言田野調查高級研修班全體學員相聚云端,共同聆聽。

報告伊始,項夢冰教授從“聚類分析”這一概念切入,指出聚類分析是將樣品或變量按照它們性質上的親疏程度進行分類的一種多元統計分析方法。即將一組研究對象分為相對同質的群組的統計分析技術。聚類分析也叫分類分析或數值分類。其特點是:對象的類別是未知的。做聚類分析時,出于不同的目的和要求,可以選擇不同的統計量和聚類方法。聚類的基本要求是群組內部盡可能相似,群組之間盡可能有較大區別。如何算一個群組并無固定的標準,取決于聚類的目的。而不同的計算方法導致聚類結果有差異也較為常見。

隨后,項教授給大家推薦了NTSYSpc軟件。這款軟件是美國應用生物有限公司開發的非自由軟件,目前可使用網友共享的2.10e作為學習之用。目前包含聚類分析功能的優秀統計軟件有很多種,例如SPSS(Statistical Product and Service Solutions,統計產品與服務解決方案)。選擇NTSYS是因為它靈活小巧。
緊接著,項教授介紹了聚類分析的實例,并利用汪鋒、王士元(2005)的數據具體說明了NTSYS的操作。他指出聚類分析的特征選擇和特征量沒有一定之規,可以側重原始數據進行全面的計算,也可以謹慎選擇少量的特征進行特定的計算。例如王士元(1996)僅用四個觀察項(見曉組逢二等是否腭化;古平聲是否分化;古全濁聲母的演變;古塞音韻尾的演變)對七個漢語方言進行計算。汪鋒、王士元(2005)則用13個語義創新特征來進行計算。
報告最后,項夢冰教授談到對聚類分析工具應有的態度問題,認為漢語方言學搭上計算機技術發展的順風車,把聚類分析作為自己的工具,是完全必要的,也是完全可能的,因為各種統計軟件的設計越來越人性化,非常利于普及。不過,對于新工具的效能和局限也要保持清醒的認識,不可產生崇拜和迷信心理。如果以為有了聚類分析手段,方言研究中的一切分類問題就迎刃而解了,恐怕多少有些不切實際。聚類分析是一種倚重數量關系的分析,采用的方法不同,結果也往往有差異。聚類分析可以給分類工作提供重要的參考,但倘若奉之為圭臬則未免失于偏頗。

邵燕梅教授高度評價了項夢冰先生的報告,認為其實操性非常強,在漢語方言研究中具有驗證性和提升性作用。并希望廣大青年方言學者能夠在夯實專業理論的基礎上,學會使用聚類分析的軟件并付諸于方言實踐,使漢語方言學習和研究錦上添花。在交流互動環節,各會場師生積極地與項夢冰教授交流討論。項教授就“軟件使用的困惑”“個人數據選擇與處理”等一系列問題進行了詳細且耐心的解答。報告在熱烈的掌聲中圓滿結束。

主講人簡介:
項夢冰,閩西客家人,北京大學中文系教授,北京大學中國語言學研究中心、計算語言學教育部重點實驗室兼職研究人員,長期從事漢語方言學的教學和研究工作。
撰稿:牛蘭翠
攝影:高可
審核:邵燕梅