學(xué)校第十一次黨代會已經(jīng)勝利閉幕,為幫助全校師生更好地學(xué)習(xí)把握黨委工作報告,我們利用大數(shù)據(jù)分析中的文本分析(挖掘)技術(shù),對報告文檔通過計(jì)算機(jī)自然語言處理、數(shù)據(jù)可視化展示,揭示出在非結(jié)構(gòu)化文本信息中的人物、事件、時間、地點(diǎn)等內(nèi)容,從而提供對報告全新層面的解讀。
一、關(guān)鍵詞提取
學(xué)校第十一次黨代會黨委工作報告全文約1.37萬字,將報告文檔做詞云分析,生成報告詞頻的權(quán)重數(shù)據(jù),導(dǎo)入學(xué)校海燕識別圖像生成詞云圖,通過提取關(guān)鍵詞揭示黨代會報告的核心要點(diǎn)(如圖1所示)。(注釋:詞云圖是對文本文檔中出現(xiàn)頻次較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或者“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使讀者可以短時間內(nèi)領(lǐng)略文本的主旨)

圖1 海燕詞云圖
通過圖1的詞云圖可以看出,建設(shè)、學(xué)科、發(fā)展、人才、特色、治理等詞匯是大會報告中權(quán)重較大的,關(guān)鍵詞詞云圖分析結(jié)果比較充分地展示了學(xué)校黨代會報告的核心概念。
二、詞頻統(tǒng)計(jì)
將報告文檔導(dǎo)入數(shù)據(jù)分析系統(tǒng)進(jìn)行中文分詞處理,首先直接進(jìn)行分詞再統(tǒng)計(jì)詞頻,詞頻位于前30位的結(jié)果如圖2所示。另外,針對分詞結(jié)果添加自定義分詞(如“高水平”“新時代”“青科大”“強(qiáng)?!薄岸蟆钡龋?,進(jìn)行詞庫重載后再進(jìn)行分詞并統(tǒng)計(jì)詞頻,位于前30位的結(jié)果如圖3所示。

圖2 報告文檔詞頻統(tǒng)計(jì)前30位

圖3 自定義分詞后詞頻統(tǒng)計(jì)前30位
通過圖2及圖3可以看出,建設(shè)、學(xué)科、發(fā)展、人才、學(xué)校位于會議報告詞頻的前五位,圍繞學(xué)科、人才推動學(xué)校建設(shè)發(fā)展是今后工作的中心。
三、情感分析
對文檔進(jìn)行一般性行處理,將處理好的文檔導(dǎo)入數(shù)據(jù)分析系統(tǒng)進(jìn)行文本情感分析(注釋:文本情感分析也稱為意見挖掘,是指用自然語言處理,文本挖掘以及計(jì)算機(jī)語言學(xué)等方法來識別和提取原素材中的主觀信息以及詞匯隸屬的情感分類),文本情感分析結(jié)果如表1、圖4所示。
表1 情感分析結(jié)果

圖4 情感分析儀表盤圖
通過圖4可以看出,整篇報告結(jié)構(gòu)合理,涉及到困難與不足約占3.82%,規(guī)劃藍(lán)圖、奮斗目標(biāo)、對策舉措、鼓足干勁的部分占了85.50%,其他中性描述性詞匯占比10.69%。整篇文檔符合“二八理論”,是一篇十分合理的報告。
四、共詞矩陣
將文檔繼續(xù)導(dǎo)入數(shù)據(jù)分析系統(tǒng)進(jìn)行社交網(wǎng)絡(luò)分析,形成共詞矩陣,然后可視化展示詞匯之間的關(guān)聯(lián)性(如某兩個詞同時出現(xiàn)在一句話中或者一段中可以視為他們之間具有相互關(guān)系)。關(guān)聯(lián)矩陣示意圖如圖5所示,矩形越大代表出現(xiàn)的頻率越高,線越粗代表兩者之間關(guān)系越緊密。

圖5 共詞矩陣的可視化展示
通過圖5可以看出,建設(shè)、學(xué)科、發(fā)展、人才、學(xué)校等占據(jù)網(wǎng)絡(luò)的核心位置,其他詞匯都是圍繞他們展開。關(guān)聯(lián)性較強(qiáng)的詞匯是(按關(guān)聯(lián)性依次減弱排序):建設(shè)、發(fā)展、人才、創(chuàng)新。
五、趨勢預(yù)測
采用類似于上述的方法,將報告前7頁(第十次黨代會以來的回顧)和后17頁(今后5年的發(fā)展)分為兩部分對比分析,結(jié)果如表2、圖6(氣泡圖)所示,藍(lán)色部分為報告前一部分,淺紅色部分為報告后半部分。
表2 報告前后部分對比分析


圖6 報告前后氣泡圖
通過表2和圖6可以看出,今后將以建設(shè)、學(xué)科、發(fā)展、人才、特色、治理等為主要努力方向。
六、新詞發(fā)現(xiàn)
分別對第十次黨代會報告和第十一次黨代會報告進(jìn)行分詞,并進(jìn)行詞頻統(tǒng)計(jì),得到表3。
表3 兩次報告詞頻對比

與學(xué)校第十次黨代會報告相比,“人才”一詞從第13名一躍成為第4位,位居本次黨代會報告詞頻前列,排名有了大大的提高;“建設(shè)”“發(fā)展”“學(xué)科”三詞一直位居詞頻統(tǒng)計(jì)前三甲,其中“學(xué)科”從第三名上升到第二名,在此次黨代會中出現(xiàn)的頻率變大;“鮮明”“高水平”等在報告中被頻繁提起?!爸卫怼薄胺ㄖ巍币辉~首次出現(xiàn),頻率分別高達(dá)16次、6次。這些新的“關(guān)鍵詞”展示了新理念、新觀點(diǎn),是對學(xué)校未來發(fā)展的明確回答,也是在實(shí)踐上作出的新部署。
學(xué)校第十一次黨代會報告意涵豐富,限于篇幅,本文于分析結(jié)果中擇一二闡述。從核心理念、基礎(chǔ)概念到報告新詞,利用大數(shù)據(jù)思想,加深解讀本次黨代會的主題思想輪廓,充分表明學(xué)校已開啟“深化人才強(qiáng)校、構(gòu)筑學(xué)科高峰、提升治理能力,建設(shè)特色鮮明、走在前列的高水平大學(xué)”新征程。
(作者:劉祥鵬、李曉涵等;分析單位:數(shù)理學(xué)院大數(shù)據(jù)研究中心、數(shù)理學(xué)院海貝瑞成數(shù)據(jù)開發(fā)聯(lián)合工作室)