<acronym id="asu8a"><center id="asu8a"></center></acronym><acronym id="asu8a"><center id="asu8a"></center></acronym>
<acronym id="asu8a"></acronym>
<acronym id="asu8a"></acronym>
<acronym id="asu8a"><center id="asu8a"></center></acronym>
大連理工大學 MBA    MEM  MPM
教學和師資
當前位置: 首頁 > 教學和師資 > 教師觀點 > 正文

郭崇慧教授:用大數據解讀政府工作報告

發布者:   時間:2019-04-03


DA15


郭崇慧教授:用大數據解讀政府工作報告

——新詞、熱詞描繪中國熱點變化與社會活力圖譜


每年全國兩會的國務院政府工作報告都成為各界人士關注的焦點,2019年兩會落幕,對政府工作報道的關鍵詞梳理又集中出現,如稅收、環保、精準脫貧、互聯網+農業、農村公路等等。

作為具有施政綱領性質的綜合政策性文本,國務院政府工作報告具有極其重要的指引意義。而各界分析人士對政府工作報告的解讀有所側重,歷年國務院政府工作報告內容篇幅較長,采用人工閱讀方式把握其整體動態演化情況,是一項極耗時的工作,因此如何高效智能地理解政府工作報告、提取相關重要內容,成為相關學術研究重點。

近五年該方面研究進入到了空前的繁榮階段,但如何有效地挖掘歷年政府工作報告研討的共性問題?如何挖掘熱點問題及變化規律、度量歷年社會活力變化?大連理工大學郭崇慧教授團隊進行的《國務院政府工作報告(1954 —2017)文本挖掘及社會變遷研究》,給出了一個有效、科學的操作方式。


頻繁詞、熱詞、新詞勾勒發展歷程

我國首份國務院政府工作報告產生于1954年,由于一些歷史原因,1961~1963年、1965~1974年以及1976~1977年間政府工作會議無法正常舉行,導致這些年間的國務院政府工作報告缺失。直到1978年以后,國務院政府工作報告才進入正?;?,每年都如期舉行。

截至2017年,國務院政府工作報告共49份,總自然段落數約0.52萬,總字數達104萬。

該篇研究中,對國務院政府工作報告以頻繁詞、熱詞以及新詞的劃分,進行了專項定量分析。

在關于政府工作報告的媒體報道中,社會通常以頻繁詞與關鍵詞來進行分析研究,而在郭崇慧教授團隊的該項研究中,頻繁詞、熱詞及新詞,三種詞具有特定的含義與功能。

研究結果表明,抽取出的頻繁詞、熱詞以及新詞能夠反映出工作報告中探討的共性問題、熱點問題及其演化規律以及歷年社會活力波動情況;根據特征詞時間序列聚類結果和整個時間階段合理的劃分結果,發現了歷年來國務院工作報告中存在的9種特征詞時間序列模式和12類主題?!敖洕母铩笔菗碛刑卣髟~數量最多的主題,占據了前1000個特征詞的23.13%。相對較大的主題如“農業”、“國內外環境與外交政策”以及“政府建設”,其特征詞個數所占比例分別為15.31%、12.5%和9.79%。相對較小主題如“人口、資源與環境”、“文化、衛生和體育”、“對外貿易”、“國防軍事”、 “人力資源與社會保障”、 “港澳臺”、 “科學技術”以及“教育”,其特征詞個數所占比例分別為7.5%、6.67%、5.31%、5.1%、4.06%、3.96%、3.85%和2.81%。各個主題下的特征詞個數所占比重如下圖所示。


9EA6


頻繁詞:“發展”始終是第一要務

頻繁詞就是單純指報告中出現次數最多的詞嗎?這么定義顯然是不科學的,語料庫中文檔篇幅長短分布不均勻都會影響頻繁詞。因此本研究利用四種特征詞篩選方法的組合對語料庫頻繁詞進行抽取,綜合得到所研究時間段內的高頻繁詞。

研究結果顯示,高頻繁詞能夠反映出政府持續關注的一些共性問題。根據與頻繁詞篩選相關的四個指標,分別計算并統計出整個時間段內語料庫中四個指標取值排名前 30 位的(可以根據特定需求進行改變)特征詞。

根據四個指標共同包含的排名前 30 位的特征詞,可以考察歷年國務院工作報告中重點關注的共性問題。四個指標中全部包含的特征詞,即發展、改革、農村、農民、農業、就業、國民經濟;其次有三個指標包含的特征詞,即經濟建設、金融、勞動、監督、計劃生育、和平、國有企業、國防、對外開放、出口以及安全等。

從頻繁詞的篩選結果可以看出,“發展”始終是我們黨執政興國的第一要務,“國民經濟”的提高是國家堅持不懈奮斗的重要目標,同時發展過程中離不開有效的“改革”,整個過程中,“三農”、“就業”是國家重點關注的問題。


熱詞:反映歷年社會關注熱點演化

許多應用性研究文獻把熱詞作為研究對象,而在其熱詞的選擇過程中大多直接根據自己的研究興趣和社會背景而直接給定,缺乏一些定量的選擇方法。

熱詞,即若某詞在某年文檔中使用頻率較高,而在其它時間文檔中使用頻率較小,則可稱該詞為該年文檔的熱詞。熱詞不同于文本中的頻繁詞,熱詞是某一段時間內頻繁出現的詞;某年的熱詞很可能是該年的頻繁詞,而不一定是其它年份的頻繁詞。熱詞能夠在一定程度上反應出當年關注的并異于其它時間年份的熱點、焦點和重點話題。

依據熱詞權重的計算方法,可以得到每年國務院政府工作報告中關注的熱點詞匯,通過對熱點詞匯的分析,能夠大概了解到當年關注的熱點問題,進一步能夠進行歷年社會關注熱點演化分析。

從年度工作報告中排名靠前的30個熱詞,可以得出每年國務院政府工作報告中主要討論的熱點。1959年主要討論熱點集中于五年計劃、大躍進、整風運動以及西藏局勢等。 1984年主要熱點集中于世界各國軍備競賽和開放經濟特區及港口城市等。 1999年主要討論熱點集中于亞洲金融危機、下崗、洪澇災害、國有企業改革及祖國和平統一等。2004年討論熱點集中于抗擊非典勝利、就業和社會保障以及新型農村建設等。2017年主要集中于產能、“一帶一路”、經濟改革、民生以及生態保護等。



新詞:反應當年所關注的重要問題

新詞是隨著時代的發展而新出現或舊詞新用的詞,基于此標準,并根據國務院政府工作報告文本語言的特性,本研究對新詞進行了擴展性的重新定義。

根據新詞的定義,新詞除了具備新穎性和傳承性之外,該詞還是文檔中重要的并有區分性的詞,所以在進行新詞篩選的時候,需要綜合考慮此三方面的因素。

從研究結果中可以直觀地看出歷年國務院政府工作報告中出現的較為重要的新詞,如1959年的“人民公社”、“大躍進”、“西藏地方政府”等,1984年的“核裁軍”、“軍備競賽”、“利改稅”等,1999年的“擴大內需”、“澳門特別行政區”、“擴大財政赤字”等,2004年的“區域協調發展”、“新型農村”、“科學發展觀”等,以及2017年的“全面從嚴治黨”、“三去一降一補”、“河長制”、“人工智能”等。這些效果良好的新詞反應了歷年所關注的新的、重要的問題,結合歷史背景,也說明了本研究所提出的新詞篩選方法的合理性。


新詞給出社會活力定量計算方法

國務院政府工作報告中語言新詞的更新程度,也反應了人的積極性與創造性,即社會活力曲線。

活力存在于變化之中,所謂社會活力,就是蘊生于社會實踐基礎之上,通過社會交往,社會有機體煥發出來的生命力、創造力、持續力的總稱。

所以本研究從社會宏觀背景和國家政策語境出發,嘗試性地討論了社會活力的定量計算方法。

利用新詞綜合權重篩選出每篇文檔的前100個特征詞,然后通過計算100個特征詞的新詞權重的均值作為整篇文檔的權重,該權重一定程度上能夠反應文檔所在時間年份的社會活力。

統計中可以看出,從1954年到2017年,整體社會活力呈現與時增加的趨勢,尤其自2014年以來,受國家改革發展進入活躍期的影響,社會活力處于全時段最高階段。

社會活力值的大小,受當年社會發生的一系列變革的密切影響。如2013年之前的時間階段內,因為受當年中央一號文件“農民增收”出臺以及“三農”相關政策、重大傳染病艾滋病、亞洲禽流感、抗擊非典的勝利、法制建設以及維護社會穩定等突出問題的影響,致使2004年的社會活力指數較高。




郭崇慧教授研究團隊經過數年對國務院政府工作報告進行了從微觀到宏觀的綜合性分析,并得到了一些極有意義的結果,探究了歷年來關注的共性問題以及熱點的發展變化規律,給出了社會活力的動態變化圖,得出了與已有研究相吻合的時間階段劃分,并發現了所有國務院政府工作報告中9種特征詞序列模式。同時構建了國務院政府工作報告特定領域詞典、領域停用詞詞典以及領域同義詞詞典,這些工具可以為后續學者的研究提供方便。



來源:《國務院政府工作報告(1954-2017)文本挖掘及社會變遷研究》研究成果



346F

郭崇慧

大連理工大學經濟管理學院教授,博士生導師,系統工程研究所所長,大數據與智能決策研究中心主任,大連市數據科學與知識管理重點實驗室主任。中國系統工程學會常務理事,管理科學與工程學會常務理事,國家自然科學基金委創新研究群體學術骨干,《系統工程理論與實踐》和《系統工程與電子技術》期刊編委。入選教育部“新世紀優秀人才支持計劃”和“遼寧省百千萬人才工程”人選。曾任澳大利亞悉尼科技大學和美國新澤西州立大學高級研究學者。主要研究方向為大數據與智能決策、復雜系統建模與優化、信息與知識管理。主持國家自然科學基金項目5項,國家軟科學研究計劃重大項目1項。在國內外學術期刊發表論文100余篇,其中被SCI收錄40余篇,EI收錄60余篇。出版著作及教材6部,譯著1部。




分享到:

澳门赌城