摘要
大數據時代,網絡數字痕迹成為彰顯公衆議題關注及政策偏好的新途徑。本文以網絡搜索行為為例,基于百度搜索數據采集了 2011 - 2017 年 26 個政策議題的 2 億餘條關鍵詞指數,探索研究公衆的搜索行為與公共( 政策) 關注度。這七年間,公衆對文化娛樂議題的關注度最高,财政金融、就業、交通等财經和基礎設施類議題次之,再次為教育、環保、衛生等民生類議題。同類議題關注度在省級層面具有曆年趨同性,而不同議題的關注度存在地域差異性。面闆數據分析發現,人口規模、消費物價指數、網民占比、失業率和經濟發展水平等經濟社會因素可以有效地解釋議題顯著度的差異,即公衆對特定政策的關注度受到地區經濟社會條件的顯著影響。
關鍵詞
大數據 搜索行為 公共關注度 百度指數 政策偏好
一、引言
一個多世紀以來,政治學家們一直緻力于探究國家與社會互動以理解政治制度的作用,而在這種互動中最基礎因素便是公共關注度(publicattentiveness)(Ripberger,2011)。公共關注度呈現政治過程中的公衆的政策偏好和注意力分配,在政策過程中發揮重要作用。傳統研究通過抽樣調查來了解政策議題的關注度,并通過追蹤數據來獲取公衆在特定時間内政策偏好的變化及其對政府回應性的影響。随着學界對調查方法信效度之局限的進一步認知(Mellon,2013),一批學者開始尋求将各類媒體作為測量公共關注度的有效途徑,考察特定權威媒體或流行媒體在某時間段内對特定議題的關注和讨論。
然而,媒體關注是否能真正代表公共關注度這一疑問随後被提出,并在議程設置理論(agenda- settingtheory)中獲得廣泛探讨。麥庫姆斯認為記者群體可能通過其對感知到的公共利益有所回應而推進了公共議程,進而影響到媒體議程(Mc-Combs,2004)。蘇梅克和裡斯(Shoemaker&Reese,2014)進一步以五維概念模型(記者個人、媒體例程、組織因素、社會制度和文化/意識形态)來解釋媒體議程形成的影響因素。在上述探讨媒體關注、議程設置轉換(reverseagenda-set-ting)的諸多研究中,學者們遺漏了媒體關注對政策偏好之主體———“公衆”考量的不足。因而,公共關注度的界定及操作化再次成為學者在研究國家社會關系、政府回應性中的關鍵問題,而智慧治理客觀上要求政府利用大數據實時、動态和全面地測量多元化民意及其變化(孟天廣、趙娟,2018;Russelletal.,2014)。
互聯網與大數據等新興信息科技在重塑公衆生活和政府治理模式的同時,使網絡數字足迹的采集和分析成為可能,由此,網絡空間的海量行為數據為有效測量公共關注度提供了可行路徑。本文提出了利用搜索行為數據對公共關注度進行測量,試圖考察特定時空環境下政策關注度的地域分布和時間變化趨勢,并運用2011-2017年省級面闆數據探究公共關注度的宏觀影響因素,以因應大數據時代對公共關注度加以測量與分析的需求,進而提出新的研究方法與分析視角。
公共關注度:概念界定及操作化
(一)公共關注度
網絡行為數據不僅反映着公衆對某些議題是否關注及關注程度如何,而且反映着公衆對某些特定議題的意見。有學者對公衆關注與公衆意見進行了區分,認為公衆關注事關人們想什麼,而公衆意見是關于人們怎麼想,前者需要人們願意為之付出諸如時間或注意力等稀缺資源(Newig,2004)。Ripberger利用網絡數據追蹤流感等疾病信息的擴散分析,将網絡數據分為基于供給的( supply-based)和基于需求的(demand-based)兩類:基于供給的數據如臉書、網頁等社交媒體上發布的數據,基于需求的數據則是人們主動在網絡上搜索的數據(Ripberger,2011)。基于需求的主動搜索行為反映了人們對某些主題的關注度,通過信息搜索和了解以滿足其需求。
運用基于需求搜索數據對公共關注度進行測量已逐步展開,主要體現在運用網絡搜索來對熱議事件進行整體認知,以預測未來行為。如目前已有使用谷歌趨勢(GoogleTrends)、I4S以及Yahoo等搜索引擎所獲得的大數據,在醫學、經濟學、傳播學等領域進行公共關注度的測量或對相關事件進行預測。譬如,在醫療領域,Ginsberg等人(2009)提出利用谷歌搜索數據開展流行病預測,Ripberge等人(2011)運用與流行病學相關的谷歌詞彙搜索數據追蹤傳染病的擴散。
在經濟領域,有學者基于I4S搜索工具對諸如零售銷售、汽車銷售等經濟活動或運用與金融相關的98個谷歌搜索詞來對股市波動進行預測( Preisetal,2013)。國内學者也利用百度指數考察長三角、東北地區城市經濟集群和城市網絡特征的創新性(熊麗芳等,2013;趙映慧等,2015)。
在傳播學領域,陳雲松等(2015)使用谷歌圖書大數據,測量中國城市國際知名度300年來的變遷及其特征,認為近代大陸城市的國際傳播主要是通過媒體報道而進入西方社會。曾凡斌( 2018)利用百度指數分析媒體議程顯要性與受衆議程顯要性之間的關系,他以2013-2016年間75 個網絡熱點輿情事件為例,發現二者顯要性的相關性受網絡熱點輿情事件屬性的限制:當網絡熱點輿情事件屬于社會新聞事件或國外政治事件時,媒體與受衆兩個輿論場顯著正相關;而在社會類網絡熱點輿情事件中,媒體議程的顯要性與受衆議程的顯要性低度相關。這證明媒體議程所呈現的公衆關注與公衆實際關注之間具有一定差距。
因此,公衆對政策議題的關注及其測量,為大數據時代新興研究方法提供了機會與土壤。整體而言,目前國内運用大數據對公共關注度測量及解釋的探索研究尚較匮乏。本文正是在此基礎上,借助對網絡信息汲取行為影響甚廣的百度指數的時間序列大數據彌補這一研究空白。
(二)公共關注度的測量
公共關注度是基于個體對某公共議題的興趣,出于好奇而産生的搜索行為。互聯網搜索行為是在線大數據中較有代表的信息(劉濤雄等,2015),基于搜索行為而得的百度指數,是公衆在某段時間内對該議題主觀探索和注意力分配的體現。Pelc(2013)不僅利用搜索數據衡量了公衆的政策情緒,還從信息政治的角度探讨了信息探求行為可以成為政治動員的重要機制來推動國際規則的變化。簡言之,如果我們認為人們如何以及何時搜索公共議題信息準确地反映了個體關注模式,那麼彙聚這些行為以評估公共關注度就是合理和恰當的(Ripberger,2011)。
由此,通過搜索方式獲取信息,則是公衆對某一議題直接關注的主動行為,可以成為社會科學研究中映射人們經濟和社會行為的重要方式(Scheitle,2011)。以百度搜索網民為對象的分析顯示,截至2017年12月,百度搜索的日均請求已達70億次(中國科協,2017)。對網民搜索行為的挖掘和分析,可準确了解規模龐大的網民的實時需求,為政府精準決策提供依據。截至2017年12月,我國搜索引擎的用戶規模達6.40億,網民使用率83.8%(CNNIC,2018)。百度無疑在中國搜索引擎市場中占據絕對領先地位。截至2016年12月,百度的品牌滲透率已達82.9%,遠遠高于排名其後的搜狗和360搜索(CNNIC,2016)。百度在用戶搜索行為中的滲透使其成為分析公衆搜索行為的重要數據源。與此同時,百度推出的百度指數服務則是對龐大用戶群體搜索行為的大數據彙集。
百度指數是百度以網民海量搜索數據形成的數據分享平台。自2006年開始提供PC端搜索指數,2011年1月開始提供移動端搜索指數。使用百度指數測量公共關注度的合理性主要基于以下考慮:一方面,互聯網現已成為國人感知社會、獲取信息以及社交互動的重要場所,其中百度指數最能反映網民對未知信息和焦點事件的探索行為。另一方面,百度指數是關鍵詞搜索規模和搜索頻次的加權,對關鍵詞及來源相關詞和去向相關詞的分析,可從中尋得網民對焦點關注及相關議題的關聯度,從而分析公共關注議題之間的關系。積累長時段百度指數,實際上建立了不同時期網民對社會議題的關注程度、變化趨勢、區域分布以及焦點議題相關性的知識庫。
本文運用26個政策領域的主題詞進行分類,将百度指數關鍵詞與之對應分析,透視各政策議題在時間和地域維度的公衆關注度,并總結其時空特征,分析議題關注差異影響因素。百度指數反映了所有網民在網絡環境中的主動搜索行為,是其對所關注問題的最直接需求的體現,但在深層次需求表達中,則受到更多宏觀影響因素。基于此,本文進一步将區域經濟發展水平、網民占比等宏觀因素納入考量,來探讨公共關注度呈現地域差異的原因所在。
數據來源和研究方法
鑒于百度自2011年始提供移動端搜索指數,本文使用2011-2017年的百度指數作為測量公共關注度的數據源,包含移動端和PC端,以全面利用網絡搜索行為反映公共關注度。對每天關鍵詞搜索進行聚類分析,可獲得網民在特定議題上的關注熱度、變化趨勢和空間分布,進而分析其緣由。本研究涉及26個政策領域的401個關鍵詞,運用爬蟲技術将關鍵詞搜索指數進行抓取。目前共采集到31個省級單位、336個地級市層面26個政策領域的日度搜索指數2億餘條。以日為單位可以獲取政策關注度的曆時動态,可對比由于公衆的各類感知而導緻的時空差異,在此基礎上對其進行顆粒度較高的時空差異分析。
政策領域來源于2017年國務院各部委分類,分别為财政、城建、反腐敗、公共交通、國防、國土、環境保護、教育、金融、經濟發展、就業與勞動、科技、民族事務、企業事務、三農問題、商務議題、社會保障、社會救濟、社會治安、水利、司法、外交、衛生、文化娛樂、質量安全、住房與拆遷。各議題通過不同的關鍵詞予以聚類,關鍵詞的篩選具有兩大依據,一是根據各部委官網對其職能範圍的界定形成測量特定政策領域的關鍵詞庫,二是根據專家研讨和爬蟲測試來确定最終關鍵詞列表。表1呈現了2017年全國議題熱度排名前十的政策議題的關鍵詞列表。
由于關鍵詞體量較大,本文基于議題将特定政策領域的關鍵詞進行彙總,獲取每一政策議題綜合指數,作為當年公共關注度測度,以獲得時間軸上具有一緻性和可比性的測量。本文所使用的政策領域平均日指數是議題下所有關鍵詞平均日指數的平均值,月指數是議題日指數的月平均值;以比較不同時空特定議題的公共關注度。
此外,為考察公共關注度的宏觀影響因素,以評價利用搜索行為測量公共關注度的效度,本文收集了2011-2017年省級經濟社會發展的變量,數據來源于國家統計局官方網站。具體而言,地區經濟發展通過人均GDP、居民消費價格指數、地方财政支出占GDP比重進行測量;網民規模運用國家統計局公布的我國各省6歲以上互聯網上網人數占總人口比例進行衡量;人口規模和登記失業率也來自相應年份的《中國統計年鑒》。

本部分從七年間各省公衆最關注的議題入手,從時間和空間兩個維度考察了公共關注度,以此來考察政策議題的空間集聚和空間異質性。考察政策關注度的時空差異有助于理解其測量效度。
首先,綜合考察全國2011-2017年公共關注度。我國公衆最關注的議題領域在七年間基本穩定,主要涉及文化娛樂、财政金融、司法、社會民生類和經濟企業類。随着經濟發展和生活水平的提高,公衆對旅遊、影視等文化娛樂需求逐步上升,對該類信息的搜索量長期居于首位。文化娛樂關注度是排名第二的财政議題的2.1-3.6倍,遠高于其他議題。其次,公衆對涉及财政收支、稅收類信息的财稅議題關注度較高,且對涉及貨币、期貨、股票、貸款等金融議題亦較關注。再次,司法類議題在七年間均位列十大議題,凸顯人們較多地關注裁決、法制等信息;最後,公衆對民生政策的關注主要涉及就業與勞動、教育、公共交通、住房與拆遷等議題,累計關注度很高。
從議題類型而言,七年間公共關注度議題穩中有變。2011年最關注的十大政策是文化娛樂、财政、金融、就業與勞動、教育、公共交通、社會保障、企業事務、經濟發展和司法議題(如圖1)。七年間,公衆持續關注财政、金融類議題,2014年司法議題上升至第三位,反映了公衆對司法改革的重視以及法律意識的增強。在民生領域,七年間公衆持續關注就業與勞動、教育、公共交通與社會保障等議題。2011年-2014年更關注就業、教育、交通與社保;2015年,環境保護上升為最受關注的十大議題,公衆對污染、霧霾、粉塵等關鍵詞的搜索量陡增。2016和2017年,公衆分别對衛生和住房議題關注度凸顯。

從省份差異來看,各議題在不同時間段呈現出空間差異。2011-2017年各政策關注度最集中的省份是北京和廣東。北京居民對公共交通的關注度居全國之首;廣東居民更關注文化娛樂、社會治安、社會保障等議題。金融、就業與勞動、企業事務、社會救濟、司法等議題于2011-2012年在北京關注度最高,2013年以後廣東超越北京。從區域分布來看,東中西部議題關注度同異并存。東部地區公衆更關注與企業發展有關的工商、稅務、合同、專利等事務;中部地區公衆更關注看病、醫療等衛生事務;西部地區公衆相對更為關注民族團結、民族文化等民族事務。就關注強度而言,呈現顯著區域不均衡趨勢,即東部關注程度最強、西部最弱,中部居中。

百度搜索行為數據體現了其在一定時空範圍内的注意力分配和政策偏好。然而,僅僅針對搜索行為映射的公共關注度開展相關性分析不足以理解公共關注度的成因,因此迫切需要基于大數據開展因果性分析(孟天廣,2018)。簡言之,人們在網絡空間的關注度和政策偏好可能受到宏觀環境的影響,而使其呈現顯著的時空差異。本部分對不同地域公衆在十個主要政策領域的關注度展開實證分析,采用2011-2017年我國省級面闆數據考察公衆在經濟發展、民生福利、司法和文化政策之關注度的經濟社會成因。
(一)變量界定
本文通過面闆數據模型進行分析。因變量是十個政策領域的公共關注度,主要包括七年來公衆最為關注的三大類議題,即經濟發展類議題(财稅、金融、交通和就業)、社會民生類議題(衛生、教育、環保和住房)和其他議題(文化和司法)。自變量包括各省經濟發展水平、消費物價指數、财政支出水平和登記失業率等經濟因素,以及人口規模、網民規模等社會因素。根據上文,上述事項議題基本上覆蓋了全國範圍内公共關注度的主要維度,而公共決策的既有文獻發現,宏觀經濟條件和社會發展決定着特定時代人們的政策偏好及其變化(Hall,1993)。經濟波動或經濟困難通常引起公衆政策偏好的快速演變,如果政府未能及時捕捉并回應這種偏好變化,就可能釀成信任赤字(FernándezalbertosandKuo,2016)。為了呈現搜索行為反映公共關注度的外部效度,本文重點考察了經濟和社會發展因素對不同領域政策關注度的影響。表3呈現了自變量的描述性統計分析。
(二)面闆模型的發現
面闆數據(paneldata)是研究對象在時間和空間兩個維度上變化的記錄,是在時間序列上取多個截面,在這些截面上選取一緻樣本所構成的數據。因此,從橫截面看,面闆數據是若幹個體在某一時刻構成的截面觀測值,從縱剖面看是一個時間序列。面闆數據結合了橫截面數據和時間序列數據的優勢,在方法論意義上有諸多優勢:首先擴展了樣本量,為統計檢驗提供了更高的自由度;其次提供了更多個體(或單位)層面跨時變化或跨時不變變量的豐富信息;再次可以有效地解決遺漏變量(尤其是跨時不變遺漏變量)問題( Wooldridge,2002)。因此,面闆數據模型成為探究宏觀經濟社會現象的常見計量模型,主要估計方法包括混合回歸分析、随機效應模型和固定效應模型。

具體到本文,我們同時開展了随機效應估計和固定效應估計,豪斯曼檢驗建議選擇固定效應模型。本文考察的截面單位是省份,而各省特定的發展階段對于因變量的區域差異具有重要影響,因此采用固定效應模型來拟合數據更為合理。考慮到各省人口基數(尤其是網民規模)的巨大差異,因此直接比較省份間百度搜索指數的差異并不具有可比性 。因此,本文的因變量依據各省當年人口規模進行加權,以每萬人搜索指數作為因變量。表4呈現了10項政策關注度的固定效應模型估計結果。

盡管表4呈現了非常豐富的研究發現,但我們仍然可以總結出若幹個基本規律,這為我們深入理解不同政策領域公共關注度的形成及其變化有重要價值。首先,就經濟發展類議題的關注度而言,本文所假設的理論模型具有較好解釋力,财稅、金融、就業和交通等政策關注度的面闆模型的解釋力均超過50%。經濟發展類議題關注度受到經濟發展水平、政府财政開支規模、經濟波動等因素的重要影響,而人口規模和網民占比也有一定影響。具體而言,财稅政策關注度主要受到網民占比、人口規模和居民消費物價指數的正向影響;金融關注度主要受到經濟發展水平和财政支出占比的積極影響,而體現經濟波動的消費物價指數和登記失業率也帶來人們對金融政策的更多關注;就業政策關注度的影響因素比較多元,人口規模、經濟發展水平等結構性因素導緻更多的就業關注度,而消費物價指數和登記失業率的增長也如預期一樣引起更多關注;交通關注度主要受到人口規模、網民比例等社會性因素的正向影響,而财政支出占比導緻更少的交通關注度。
其次,就民生福利類議題而言,本文構建的模型解釋力最好,環保、教育、衛生和住房等政策關注度的面闆模型的解釋力約在70%。民生福利類議題關注度同時受到經濟因素和社會因素的影響,總體上人口規模、網民占比顯著地提升了人們對民生福利政策的關注度,經濟越發達的省份人們越關注民生福利政策,而涉及民生水平的消費物價指數、登記失業率等均與民生政策關注度顯著正相關。具體而言,環保和衛生政策關注度主要受到人口規模、網民占比、經濟發展水平的正向影響,而較高水平的物價變動和失業率導緻人們更關注環保和衛生政策;教育政策關注度除了受到人口規模、網民占比和經濟發展水平的正向影響外,登記失業率也引起人們更關注與人力資本培育相關的教育政策;住房政策關注度受到人口規模、人均GDP、物價指數和登記失業率的顯著影響,但網民占比不影響人們對住房政策的關注度,這顯示住房政策受到更廣泛群體的關注。
最後,本文模型對司法議題的關注度具有較強解釋力,但對文化議題關注度解釋力較弱。與民生政策類似,司法議題關注度主要受到人口規模、網民占比、人均GDP、物價指數和失業率的顯著影響,而人均GDP與消費物價指數對司法議題關注度的互相抵消效應更強;文化議題關注度并不受經濟發展和社會因素的影響,僅有消費物價指數對其有負向影響,即物價上漲導緻人們更不關注文化議題。除了交通、教育等少數政策關注度,經濟發展水平與消費物價指數始終互相削弱着彼此對各類政策關注度的影響,這表明在經濟越發達的地區,物價上漲會帶來人們注意力分配的轉移,即對私人(經濟)事務的關注度超過公共關注度,進而削弱其政策偏好的形成。
結論與讨論
以大數據及相關技術為引領的治理能力建設,正在對人類社會發展、公共治理和生産生活方式帶來巨大影響(孟天廣、張小勁,2018)。盡管搜索引擎具有大數據分析的局限性,如原始搜索頻次不可獲得、搜索樣本在人群中是非随機樣本;甚至可能如谷歌趨勢由于算法不穩定而産生信度問題(Lazeretal,2014)等。仍不可否認地,網絡搜索行為反映了公衆對感興趣政策議題的強烈關注和行動傾向,“人們搜索某一術語并不必然完美地代表全體人群,但其興趣動态可近距離反映全體公衆的行為痕迹”(Mellon,2014)。伴随着互聯網及其應用的不斷擴展,網民成為世界各國公衆的主要構成,也日益成為影響政策變遷的重要群體,而網絡參與逐步成為公衆參與治理的關鍵途徑(Jiang,MengandZhang,2018)。大數據技術的蓬勃發展,以及公衆對網絡搜索引擎的日益依賴,網絡搜索行為将成為感知公共關注度及其變化的一種有效路徑,未來亦可成為政府利用民情民意數據把握和預測政策偏好、政策情緒的主要數據源和有效機制。
本文利用百度搜索行為大數據,對全國31個省市2011-2017年間26個政策議題的公共關注度展開分析,以探究我國公衆政策關注度的變遷及其經濟社會成因。本文從省級層面,對不同省市公衆在跨時空場景下對不同議題的關注變化趨勢進行了以年、月、日為單位的分析,并運用空間分析呈現了政策關注度的地域特征及其變化。總體上,網絡搜索數據可以有效地測量特定地區和時間場景下公衆的政策偏好和情緒。相比民調等傳統方式,搜索行為測量公共關注度具有下列優勢:首先,搜索行為數據覆蓋面廣泛、體量巨大、維度豐富,涉及絕大多數網民群體,具有較好的數據代表性;其次,網絡搜索行為具有非常豐富的時間特性,當我們以年、月、日等不同時間顆粒度來觀察公共關注度時,既可以獲得公共管理迫切需要的高時效性數據,也可以獲得政策決策和評估所需要的長效性數據;再次,與傳統調查和訪談等自報數據相比,網絡搜索行為屬于消極數據,本質上是人們真實社會行為的投射,因而可以避免社會意願偏差、自選擇缺失和偏好隐藏等方法論困惑。
在此基礎上,本文利用面闆模型解釋了2011-2017年各省公共關注度的成因,推動了我們對不同政策關注度的形成及其變化的理解。經濟發展類政策關注度主要受到經濟發展水平、政府财政開支等宏觀經濟條件和物價變化、失業率等經濟波動的影響;民生福利類政策關注度同時受到人口規模、網民比例等社會因素和經濟發展水平、物價變動、失業率等經濟因素的影響;文化議題關注度并不受經濟發展和社會因素的影響,僅有物價變化對其有負向影響,物價上漲導緻人們更不關注文化議題。此外,經濟發展與消費變動對政策關注度的影響存在條件性關系,即二者對經濟發展、民生福利政策關注度的影響均存在互相抵消關系,在經濟發達地區,物價上漲會帶來人們注意力分配的轉移,即對私人(經濟)事務的關注度超過公共關注度,進而削弱其政策偏好的形成。
最後,本文從方法論意義上探讨了從搜索引擎大數據測量公共關注度的可行方法,拓展了目前關于大數據應用于社會科學研究的方法集。其次,對百度指數以日、月、年為單位的精細分析,可發現搜索行為與社會現象高度關聯的客觀規律,可為政府運用大數據提升治理能力、實現精準治理和高效回應提供科學依據。當然,由于采集搜索數據的體量龐大、維度多樣,本文對公共關注度的時空模式和宏觀規律的分析尚未窮盡,可能挂一漏萬。這需要未來進一步有效利用海量搜索行為數據,進行更為深入和系統的研究。