2022年5月25日,第六期“領航學堂·學術沙龍”在伟德bevictor中文版502會議室舉行。本期活動特邀伟德bevictor中文版施燦業老師作題為“Text as Data:計算社會科學的技術路徑與前沿問題研究”的主題分享,活動由21級碩士研究生周男主持。
【主題分享】
首先,主講人利用統計方法、量化指數以及全球調查的方式,以民主測量為主題,對比一些國際評級機構的“客觀民主指數”與我國民衆的民主評價指數,讓同學們了解到國際機構民主評級指數流傳的“廣泛性”并不意味着“客觀性”和“認同性”。在民主理論和方法論層面,國際機構評級指數從一開始就具有強烈的意識形态屬性。
接下來,主講人具體講解了大數據文本統計方法,通過建模的技術對文本進行量化分析。主講人主要介紹了兩種文本分析方法,即詞袋模型和詞嵌入,并且說明雖然高級方法(詞嵌入)更為準确,但現在一般使用的是傳統方法(詞袋模型)。
最後,主講人以原始文本數據為基礎,通過舉例講解了語料庫的搭建,重點介紹了TF-IDF模型。TF-IDF(詞頻-逆向文件頻率)是一種用于信息檢索與文本挖掘的常用加權技術。它是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性随着它在文件中出現的次數成正比增加,但同時會随着它在語料庫出現的頻率成反比下降。TF-IDF的主要思想是如果某個單詞在一篇文章中出現的頻率TF高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類别區分能力,适合用來分類。
【交流環節】
問:請問怎麼做文獻收集?
答:可以通過知網和圖書館的文獻檢索來收集,或者看别人引用的文獻也是可以的。
問:請問您如何評價馬學科的政治經濟學批判理論方向?
答:中西方的話語體系不一樣,但政治經濟學批判有很大的發展前景,值得進一步加強研究。
問:如何順利地申請讀博呢?
答:選擇适合自己的,多進行嘗試,要提前準備,多聯系導師,多聽導師的課。
本次學術沙龍在同學們的掌聲中落下帷幕,非常感謝施燦業老師精彩地講解,讓我們共同期待下一次吧!
歡迎關注官方微信