【CSR x Data】文字探勘[email protected]天下歷年文章

2020年6月30日 | 
李振北 Lee Cheng Pei
【CSR x Data】文字探勘CSR@天下歷年文章
文字探勘[email protected]天下歷年文章 - 文字雲|Sustaihub永訊智庫

[email protected]天下是由《天下雜誌》所創立,以企業社會責任為主軸的交流平台,提供國際趨勢的報導、專家學者的剖析、經典案例的分享等,引進最前瞻的觀念與做法,為CSR從業人員掌握產業動態及標竿案例的最佳平台之一。


為了觀察台灣近年的CSR發展脈絡,Sustaihub永訊智庫與[email protected]天下共同合作,分析平台上1,703篇文章,搭配AI人工智慧及自然語言處理(Natural Language Processing, NLP)技術,進行資料清理、數據轉換、探勘並萃取資訊,解析所有文章的內容脈絡。同時,應用資料視覺化(Data visualization)概念,將龐雜的資料轉化為易於理解的簡明圖表,也幫助讀者回顧過去的經典CSR相關文章。

2012 ~ 2020

文章年度

1,703

文章篇數

3,336,665

字詞總數


首先,我們先以最直覺的呈現方式分享文本探勘的結果,也就是文字雲(Word Cloud)。藉由統計分析[email protected]天下所有文章的關鍵字詞,越常提到的關鍵字,在文字雲中的字體則越大,顯示出重要關鍵字的程度差異。協助讀者可以在不閱讀所有文章的前提下,快速聚焦在大批文章中的主要探討的議題。

文字探勘CSR@天下歷年文章 - 文字雲|Sustaihub永訊智庫


從文字雲中可以觀察到,前十名的字詞為:企業社會責任、永續發展、氣候變遷、社會企業、再生能源、非營利組織、公司治理、天下企業公民獎、社會責任、循環經濟,顯示出[email protected]天下的文章內文遵循著初衷,探討的議題皆圍繞在CSR與永續發展上。

從中也可以觀察到一些時事字詞,包括新冠肺炎、能源轉型、地方創生、塑膠吸管、大學社會責任等,代表在不同時間點上,[email protected]天下的文章探討的主題也有所差異。因此,我們整理出2017年1月至2020年6月,每個月的關鍵字資料,搭配以下的動態橫條圖,可以觀察到各月份探討的主要議題分別是哪些。


Made with Flourish

以下表單依照每年各季度,整理出[email protected]天下主要探討的文章類型。


年度

2017年

2018年

2019年

2020年

第一季

氣候變遷

工作環境

企業社會責任

再生能源

千禧世代

氣候變遷

社會企業

二氧化碳

塑膠吸管

氣候變遷

永續發展

社會企業

第二季

社會企業

再生能源

利害關係人

塑膠吸管

公司治理

二氧化碳

氣候變遷

永續發展

再生能源

新冠肺炎

為淡水河做一件事

氣候變遷

第三季

再生能源

天下企業公民獎

公司治理

社會企業

塑膠吸管

天下企業公民獎

再生能源

氣候變遷

永續發展


第四季

社會企業

永續發展

公司治理

環境教育

天下企業公民獎

氣候變遷

社會企業

氣候變遷

再生能源



以上的關鍵字都是透過統計演算法,自動產出的分析結果。由此可見,藉由文本探勘方式,可以有效的觀察出媒體平台、新聞報導或社群網站等,有哪些潛在的議題正在發酵。Sustaihub永訊智庫也將擴大應用文本探勘技術,協助企業可以即時掌握CSR領域的輿情分析,進行潛在風險管理。

為了更精準的呈現[email protected]天下的文章類別與熱門程度,我們也分析文章頻道([email protected]天下平台的網站分類)及瀏覽次數等資料,期望瞭解讀者主要有興趣的文章類型是哪些。

Made with Flourish

[email protected]天下的文章頻道分為兩個層次,以環境永續(第一層)為例,底下(第二層)包含減塑減廢、節能減碳、永續生態、循環經濟、環境短訊、再生能源、氣候變遷、綠色金融。藉由層次結構的雷達圖(Radial Hierarchy Diagram),可以很清楚的觀察到各階層之間的關係,而第二層的柱狀體,則代表著該類別下,所有文章的總瀏覽次數。

柱狀體越高,代表該類別越多人瀏覽。因此,在環境永續下最熱門的文章類型是「減塑減廢」、CSR專題則是「愛台灣的外國人」、永續治理是「企業承諾」、社會參與為「公益慈善」、社會責任是「CSR新知」。

此外,也可以從中觀察到在所有第二層的類別中,最多人瀏覽的前三名類別為「減塑減廢」、「名家專欄」、「愛台灣的外國人」。


以下表單整理出2017年至2020年6月的熱門文章:


年度

文章類別

文章標題

瀏覽次數

2017年

愛台灣的外國人

「我不喜歡聽到別人批評台灣」──讓員工變幸福,是美國律師譚璧德愛台灣的方式

118,658

減塑減廢

連保鮮膜都不要 這家超市做環保超激進

93,835

名家專欄

【故事森林 王村煌專欄】零下20度的鏡頭 讓日本對台灣刮目相看

80,230

愛台灣的外國人

每年繳20%的稅給台灣  A-Lin的阿根廷爵士樂手只想圓夢

63,207

節能減碳

花7萬省下220萬 宏遠興業的鑽石級省錢絕招

59,373

2018年

愛台灣的外國人

在台30年美國導遊揭秘 台灣最吸引老外遊客的不是美食

284,241

愛台灣的外國人

「台灣哪裡不好?」 丹麥攝影師自掏腰包拍攝台灣味

170,335

愛台灣的外國人

台灣是第三世界國家嗎?一位德國記者眼中的台灣

104,949

減塑減廢

【德國現場】紙杯不環保,德國人一小時用32萬個,他們怎麼解決?

85,610

減塑減廢

無塑轉型只要10週 英國超市的永續秘訣

79,228

2019年

CSR新知

什麼是企業社會責任?一次搞懂關鍵字CSR、ESG、SDGs

106,392

減塑減廢

紙吸管不好用 越南發明天然植物吸管,減塑又能吃

86,929

減塑減廢

裝滿再飛!阿拉斯加航空的減塑法寶 每年消滅70萬個瓶裝水與400萬個塑膠杯

66,203

永續生態

【為淡水河做一件事】大河戀 從京都鴨川看淡水河的未來

61,015

減塑減廢

飛一趟少350公斤塑膠垃圾 全球第一班「無塑班機」起飛

45,481

2020年

USR‧大學社會責任

《USR》買不到口罩? 逢甲大學自己做送給師生

81,286

企業承諾

【疫情中一起前行 #3】專訪台灣潛水陳琦恩 虎鯨、鯨鯊出現了 人類社會的暫停是對海洋的救贖

73,054

社會企業

【104掌聲】基金會董事長的故事:陳俊朗與陳彥翰 愛無所畏 他是我老爸

66,399

專題策展

【疫情中一起前行 #15】微熱山丘因疫情掉八成業績 許銘仁:「品牌這麽容易就被打趴,那也太遜了」

65,584

專題策展

陳時中專訪 ・「如果決策下得再慢一點,那我們就死了」 陳時中的三個關鍵決策時刻

56,811


透過以上列表可以發現熱門文章的類型,主要是專訪(愛台灣的外國人、專題策展)、減塑減廢、企業或國際案例等;在2020年則是因為疫情關係,使新冠肺炎相關的文章成為讀者關注的重點。




以下簡要分享Sustaihub永訊智庫處理文本資料的方式。

應用NLP自然語言處理的主要目的,在於讓電腦擁有理解人類語言的能力,藉以實現各種文本分析的自動化作業,例如:語言翻譯、輿情分析、偵測詐騙郵件、文章分類或摘要大綱等。

在本篇文章中,主要是應用於文本資訊提取,找出每篇文章主要探討的關鍵字議題,方便讀者從大量的文章中快速瞭解主軸內容。這個資料處理過程稱為中文斷詞,也是NLP自然語言處理的關鍵基礎之一。

中文斷詞的目的,是要從一句話裡面拆解出有意義的詞彙。

舉例來說,由電腦對「呼應國際推動永續發展目標的趨勢」這一句話進行斷詞作業:
- 沒有意義的斷詞:呼/應/國/際/推/動/永/續/發/展/目/標/的/趨/勢
 - 有意義的斷詞:呼應/國際/推動/永續發展目標/的/趨勢

透過有意義的斷詞結果,搭配詞性的標注,將語言轉化為電腦容易處理及計算的格式,可以幫助電腦理解更清楚的理解語意。

比較特別的是,以「永續發展目標」為例,這在CSR領域是常用的專有名詞,但在一般的情況下,是可以分開為三個獨立詞彙:永續、發展、目標,因為這些字詞都具備獨立的語意。為了讓電腦自動學習「永續發展目標」是一個專有名詞,以及其他CSR領域的專有名詞,我們應用TF-IDF(Term Frequency - Inverted Document Frequency, 詞頻 - 逆向文件頻率)Trie Tree(字典樹)來協助判斷。

電腦會不斷的計算詞跟詞之間的前後關係,轉換為特徵向量和機率值。分析完所有的CSR相關文章之後,電腦會發現永續、發展、目標這三個詞,經常排列在ㄧ起,那這就有相對較高的機率是一個專有名詞。

文字探勘CSR@天下歷年文章 - 詞向量|Sustaihub永訊智庫


特徵向量如同上圖所示,每一個字詞都會有一組向量矩陣。為了方便視覺呈現,可以把這個向量投射到二維度的平面空間上,即可觀察到詞跟詞之間的「距離」關係。距離越靠近,代表相關性越高。

例如,「溫室氣體」和「排放」經常同時出現在同一句話裡,或排列在前後文,因此經過模型持續訓練後,電腦會不斷校正與更新向量,最後根據詞向量的結果,發現這兩個字詞的距離是比較近的;而「溫室氣體」和「回收」則較少出現在同一句話裡面,所以這兩個字詞之間的距離就相對較遠。

其實,在斷詞過程中,中文資料的處理難度比英文更高。英文有空格將每個字單獨分開,可以很直接的判斷字詞的語意;但是中文的語意會因為斷詞的位置,而產生不同的語意。例如,「在地上等冬粉」,很多人會誤以為是「在/地上/等冬粉」,但實際上卻是「在地/上等/冬粉」;要可以正確的斷詞,並沒有那麼簡單。

因此,需要準備大量的文本資料來持續訓練電腦,透過統計機率的方式,計算詞與詞之間的組合關係,判斷哪些詞彙經常是配對在一起,藉以讓電腦不斷更新CSR領域的字詞庫。把各種可能的詞彙蒐集彙整,確保在進行中文斷詞時,可以更精準且更有意義。


建立CSR領域的字詞庫還有另一個重要目的,我們期望可以讓AI自動判斷一本CSR報告的重大議題,以及符合哪些GRI指標或SDGs永續發展目標,協助利害關係人可以更快速的瞭解企業的永續發展主軸。

然而,若要實現以上想法,首先必須要解決「一義多詞」的問題。

舉例來說,要讓AI判斷CSR報告中是否有呼應SDGs第13項氣候行動的目標時,除了判斷內容是否有提到「氣候行動」之外,「氣候變遷」、「極端氣候」、「溫室氣體管理」、「碳排放」等字詞都跟氣候行動有相關,要如何有效的全面性檢測氣候行動相關的關鍵字,必須要應用AI人工智慧的深度學習技術。

文字探勘CSR@天下歷年文章 - AI深度學習與詞向量|Sustaihub永訊智庫

上圖也是詞向量空間的示意圖,不過這個模型裡面的每一個詞向量的維度為250,為了方便視覺呈現與理解,降至3維度(x, y, z軸)的立體空間,裡面每一個點都代表一個字詞。

搜尋「氣候」兩個字詞時,可以看到周邊跟氣候相關的字詞即顯示出來;同時,可以用距離作為篩選依據,距離越大,涵蓋的相關字詞越多,但也相關性也會逐漸降低。

因此,可以透過此演算法篩選出跟「氣候行動」的相關字詞,搭配搜尋引擎的匹配演算法,協助判斷一本CSR報告中,呼應氣候行動的可能性高低。藉以減少初期使用大量人力,逐一檢視每本CSR報告內容中,是否有提及SDGs各項目標的分析成本。

當電腦做完初步的分析之後,即可從大量的CSR報告中,篩選出有呼應SDGs的報告名單,以及各項目標的相對應頁數位置,這時再搭配人力分析方式進行內容的績效評估,才能更有效率的評估企業的永續發展程度。

最後,也預告下一篇分析文章,我們以TCFD(Task Force on Climate-related Financial Disclosures, 氣候相關財務揭露建議報告)為研究標的,分析目前在CSR報告中有揭露TCFD的相關資訊,作為評估導入TCFD依據或產業的參考案例。


文章連結:永訊智庫:AI認證 [email protected]天下是最關注永續發展與企業社會責任的內容平台


Powered by Froala Editor