開放文化資料的資訊設計與應用

Lucky
20 min readMay 24, 2022

--

網路上有很多文字雲的製作分享,但本文並不是著重在已知方法論的應用,而是呈現筆者身為文化行動者的文字探勘與知識重構的旅程

以2017年全國文化會議公開上網的會議資料和Google搜尋量數據做出的文字雲比較分析圖

一點點背景

2017年全文會上網資料

2017年全國文化會議(簡稱全文會)花了半年時間,巡迴全臺辦了13場分區(外加三場離島論壇)、青年論壇、4場專題會議、預備會議及正式大會共21場的文化討論,每次活動後公布逐字稿請相關主管機關回應民眾提問,無論公民參與的規模或互動模式都是歷年首見。

時過境遷,2021全文會即將到來。筆者希望承先啟後,與讀者一同回顧當年傾盡文化部與臺灣藝術大學、台灣文化政策學會努力的開放資料。期待文化討論持續滾動、由下而上的文化資料有效積累、臺灣故事的話語權能一代代接力下去。

起初是因為2017年受到 ‘臺南市歷史街區振興補助計畫‘ 團隊委託,邀請統籌 臺南市歷史街區願景工作坊,而後延伸出2018高雄舊港區永續發展2019–2021龜山島土地正義、2021全國文化會議…等全國或縣市型審議民主專案的經驗。但不論政府開會或社區討論,大家心中都有一樣的問題:

花這麼多錢要大家來討論,留下一堆資料,

然後有什麼用?

.

.

有啦!這就是審議設計(Deliberative design)的重要性!

文化參與智庫 ʘ‿ʘ

(並非本文重點,有機會再另外寫一篇)

智庫包含8個不同的資料集以及與其相關的資訊架構,圖為 ‘資訊架構與資料關聯圖’

審議設計強調以證據(資料)為基礎的規劃與討論:透過資料的角度設計、梳理、或反思參與者是如何體驗、理解整體活動與當下接收到的各種資訊,也就能夠反過來設計出以資訊為體驗架構的民主活動。這個過程對任何行動者來說,也是一種反身性的實踐。

而撰寫本文的原因,正是因為設計智庫的過程帶給筆者許多文字探勘、比較分析、甚至加值應用的想像。

以「發言」資料集為例,它被賦予了紀錄「與文化討論相關發言」的功能,包含「內容x來源x延伸」三個不同知識面向的資訊:

內容相關

  1. 發言內容 Long txt
  2. 類型 Multiple select:
    執行單位邀請人士(發言/回應/全場小結)、公民(現場發言/網路意見/書面紀要/分組小結)
  3. 字數 Fx
  4. 議題 Lookup
  5. 發言現場(Link to 「活動」資料集)
  6. 年度 Lookup
  7. 時間 Lookup
  8. 地點 Lookup
  9. 備註 Long txt
  10. Record ID

來源相關

  1. 發言人姓名(Link to 「發言人」資料集)
  2. 生理性別 Lookup
  3. 時任頭銜/稱謂 Single line txt

延伸相關

  1. 發言後續 Single select:產生迴響、尚待迴響
  2. 回應人(Link to 「發言人」資料集)
  3. 時任頭銜/稱謂 Lookup

明眼人不難發現,這些資訊在文字探勘(text mining)上有許多社文研究的價值!

最近很喜歡的Kimi Bro. Line貼圖,個人超喜歡大家快把它下架吧XD

後來筆者便因此開啟了用2017全文會的發言內容作為文字探勘原始文本,和文字雲製作的旅程~!

文字探勘以文字雲為例,網路上有許多產生器,只要對原始文本做好斷詞(有些可以匯入txt檔或輸入網頁),簡單設定後就能跑出文字雲。然而想要更好的探勘品質,就需要更精準的斷詞、標上詞性、設定stopword(讓程式略過特別標註字詞)等人工成本。圖片來源:電腦玩物

不過非結構性文字資料常有意義模糊、縮寫、錯別字等等問題,加上生活中文化關鍵詞的出現頻率比其它生活用語要少很多,如果想逐字、逐字串回頭設定stopwords做文字雲,考量當時發言量高達365,135字,這個做起來吼…會是很大的工程。

節省時間成本的另一個方法是建立 ‘關鍵詞詞集’,作為文字雲在關鍵詞比對(keyword matching)的依據,好處在於文字探勘沒有最佳結果只有最優化結果,與其設計了AI迴圈但原始樣本數不足或資料品質不佳,不如扎扎實實逐步優化 ’關鍵詞詞集’ 的品質。

此時立馬聯想到2017年全文會包含了六大議題、文化基本法、文化白皮書、與延伸的青年、新住民、文化治理、文化科技、開放議題,堪稱是臺灣近年議題最全面的文化討論活動,或許手冊內會有文化關鍵詞可以參考。

結果Bingo!

資料來源:2017年全國文化會議大會手冊:關鍵字-六大議題有哪些主要內容

文章內剛好綜合了「12場分區論壇與會者發言紀錄」與「手冊內核心文化六力議題內容」常提及的關鍵字,羅列出31個核心關鍵詞+82個重要關鍵詞。

有了這個 ‘文化關鍵詞詞集’ 的原型,接下來只要提升文字探勘在關鍵詞比對上的信度與效度,就可以做出有價值的文字了!

目標

以發言紀錄中文化關鍵詞出現的頻率作為統計基礎,製作出有質化研究價值的文字雲。

文字清理、關鍵詞精煉、擴增關聯詞

‘文化關鍵詞詞集’ 的原型

首先考量繁簡文字的差異(來台/來臺)、縮寫(文資/文化資產)、語意通用(文化多樣性/文化多元性/多元文化)、外來專業詞(如開放資料需增加Open data的英譯關聯詞)…等變異性,先對原始的113個文化關鍵詞做文字清理。接著是關鍵詞精練以及關聯詞擴增,主要有四個挑戰要處理:

一、多數關鍵詞的語意過於狹隘

文字探勘時常處理的是非結構式資料背後明確性與品質的問題。圖片來源:行銷資料科學

如果用來搜尋的關鍵詞語意過於狹隘,一開始就會篩掉許多相關的發言。以原始關鍵詞「藝文節慶」為例,內涵至少包含了常見的藝術季與文化節慶,因此可取其意義簡化成為「節慶」,並將關聯詞擴增為「藝術節、藝術季、節日」;「眷村文化」因應全文會中關於「眷村」、「眷改」、「眷保」的討論往往已具文化性,因此改為「眷村」並擴增關聯詞「眷改、眷保」;「動漫與遊戲產業」則改為「ACG」並斟酌省去產業,擴增關聯詞為「ACG、動漫、遊戲、動畫、漫畫」…以此類推。

二、包含形容詞或副詞的複合詞

避免排除掉語意相近的形容詞或副詞(重要文化價值/核心文化價值),故保留關鍵概念並簡化。以「核心文化價值」為例,改為「文化價值」。

三、多重複合詞

如「數位典藏加值運用」、「工業機廠文化」。以「工業機廠文化」為例,內涵包含「工業機廠」、「機廠」、「機廠文化」;考量「工業機廠文化」並非社會大眾或文化領域時常提到的專業詞彙,因此「機廠」為較具代表性的關鍵詞。

四、少數關鍵詞的內涵不明確或從未在發言紀錄中出現

需進一步釐清概念。以「展演映場館」為例,概念其實包括「劇場、場館、電影院、美術館、藝文中心」等(博物館較偏展覽性質而且已獨立出來,就不列入)。

然後在關鍵詞比對(keyword matching)前,別忘了對2017全文會的1437筆(包含第一部門後續回應的話目前為1543筆,第一部門回應仍在增建當中)發言內容做文字清理,去除不當空格、斷行、或樣本重複等影響搜尋品質的問題。經過以上一層層的工序後…

.

.

BOOM!

‘第一代文化關鍵詞詞集’

113個原始文化關鍵詞,最後精煉成為100個關鍵詞與其關聯詞。
‘第一代文化關鍵詞詞集’ 就此完成囉~!只要隨著發言內容不斷積累而擴增新的關鍵詞,甚至可以建立出由下而上形塑的 ‘臺灣文化關鍵詞詞集’!

次數統計與文字雲製作

基本上,只要比對完100個關鍵詞在1437條發言次數中的發言次數,再套用一些HTML5的套件(ex. wordcloud),就可以跑出文字雲了,這次筆者使用繪圖軟體Illustrator做文字雲,單純是想自己手動排出個人喜歡的版型。

排版前製作了dataFrame當作關鍵詞大小排版依據,包含「關鍵詞名稱」、「關聯詞」、「2017全文會出現次數」三個欄位,方便將比各個參數列入,幫助文字雲的製作。

另外出於研究興趣,筆者增設「男性發言比例」、「Google-每月平均搜尋量(search volume)」、「Google SERP-關聯搜尋(PASF, people also search for)」、「Google SERP-最常出現頁面(overview)」等參數欄位,供延伸研究使用。

臺灣文化關鍵詞dataFrame:提供有興趣的朋友了解本文資訊圖表製作背後的原始資料

在比對、盤點完所有欄內的資訊後,考量資訊圖表的易讀性與閱讀流暢性,筆者將關鍵字出現次數分層對應到4個級距(依照不同字級、顏色呈現)。確定完排版規則,就可以著手設計文字雲囉!

備註:筆者在搜尋量與關聯搜尋上使用的是付費的關鍵字規劃服務平台Mangools,取樣範圍限縮於臺灣、繁體中文* Overview為近一個月內資訊、Search volume為近一年內的資訊
* 如某關鍵字在google上的搜尋次數太低,將顯示不出Search volume數據
* 筆者使用Mangools服務的時間為2022年5月,因此Search volume的數據主要來自2021年5月~2022年4月

成果與分析

從圖面可快速回顧2017全文會所有發言背後所關注與討論的重點議題,並反思全文會的組成、意義與限制;由於本文是資料方法論的案例分享,因此不對文字雲背後的insight做更深度的分析

總體而言,大會手冊的31個核心關鍵詞,半數以上確實在發言中頻繁出現(見表格內橘、青、藍三色)。然而少數像是文創優惠貸款(4次發言)、文化貿易(5次)、OTT(5次)、街頭藝人(8次)、參與式預算(8次)、投融資(8次)、數位落差(10次)等其它12個核心關鍵詞,大多在1437筆發言中佔比不到1%。可能是文化部與執行團隊希望促成對這類議題的討論,但實際上與會者們不太關切,或認為不需在全文會的場合提出討論。

圖左highlight橘色、青色的欄位為發言頻率高的文化關鍵詞;圖右標記紅色的關鍵詞為大會手冊羅列的31個核心關鍵詞

全文會的議程大致上不脫離「主持人開場、官方邀請人士發言、開放與會者發言或提問、主持人或官方邀請人士回應。時間到則發言結束」的框架,在這種形式下所進行的文化討論,通常聚焦在以下3種面向:

角色立場|藝文創作者、新住民、原住民族、中介組織、青年、移工、行政法人、跨界人才、中介人才、社造人才、街頭藝人、經理人、藝師與藝生、獨立書店、身心障礙、合作社…

工具機制|公民文化參與、平台、補助、採購、跨部會、文資審議、中介組織、文策院、文化卡、文化論壇、文化體驗教育、文資教育、文化實驗室、資料庫、人才進用、參與式預算、文化科技施政綱領、公私協力…

時事議題|博物館、文化資產、文資保存與開發、文化科技、文化科技施政綱領、文化記憶庫、新住民、電影中心、文化影響評估、文化卡、文策院、新南向、再造歷史現場、文化實驗場、ACG…

有興趣的讀者可以對照文字雲,一起探索看看 ʘ‿ʘ

由角色或相關立場所代表的發言,勢必衍生與發言人或與其發言內容相關的興趣、權益、工具、環境、意義、價值等討論,反過來說,就是與活動有關的討論必圍繞在「與參與者的生活或生產」相關的經驗、知識上。

參與者的組成將顯著地影響討論內容

因此,分層隨機取樣(依性別、年紀、地區等參數設定參與原則或對報名者取樣)和保障多元參與(降低參與門檻、友善弱勢以及障礙者的參與並保障名額、邀請受議題影響利害群體)是民主活動在設計上非常重要的關鍵。

文化公民權的實踐,需要一群擁抱民主精神並且具備文化設計(culture within design)技術的公民

好的文化討論品質,其實是經過專業團隊溝通、設計與執行上的一連串努力。惟有擁抱真實回饋的基礎並持續滾動適應,文化才能與時俱進

說到這邊!對文化設計有興趣的朋友們,歡迎參考PDIS(公共數位創新空間小組)長期辦理的 開放政府議題協作會議,目前已經有120場執行案例!

筆者曾參與具社會爭議性的第25案「對酒駕累犯、性侵犯及對幼童傷害等增設刑法懲罰方式增加鞭刑制度」:由唐鳳以及當時的PDIS專案顧問張芳睿、研究員林雨蒼所主持(現場包括因酒駕成植物人的受害者及其家屬出席)的跨部會政策討論,執行團隊對複雜討論的掌握十分順暢、專業。2018年筆者亦曾在芳睿的邀請下參與第一屆開放政府聯絡人共識營,從第三方立場觀察分析協作會議的框架,並提供會議前中後的優化設計建議。

開放政府議題協作會議的 ‘設計框架’。資料來源:PDIS&Lucky
‘參與體驗旅程’ 的觀察分析,紅色字為筆者的memo。資料來源:Lucky

此外,筆者在文字雲中也發現其它有趣的現象,不確定是不是個案,但提供一些文化設計上的反思:

一、文資被提及的頻率高達20%

當討論內容在活動線性的「發言—回應」形式下,高度集中於特定議題時,如何兼顧其他議題興趣者的發言需求呢?

二、時事議題被討論的頻率,遠高過少數群體身上迫切議題的頻率(如身心障礙)

少數群體的需求需要更多人理解,卻時常在公共討論被化約為「文化平權」的宣言。數位文化與技術的導入,是否能促進更多人真實的理解呢?

三、文化關鍵字未納入 ‘公務員’ 的角色立場

筆者在比對後發現有89筆「公務員、公務人員、公部門、公僕、文化部門」相關發言,但仍遠低於「藝術家、藝文工作者、創作者」的170筆,且略少於「青年、青少年」的107筆發言。然而,臺灣公務員長期受困於保守的《公務員服務法》,公務倫理時常凌駕於言論自由,培養出許多守舊怕事的行政官僚(文化部卻時常被民間追加與其它部會溝通、協商的期待)。

國家文化會議是否能提供公務員安全而自在的公共場域,幫助民間了解公務機關內部真實的困境與需求呢?

四、與少數族群議題相關的發言嚴重失衡

根據內政部統計,2022年臺灣65歲以上人口為總人口18.4%,但與「老年、銀髮、高齡、老人」相關發言僅13筆,低於母體樣本的1%。根據2018 年度性別報告,臺灣非異性戀人口約佔總人口15 %,但2017全文會卻沒有任何「同性戀、gay、同志、雙性、跨性、彩虹、LGBT、酷兒、queer、lesbian」的相關發言。

彩虹文化對臺灣形象以及在觀光、時尚、設計、藝術產業都有諸多貢獻;而銀髮世代累積了許多資本,政府與企業應該提出更加友善銀髮族參與社會的服務和參與管道,當資源方的心理和社會需求被公共目的滿足,社會才能夠流動並正向的循環。這兩種族群的權益及環境,都應該被政策規劃者、社會大眾所重視。

未來如果類似情況時常發生,是否需要積極保障多元參與,並且營造、設計更友善的參與機制和參與體驗呢?

延伸思考一下,大家所期待的文化參與、文化討論,具備著哪些特質呢?

小結

如果想建立自身的文化研究能力,下方連結是「文化參與智庫 ʘ‿ʘ」的「發言」資料集,包括2017年全文會21場活動、576名發言人、總計1437筆發言紀錄,介面上有許多可以幫助比較分析的進階操作功能,包括篩選器(Filter)、群組(Group)、排序(Sort)、隱藏欄位(Hide field)、調整欄高(Row height)。

歡迎與文字雲一起服用:

文化參與智庫 ʘ‿ʘ
https://lihi1.cc/lDUT1

點擊欄位 Expand cell可觀看完整資訊。本連結非智庫完整功能,藍色為關聯資料履歷,無法點開。如需完整功能,請見下方申請處

-
Project Lead
陳運成 Lucky
Project Members 劉彥岑 Ansin、蔡淳任、余楊巽弘 Fish

Special Thanks To
台灣文化政策研究學會所有成員
黃建圖、陳則秀、陳詩安、陳詩庭、謝士元

備註1:智庫各資料集仍在上網前的封測階段,
目前收錄包括「推動文化基本法立法策略規劃案」、「文化影響評估政策先期規劃研究」、「2017年全國文化會議」3項計畫。預計2021全文會各場活動公開資料將於8月前匯入。
如對完整功能(見下圖)有興趣,請來信 2021ncc@gmail.com
信件標題:「智庫申請|您或您的團隊名稱」
內文請附上您或貴單位的簡介,以及想申請的原因,筆者會盡快回信。
備註2:如有發現任何bug,歡迎截圖寄到上方相同信箱,
標題「智庫bug:您的名稱(也可匿名或化名,我們將於bug排除後增列在感謝名單)」,
內文簡單說明您發現的問題,謝謝:)
智庫後台所有資料集
智庫前台介面,目前包含6種不同情境的應用

其它延伸應用

怕有些人忘了,先回顧一下文章前面的部分:

... 另外出於研究興趣,筆者增設了「男性發言比例」、「Google-平均每月搜尋量(search volume)」、「Google SERP-關聯搜尋(PASF, people also search for)」、「Google SERP-最常出現頁面(overview)」等參數欄位,供延伸研究使用
臺灣文化關鍵詞dataFrame:提供有興趣的朋友了解本文資訊圖表製作背後的原始資料

筆者在下方試著延伸幾個範例,有興趣的朋友,也可以想想自己會如何應用文化資料,甚至提出加值服務。任何想法都歡迎在文章底下交流討論哦~!

性別熱度

把參數「男性發言比例」納入,並且以灰階呈現文字詞背後不同性別的發言熱度,男性發言佔比愈高,則明度愈低。分析圖面,有以下發現:

.男性發言的平均佔比為67%
綜觀整體性別熱度,不難發現男性發言佔比頗高,這也反映願意參與全國型文化活動參與者(或文化相關業種)的性別比組成、性別發言比、和2017年全文會的話語權組成。

.女性似乎有不同的關注
女性關注較高的關鍵詞包含「文資教育、新移民、文化公民權、國家語言、藝術史、身心障礙、新住民、文化多樣性」等,多為軟性的少數議題,或是比較不帶功利主義色彩的議題

從此延伸,也可以統計發言人類型(官方邀請人士/公民)、發言年度…等其他參數在1437筆發言紀錄中的次數與比例,進行關聯性比較分析。

補充:據官方統計,2017全文會總計21場活動共5000多人參加,當時沒有統計與會者的男女比例,但活動現場的576名發言人中,男性佔比為62%

Google趨勢文字雲

Google蒐集人的主動搜尋行為,可以推測人們在生活與工作的需求上,到底關注什麼、喜歡什麼、需要什麼

這次運用Mangools的KWFinder工具,統計近12個月臺灣文化關鍵詞在Google上的搜尋量,同樣依統計數值的光譜分為4個級距並以相同規則呈現字級、顏色。

左圖為2017全文會參與者重要發言關鍵字、右圖為近12個月臺灣社會關注的趨勢,筆者兩相對照後有蠻多有趣的發現,但文長就不進一步分析了。

關鍵詞散播網絡

紅色字為文化關鍵詞,藍色字為網站名稱,比較大的節點為重複率高的關鍵詞資訊傳播媒體

「Google SERP-最常出現頁面(overview)」已排除廣告,可以洞察大部分的人近一個月內可能從哪些網站了解到與關鍵詞有關的資訊
「Google SERP-關聯搜尋(PASF, people also search for)」可以洞察多數人對關鍵詞的興趣或需求輪廓

如果想了解文化關鍵詞來自哪些資訊來源,可以用KWFinder盤點關鍵詞背後的主要網站,再運用資料視覺化協作平台Graph Commons將節點(關鍵詞、網站名稱)與關係(線段)建立起來:每個關鍵詞對應5個網站,重複出現的網站設定規則讓節點看起來更大,以顯現出網絡中的關鍵節點。

點入各個節點,可看到許多關聯性資訊。以「新住民」為例,點擊後會出現右欄的資訊表,可發現一般大眾現階段較關注的議題,以及這個關鍵詞主要是透過哪些資訊平台來傳播

當初會做這張表的原因,是想要視覺化關鍵節點,除了幫助讀者一覽重要的文化關鍵詞外,也可以快速查找到傳播與關鍵詞有關重要資訊的資訊平台、反思關鍵詞傳播與平台的關聯、以及快速了解一般大眾對關鍵詞的興趣或是需求輪廓。

但如果單純從文字探勘的角度,裡面有超多有趣的資訊,比方說會發現原來Dcard也是文化關鍵詞的傳播網絡、接近半數(44筆)的關鍵詞都可能被Wiki過、許多人透過中國網頁在理解文化關鍵詞的定義、民眾好奇的是文化關鍵詞與臺灣的關聯性和案例、2017全文會的確顯著地影響了民眾對「文化價值、文化例外 、藝文中介組織、著作權、文化貿易 、文化影響評估」的理解…等等。

另外從第四權的角度,政府的確是不應干預民間媒體的傳播。但對公民社群來說,如何與傳播重要文化資訊的節點結交夥伴關係並且合作,為社會大眾呈現客觀而多元的資訊創造更友善的環境,避免假新聞、資訊同溫層與商業平台壟斷(建構多元觀點的公民媒體導流網絡與媒體支持系統),鼓勵平台建構雙向或多向交流的管道等等…我們能做的事還有很多很多!

有興趣的讀者,可以點入 2021年文化關鍵詞媒體散播網絡 一探究竟。

注意:此為舊版網絡圖,部分關鍵詞與網站頁面的資訊未更新,僅供參考

Finally… some takeaways

看到這邊還沒跳掉的…應該都是文化界的中流砥柱吧!
奉上筆者的膝蓋🦵

關鍵詞詞集
快速建立理解議題的知識系統

文字雲
快速回顧與主題有關的關鍵議題

文字雲x智庫&關鍵詞媒體散播網絡
提供另一種新的文化參與/學習/介入路徑的想像

方法論
如果活動設計能參酌審議民主形式(比方說:聚焦在單一議題並分層隨機抽樣、保障多元參與的公民論壇與願景工作坊;或是參與者可自行發起議題的開放空間會議),並有意識地進行開放文化資料的典藏;當母體樣本更具代表性且樣本數更充足時,只要結合情感、意見等NPL,文化資料將能有效提供文化社會學研究和政策規劃上的價值,為公民社會積累寶貴的公共財

…接住筆者的彩蛋🙃!

全國文化會議的每月平均搜尋量為170,略小於文化平權(230)與國家語言(190)、略高於本土化(120)與文化科技(110)。小小冷知識des~

Author|

陳運成 Lucky

2021年全國文化會議策略長

曾旅居台美德三地,並在服務設計概念提出者Prof. Dr. Michael Erlhoff麾下研習。2014返臺後,成為一名設計行動主義者。他擅長解構棘手問題,喜歡組織行動。近年專注於最小可行模式與協力工具的研發,並時常擔任產官學之間的中介者,策略性地在社會中推動縫合、修補、介入等工作。他的實踐場域包含連續創業、公民科技、體驗設計、組織數位轉型、審議民主、藝術策展、戲劇構作。
本文內容包含大量資料清理、整合的重複性工作,由於是一人作業(筆者工作之餘的興趣),如果資料格式或有資訊誤植,歡迎寄信到筆者工作信箱 nihoulucky@gmail.com ,將有問題部分截圖給我並簡單描述問題,一起為臺灣文化資料的累積盡一份心力~!本文以及文內所有圖像除另有標註來源者,皆採 創用CC 姓名標示 陳運成 4.0 授權條

--

--

No responses yet