科學是怎樣被計算機玩壞的,以及我們能怎麼補救

類別: 新奇

科學是怎樣被計算機玩壞的,以及我們能怎麼補救
計算機……還是資料黑箱?US Army

可再現性是科學的基石之一,這個想法在十七世紀六十年代因英國科學家羅伯特·波義耳而流行,其含義是一項發現應該能夠被再現,才能被接受成為科學知識。

本質上來說,如果你遵循我在學術出版物裡宣佈發現時所描述的方法,你就應該能夠得出相同的結果,例如,如果研究者們能重現一種新藥治療一種疾病的有效性,那麼這就是它對於該病所有患者都應該有效的很好跡象。如果不能,那麼我們就要想知道是什麼意外或失誤產生了原始的良好結果,並且會懷疑該藥的有用性。

科學歷史上大部分時間,研究者們報告他們的研究方法的方式都使人能獨立再現他們的成果,但是,自從個人計算機出現——以及使之更為使用者友好的滑鼠指點軟體程式的進化——許多研究的可再現性就成了問題,如果不是根本不可能的話。現今的研究過程太多地被計算機的不透明使用所遮蔽,許多研究人員已經對之產生依賴,這導致外人幾乎不可能重建他們的成果。

最近,幾個小組都提出瞭解決這個問題的類似方案,他們將會協力把科學資料從未被記錄的計算機操縱黑箱中解救出來,因此獨立讀者們又能批判性地評估和重現結果了。研究者、公眾、和科學本身都會受益。

統計學家Victoria Stodden描述了個人計算機在科學史上的獨特地位,它們不僅是一件像望遠鏡或者顯微鏡一樣允許新研究的工具,計算機的革命性是另一種方式;它是一間製造所有各種新“鏡”的微型工廠,能在科學資料中看到新的模式。

甚至在並不強烈定量的領域,也很難找到一個不使用計算機的現代研究者,生態學家們使用計算機來模擬災難對於動物數量的效果,生物學家們使用計算機來檢索巨量DNA資料,天文學家們使用計算機來控制巨型望遠鏡陣列,以及處理收集的資料,海洋學家們使用計算機結合來自衛星、船舶和浮標的資料來預測全球氣候,社會科學家們使用計算機來發現和預測政策效果或者分析談話記錄。計算機幫助幾乎每個學科的研究者們識別他們資料中的有趣之處。

計算機也往往是個人工具,我們通常獨佔使用自己的計算機,而它所包含的檔案和目錄一般被認為是隱私空間,不為公眾所見。準備資料、分析它、視覺化結果——這些都是在計算機上私下完成的任務,只有在流水線的最末端,才出來一篇公眾可見的期刊文章來總結所有這些私有任務。

問題是,大多數現代科學都如此複雜,而大多數期刊文章又如此簡短,這些文章不可能包括許多重要方法的細節和研究者們在他的計算機上分析他的資料時所作的決定。於是,另一個研究人員怎麼能評判結果的可靠性,或者重現其分析呢?

科學是怎樣被計算機玩壞的,以及我們能怎麼補救
祝重建分析好運吧。US Army

史丹佛統計學家Jonathan Buckheit和David Donoho早在1995年就描述了這個問題,當時個人計算機仍然是相當新的想法。

他們做出了一個激進的要求,這意味著我們個人計算機上的所有那些私人檔案,以及我們在準備發表時所做的私下分析任務都應該伴隨期刊文章被公開。

這將會是科學家們工作方式的巨大變化,我們將需要從一開始就準備好,我們在計算機上做的每一件事最終都會公開給別人看,對於許多研究者來說,這個想法太過了。Victoria Stodden發現對於分享檔案最大的反對意見是編寫文件和清理檔案所需的準備時間,第二最大的顧慮是這些檔案如果被別人使用有得不到承認的風險。

最近,幾組不同的科學家在使得追蹤計算機上的檔案和分析變得更容易的工具和方法的推薦上取得一致,這些小組包括生物學家生態學家核工程師神經科學家經濟學家政治學家宣言一般的論文列出了他們的建議。當來自如此不同領域的研究者們匯聚於一個共同行動中時,這就是做科學的重大分水嶺也許就將到來的跡象。

一個主要建議:把資料分析期間的滑鼠指點過程儘可能地最小化,並替換為包含計算機執行的指令的指令碼,這解決了轉瞬即逝的滑鼠移動留不下痕跡、難以與他人溝通、難以自動化的記錄問題,這在使用Microsoft Excel之類電子表格程式進行資料清理、組織任務期間很普遍。而另一方面,指令碼則包含無歧異的指令,能在遙遠的未來(當具體細節已經被忘記時)被其作者和其他研究者們閱讀。因為它們檔案不大,也就能被包括在一篇期刊文章裡,而且指令碼能輕易改編為自動研究任務,能節約時間並減少人為錯誤的可能。

我們能在微生物學生態學政治學考古學中見到這種例子,研究者們不再用滑鼠亂點選單和按鈕、人肉編輯電子表格單元、或在不同軟體程式間拖動檔案來獲得結果,這些研究者們寫指令碼,他們的指令碼自動化檔案移動、資料清理、統計分析,以及建立圖表、插圖和表格,這在核查分析以及重新進行分析以探索不同選項時能節約很多時間。而通過檢視作為發表的一部分的指令碼檔案裡的程式碼,任何人都能見到產生所發表結果的精確步驟。

其它建議包括使用普及、非專有檔案格式來儲存檔案(如用逗號分隔變數CSV檔案來做資料表格),用簡單的規範系統性地把檔案組織進資料夾,使得其他人能容易地知道資訊是如何組織的。他們推薦在所有計算機系統(如Windows、Mac和Linux)上都可用的自由軟體來分析和視覺化資料(如RPython),對於協作,他們建議免費程式Git,它能在許多人編輯同一個文件時幫助追蹤變化。

目前,這些是先鋒的工具和方法,而許多職業生涯中期和高階研究人員們對它們只有一個模糊的認知,但現在許多大學生正在學習它們,許多研究生看到組織有條理、使用開放格式、自由軟體和流暢協作的個人優勢,正在從志願組織(如Software CarpentryData CarpentryrOpenSci)尋求培訓和工具,以填補他們正式訓練中的差距。我的大學最近創立了eScience學院,以幫助研究者們採用這些建議,我們的學院是一個包括伯克利紐約大學的類似學院的更大規模運動的一部分。

隨著學習這些技能的學生畢業並走上有影響的地位,我們將會看到這些標準變成科學的新常態,學術期刊將會要求程式碼和資料檔案伴隨釋出,資助機構將會要求把它們放進能公開訪問的線上儲存庫。

科學是怎樣被計算機玩壞的,以及我們能怎麼補救
用來分析資料的一個指令碼的例子。

研究者們使用計算機方式的改變會有益於公眾參與科學,隨著研究者們越來越願意分享他們的檔案和方法,公眾將能更好地訪問科學研究,例如,一名高中教師將能向學生們顯示最近發表的發現中的原始資料,並帶他們走過分析的主要部分,因為所有這些檔案都會和期刊文章一樣可用。

類似地,隨著研究者們越來越多使用自由軟體,公眾也將能使用同樣的軟體來重新合成和擴充套件發表在期刊文章裡的成果,目前許多研究者使用昂貴的商業軟體程式,其價格使得大學和大公司以外的人們難以企及。

當然,個人計算機不是科學再現性問題的唯一原因,實驗設計差、不恰當的統計方法、高度競爭性的研究環境以及新穎性和在高知名度期刊上發表所具有的高價值都有責任。

而計算機的作用的獨特性在於,我們對該問題有一個解決方案,我們有著借鑑自電腦科學研究的成熟工具和經過良好測試的方法的明確建議,來提高任何種類的科學家在計算機上做的研究的可再現性。投資一小部分時間去學習這些工具,我們就能幫助恢復科學的這一基石。

[王丟兜 via TheConversation]

科學是怎樣被計算機玩壞的,以及我們能怎麼補救原文請看這裡

推薦文章