《如何確保你的科研數(shù)據(jù)真實可靠:從一個明星學者的數(shù)據(jù)欺詐事件學到的教訓》一書,可以說是荷蘭統(tǒng)計學家克拉斯·西茨馬教授親身經(jīng)歷的荷蘭蒂爾堡大學社會與行為科學學院的院長、社會心理學家迪德里克?斯塔佩爾數(shù)據(jù)造假事件的審查總結。這位發(fā)表過100 多篇頂級期刊論文的明星學者,在 15 年間系統(tǒng)性偽造了 entire 數(shù)據(jù)集,包括那篇發(fā)表在《科學》(Science)上、聲稱 “骯臟環(huán)境會加劇歧視行為”的重磅研究,實則全是憑空編造的謊言。


《如何確保你的科研數(shù)據(jù)真實可靠:從一個明星學者的數(shù)據(jù)欺詐事件學到的教訓》

作者: [荷]克拉斯·西茨馬(Klaas Sijtsma)

譯者:齊心

版本:新星出版社

2025年8月14日


在統(tǒng)計學家眼中,

“學術造假”意味著什么?


學術造假所引發(fā)的誠信危機,會對整個社會的信任度造成極大的沖擊。作為統(tǒng)計學家,克拉斯·西茨馬教授在參與調(diào)查并得出結論時,提出了學術造假的不同性質(zhì)及其分類——其一,是沒有經(jīng)過實驗收集數(shù)據(jù),而是按照自己假設的理論去“造數(shù)據(jù)”,這一類屬于道德和誠信問題,要全盤否定。另一類,則是很多學科的研究人員并沒有學過統(tǒng)計學,在收集到原始的實驗數(shù)據(jù)后,不知道自己所采用的統(tǒng)計和分析方式是否能最具有代表性,換句話說,每個發(fā)言的個體都認為自己無法被平均、被代表、被概括,而我們的研究則需要在不同的個體上得出共性,那么這個統(tǒng)計的數(shù)據(jù)樣本是否能最大程度的代表這個人群,這個數(shù)據(jù)均值是否能得到更多樣本中個體的認同,就有一個方法技巧和局限性的問題了。


例如,網(wǎng)上發(fā)布的統(tǒng)計局的數(shù)據(jù),為什么和我們的感受不一致?以至于評論區(qū)留言最多的是——“這又是36計中的哪一計”,看來,統(tǒng)計口徑和方法,不僅僅是數(shù)學問題,也是政治問題和社會問題。我們所熟知的人均收入的數(shù)據(jù)發(fā)布,每次都能收獲無數(shù)的口水和爛番茄、臭雞蛋,但在將收入中位數(shù)這個概念引入之后,似乎比平均值的罵聲就小了很多,然而,收入平均值和中位數(shù),哪一個更科學、更接近真實?統(tǒng)計學家相信算法公式,而普通人只知道自己的直覺和感受,在書中,作者在這里普及了“P值”這個概念,也就是P值差異超過0.05、甚至只有0.01或者0.005時,就會引發(fā)信任危機。這包括選擇樣本時,需要注意的方差,也包括處理個別極端數(shù)值,比如網(wǎng)上常舉的“我和馬云一平均,都是年入千萬”例子。


樣本的選擇只能是大多數(shù)人的生存狀態(tài),合理選擇是應該去掉極端數(shù)值。同時,在樣本數(shù)據(jù)按照統(tǒng)計方法無法得出“顯著”的結論時,也就是P值大于0.05時,意味著你所選擇的樣本數(shù)據(jù)結果無法有力支持你的論文觀點,這時候,如果你選擇修改數(shù)據(jù)源、更換有利于自己的數(shù)據(jù)樣本,那么,“造假”的帽子就結結實實地戴上了。完全吻合的數(shù)據(jù)結果,一般只有在排除了各種干擾的實驗室里才能產(chǎn)生,自然環(huán)境中總有偏差,不完美的數(shù)據(jù)結果和結論,往往才更符合實際。


韓國電影《舉報者》劇照。


數(shù)據(jù)一直是簡單的,

復雜的從來都是人


荷蘭研究理事會2022 年的全國調(diào)查顯示,62% 的研究者承認曾“選擇性報告符合假設的結果”(通俗點說,就是報喜不報憂),48% 的人會 “在看到數(shù)據(jù)后調(diào)整研究假設”。這些被視為“靈活處理”的操作,實則已觸碰科研誠信的紅線。所以,在C刊論文數(shù)量的科研考核模式里,“非升即走”的競爭壓力往往會逼得科研人員走入“隱形陷阱”。


2016年,威徹茨(Wicherts)等人在《前沿心理學》發(fā)表的研究指出,34% 的心理學論文存在“p 值操縱”—— 通過反復調(diào)整分析方法,讓原本不顯著的結果變得顯著。這也就是公眾對今天的專家(磚家)和教授(叫獸)缺乏信心,認為其喪失道德底線的誘因。本來,個體的體感差異就會對樣本數(shù)據(jù)的結果提出挑戰(zhàn),而經(jīng)過操縱的樣本數(shù)據(jù)所得出的結論,就更難令人信服。


當然,也有一部分“失誤”是“新手”無意為之??死埂の鞔鸟R教授在審查數(shù)百篇論文后發(fā)現(xiàn),80% 的研究錯誤源于對統(tǒng)計工具的誤讀和錯誤使用,而非惡意造假,但問題是,在公眾看來,這同樣也是科研誠信的喪失,因為公眾無法得知科研人員是否有主觀造假的意愿,但習慣于將事情往最壞的方面考慮,這也是流行的“底線思維”影響的結果。


阿姆斯特丹大學心理學系曾有一項研究試圖證明“性別與數(shù)學能力存在關聯(lián)”,研究者在分析120 份樣本時,剔除了 12 個“異常值”—— 這些數(shù)據(jù)顯示女生數(shù)學成績優(yōu)于男生。調(diào)整后的數(shù)據(jù)果然呈現(xiàn)“男性成績顯著更高”的結果,并發(fā)表在某知名期刊上。但事后第三方用完整數(shù)據(jù)重新分析,卻發(fā)現(xiàn)所謂“異常值”恰恰反映了樣本的真實分布,剔除它們純屬研究者對“極端值處理原則”的誤解。這種因統(tǒng)計無知導致的結論偏差,在書中被稱為“善意的謊言”,卻可能比惡意造假造成更廣泛的誤導。更常見的錯誤出現(xiàn)在數(shù)據(jù)處理環(huán)節(jié):范?京克爾2010 年對人格心理學論文的調(diào)查顯示,53% 的研究者使用 “列表刪除法” 處理缺失數(shù)據(jù)(直接刪掉含缺失值的樣本),卻未檢驗這種方法是否會扭曲數(shù)據(jù)分布,從而導致結論出現(xiàn)系統(tǒng)性偏差。、


韓國電影《舉報者》劇照。


最后,克拉斯·西茨馬教授在書中給我們提出了一套“數(shù)據(jù)誠信生存指南”。首先,完善預注冊制度。研究者需在收集數(shù)據(jù)前,將研究假設、方法和分析計劃上傳至開放科學框架(OSF)等公共數(shù)據(jù)庫,同時,作者在數(shù)據(jù)收集前需要通過同行評審,無論結果是否顯著都予以發(fā)表,增強了研究的可信度。其次,開放數(shù)據(jù)。數(shù)據(jù)不是私產(chǎn),而是科學共同體的公共資源。《心理科學》2014 年開始強制要求作者公開原始數(shù)據(jù),結果發(fā)現(xiàn) 38% 的 “突破性研究” 因無法提供完整數(shù)據(jù)被撤回。2016 年,威徹茨團隊調(diào)查發(fā)現(xiàn),要求公開數(shù)據(jù)后,論文中統(tǒng)計錯誤的修正率從12% 升至 47%。最后,實行“統(tǒng)計咨詢強制制”—— 所有科研項目申請必須包含統(tǒng)計專家的審核意見。斯塔佩爾事件之后的蒂爾堡大學,在實施3 年“統(tǒng)計咨詢強制制”后,論文因統(tǒng)計“失誤”被撤回的比例下降了54%。


數(shù)據(jù)一直都是不變的、最簡單的,而復雜多變的從來都是人。在這本“數(shù)據(jù)生存手冊”中,克拉斯·西茨馬教授揭開了學術論文背后的數(shù)據(jù)江湖。畢竟,科學的偉大不在于永不犯錯,而在于敢于直面錯誤?;蛟S你曾為了“顯著結果” 反復調(diào)整分析方法,或許你因“樣本不夠”而猶豫是否要“優(yōu)化數(shù)據(jù)”,或許你從未想過自己信賴的統(tǒng)計軟件會給出誤導性結果,但正如書中所說:“科研誠信不是道德枷鎖,而是讓數(shù)據(jù)說話的底氣?!彼顾鍫栐诜ㄍド系膽曰诹钊诉駠u:“我創(chuàng)造的不是知識,而是學術界想要的幻想。”這句話戳中了科研生態(tài)的痛點——當“發(fā)表數(shù)量”壓倒“研究質(zhì)量”,當“完美結果”比“真實過程”更受追捧,科學的本質(zhì)正在被異化。


作者/李杰

編輯/劉亞光 申璐

校對/楊許麗