馬薩諸塞州牛頓(2020年1月13日)——在分享人類研究數據之前,科學家們通常會剝離他們的個人信息,如姓名、地址和生日,以保護研究參與者的隱私。然而,沉默的春天研究所的研究人員和他們的同事在《環(huán)境健康觀點》雜志上的報告表明,這可能不足以進行環(huán)境健康研究,有時甚至匿名數據可以追溯到個人。
這項新研究強調了保護人類研究參與者的必要性。這也對美國環(huán)境保護署(EPA)提出的聯邦法規(guī)產生了影響,該法規(guī)要求科學家披露他們的數據,以便他們的研究可以作為環(huán)境法規(guī)的依據。
03010的首席科學家凱瑟琳博羅諾說:“研究人員承諾保護研究參與者的隱私,這是幾乎所有涉及人的科學研究的做法?!薄拔覀兊难芯勘砻鳎词箘h除了明顯的標識符,也可以從環(huán)境健康研究中公開獲得數據,這可能會違反這些承諾?!?
在之前的研究中,《寂靜的春天》的研究人員進行了一項實驗,在實驗中,他們與一組采用重新識別技術的哈佛研究人員分享了該研究所在加州的家庭接觸研究的匿名數據。通過將研究中的住房和人口數據與公開可用的數據(如稅務評估人員的記錄)相關聯,并使用研究中描述的其他信息(如住房開發(fā)的位置和室內空氣污染物的測量水平),該團隊成功地從一個住房開發(fā)中按姓名確定了25%的參與者。
現在,在這項最新調查中,研究人員表明,重新識別的漏洞是環(huán)境健康數據的一個常見方面。他們回顧了12項環(huán)境健康研究,確定了5種不同類型的數據(位置、醫(yī)學、遺傳學、職業(yè)和住房),這些數據與外部數據庫重疊,可能導致重新識別的風險。
研究人員發(fā)現,所有12項研究都包括了五種數據類型中的至少兩種,而三項研究包括了所有五種。博羅諾說:“擁有多種數據類型為某人將研究數據與現有的商業(yè)或公共數據庫進行匹配提供了更多機會。
或者人體或家庭中污染物的測量也是許多環(huán)境健康研究的特征數據類型。然而,目前只有這些測量不容易受到數據鏈的影響,因為很少有包含化學測量的數據庫可用于匹配。
為了探索使用化學品暴露數據進行重新識別的另一種方法,該團隊使用了加州和馬薩諸塞州寂靜之泉進行的家庭暴露研究和波士頓和辛辛那提疾病控制中心進行的綠色住房研究的數據進行聚類分析。他們將原始化學測量結果提供給一個算法,該算法將每項研究中的數據分為兩組。該算法創(chuàng)建的群組對應地理位置,準確率為80%到98%。
Boronow表示,如果按照位置對數據進行分組,則每組數據都可以與縮小到該位置的數據進行匹配,這使得重新識別攻擊更有可能產生正確的匹配。這說明即使研究數據是共享的,即使排除了一個人的特征,也可以用化學數據來推斷一個人的特征。
數據共享有很多好處。通過匯總數據,研究人員可以創(chuàng)建更大、更多樣的數據集,這可能會導致知識的進步。它還可以使研究人員獲得困難或昂貴的數據,例如從環(huán)境災難后的生物或環(huán)境樣本中收集的數據。然而,新的研究表明,它也有風險。
該研究的合著者、《寂靜的春天》(寂靜的春天)執(zhí)行董事Julia Brody博士表示,隱私風險的影響并非微不足道。隱私的喪失可能會給個人和社區(qū)帶來恥辱。它可能會影響財產、保險或個人就業(yè)機會的價值。這也可能破壞對研究的信任。
標簽:
免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯系刪除!