您的位置 首页 科技

美国生物医药数据库对华“断链” 中国科研人员呼吁开放原始数据

业内人士解构国内生态短板作者/ IT时报记者 孙永会编辑/ 钱立富 孙妍当地时间4月15日,UK BioBank(英国生物药学数据库)在其官网发布了一则名为《A message to our participants: why researchers in China can access our data》(《致各位参与者的一封信:为何中国的研究人员能够获取我们的数据》)的告示,从用途、用户反馈和代表人物的发言,表明了该数据库在科研领域的重要性。该文还谈道,目前全球60多个国家/地区的20000多名科学家正在使用该数据库的数据进行健康和疾病研究。

业内人士解构国内生态短板

作者/ IT时报记者 孙永会

编辑/ 钱立富 孙妍

当地时间4月15日,UK BioBank(英国生物药学数据库)在其官网发布了一则名为《A message to our participants: why researchers in China can access our data》(《致各位参与者的一封信:为何中国的研究人员能够获取我们的数据》)的告示,从用途、用户反馈和代表人物的发言,表明了该数据库在科研领域的重要性。该文还谈道,目前全球60多个国家/地区的20000多名科学家正在使用该数据库的数据进行健康和疾病研究。

美国生物医药数据库对华“断链” 中国科研人员呼吁开放原始数据

UK BioBank之所以发文,和几天前美国国家卫生研究院 (NIH)发出的一项通知密切相关。NIH在通知中称,从今年4月4日起,禁止包括中国在内的一些国家的科研机构访问NIH受控访问数据库及其相关数据,包括颇负盛名的美国国家癌症研究所(NCI)旗下的SEER数据库。毫无疑问,这和4月8日正式实施的美国第14117号行政令密切相关。

展开全文

SEER数据库被禁止访问的消息迅速在国内学术圈,尤其在生物医药学领域掀起波澜。有媒体声称科研“冷战”或将开始,关心中国科学家们该何去何从,也有不少人担心其他地区的数据库会跟进限制中国用户访问。不过从UK BioBank的最新表态来看,这是个好消息。

但对中国科研机构而言,要想不被彻底“卡脖子”,必须练好“内功”,打破壁垒,积极推动科学数据共享和使用水平。

禁令投下阴影 项目研究遇阻

几天前,李奕辰(化名)突然发现SEER数据库禁止中国用户访问。

美国生物医药数据库对华“断链” 中国科研人员呼吁开放原始数据

他在德国海德堡大学读医学博士,4月5日上午,李奕辰登录SEER数据库时发现自己的账号被提示“不存在”,于是发邮件询问,很快就得到回复。回复内容中称:“自 2025 年 4 月 4 日起,禁止特定国家的研究人员和机构,访问任何涉及国家卫生研究院 CADRS 和相关数据正在进行中的项目,并将会终止这些项目。这些特定国家包括中国(含香港和澳门)、俄罗斯、伊朗、朝鲜、古巴和委内瑞拉。”

美国生物医药数据库对华“断链” 中国科研人员呼吁开放原始数据

李奕辰收到的回复邮件截图被多家国内媒体转载。李奕辰告诉《IT时报》记者,十一天后,他再次通过原来非机构邮箱注册的账号登录,发现仍然无法使用,但他可以用学校账号登录。

SEER数据库是全球癌症研究领域的核心资源,覆盖美国48%人口的癌症病例数据,包含肿瘤分期、治疗方案、生存率等关键信息。据媒体报道,过去数十年间,中国学者发表的癌症流行病学论文中,约75%依赖该数据库。“我在社交平台上教学与SEER数据库相关的内容已有三年,现在不能访问,我的分享效果或许受到影响,国内本科生和硕士生也少了一个发论文的渠道。”李奕辰感慨道。

对于生物信息学专业的人来说,简直是暴击。”在中国香港地区某高校从事科研工作的一位学者对《IT时报》记者说道。他也较早得知SEER数据库禁止中国研究人员和机构访问的消息。

“邮件大概的意思是,一些由NIH管理的数据库要求我们在90天内完成所有工作,之后不可以再使用。数据库被禁的话,部分课题就暂时开展不了了,感觉有点可惜。”他说,自己所在团队目前已经有2个项目因此中止

的确,对于中国科研人员来说,被禁访问SEER数据库带来了一定程度的影响。

数据资源建设长足进步 亟需突破“公开共享”之困

此次事件的潜在影响和背后原因值得关注与深思。

上述香港某所高校的学者认为,虽然中美之间在生物医学方面的差距在缩小,但从全部领域来看,仍然存在较大差距。

美国生物医药数据库对华“断链” 中国科研人员呼吁开放原始数据图源:unsplash

当前99%的医药、医疗仪器和100%的数据库,都不在我们本土,生物医药行业在这一块遭遇的压力要比科技领域芯片的压力还大。”上海一位接近医药领域权威的人士感慨。这位人士对《IT时报》记者表示,所有原研药的研发,都需要去国外的蛋白质数据库里进行比对分析。

对于数据库层面被“卡脖子”的现象,我国早已关注,并采取了相关措施。

2004年起,我国先后在基础科学、农业、林业、海洋、气象、地震、地球系统科学、人口与健康8个领域支持建成了国家科技资源共享服务平台。到2018年3月,《科学数据管理办法》正式发布,科学数据开放共享上升为国家战略。2019年中国科学院科学数据中心成立,同年,科技部更新了国家科技资源共享服务平台优化后的名单,含国家基因组数据中心、国家高能物理科学数据中心等二十个中心。

“需要辩证地看待这个问题。”作为二十个国家科学数据中心的一员,国家基础学科公共科学数据中心主任胡良霖见证了这些数据中心的团队在各自领域稳步推进科学数据的工作,数据资源总量、开放成效均取得长足进步。

然而,问题和短板也不容忽视。

胡良霖向《IT时报》记者坦言,当前的核心挑战在于系统性生态的缺失,除了20个国家科学数据中心和中国科学院科学数据中心体系之外,国内长期系统关注科学数据发展的人并不多。一方面,科学数据领域仍处于“小团队努力”阶段,即便二十个国家科学数据中心的外向辐射也是有限的,距离全社会良性生态差距甚远。2018年《科学数据管理办法》出台后,从政策落地层面看,全国大概有三分之二的省市自治区发布了地方实施细则,“但真正推动这些实施细则落地的,其实并不多,甚至个别地方至今仍然存在配套文件缺失的现象”。另一方面,数据资源分布不均进一步制约了数据服务的全面性。

胡良霖还观察到,国内教育界普遍习惯于使用国外数据库,在很多高校图书馆网站上推介的多是国外数据库产品。当前国家科学数据中心牵头建设的不少本土数据产品已具备一定的国际竞争力,能够满足国内用户基本需求,但因缺乏用户参与,陷入“无人用—慢发展” 的循环。

超越“小团队努力” 打破“假共享、真封闭”

2007年1月11日,图灵奖得主吉姆·格雷在“科学方法的革命”的演讲中将科学研究分为四类范式:实验归纳、模型推演、仿真模拟和数据密集型科学发现。

当时他预测,未来世界上所有的科学文献和科学数据将联机,并且实现互操作。17天后,他驾驶帆船驶向大海,从此再没回来。

吉姆·格雷没能看到,他的预言在十八年后已部分成为现实:随着海量数据成为新的科学研究基础设施,构造基于数据的、开放协同的研究与创新模式,已是被科学研究者公认为最佳方式。目前来看,国内数据共享开放领域可谓机遇与挑战并存,“假共享、真封闭”似乎成为业内人士的共识。

一位遗传学教授接受《知识分子》采访时表示,“现在各地方都号称自己有数据库,而且是公开的 ,但其实都不公开,主要是意识层面问题。就算在机构内部,共享也很难实现。假如一个科室很大,每个老师都有自己的小队列,但彼此都没有办法拿到对方的。国外现在都是几十万的队列,我们还一两万的队列在做。”

胡良霖亦有相似看法,他们团队在服务国家重点研发计划科学数据汇交工作中的最大感受之一,就是“个别团队不想交,以及个别团队所交的数据质量不太理想”。一直以来,胡良霖和团队竭力推动高质量数据工作,近期,国家基础学科公共科学数据中心的门户上线了第一批用户好评数据集。

我们数据要素推动得较为困难,根本原因之一,就是原始数据不开放。”对此,胡良霖首先呼吁开放原始数据,其次要推动“数据成果化”,可以将数据类比为署名权的一种成果进行认定。欣慰的是,伴随近期中华人民共和国科学技术部发布关于公开征求《国家科学技术奖励条例实施细则(修订草案征求意见稿)》意见的通知,数据被正式认定为科技成果并纳入国家最高科技奖励体系,“数据成果化”有了一定程度上的进步。

再者,胡良霖呼吁各地要重视数据共享与开放,否则不能够解决根本问题。最后,胡良霖呼吁建立清晰的安全清单,首当其冲的是界定保密数据、核心数据、重要数据的边界,明确国内开放与国际开放的范围。当前的主要障碍在于国家标准与执行落地层面之间存在“鸿沟”—— 缺乏具体数据开放能否开放的明确依据,导致机构因畏惧风险而“不敢开放数据”。

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://lcvt.cn/24853.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部