点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

作者:靖瑞锋(广州国家实验室大湾区生物信息中心副主任)
“十五五”规划纲要指出,要深化数据资源开发利用,统筹推进公共数据开放和授权运营,健全公共数据资源开发利用责任制和个人数据合规利用机制,推动企业数据、行业数据开发开放。生命健康数据是反映人类生命活动、健康影响因素及二者相互作用的核心数据资源,涵盖生物组学、医疗健康、公共卫生、生活方式、环境气象、科研文献、药物研发等多个领域。作为国家重要的基础性战略性资源,这类数据是提升我国生命健康科研与生物医药产业全球竞争力的关键,其深度开发利用能有效推动科研与产业创新,培育新业态、新模式与新经济增长点,为生物医药产业和卫生健康事业发展注入强劲动力。
欧美国家较早开展高价值生命健康数据的开发利用,通过构建一体化信息系统、开放式多源数据常态化汇交平台等设施,以及可信安全环境与数源单位的动态授权机制,形成了维度多元且连续的高价值数据资源池,在基础研究、临床诊疗、新药研发等领域成效显著,为AI For Science、AI制药的快速发展和颠覆性创新奠定了坚实基础。以英国生物银行为例,其通过相关设施与机制高标准整合大规模居民临床、多组学、环境及生活方式等多维度、连续性、长周期数据,支持面向前沿研究的定向采集与授权使用,支撑发现了100多个药物靶点,并带来巨额产业回报,在疫情应对、生命科学基础研究和生物医药产业创新中发挥了重要支撑作用。美国已建成多个具有全球影响力的国家级、行业级生命健康数据库,覆盖基因、临床、公共卫生、药物研发等多个维度。比如美国国家生物技术信息中心(NCBI)是全球最大的公共生物信息学资源平台,由美国国立卫生研究院(NIH)主导建设。与此同时,欧美国家将生命健康数据视为国家战略资源,通过数据封锁、技术限制等手段维护其在全球生物医药产业的头部地位。2025年美国NIH宣布禁止中国访问其核心生物医学数据库,包括多个基因、癌症研究相关数据库资源,企图将我国生命科学与生物医药产业限制在价值链低端。这迫切要求我们加快构建自主可控的生命健康可信数据空间,以推动生命健康数据的开发利用。生命健康可信数据空间,是基于国家可信数据空间整体框架,面向生命健康领域构建的专业化数据流通利用基础设施与价值共创应用生态,也是支撑建设国家数据基础设施、实施可信数据空间发展行动计划的重要组成部分。
当前,我国正处于从数据大国向数据强国转型的关键时期。国家出台多项政策加快构建数据基础制度、数据基础设施,激活数据要素潜能、构筑国家竞争新优势。国家数据局印发《可信数据空间发展行动计划(2024—2028年)》,提出大力培育金融保险、商贸物流、医疗健康、气象服务、时空信息、碳足迹管理类行业可信数据空间,赋能一二三产业融合发展。党的二十届四中全会在论述深入推进数字中国建设时明确指出,要“深化数据资源开发利用”“强化算力、算法、数据等高效供给”。“十五五”规划纲要提出,面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集。同时,国家提倡充分利用人工智能、大数据等新技术,加快生命健康数据库建设,提升医药研发效率和医疗水平。这些举措将推动我国生命健康数据开发利用迈入新阶段,有效提升生命科学与生物医药领域国家创新体系整体效能,强化国家安全能力,加速具有全球影响力的生命科学中心建设。
但是,生命健康数据具有较强的特殊性,与交通、金融等行业数据差异显著,生物医药产业与生命科学研究在数据开发利用过程中仍面临诸多未解决的难题。
一是数据资源分散,汇聚整合难度大。我国生命健康数据分散在医疗、科研、政府、企业等单位,标准不统一,数据真实性、完整性参差不齐,导致数据获取利用困难,且后期治理成本高。同时,因涉及居民个人信息保护及数据持有机构的资产收益,导致数据持有机构不敢汇、不愿汇。
二是数据总量庞大但维度不足,数据价值有待提升。当前,我国生命健康数据资源主要集中在以电子病历为主的临床医疗数据,价值局限。重大疾病的研究和创新药研发离不开基因、蛋白、临床、气象环境、生活方式等强关联、多维度的个人生命健康数据,且往往需要持续数年甚至数十年。但由于缺乏基于个人数据的收益与激励,居民参与度低、失访率高,难以持续开展多维度数据采集与整合。
三是产业利用数据授权难。生命健康数据属于敏感个人隐私数据,同时涉及数据源机构收益,同一组数据会涉及多元主体的隐私与权益保护,在产业应用时需取得居民个人及企业、公共机构等数据源机构的单独或叠加授权同意。由于缺乏统一的设施与机制支撑,这些数据被封闭在各类健康服务机构的信息系统中,造成有权限的居民因不掌握数据而难以开展授权,多元主体协同授权的难度也很大,产业合规使用数据的组织协调成本高、周期长、效率低,阻碍了高价值生命健康数据赋能生物医药及新兴产业发展。
为破解上述难题,推动我国生命健康数据的开发利用,需要在政府指导管理下搭建生命健康可信数据空间,构建生命健康大数据一体化基础设施。按照统一标准、规则、接口,将医院、体检中心、公共卫生机构、第三方检验中心、医保结算机构、科研单位、健康服务企业等各级各类医疗健康服务机构产生的碎片化数据整合至统一平台,形成多维度、连续性、标准统一的高价值数据资源,并运用隐私计算、安全沙箱、保密机房等高等级安全技术或设施,增强高敏感数据的可信管控能力;由运营机构依托可信数据空间,按居民个人与数据源机构分类梳理数据,允许相关主体在合法合规前提下,授权医疗机构、科研机构、生物医药与健康服务企业开展数据开发利用,并通过创新路径破解数据交互合规难题;支持居民个人与数据源机构查询、应用自身数据并持续获取收益,保障形成可持续的数据价值共创效应。这一举措符合国家法律政策要求,个人信息保护法明确了个人对其信息的知情权、决定权及查阅、复制、转移权,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》《可信数据空间发展行动计划(2024—2028年)》均提出建立健全个人数据确权授权和合规利用机制。可见,打造生命健康可信数据空间既符合国家法律政策要求,又是破解生命健康数据开发利用难题的重要突破点。
其中,“还数于民”是生命健康可信数据空间的重要组成部分。它是指在生命健康可信数据空间中为每个居民开通个人数据账户,将空间连接的各个机构产生的居民医疗健康数据统一整合到个人数据账户,由居民自主掌控数据的授权、使用与流转,将数据的持有权、使用权和收益权在兼顾各方利益的同时同步归交由居民。“还数于民”意义重大:一是保障合规应用,通过“还数于民”开展数据授权,是确保隐私保护、实现合规利用的必要路径;二是提升数据价值,将原先按类型、行业等维度分块汇聚的数据以居民个体为维度有机串联,形成体现居民健康变化过程、隐含健康与疾病发生和发展深层机制的更高价值数据;三是激发参与活力,帮助居民通过健康数据掌握自身健康状况、获取精准健康服务、获得数据资产收益,从而调动居民积极性与研究机构保持持续连接,为动态采集个性化数据提供有效支撑。
生命健康可信数据空间既是技术革新,更是以人民为中心治理理念的创新,标志着从“机构数据”到“全民数据”、从“数据资源”到“数据资产”的范式升级。这一举措,将推动生命科学迈向AI For Science的新范式,有利于在整合现有临床医疗数据的基础上,按科研需求面向居民与数源机构个性化采集多维度生命健康数据,实现高价值数据的规模化供给,解决AI科研面临的数据短缺问题,推动生命健康研究从依赖既有数据的“被动研究模式”,转向主动设计方案、按需生成数据的“创新研究模式”,大幅拓展研究的广度、深度与精度。有助于驱动生物医药与健康产业数智化转型升级,激活万亿级产业生态。在罕见病研究、创新药研发、精准医疗服务等前沿领域,产业可通过该空间实现数据合规采集与应用,显著降低数据获取利用门槛;同时催生生命健康数字经纪人、数商、数据交易等新业态,壮大精准健康管理、智慧养老等传统业态,推动生命健康数字经济高质量发展。将助力我国突破数据开发利用瓶颈,加快构建生命健康数据资源库,提升人民健康水平,同时打破欧美国家数据封锁,助力我国在生命健康领域占领国际制高点。
