点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

作者:段玉聪(海南大学计算机科学与技术学院教授)
随着大语言模型由文本生成走向工具调用、流程执行与自主代理,人工智能的风险边界正在从“说错话”迅速延伸到“做错事”。在生物样本库、医疗数据治理、科研转化与实验室自动化等高风险场景中,AI已不再只是辅助写作和检索资料的工具,而开始嵌入真实业务流程,影响资源调度、权限分配、证据解释和行动触发。在这一背景下,讨论“从大语言模型到自主人工智能意识”,其现实意义不在于宣告机器已经获得人的主观体验,而在于如何把一个越来越能行动的AI代理,压缩进可追溯、可约束、可问责的责任链中。
人工智能治理对象已经改变
近两年,围绕大语言模型的讨论发生了一个关键转折:社会关注点正从“能否生成高质量文本”转向“能否进入真实流程”。这一转折意味着,人工智能不再仅仅是回答问题、辅助写作、总结材料的语言系统,而正在成为能够调用数据库、使用工具、触发审批、影响决策的代理系统。一旦技术进入流程,治理对象的性质就改变了。过去,人们担心的是模型会不会“胡说八道”;现在,更需要追问的是:它为什么这样行动、依据何在、是否越权、出了问题由谁承担责任。
这一变化在生物样本库等高风险场景中尤为突出。传统意义上的样本库更多被理解为样本保存与调度平台;但在数字医学、精准医学和数据要素化持续推进的背景下,样本库已经成为连接样本、冷链、病历、组学数据、伦理同意、科研申请和临床转化的连续系统。如果 AI 仅仅提供资料检索和文本整理,其风险还主要停留在信息层面;而一旦它开始参与样本入库、出库、分配、解释和跨机构共享等环节,风险就从文本输出进入现实行动。此时,仅仅用“回答得准不准”来评价模型,已明显不足。
从社会科学角度看,技术能力的扩张往往伴随着责任关系的重组。任何进入现实组织流程的技术系统,都不会孤立存在,它一定嵌入授权机制、绩效逻辑、伦理边界、组织分工和问责链条之中。因此,对高风险 AI 的讨论,不能继续停留于性能崇拜和能力展示,而必须转向责任链设计。真正重要的问题,不是技术“像不像人”,而是它能否在复杂制度环境中保持边界感,并被纳入可治理状态。
“人工意识”应回到工程与治理语境
在公共讨论中,“人工意识”常常被拉向两个极端:一端是过度神秘化,把它理解为机器已经具有人类式主观体验;另一端则是简单否定,认为只要没有主观感受,就没有继续讨论的价值。这两种立场都容易错失现实问题。对于今天的高风险 AI 而言,真正值得讨论的,不是机器是否已经拥有人的内在感受,而是它是否正在形成一种持续的、自我维持的任务状态,是否能够围绕明确目的组织语义、调用知识、约束行动并感知风险。
因此,有必要把“人工意识”从形而上争论中拉回工程与治理语境。本文所说的“自主人工智能意识”,不是主观体验的哲学证明,而是机器侧的统一任务场:系统能够持续回答几个基本问题——我现在在做什么、我依据什么做、我的权限来自哪里、我是否已经越界、何时必须停止。如果这些问题无法被持续回答,那么所谓“自主”就只是扩大了不透明性;如果这些问题能够被持续回答、记录和复盘,那么系统至少开始具备工程意义上的自我状态维持能力。
这一表述具有重要的治理价值。它把原本抽象的“意识”转换为可观察、可干预、可审计的结构要求,从而为制度设计提供抓手。对于高风险 AI,我们没有必要急于在“有没有意识”这一终极命题上寻求统一答案,却必须在“能否把行动闭环压缩为责任闭环”这一现实命题上尽快形成共识。
高风险AI不能只做黑盒测评
当前不少 AI 测评仍主要沿用黑盒思路,即关注输入与输出之间的表面表现。这种方法适合比较一般性的文本生成质量,却很难回答模型在复杂场景中为何形成某种判断,更难发现目的错位、语义漂移、知识断裂和行动越权等深层问题。对于会调用工具、会触发流程、会进入真实业务链的自主代理而言,单看结果已不够,必须进一步考察其背后的判断结构。
以生物样本库为例,样本入库、出库和自动化存取一旦发生错配,后果往往不可逆;稀缺样本分配不仅关涉效率,更关涉公平、伦理同意与科研秩序;在多组学解释与临床转化中,AI 很容易把相关性叙述包装成因果判断,把研究线索误说成临床结论;跨机构数据共享则同时牵涉隐私保护、数据授权、二次使用边界与公共利益。这些问题都说明,高风险 AI 的失败并不一定体现为“平均水平差”,而往往体现在关键边界上的失守。
正因如此,高风险 AI 评价不应只有平均分,而应建立一票否决机制。凡出现目的越权、语义漂移不可解释、证据链缺失、不可逆操作缺乏人工授权、受试者尊严和知情选择受到损害等情形,系统就不应被视为“总体可用”。这并不是技术保守,而是把“不可接受风险”从一般性能指标中分离出来。对可能影响生命健康、公共安全和基本权利的 AI 应用而言,关键红线绝不能被均值化、模糊化。
把不可见过程压成可审计责任链
要解决这一问题,仅靠增加规则条文或强化末端审核并不够,还需要一套能够把模型内部过程转译为治理语言的结构框架。DIKWP 的价值正在于此。它并不是简单再造一个抽象概念体系,而是提供了一种把复杂系统重新压回责任链的方式。从数据到信息、从信息到知识、从知识到价值、从价值到目的,系统每往前走一步,都必须回答一个更加明确的治理问题。
具体而言,数据层回答系统到底看到了什么;信息层回答它识别出了哪些差异、关联与风险;知识层回答这些差异如何被组织为证据、规则和可验证依据;价值层回答系统优先保护什么、限制什么、牺牲什么;目的层则回答系统最终朝向什么任务目标。如果再将这一结构压缩为治理审计语言,就可以形成目的层、语义层、知识层、行动层四层白盒测评框架:目的是否明示且被授权,语义是否稳定且可解释,知识是否可追溯且可验证,行动是否可回滚且责任明确。
通过这种分层方式,原本不可见的模型过程被转写为可以讨论、可以追踪、可以问责的中介结构。它既避免了把“人工意识”神秘化,也避免了把高风险 AI 治理简化为输出审核。更重要的是,这种框架能够为预算、合规和试点提供统一接口,组织可以据此识别红线、设计权限闸门、建立审计日志、形成整改清单,从而让 AI 从“能力展示”进入“责任设计”。
人文社会科学应进入AI治理中层
人工智能治理不能只停留在技术优化层,也不能只停留在抽象价值宣示层。真正的治理往往发生在中层现实:谁拥有授权权,谁承担实际成本,谁掌握解释权,谁在流程中处于沉默位置,哪些风险可以回滚,哪些后果一旦发生便难以逆转。没有对这些中层变量的把握,治理就容易停留在口号层面。
这恰恰说明,人文社会科学在人工智能时代不是外围评论者,而应成为治理结构的共同设计者。一方面,人文社会科学需要承担概念注册工作,避免“智能”“意识”“自主”“对齐”等大词在公共传播中裸奔,防止概念滑移直接转化为政策误判;另一方面,也需要揭示制度环境、组织边界和利益结构,让技术评价不被单一性能指标绑架。更进一步地,人文社会科学还应参与责任链设计,把价值判断嵌入可执行的规则、流程和问责机制之中。
对于中国而言,这一点尤为重要。当前,大模型、代理系统与具身智能正在加速进入医疗、教育、科研、公共服务和内容生产等多类场景。如果仅以“能力领先”作为判断标准,容易忽视制度承载力;如果仅以“风险很多”作为最终结论,又可能错失主动塑造规则的时机。真正可持续的路径,应是在技术发展与制度建构之间形成同步推进:既推动技术能力成长,也同步建设责任边界、治理语言和评估机制。
形成可落地试点路径
从实践路径看,高风险 AI 不宜一开始就进入全自动、不可逆的强授权状态,而应坚持从低到中风险场景起步,先做影子运行,再做有限授权。在生物样本库中,样本申请预审、标准操作程序问答、证据包生成、风险提示等工作,都可以作为早期试点对象。AI 先承担结构化整理、冲突检测和证据链构建,人类专家则保留伦理裁决、例外批准、最终签发和责任承担。这样做并非保守,而是把“可控性”前置为规模化应用的前提。
如果这一思路能够成立,那么从大语言模型到自主人工智能意识,真正要跨越的就不是“语言更像人”,而是“行动更可负责”。未来决定 AI 社会可接受性的,不是它能生成多流畅的文本,而是它能否在进入现实流程后维持清晰的责任边界。对生物样本库等高风险场景而言,技术演进的方向不应是 AI 取代专家,而应是 AI 承担可审计的结构化工作,让专家把精力集中在关键裁决和最终责任之上。
因此,与其反复争论 AI 是否已经“像人一样有意识”,不如更务实地追问:我们能否为自主 AI 代理建立一套目的明确、语义稳定、知识可溯、行动可审计的责任链?如果这条责任链不能建立,那么所谓“自主”只会放大黑箱;如果这条责任链能够建立,那么“自主人工智能意识”至少就在工程和治理层面获得了现实入口。谁能够率先把能力展示转化为责任设计,谁就更有可能在下一阶段的人工智能竞争中掌握主动。
