越来越众人劈头拿AI看病——身体不痛疾、化验单看不懂,先问问AI,一经成了一种风气。有大夫吐露,“一上午30个门诊,25个带着AI来看病。” AI 的出现彷佛也对得起这份信托:牛津大学的一项切磋里,把整顿好的完备病例直接交给顶尖通用大模子,诊断确凿率高达94.9%,比良众大夫还高。
但统一项切磋的另一半,却很少被提起:当切磋者让平常人拿着己方的病情去和统一个AI对线%。题目不正在模子聪不灵敏,而正在消息是奈何来的——完备病例是大夫整顿好的。可实际里,病人说不清哪里过错、不清晰该讲什么,闭头消息得靠大夫的一句句诘问技能获得。通用大模子最不擅长的适值是主动诘问,它默认你能完备确凿地描绘病情,一朝做不到,再贯通专业的回复,也只是兴办正在残破消息上的幻觉。
个中,正在最磨练丰富临床决议的Hard子集上,该模子领先达15.9分。到底性幻觉率降至3.3%,这些分数指向的不是测验才华,而是四项贴着临床走的中央才华:问诊、追忆、循证、调节。
问诊是看病的第一步。一名好大夫的功力,往往就呈现正在问诊上——他能用接连串适可而止的诘问,启发患者把零落、笼统以至己方都没正在意的细节,一点点说成一条完备的病程。
百川智能先容,M4会主动诘问症状的性子与诱因,优先识别和排查紧迫重症,而不是被动等候用户供给完备消息,更不会为了尽疾给出谜底而跳过该问的闭头病史。同时,其鉴戒医学培养中长远行使的OSCE(客观布局化临床测验)形式,联结150众位一线大夫,修建了动态问诊评测体例SCAN-bench。它不考查静态追忆,而是以的确临床履历为评分准绳,通过众轮、动态的形式完备模仿大夫从接诊到确诊的全经过。
的确的诊疗,很少正在一次问诊里就罢了。一次化验结果、一次用药后的响应、一个新冒出来的症状,城市随病情推动继续改写大夫的占定——这意味着,谁能记住一私人完备的病史,谁才说得上联贯地看病。M4这一代推出的全病程追忆打通了汗青病历、众轮问诊、化验趋向与用药反应,让模子正在众次对话中永远掌管患者是谁、既往有过哪些疾病、各项目标若何改变,而不必每次从零劈头。
问诊、追忆、循证互相分割,单项再强,也拼不行一个能用的医疗编制。常睹的做法是把众个才华按固定次第人工移用,但患者并不会占定己方今朝该问诊、查指南照旧复盘病史,相连一朝错位,整套就卡正在那里。这一步的编排,必需由模子己方结束。
继承这层编排的,是百川面向医疗场景修建的Baichuan-Harness。借使说M系列模子是医疗Agent的大脑,它即是调节这个大脑的中枢神经:何时诘问、何时检索证据、何时调出既往病史,均由模子自决决策,无需人工渐渐指令。同时,这套编制不是一次成型,而是正在的确诊疗中接连迭代:线上的疑问案例、用户的诘问、大夫的纠偏,经脱敏与归因后回流,成为模子陆续改善的凭借。问诊、追忆、循证由此被编排成一个完备的合座,M4也从一个最强的医疗大脑,成为能独立结束联贯诊疗的医疗智能体。
百川智能直言,从M1到M4,百川永远只做一件事:让AI真正能看病。这件事最难,但也最值得,它正正在把蓝本只可知足少数人的优质诊疗资源,带到每一个平常人身边。