中文 English 联系我们

新闻动态
当前位置:  首页 >> 新闻动态

建集定纲,析因测效:同济大学交通学院牵头完成全球首次大模型交通能力“通—专”测评
  发表时间:2026-02-06    阅读次数:

(MAI-Image-1生成图片)

建设综合交通运输大模型,是交通运输部贯彻党中央、国务院决策部署,深入推动“人工智能+交通运输”行动的重要举措。为打造一个能够充分发掘人工智能技术潜力、解决行业实际问题、开放共建成果共享的交通运输行业大模型开发和应用体系,2025年8月16日,在交通运输部指导下,中交集团牵头发起成立了交通大模型创新与产业联盟(以下简称“联盟”),同济大学作为高校科研院所代表之一受邀加入,入选联盟首批55家成员单位。

为支撑交通大模型良好生态体系的构建,联盟在成立之初即设立交通大模型评测工作组(以下简称“评测组”),由同济大学牵头,联合中交信科、中国信息通信研究院、上海人工智能实验室等多家单位共同参与,聚焦推动“1+N+X”总体架构落地目标,重点围绕交通行业大模型评测体系建设开展协同研究与实践探索,研究提出了大模型行业研发应用“广覆盖、高可信、可演进”三大核心评测目标。作为评测组骨干成员,学院党委书记马万经教授团队率先提出基于通用人工智能(AGI)能力分级理念的交通大模型评测思路,并构建了五阶段评测体系(见图1),以能力演进路径为主线,将通用智能能力层级映射至交通领域任务与知识场景,从而实现对交通大模型基础能力的分层评估、可解释对标与阶段性定位分析。

图1 交通大模型五阶段评测体系

在第一阶段,评测组率先启动面向通用大模型的交通知识“通—专”问答能力评测。其中,交通学科专业知识评测面向道路交通、载运工具、轨道运输和航空运输四大专业领域,构建了包含1200余道题目的结构化交通知识评测题库。题目设计覆盖核心概念、跨子领域知识关联及典型工程应用场景,并由同济大学交通学科专家团队依据“难—中—易”分级体系实施双盲校验与一致性复核,用于系统刻画大模型在交通专业知识理解、推理一致性与应用能力方面的综合表现。同时,交通通用知识评测选取中国机动车驾驶人考试科目一的200道单项与多项选择题,重点覆盖交通标志与标线、交通信号及交通法律法规等核心知识领域,用于评估模型对交通基础规则与常识性知识的掌握水平。

基于大模型综合评测权威平台 SuperCLUE 榜单,本阶段遴选国内外较为知名的通用大模型进行评测。国外模型包括 GPT、Claude、Gemini 与 Grok,国内模型包括豆包(Doubao)、文心(ERNIE)、DeepSeek与千问(Qwen)。专业知识评测结果显示(图2、图3),参评模型在交通专业领域的知识理解与应用能力总体已达到一定水平,但在不同学科方向上仍存在差异,且部分海外模型表现优于国内模型。其中,GPT在四个学科方向中占据三个学科的第一名,并能够在评测中将输出误差控制在极小范围内,展现出较高的回答稳定性与可靠性。受测模型答题结果与专家题库标注结果的一致性达到 98.4%,验证了评测题库构建与测评方法在指标设定、标注一致性及评测流程设计方面的合理性,并体现出良好的稳定性与可复现性。

图2 交通学科专业知识评测总榜单

图3 交通学科多领域专业知识评测结果分布

驾考规则知识评测结果显示(图4),大模型对我国道路交通法规及驾驶常识的掌握较好。其中,国产模型表现优于海外模型,DeepSeek与千问名列前两位,这得益于国内模型训练语料库覆盖更多中国交通法规知识。评测结果进一步凸显了推动交通领域高质量数据集与语料库建设的重要性与必要性。


图4 交通知识“通—专”问答能力评测结果分布图

未来,同济大学交通学院将与联盟保持紧密合作,在行业主管部门指导下,在联盟理事会统筹和秘书长单位具体协同下,以建立健全交通大模型标准规范体系、推动行业高质量数据集建设、组织举办第二届智能体创新应用大赛等为抓手,进一步研究探索面向交通垂域大模型与智能体的专业能力评测体系建设,系统提升行业模型评测与应用支撑能力,进一步推动交通行业大模型技术创新与产业高质量发展。同时,交通学院还将继续推进基础及垂域模型训练、深化智能体场景应用、专题技术交流等重点工作,为“人工智能+交通运输”规模化落地,发展交通运输新质生产力贡献力量。