国产最强大模型发布：8个国际权威测试集测评第一，整体超越GPT-4 Turbo

大河财立方

2024-06-27 22:14:00

6月25日凌晨，OpenAI突然宣布将对中国内地和中国香港“断供”API（Application Programming Interface即应用程序接口）服务。讯飞星火V4.0的发布，可谓给国内大模型应用注入了一剂强心针。

【大河财立方记者杨霄丁洋涛实习生陈星冉】讯飞星火V4.0来了。6月27日，科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用，拿出国内大模型最优解决方案。据了解，讯飞星火V4.0七大核心能力全面提升，整体超越GPT-4 Turbo，在8个国际主流测试集中排名第一，国内大模型全面领先。6月25日凌晨，OpenAI突然宣布将对中国内地和中国香港“断供”API（Application Programming Interface即应用程序接口）服务。讯飞星火V4.0的发布，可谓给国内大模型应用注入了一剂强心针。

如期交付！讯飞星火V4.0 整体超越GPT-4 Turbo

6月25日凌晨，OpenAI突然宣布将对中国内地和中国香港断供API服务。这一事件，并未在国内引发太大波澜。事实上，国内很多B端平台，早已将接口切换到国产大模型，很多国产大模型在中文语义方面的理解要优于GPT。因此，OpenAI这项限制措施对国内市场影响不大。

6月27日发布的讯飞星火V4.0即国产大模型中的佼佼者。讯飞星火V4.0在外部权威测试集中直接体现出其领先性。在国内外12项大模型主流测试集中，讯飞星火在8个测试集中排名第一，超越GPT-4 Turbo等国际大模型。

今年中高考真题实测中，讯飞星火语数外各科“成绩”均排名第一，被评为“更会做题的大模型”；在科研上，讯飞星火助力中国科学技术大学刘海燕教授团队，将蛋白质设计成功率从0.1%提升到20%，设计所需时间从6个月降到1天……讯飞星火正成为每个人的AI助手。

据了解，讯飞星火V4.0七大核心能力全面升级，全面对标GPT-4 Turbo，并实现在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面的整体超越。讯飞星火V4.0在图文识别能力上进一步升级，在科研、金融、医疗、司法、办公等场景的应用效果已领先GPT-4o。此外，星火长文本能力也全新升级，并针对长文档知识问答的幻觉问题，业界首发溯源功能。

现场，科大讯飞董事长刘庆峰展示了讯飞星火V4.0在复杂指令、复杂逻辑推理、空间推理、高中数学等方面的效果，星火“智商”再度进化。

首发“个人空间”，数百万用户一键拥有“AI智能全家桶”

如何打造懂你的AI助手？刘庆峰提出，AI助手要能够基于用户画像进行个性化表达，基于使用历史进行记忆学习，基于个人资料进行增强学习。在构建用户个人画像时，人设风格可以自己选定，也可以根据对话和使用历史动态完善，进而形成个性化的表达风格；AI助手再结合个人资料，就可以生成个性化和针对性内容。

基于此，讯飞星火App及桌面版全新升级改版，率先发布“个人空间”，用户可以上传自己的工作、学习、生活、健康等各类资料，形成每个人的专属知识库，再结合人设，让大模型生成更个性化的内容。此外，讯飞星火首批上线14个智能体，面向特定场景打造专属助手。

科大讯飞研究院院长刘聪现场演示“个人空间”效果，当他上传了女儿写的小作文并选取符合女儿风格的AI人设标签后，星火生成了一篇活泼、可爱更个性化的文章；当他上传了讯飞翻译机的产品海报、用户短视频、相关录音，星火也可以根据这些多模态信息生成产品培训文档，还可以对生成的信息进行多模态溯源。大模型进入个性化时代，大模型工作、学习“可用性”飙升。

此外，星火大模型还打通了全系讯飞C端软硬件产品生态，数百万智能硬件用户一键拥有“星火全家桶”。比如讯飞智能办公本、智能录音笔的文件可以一键同步到星火个人空间中，通过数据互通、操作联动，把一篇办公本里的会议记录同步到星火中，就可以让星火进行公文写作，还可以做PPT，以及生成待办事项等。

解决医疗、教育、多种语言交流难题，讯飞星火轻松拿捏

讯飞星火在面向专业领域的个性化应用方面下了大功夫。例如，升级讯飞晓医App，发布个人数字健康空间；发布首款星火智能批阅机，集智能批改、精准学情、个性学习于一体；发布国际领先的多语种多方言免切换语音识别能力，可支持37个语种、37种方言“自由对话”。

具体来看，在医疗领域，讯飞星火医疗大模型再次升级，医疗核心能力全面超过GPT-4 Turbo和GPT-4o。在此基础上，讯飞晓医App各项能力持续升级，覆盖1600种常见疾病、2800种常见药品、6000种常见检查检验，满足用户在看病前、用药时、检查后的核心场景健康需求。当前，讯飞晓医App累计下载量1200万，用户好评率98.8%，主动推荐率42%。

在教育领域，作为老师的“最强辅助”，星火智能批阅机让老师作业批改负担下降90%。它支持自由排版，不限纸张大小的作业，在支持多学科多题型智能批改的同时，还能即时生成多维学情报告，还为老师作业讲评和面批辅导提供了素材。刘聪在现场演示了星火智能批阅机批改作业的全流程，15份学生作业半分钟就能批改完成，批改模拟了真人笔迹，和老师平时批改作业几乎一样。

在实现多种语言“自由对话”方面，讯飞星火语音大模型破解了强干扰场景下语音识别难题。

在发布会现场，三位讯飞研究院的研究员现场实测了在噪音场景下，同时混叠着说话，正常人耳已难以听清，讯飞星火的多模态能力不但实现了三人重叠语音的角色分离，还能实时转写出每个人说的话，炸裂的效果引发现场掌声不断。未来基于多模态的声音识别技术，将应用在讯飞听见智慧办公、智慧屏等会议办公产品中。

星火企业智能体平台发布，打造不同岗位专属AI助手

如何更好地解决企业大模型应用的最后一公里问题？刘庆峰谈到，企业首先要科学地认识大模型能力的边界，根据任务难度选择合适方案，并且用更少的算力、更高的效率，打造企业专属大模型。随着星火V4.0的发布，他认为用智能体平台打造每个岗位的专属助手的时间已经到了。

现场星火企业智能体平台正式发布。基于企业智能体平台，科大讯飞打造了星火商机助手、星火评标助手等典型应用案例，为企业应用打了个样。

在代码智能体iFlyCode中，它集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体，将采纳率由30%提升至52%，大幅度提升企业智能体的实用性。

星火商机助手可以实现商机线索应知尽知、客户拜访提质增效、销售管理智能研判，助力一线销售和商机管理效能提升。星火评标助手通过标前寻源、智能评标、定标审核等功能，智能评标结果人机一致率达98%，投标异常检出率超过80%，在大幅提升企业评标效率的同时降低采购成本。

星火开发者生态加速增长，总开发者数破700万

讯飞星火大模型带来行业赋能的同时，也在助力开发者生态蓬勃发展。自今年1月30日讯飞星火V3.5发布以来，短短5个月，星火开发者生态加速增长，开发者数从598万增长到702万，新增超104万；海外开发者数超40万；大模型开发者达57万。越来越多的开发者正加入星火生态，释放更多刚需场景的应用价值。

据讯飞星火开放平台显示，面向开发者的API五项“普惠政策”包括星火Lite版本永久免费；星火Pro版本免费试用1个月；星火Max版本免费赠送1亿tokens；首次公开发布的星火4.0 Ultra版本首单买一送一；提供技术专家1V1支持服务。

刘庆峰说，只有形成自主可控的繁荣生态，才有中国通用人工智能的大未来。面向未来的人工智能新生态，他强调要关注源头技术生态、智能体生态、应用生态和行业生态，实现自主可控和软硬一体，才能实现大模型的深度落地；既要科学理性地认识中美在大模型上的综合差距，也要有信心快速追赶，给出从源头技术，到产业生态，再到应用落地的一整套打法，以长期主义来打造真正自主可控的AI产业生态。

责编:刘安琪 | 审校:陈筱娟 | 审核:李震 | 监审:万军伟