国产最强大模型发布:8个国际权威测试集测评第一,整体超越GPT-4 Turbo
大河财立方
2024-06-27 22:14:00
6月25日凌晨,OpenAI突然宣布将对中国内地和中国香港“断供”API(Application Programming Interface即应用程序接口)服务。讯飞星火V4.0的发布,可谓给国内大模型应用注入了一剂强心针。

【大河财立方 记者 杨霄 丁洋涛 实习生 陈星冉】讯飞星火V4.0来了。6月27日,科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用,拿出国内大模型最优解决方案。据了解,讯飞星火V4.0七大核心能力全面提升,整体超越GPT-4 Turbo,在8个国际主流测试集中排名第一,国内大模型全面领先。6月25日凌晨,OpenAI突然宣布将对中国内地和中国香港“断供”API(Application Programming Interface即应用程序接口)服务。讯飞星火V4.0的发布,可谓给国内大模型应用注入了一剂强心针。

如期交付!讯飞星火V4.0 整体超越GPT-4 Turbo

6月25日凌晨,OpenAI突然宣布将对中国内地和中国香港断供API服务。这一事件,并未在国内引发太大波澜。事实上,国内很多B端平台,早已将接口切换到国产大模型,很多国产大模型在中文语义方面的理解要优于GPT。因此,OpenAI这项限制措施对国内市场影响不大。

6月27日发布的讯飞星火V4.0即国产大模型中的佼佼者。讯飞星火V4.0在外部权威测试集中直接体现出其领先性。在国内外12项大模型主流测试集中,讯飞星火在8个测试集中排名第一,超越GPT-4 Turbo等国际大模型。

今年中高考真题实测中,讯飞星火语数外各科“成绩”均排名第一,被评为“更会做题的大模型”;在科研上,讯飞星火助力中国科学技术大学刘海燕教授团队,将蛋白质设计成功率从0.1%提升到20%,设计所需时间从6个月降到1天……讯飞星火正成为每个人的AI助手。

据了解,讯飞星火V4.0七大核心能力全面升级,全面对标GPT-4 Turbo,并实现在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面的整体超越。讯飞星火V4.0在图文识别能力上进一步升级,在科研、金融、医疗、司法、办公等场景的应用效果已领先GPT-4o。此外,星火长文本能力也全新升级,并针对长文档知识问答的幻觉问题,业界首发溯源功能。

现场,科大讯飞董事长刘庆峰展示了讯飞星火V4.0在复杂指令、复杂逻辑推理、空间推理、高中数学等方面的效果,星火“智商”再度进化。

首发“个人空间”,数百万用户一键拥有“AI智能全家桶”

如何打造懂你的AI助手?刘庆峰提出,AI助手要能够基于用户画像进行个性化表达,基于使用历史进行记忆学习,基于个人资料进行增强学习。在构建用户个人画像时,人设风格可以自己选定,也可以根据对话和使用历史动态完善,进而形成个性化的表达风格;AI助手再结合个人资料,就可以生成个性化和针对性内容。

基于此,讯飞星火App及桌面版全新升级改版,率先发布“个人空间”,用户可以上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再结合人设,让大模型生成更个性化的内容。此外,讯飞星火首批上线14个智能体,面向特定场景打造专属助手。

科大讯飞研究院院长刘聪现场演示“个人空间”效果,当他上传了女儿写的小作文并选取符合女儿风格的AI人设标签后,星火生成了一篇活泼、可爱更个性化的文章;当他上传了讯飞翻译机的产品海报、用户短视频、相关录音,星火也可以根据这些多模态信息生成产品培训文档,还可以对生成的信息进行多模态溯源。大模型进入个性化时代,大模型工作、学习“可用性”飙升。

此外,星火大模型还打通了全系讯飞C端软硬件产品生态,数百万智能硬件用户一键拥有“星火全家桶”。比如讯飞智能办公本、智能录音笔的文件可以一键同步到星火个人空间中,通过数据互通、操作联动,把一篇办公本里的会议记录同步到星火中,就可以让星火进行公文写作,还可以做PPT,以及生成待办事项等。

解决医疗、教育、多种语言交流难题,讯飞星火轻松拿捏

讯飞星火在面向专业领域的个性化应用方面下了大功夫。例如,升级讯飞晓医App,发布个人数字健康空间;发布首款星火智能批阅机,集智能批改、精准学情、个性学习于一体;发布国际领先的多语种多方言免切换语音识别能力,可支持37个语种、37种方言“自由对话”。

具体来看,在医疗领域,讯飞星火医疗大模型再次升级,医疗核心能力全面超过GPT-4 Turbo和GPT-4o。在此基础上,讯飞晓医App各项能力持续升级,覆盖1600种常见疾病、2800种常见药品、6000种常见检查检验,满足用户在看病前、用药时、检查后的核心场景健康需求。当前,讯飞晓医App累计下载量1200万,用户好评率98.8%,主动推荐率42%。

在教育领域,作为老师的“最强辅助”,星火智能批阅机让老师作业批改负担下降90%。它支持自由排版,不限纸张大小的作业,在支持多学科多题型智能批改的同时,还能即时生成多维学情报告,还为老师作业讲评和面批辅导提供了素材。刘聪在现场演示了星火智能批阅机批改作业的全流程,15份学生作业半分钟就能批改完成,批改模拟了真人笔迹,和老师平时批改作业几乎一样。

在实现多种语言“自由对话”方面,讯飞星火语音大模型破解了强干扰场景下语音识别难题。

在发布会现场,三位讯飞研究院的研究员现场实测了在噪音场景下,同时混叠着说话,正常人耳已难以听清,讯飞星火的多模态能力不但实现了三人重叠语音的角色分离,还能实时转写出每个人说的话,炸裂的效果引发现场掌声不断。未来基于多模态的声音识别技术,将应用在讯飞听见智慧办公、智慧屏等会议办公产品中。

星火企业智能体平台发布,打造不同岗位专属AI助手

如何更好地解决企业大模型应用的最后一公里问题?刘庆峰谈到,企业首先要科学地认识大模型能力的边界,根据任务难度选择合适方案,并且用更少的算力、更高的效率,打造企业专属大模型。随着星火V4.0的发布,他认为用智能体平台打造每个岗位的专属助手的时间已经到了。

现场星火企业智能体平台正式发布。基于企业智能体平台,科大讯飞打造了星火商机助手、星火评标助手等典型应用案例,为企业应用打了个样。

在代码智能体iFlyCode中,它集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体,将采纳率由30%提升至52%,大幅度提升企业智能体的实用性。

星火商机助手可以实现商机线索应知尽知、客户拜访提质增效、销售管理智能研判,助力一线销售和商机管理效能提升。星火评标助手通过标前寻源、智能评标、定标审核等功能,智能评标结果人机一致率达98%,投标异常检出率超过80%,在大幅提升企业评标效率的同时降低采购成本。

星火开发者生态加速增长,总开发者数破700万

讯飞星火大模型带来行业赋能的同时,也在助力开发者生态蓬勃发展。自今年1月30日讯飞星火V3.5发布以来,短短5个月,星火开发者生态加速增长,开发者数从598万增长到702万,新增超104万;海外开发者数超40万;大模型开发者达57万。越来越多的开发者正加入星火生态,释放更多刚需场景的应用价值。

据讯飞星火开放平台显示,面向开发者的API五项“普惠政策”包括星火Lite版本永久免费;星火Pro版本免费试用1个月;星火Max版本免费赠送1亿tokens;首次公开发布的星火4.0 Ultra版本首单买一送一;提供技术专家1V1支持服务。

刘庆峰说,只有形成自主可控的繁荣生态,才有中国通用人工智能的大未来。面向未来的人工智能新生态,他强调要关注源头技术生态、智能体生态、应用生态和行业生态,实现自主可控和软硬一体,才能实现大模型的深度落地;既要科学理性地认识中美在大模型上的综合差距,也要有信心快速追赶,给出从源头技术,到产业生态,再到应用落地的一整套打法,以长期主义来打造真正自主可控的AI产业生态。

责编:刘安琪 | 审校:陈筱娟 | 审核:李震 | 监审:万军伟


相关推荐
下载