1. 首页 > 人工智能

中国首个GPT 中国首个!比亚迪宋 PLUS 新能源SUV销量破百万

作者:admin 更新时间:2025-03-27
摘要:国产AI大模型迎来对标全球顶尖版本时刻!
4月23日,商汤科技带来全新升级的「日日新SenseNova 5.0」大模型,具备更强的知识、数学、推理及代码能力,综合性能全面对标 GPT-4 Turbo,并在主流客观评测上达到或超越 GPT-4 Turbo。,中国首个GPT 中国首个!比亚迪宋 PLUS 新能源SUV销量破百万

 

国内AI大模型迎来对标全球顶尖版本时刻!

4月23日,商汤科技带来最新更新的「日日新SenseNova 5.0」大模型,具备更强的姿势、数学、推理及代码能力,综合性能综合对标 GPT-4 Turbo,并在主流客观评价上达到或超越 GPT-4 Turbo。

「日日新 5.0」能力提高主要得益三个方面:

● 采用混合专家架构(MoE),激活少量参数就能完成推理。且推理时上下文窗口达到 200K 左右。

● 基于超过10TB tokens训练、覆盖数千亿量级的逻辑型合成思考链数据。

● 商汤AI大装置SenseCore算力设施和算法设计的联合调优。

先看看BenchMark成绩:

「日日新 5.0」在大部分核心测试集指标上都对标甚至超过GPT-4 Turbo

在实际运用中,「日日新 5.0」具体表现如何样?下面,分别从天然语言能力、文生图能力、多模态和数据解析能力多少方面对比一下。

天然语言能力

「日日新 5.0」的天然语言能力得益于对大量中文语料的构建。

创意写作、推理以及拓展资料能力均大幅提高,相同的中文姿势注入后,可以获取更好的领会拓展资料及问答,为教学、内容产业等垂直应用场景提供有力辅助。

例如,在创意写作方面,「日日新 5.0」可以打破传统作文的“八股式”写法,将通用姿势、新姿势融会贯通,实现更放开式的创作。

以《红楼梦》里亭子的题名来写一篇关于文化、关于创造的作文:GPT-4写作分别从进修、职业、生活维度讨论传统和创造,套路痕迹较为明显,浅尝辄止,难免不让人觉得枯燥乏味;「日日新 5.0」写作颇为生动形象,节拍不一,引经据典。从《诗经》《楚词》到《汉赋》,从“兼爱非攻”到“民贵君轻”,革古鼎新,“一花独放不是春,百花齐放春满园”,文化探讨是创造生生不息的源泉。从历史宏观到细节的生动刻画,「日日新 5.0」想象力丰盛,似一位才华横溢的“大才子”

数学,不仅涉及到计算能力,其实也会涉及到很多对题目和难题描述的领会能力,反映的一个更加综合思索、构建逻辑的经过。

当前的AI大模型很容易失败的一点是应对之前没有提问过的数学场景,当背后缺少构造完整思考链时就容易出错。问一些小众不常见的难题实际上是验证其背后真正构建思考链的能力。

「日日新 5.0」和GPT-4回答趣味推理难题:“母亲给圆圆冲了一杯咖啡,圆圆喝半杯后,将它加满水,接着她又喝了半杯后,再加满水,最后全部喝完。问圆圆喝了几许咖啡,几许水?”,「日日新 5.0」回答正确

下面也一个很简单的逻辑题目。

「日日新 5.0」和GPT-4回答逻辑难题对比:“13个小兄弟玩老鹰抓小鸡,1人扮演老鹰,12个扮演小鸡,已经抓了5只小鸡,还剩几只?”。GPT-4给出答案是抓了5只还剩8只,而日日新的答案是减掉1只老鹰因此还有7只没有被抓住。这个题目并不一个简单算术的难题,而是需要对中文环境有充分领会,显然「日日新 5.0」表现更好

文生图能力

「日日新 5.0」的文生图能力也有较大提高,下面对比了商汤「日日新•秒画」和目前行业中多少最好的模型,包括:Midjourney、Stable Diffution 3、GPT-4V。

人像是评估文生图能力的决定因素场景其中一个,「日日新 5.0」在人物生成上有特别大的提高。秒画生成的人像可以看出特别好皮肤的纹理,而其他多少大模型在皮肤上都做了磨皮

这个对比体现另外壹个难点,即如何把不同字段的领会合成在一起。秒画给出了壹个特别未来感的建筑,且对建筑下的倒影、波浪都表现得特别具有审美,实现了相对完整的指令跟随且生成效果好。而其他多少大模型会发现对于文字嵌入到图像中,无论对文字的领会还是放置位置,都有一定缺失

多模态和数据解析能力

本次「日日新5.0」另一大核心指标就是多模态能力,商汤多模态大模型的图片文字感知能力达到全球领先水平,在权威综合基准测试MMBench中综合得分排行首位,在多个知名多模态榜单MathVista, AI2D, ChartQA, TextVQA, DocVQA, MMMU 取得领先成绩。

「日日新5.0」在应用产品层面也实现了更卓越的多模态能力,支持高清长图的解析和领会以及文生图交互式生成,还可以实现复杂的跨文档姿势抽取及拓展资料问答展示,还具备丰盛的多模态交互能力,下面看多少具体例子。

首先一个很常见的例子,针对信息长图做核心内容的提炼和解析。有时长图尺寸很大,很多多模态大模型支持不了很大的图像分辨率,而「日日新5.0」提供了特别大的分辨率接口。

大家有时会把打车软件截图发给等待的兄弟,这里面有司机信息、车的信息、车牌信息、时刻信息等等一系列文字和图片信息,信息密度特别高。对于大模型的信息提取解析很有挑战。

「日日新 5.0」展现出了对于中文领会的优势,特别是对文本的解析和对场景的领会上特别出色,识别出来有手机信号中国移动和中国联通双卡双待,GPT-4没有识别出来的。包括对车牌、司机姓名等细节内容的提取,GPT-4的识别也有错误。日日新 5.0」对这类多模态信息的获取更加准确

最后,再看看「日日新 5.0」对应的数理能力。

上周,中国首位F1车手周冠宇完成了他在F1中国大奖赛的比赛。用大模型统计下周冠宇和F1赛事的情况。

One More thing

基于商汤「日日新 5.0」的智能编程助手代码小浣熊Raccoon发福利了,详情请戳下面海报:

(来源:商汤科技)