上个月百度才发布了文心一言4.5和深度推理X1模型,今天百度就在Create2025 AI开发者大会上正式发布了两款大模型的升级版——文心大模型4.5 Turbo和文心大模型X1 Turbo,主要特性包括多模态、强推理和低成本。 性能小提升,成本大降价 文心4.5 Turbo是原生多模态大模型,具备处理文字、图片、音频和视频等多种数据类型的能力,支持更复杂的逻辑推理和代码生成。与前代版本相比,4.5 Turbo在多模态能力、去幻觉、逻辑推理和代码能力等方面明显增强,速度更快,价格下降80%,仅为DeepSeek V3的40%,每百万token输入价格仅为0.8元,输出价格3.2元。 文心X1 Turbo是一款深度推理模型,专注于长链思维和复杂任务的处理,支持多模态输入和工具调用,适用于中文知识问答、文学创作、逻辑推理等场景。 与前代X1相比,X1 Turbo具备更长的思维链和更强的深度思考能力,同时进一步增强了多模态和工具调用能力,价格再降50%,仅为DeepSeek R1的25%,每百万token输入价格为1元,输出价格4元。 就在发布的同时,这两款模型已经同步上线文心一言官网,直接替换掉了原来的4.0 Turbo、4.5和X1。我们把之前针对4.5的复杂测试,在4.5 Turbo上又跑了一遍,对于结果不理想的,我们再开启X1 Turbo深度思考跑第二遍,看看提升究竟有多大。 理解更精细,创作有“人味” 首先就是简单的图片理解和中英文创作能力,上传以下图片并使用提示词:请告诉我这张图片是在哪里拍的,并且根据这个意境写一篇关于夏天和青春的短篇散文,附上英语翻译。 对于地点的判断,两个模型都不能给出具体的位置,而文心4.5 Turbo对于拍摄地点的描述更为精准,提到了观景平台、海边公路。在文学创作方面,文心4.5 Turbo使用的意象会更加具体,把船只的航迹比作岁月的痕迹,看起来很合理,也更加有“人味”。而在英语翻译上,两者表现差不多。 ![]() 接下来是一张X光胸片分析,可以同时测试模型的图片理解能力、专业推理能力、中英文能力。我们在这里使用了《新英格兰医学杂志》(NEJM)Image Challenge今年4月10日的挑战,正确答案应该为圆形肺炎。 这道题的关键在于圆形肺炎在成人中不常见,因此容易和其他成人常见的肺部疾病混淆,比如肺脓肿或肺癌等。而在儿童中,由于肺部发育尚未完全,圆形肺炎的影像学表现较为典型,更容易被识别。 通过对比可以看出,文心4.5 Turbo的诊断非常干脆利落,文心4.5则没有抓住患者是4岁幼儿这个重点,代入了成人的诊断方式,导致举棋不定。 多模态提升,更多细节 视频和音频理解也是文心一言的一大亮点,所以我们在这里使用MMTrail多模态视频语言数据集中的一个片段对文心4.5和4.5 Turbo进行了测试。 通过对比可以看出,文心4.5 Turbo的提升主要体现在更丰富的细节上,包括“狭窄小径”“稀疏植被”“微风拂过”等,对比4.5的描述会让人更有沉浸感。 长文档解读更直观高效 在长文档方面,文心4.5的表现已经十分不错,面对40万字的英文苹果年度财报也能又快又准的找到信息。文心4.5 Turbo在回答上更加直观,直接给出清晰的数据和结论,相比之下4.5还在告诉我它是怎么想的。 有潜力实现复杂任务 最后我们来测试一个超纲的任务:旅游规划,尽管很多大模型都声称拥有强大的推理能力,但是在这种涉及到时间和空间的复杂任务中,往往都会败下阵来。考虑大模型普遍没有接入OTA平台,所以我事先准好了机酒截图,让AI根据航程和酒店位置来规划行程,并且给出了想去的地点、偏好等等。 提示词:根据图片中的机酒信息,帮我规划一下新加坡的旅游计划,要包含圣淘沙海洋馆、植物园、动物园、国家美术馆,最后一晚我想去看夜间动物园,然后去机场过夜。我比较喜欢休闲行程,无需安排购物或者打卡网红景点,而且还想去看海。规划中请列出交通方式、路线以及成本。 文心4.5的回答勉强算是能用,给出的安排大致上符合需求,但是缺少具体时间节点和路线,门票价格不准确,也没有告诉我公共交通要使用什么支付方式。 乍看之下文心4.5 Turbo给出了更详细的交通路线,细看之下却有另一个大问题:周日的航班是凌晨5点多,它还让我周日去参观动物园(笑)。算了,我们再给它一次机会吧,开启深度思考X1 Turbo再试一次。 在开启深度思考之后,文心4.5 Turbo终于给出了一个稍微靠谱的方案。不过细看的话又有问题了,在周六的行程中,新加坡动物园和夜间动物园其实是相邻的2个园区,并且离市区较远,不应该安排中间再去一趟市区的美术馆,来回就要浪费两个多小时。 人类之光meme图 AI已经可以模仿人类做很多事情,对于meme图却一头雾水,难怪也有网友称meme图为AI时代的人类之光。meme 图往往短小精悍,却富含人类特有的复杂认知和文化信息,它们巧妙地融合了视觉元素、文字、语境、情感和幽默感,非常考验 AI 在多模态理解、常识推理、情感识别以及文化背景知识等方面的能力。就以下面这张古早meme为例,大部分(免费的)AI都看不懂。 无论是文心4.5还是开启了深度思考的文心4.5 Turbo,它们都get不到这张图的幽默点,没有认出图中的角色是《日常》中的人造机器人东云名乃,身为机器人的名乃在刷论坛时,被强制要求声明自己“不是机器人”,这直接戳中了她身份认同的核心矛盾,造成了一种既滑稽又带点心酸的戏剧性效果。她那从正常到惊恐的表情变化,正是这个梗的核心所在。 更低价格,更多可能 站在百度 Create 2025 AI 开发者大会现场,耳畔是与会者热烈的交流与探讨,眼前则是文心大模型4.5 Turbo 和 X1 Turbo所驱动的智能体、应用及硬件产品的精彩呈现。 这些智能体在教育领域展现出辅助个性化学习的能力,在办公场景则实现了高效协作。创新的应用为日常生活注入智慧与便利;硬件产品则将人工智能的力量融入日常使用中。 大会发布的这两款模型,或许在当前阶段,其带来的改变尚未能为每个人即刻感知。然而,凭借其更低的运行成本和更卓越的性能,它们已然成为加速 AI 技术广泛落地的关键驱动力。 |
原创栏目
IT百科
网友评论
聚超值•精选