8年老亿乐社区赞最新下单网址:https://sq.mubail.cn ,请猛戳这里→点击跳转

界面新闻记者肖芳

界面新闻编辑文姝琪

百度正在强化文心大模型多模态理解能力。

百度AI Day ,百度集团副总裁吴甜详细解释了其最新发布的两款模型文心大模型4.5 Turbo和深度思考模型X1 Turbo技术创新之处 。

表示,文心大模型4.5和4.5 Turbo实现了文本、图像和视频的混合训练。针对不同模态数据在结构 、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码 、时空重排列的三维旋转位置编码 、自适应模态感知损失计算等技术 ,大幅提升跨模态学习效率和多模态融合效果 ,学习效率提高近2倍,多模态理解效果提升超过30%。

文心大模型4.5于今年3月16日正式发布,是百度首个原生多模态大模型 。文心大模型4.5 Turbo在上个月举办的Create 2025百度AI开发者大会上对外发布 ,相比文心大模型4.5,其速度更快,价格下降80% ,每百万token的输入价格仅为0.8元,输出价格3.2元,仅为DeepSeek-V3的40% 。

去年 ,百度CEO李彦宏多次公开表示,Sora这种视频生成模型无论多火爆,百度都不去做。他给出的理由是 ,多模态模型尤其是视频生成领域,幻觉问题尚未解决,这限制了大规模应用。

坚持不做Sora,百度为何又开始重视多模态大模型?  第1张

但字节跳动和阿里巴巴却没有因为幻觉问题停止布局多模态大模型的脚步:去年12月,字节跳动正式对外发布豆包视觉理解模型、豆包3D生成模型;今年9月和12月 ,阿里通义千问团队分别对外发布视觉理解模型Qwen2-VL和多模态推理模型QVQ-72B-Previe。

从市场反馈来看,这几款模型在处理自然语言与图像信息的结合上灵活性强,能精准识别图像中的内容 ,受到教育、自动驾驶领域企业的关注,在视觉-语言融合场景中展示出较大的潜力。

这意味着,此前百度多模态大模型上存在一些误判 ,多模态模型布局竞争对手晚了数月。

百度正在积极补齐大模型布局短板

今年年初,DeepSeek走红让外界再次讨论百度大模型领域是否再次陷入了“起个大早,赶个晚集”的尴尬境地 。

2021 ,百度对外发布文心大模型,行业属于最早一批布局大模型公司。经过几年发展,百度大模型领域不仅没能保持先发优势 ,还在开源、降价、多模态问题出现误判。

界面新闻多位百度内部人士了解,今年第一季度总监会,李彦宏去年内部没有提到模型开源,导致百度走了一些弯路 。

DeepSeek走红之后,百度此前关于开闭源问题进行纠偏。今年新发布文心大模型4.5系列将于630正式开源。

降价问题,去年豆包、通义大模型相继大幅降低调用价格之后,文心大模型的主力模型并未进行跟进 。直到今年Create 2025百度AI开发者大会 ,百度正式宣布文心大模型4.5 Turbo文心大模型X1 Turbo价格大幅降低。

然而,今年基础大模型竞争焦点价格。一位大模型从业者看来,基础信息处理能力的提升以及成本的下降让豆包 、通义几款大模型去年获得了快速增长 。深度推理能力、视觉推理能力以及Agent相关技术将成为今年未来几年基础大模型竞争关键。

在当下的竞争态势下 ,百度放弃此前纠结,积极布局多模态大模型不难理解了。文心大模型4.54.5 Turbo,文心大模型X1X1 Turbo ,模型性能提升的同时,多模态能力也进一步增强。

根据百度方面介绍,文心大模型4.5Turbo多模态能力与GPT 4.1持平 ,不仅具有图片理解能力 ,还能听懂、看懂音视频内容文心大模型X1 Turbo具备跨工具调用能力,能整合搜索引擎 、数据库等外部资源完成复杂任务 。在多模态交互场景中,这种工具调用能力与多模态能力相融合 ,使其能够更灵活地应对各种实际问题。

李彦宏Create 2025百度AI开发者大会谈及布局多模态大模型价值DeepSeek也不是万能的,它只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容 ,很多客户都需要这种多模理解和生成能力。

对于李彦宏此前一直纠结幻觉问题,吴甜此次百度AI Day进行重点阐释百度研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力 ,实现了“训练-生成-反馈-增强 ”的模型迭代闭环,让大模型拥有了自我迭代能力,显著降低了模型幻觉 ,模型理解和处理复杂任务的能力大幅提升 。

虽然过去诸多判断进行纠偏,不可否认,百度在大模型已经脱离第一梯队。很多业内人士判断 ,未来基础大模型领域将只剩下DeepSeek 、豆包通义三强争霸。这种竞争格局,百度想要翻盘面临挑战不言而喻 。

数字人能否助力百度翻盘?

百度积极布局多模态大模型,除了当下市场竞争需要之外,另一个重要原因,多模态大模型承载百度AI应用期待。

去年以来,李彦宏多次公开场合强调技术的商业价值。在他看来,一个没有明确用途的AI模型 ,不过是一个吸引人的计算机科学展示 。没有应用,芯片、模型都没有价值。模型会有很多,但未来真正统治这个世界的是应用。

今年以来 ,AI应用领域创业如火如荼,AI办公、AI搜索 、Agent都是热门AI应用落地方向 。李彦宏不一样判断,他在Create 2025百度AI开发者大会上表示 ,AI数字人年最令人激动的突破性应用。声形超拟真 、内容更专业、互动更灵活数字人,实现超越真人的体验,在电商直播、游戏 、消费等领域 ,有着巨大的想象空间。

百度AI Day,吴甜透露百度数字人方面布局百度研制了“剧本”驱动多模协同的超拟真数字人技术,实现了语言、声音、形象的协调一致。目前这套技术已经支持超过10万数字人主播,直播转化率达31% ,降低80%直播开播成本 。

也有一些从业者数字人不同声音。尤其是一些电商商家,尝试数字人直播之后,发现真实的直播带货效果不尽如人意。一家美妆类的商家此前告诉界面新闻 ,其从去年开始尝试数字人直播带货,但数字人回复用户留言时不仅生硬,还会出现答非所问的情况 ,不仅没有带来更高的转化率,还引发了更多消费者投诉 。

在数字人服务商世优科技CEO纪智辉看来,目前数字人直播带货并不好做 ,抖音快手等平台的出发点依然是更好的内容和体验。“如果用户在平台上刷到10个短视频有9个都是数字人,这会破坏平台的内容生态,各个平台都对数字人直播进行严格管控也是意料之中的事。”

不过 ,这些不同声音没有阻止百度积极布局数字人脚步 。根据百度此前公布信息,百度与罗永浩达成合作,联手打造罗永浩的数字人形象用于直播带货,并于5月23日晚8点在百度电商开启首场直播。

罗永浩数字人首场直播带货成绩有待观望。如果数据不错 ,或许能改变一些商家数字人直播带货态度,能给百度带来多大商业价值,仍然需要时间验证 。

8年老亿乐社区最新下单网址:https://sq.mubail.cn  ,请猛戳这里→点击跳转