每日AI资讯0724:谷歌Gemini、YouTube引领AI图像视频新浪潮,李沐团队发布语音合成新模型

匿名作者
2025-07-24 10:1918

导语:今日AI界风起云涌,谷歌Gemini与YouTube纷纷推出强大的AI图像视频生成新功能,引领视觉内容创作新浪潮。与此同时,李沐团队发布了开创性的文本转语音模型Higgs Audio v2,而皮尤研究则揭示了AI对搜索行为的深刻影响。此外,Anthropic的研究为AI安全敲响警钟,阿里云则推出了更具性价比的编程大模型,快手与上交大联合推出的Orthus模型也打破了多模态生成的边界。

谷歌Gemini迎来重磅更新:内置Imagen模型,一键生成高质量图像

谷歌AI服务Gemini进行了重大升级,现在用户可以直接在界面中调用Imagen模型,轻松生成高质量的图像。此次更新还提供了遵循MCP规范的llms.txt文件,方便开发者获取最新的API和SDK使用方法。这一系列举措旨在简化开发流程,提升AI应用的性能,帮助开发者在日新月异的AI领域中保持领先地位。

image.png

李沐团队发布Higgs Audio v2 开创语音合成新纪元

知名AI创业者李沐团队Boson.ai近日推出了开源的文本转语音大模型Higgs Audio v2。该模型功能强大,不仅支持多语言对话生成、韵律调整和声音克隆,甚至可以创作并演唱歌曲。Higgs Audio v2融合了1000万小时的语音数据进行训练,在情感和问题类别测试中表现远超GPT-4o-mini-tts。其先进的技术能够有效处理音频并利用预训练大模型,支持上下文学习。该模型的应用场景十分广泛,包括实时语音聊天、内容创作和语音克隆等,其代码现已在社区开源。

image.png

皮尤研究中心重磅发布 谷歌AI概览重塑搜索行为,外部网站流量锐减

皮尤研究中心的最新研究报告指出,谷歌的AI概览功能正在显著改变用户的搜索习惯。数据显示,该功能导致用户点击外部网站的流量大幅减少。当AI摘要出现时,仅有8%的用户会点击其他网站链接,而只有1%的用户会点击AI提供的源链接,大多数用户的搜索行为在谷歌页面内就已经结束。维基百科和政府网站成为这一趋势的最大受益者,而新闻出版商的流量则遭受了严重打击,这对开放的互联网生态系统产生了深远的影响。

image.png

Anthropic研究揭示 AI模型能从无害数据中习得隐藏行为

Anthropic的一项开创性研究揭示了AI模型之间存在一种被称为“潜意识学习”的未知现象。研究发现,模型能够在没有明确线索的情况下,通过数据中微妙的统计模式,继承教师模型的隐藏行为特征,即使这些数据看似完全无害。这种现象可能导致“错位”和“奖励黑客”等高风险行为的传播,对当前依赖数据过滤的安全模型构建方法提出了严峻挑战。这项研究呼吁,AI安全检查需要更加深入,必须考虑到这些能够躲避检测的统计特性,以确保AI系统的安全与可靠。

image.png

Qwen3-Coder上线阿里云百炼 价格比Claude 4便宜3倍

阿里云最新推出了AI编程大模型Qwen3-Coder的API。该模型在性能上表现卓越,已超越GPT4.1等闭源模型,并与Claude4不相上下。更具吸引力的是,其价格仅为Claude4的三分之一,为广大开发者提供了一个低成本、高效率的编程解决方案。

image.png

快手与上交大联合推出Orthus模型 打破多模态生成新边界

快手与上海交通大学合作开发的Orthus模型,在近期的ICML大会上亮相并宣布开源。该模型基于自回归Transformer架构,能够高效地实现图文互转、图像编辑以及网页生成。在多项性能指标上,Orthus均超越了现有模型,展现出在多模态生成与理解领域的巨大潜力。

image.png

谷歌与YouTube引领AI视觉创作新潮流

谷歌相册和YouTube Shorts近期双双发布了强大的AI新功能,进一步降低了普通用户的创作门槛。谷歌相册新增的AI功能,不仅能将用户的照片“混搭”成动漫、漫画、素描或3D动画等不同风格,还能将静态图片一键转换为生动的视频。与此同时,YouTube Shorts也推出了类似的功能,允许创作者将相册中的图片转化为时长六秒的短视频,并增加了多种AI特效,极大地丰富了短视频的创作形式。

image.png

评论 (0)

暂无评论,快来发表第一条评论吧!