欢迎访问安博体育电竞官网 在线留言 联系我们
全国服务热线:

13337904859

应用领域

从Sora到Suno 解锁多模态大模型的可能性

来源:安博体育电竞官网点击: 发布时间:2024-04-07 05:36:01

  近日,AI音乐生成软件Suno发布V3版本,仅需要简单的描述,就可以生成2min长度、广播质量级别的音乐。

  这为普通人打开了音乐制作的大门。在社会化媒体上,众多网友参与讨论,并晒出通过Suno制作的曲目,这些可以称得上完整且好听的音乐作品令音乐圈内外人感到颇为震撼,当然,更震撼的还是AI生成能力的迭代速度。

  在文生文模型的热度逐渐平息之时,文生图、音频、视频等多模态大模型开始了一轮又一轮的进化。华泰证券的一份研报显示,海外大模型迭代重视多模态能力拓展,相较于早期图像、音频、视频模型,基础模型能力显著提升。

  “大语言模型为AI产业带来新的生机,然而语言模型的应用场景有限。要全面打开生成式AI的想象力,还是要依托多模态大模型。”IDC中国研究总监卢言霞向21世纪经济报道记者表示。

  她曾预测,未来5年,生成式AI生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会慢慢的平均。而这其中,与图像文件相关的数据量可能是文本文件的100倍,视频文件是图像文件的10倍。

  当见识过这些模型的能力后,生成式AI的想象空间已经被全面打开。尽管目前很多应用尚未正式对外开放使用,也无法了解到更多技术细节,但能确定的是,这一波技术迭代将为AI行业参与者带来可观的机遇。

  曾有业内专家觉得,考虑到成品的复杂性,在大多数情况下要数年时间才能出现一种通过简单的文本描述制作歌曲的工具。但位于马萨诸塞州剑桥市的一家成立两年的初创公司Suno已经成功实现了这一目标。

  近日,Suno V3音乐生成模型发布,面向全用户开放。Suno通过其先进的AI算法,能够理解和分析用户的输入,然后生成与之相匹配的音乐。这在某种程度上预示着用户只需要出示一些简短的歌词或者描述,Suno就能依据这一些信息创作出一首歌曲。

  随着新版本的推出,Suno还引入了AI音乐水印系统,每段由平台生成的音乐都添加了人声没办法识别的水印,旨在保护用户的创作,防止抄袭和滥用。

  “相比起之前的版本,或是此前其他AI生成音乐的工具,V3生成的曲目是令人惊艳的。”有音乐博主在社会化媒体上发出赞叹,“它已不再是一小段不成熟的东西,而是有歌词、前奏、间奏、副歌的完整歌曲。”

  在V3版本中,音质、咬字和节奏编排上都有了显著提升,是Suno AI首次能够生产出广播质量的音乐的模型。

  为了激发人们的创作灵感,Suno V3还增加了更多音乐风格和流派的选项,包括古典音乐、爵士乐、Hiphop、电子等新潮曲风。同时,V3版本对于用户输入的提示词,理解和响应更加准确,减少了“幻觉”现象,使得歌曲的结尾更加自然和高质量。

  “我认为完成度很高,在乐器编排、风格把控、歌词与旋律的匹配度等等方面都做得不错,更不可思议的是乐器solo。”某独立乐队成员向21世纪经济报道记者表示,“尤其对没有专业制作班底的独立乐队而言,提供了很好的编曲灵感。”

  官方宣称,不少知名的艺术家已经在使用Suno,但其核心用户群依然还是没有一点音乐制作经验的普通人。

  “这与AI绘画给人的感觉是类似的,”有使用者向记者表示,“做不到特别好,但能够达到中等水准,甚至要更高。”

  针对于其应用场景,业内一致认为,作为广告、短视频等背景音乐的“功能性音乐”,Suno生成的音频有着非常大的应用前景,再往前发展,个性化定制音乐也会成为一种普遍的现象。

  不过,谈AI替代人力还是为时过早。上述独立乐队乐手向记者表示,作品虽然有完成度,但结构呆板,编排还是粗糙的、模块化的,对于主流的音乐产业还构不成威胁,“它确实降低了音乐制作的门槛,但还远没有突破其天花板”。

  事实上,去年下半年以来,由各类多模态大模型生成的作品已经一次又一次带来令人惊艳的效果,AI生成语音、图片、视频的进程似乎比预想中走得更快。

  去年年底,谷歌上线了文生图模型Imagen 2,在图像的真实性和语言理解的深度上取得了前所未有的成就,能够生成高度逼真且与文本提示一致的高分辨率图像。

  年初,OpenAI的Sora模型带来更大的震撼,它可以依据文本描述生成长达60秒的视频,在此之前,同种类型的产品生成的时长只有几秒钟。

  再加上近期Suno的火爆,所有的领域都在迎来自己的ChatGPT时刻。业内人士认为,这类多模态大模型将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力,既能大大的提升生产速度又能大大的提升生产数量,还可以创造全新的视听感受,可以帮助企业真正的完成降本增效、提升用户体验。

  从更长远的角度来看,多模态最接近于人对自然界的感知,智谱AI CEO张鹏在此前接受21世纪经济报道记者正常采访时表示,多模态是走向通用AI(AGI)的起点。

  “人大脑一定是各种感官融合到一起的,所以人的智力一定是多模态的。”张鹏向记者表示,“多模态不仅是文到图、图到文这么一件事情,它更多的是探究人的认知能力和各种感官之间的相互作用。”

  东方证券的一份研报指出,多模态大模型一方面有利于形成图片、视频等更生动活泼、更具交互性的应用,从而有助于C端爆款的诞生;另一方面,多模态大模型能真正打通物理世界和数字世界的障壁,实现与物理世界最自然的交互,从而对无人驾驶、人形机器人等具身智能领域的突破提供有力支撑。

  多模态模型的技术难度主要在于如何有效地整合和处理不一样的数据,图像、视觉和音频等领域的数据具有更高的维度和更复杂的结构。“与NLP相比,图像、视觉、音频的数据量更大,对算力的要求也更高,计算的速度、性能要求都会更高。”卢言霞向21世纪经济报道记者表示。

  她认为,尽管在NLP领域取得了一定的进展,但在图像、视觉和音频等其他模态上,大模型的发展仍然处于起步阶段。

  “很多应用表面上看上去惊艳,但是如果我们按需按场景去使用,能满足需求的时候仍是少数。”卢言霞向记者表示,真正的成熟需要至少多个场景都能有效使用,目前很明显达不到这一点。

  而人们对于多模态大模型的期望显然不只限于单一的非文本模态。未来的多模态模型可能会朝着更加集成和协同的方向发展,不仅仅可以处理单一模态的数据,还能够在多个模态之间进行相对有效的信息融合和转换。

  但当前一体化多模态大模型仍存在局限。复旦大学计算机科学技术学院教授邱锡鹏向21世纪经济报道记者表示,目前的多模态大模型通常以语言模型为中心,通过将其他模态的数据映射到语言模型的语义空间中来实现多模态理解,生成时则需要调用外部的插件或系统。这限制了模型的应用场景和灵活性。

  他认为,新一代大模型的交互将实现任意模态到任意模态的内生转化,这将与更多实际生活场景相结合,赋能应用场景和生产力变革。

  目前来看,多模态整体的研究框架仍是非常开放的,它并没有一个非常清晰的、收敛的路线,这对于开发者而言是巨大的挑战,但与此同时,也代表着很多的可能性。