Top
首页 > 新闻 > 要闻 > 正文

Sora横空出世 你懂它吗?

要闻 华商网-华商报 2024-02-25 06:49:50

  近日,美国人工智能研究公司OpenAI发布了Sora模型。在文生文、文生图之后,Sora突破了文生视频技术,可以根据文本指令生成长达1分钟的逼真和富有想象力的视频,引起公众高度关注。

  近日,华商报记者专访了欧洲科学院院士、西安电子科技大学华山学者杰出教授焦李成,从基本原理、影响等方面深度解读了Sora。

  原理

  算法框架上的创新 本质上并不明显

  主要在各模块集成与技术细节有突破

  华商报:焦院士过年好,很荣幸能采访到您。Sora生成逼真视频的原理是什么?和之前的类似技术有何不同?

  焦李成:Sora的成功源自于整个学界、业界、AI社区多年来在技术、工程等方面的探索和积累。文生视频是生成式人工智能中的一个典型应用,核心是使用机器学习和深度学习算法,通过对大量数据的学习和模式识别,能够生成新的、以前未见过的内容,如图像、音频、视频、文本等。ChatGPT、Sora等人工智能生成式大模型成功主要依靠三个要素:数据、算力和算法。Sora实际上是一种深度扩散变换器模型,训练这个模型需要大量配有相应文本提示的视频。它在算法框架上的创新本质上并不明显,主要是在各模块集成与技术细节有所突破。包括以下七个方面:

  统一的视觉数据表示:Sora将所有类型的图像和视频数据,转换为统一的表达形式,以便适应进行大规模的生成模型训练。通过结合文本条件生成,Sora能够根据文本提示生成上下文相关且视觉上连贯的视频。关于这一点,浙江大学人工智能研究所所长吴飞教授解读得很通俗:现实生活中每个人都是通过有价值的内容组合来进行交流和创作的,所以从Chat-GPT到Sora,都遵循着同一个原理——对合成内容中的最小单元进行有意义的关联组合。比如,在保持连贯的上下文语境中,对若干个单词进行有意义组合,从而连缀成一个会意句子;在保持合理的空间布局下,对众多图像小块进行有意义组合,拼合为一幅精彩图像;在保持一致的连续时空内,对一系列时空子块进行有意义组合,从而拼接成一段动感视频。人工智能程序一旦捕获了单词与单词之间的共生关联,就可利用这种关联来合成句子。那么,将图像切分为空间子块,或者将视频切分为时空子块,人工智能模型去学习这些子块在空间维度中的布局分布、在时间维度上的连续变化等信息,同时学习子块之间运动、颜色、光照、遮挡等复杂视觉特征,就可能重建、合成新的视频序列。

  视频压缩网络:训练了一个模型网络,将高维空间的原始视频压缩到一个低维潜在的数据特征空间,Sora在这个压缩的潜在空间中进行训练并生成视频。因此,Sora合成视频的过程并非是简单随机的“鹦鹉学舌”,而是对物理世界的重建。

  扩散模型:Sora是一个深度扩散模型,它通过预测原始“干净”的数据样本,从输入的噪声数据样本中生成视频。噪声越少,图像就越清晰,当图片被一步步加噪声就会得到一幅幅越来越不清楚的图,直到变成全噪点,这个过程就叫扩散过程。系统用大量这样的被噪声淹没过程中的图片及其文字标签去训练神经网络,而文字生成图像的过程则是这个过程的逆过程。图片是这样生成的,而视频实际上就是连续播放的图片,所以生成视频和生成图片的基础原理差不多。

  视频生成的可扩展性:Sora能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得Sora能直接为不同设备生成内容。

  语言理解:Sora结合了大语言模型ChatGPT,训练样本是文本-视频对,有些视频对应的标题过于简短或者缺少,Sora采用了Dall-E的重新标题技术,然后为训练数据集中的所有视频生成相对完整的文本标题。

  图像和视频编辑:Sora不仅能够基于文本提示生成视频,还可基于现有图像或视频进行提示。这使得Sora能够执行广泛的图像和视频编辑任务。

  模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得Sora能够模拟物理世界中的某些方面,如动态相机运动、长期一致性(比如当不同物体间存在遮挡或消失等情况时,依旧可保持它们之间的依赖关系)、对象持久性(单个样本可生成同一角色的多个镜头,在整个视频中保持其外观)等。

  Sora展现的三维空间连贯性和长期物体持久性,提升了视频内容的真实感,创造出富有创意的视频内容,这标志着视频生成技术的一个新时代从此开启。尽管Sora并未使用与过往不同的新技术,但其所用的视频生成方式对算力要求极高,也提升了同行跟进的门槛。

  Sora目前的技术路线还无法正确模拟世界的物理规律

  华商报:Sora技术报告中的“世界模拟器”“物理世界通用模拟器”这样的词在网络上讨论很热烈。但Sora生成的一些视频似乎并不符合现实世界物理规律,这是为何?

  焦李成:Sora能对物理世界规律进行模拟,一个可能原因在于大数据驱动下,人工智能模型体现出一种学习能力,通过观察和学习海量视频数据后洞察了视频中时空子块单元之间所应保持的物理规律。

  OpenAI技术报告中透露,So-ra能够深刻地“理解”运动中的物理世界,堪称真正的世界模型,Sora不只是视频行业颠覆者,而是世界的模拟器(世界模拟器是指可以逼真反映虚拟世界或现实世界的模型或系统),它打开了一条通往模拟物理世界的有效路径:Sora生成的视频能够在相当长的时空范围内不违反物理世界的常见规律,比如重力、光电、碰撞等。如果模型规模进一步提升有可能模拟生成物理世界视频。

  Sora生成的视频中会出现违背物理学规律的情况,也可以从文生视频原理来分析:Sora将视频分解成时空令牌,每个令牌表达图像或视频中的一个局部区域,但却缺乏时空上下文的大范围整体观念。再加上Sora采用扩散模型,在计算传输映射时必然会光滑化数据流形的边界,直接跳过临界态图像的生成,因此视频中间最为关键的倾倒过程缺少,导致物理上的荒谬。

  目前,Sora的技术路线还无法正确模拟世界的物理规律。

  影响

  文生视频技术未来将会应用到多个领域

  华商报:文生视频技术将来最可能的应用场景主要在哪些方面?

  焦李成:随着生成式人工智能技术的不断发展,后续关于这方面的研究会推动该领域再上一个台阶。

  将来可能会在以下方面得到广泛应用——

  创意行业:文生视频技术可以帮助艺术家、设计师和创作者快速生成创意作品,包括动画、影片、广告等,提高创作效率和降低成本。

  营销和广告:文生视频技术可以根据用户的偏好和行为数据生成个性化的广告内容,提高广告效果和用户参与度。

  视频制作和编辑:文生视频技术可以自动生成视频剪辑、字幕、特效等内容,简化视频制作和编辑的流程。

  虚拟现实和增强现实:文生视频技术可以生成逼真的虚拟现实和增强现实内容,用于游戏、培训、教育等领域。

  自动化视频生成:文生视频技术可以自动生成新闻、体育赛事、天气预报等视频内容,提高新闻媒体和娱乐行业的自动化程度。

  客户服务和教育培训:文生视频技术可以帮助企业和教育机构快速生成培训视频、产品演示等内容,提升客户服务和教学效果。

  给人们带来便捷的同时

  生成式人工智能可能带来风险

  华商报:技术是一柄双刃剑,Sora可能会给人们带来哪些便捷与风险?

  焦李成:这是一个哲学问题。但对于生成式人工智能大模型或Sora来说,可能带来的便捷主要有4点:

  创造性内容生成:生成式人工智能可以生成以前未见过的图像、音频、视频和文本等创造性作品,为艺术家、设计师和创作者提供新的灵感和工具。

  自动化创作:生成式人工智能可以自动化创作过程,减少人工劳动,提高效率。例如可以自动生成文章、音乐、影片等内容。

  个性化体验:生成式人工智能可以根据用户偏好和历史数据生成个性化推荐、广告和服务,提供更好的用户体验。

  自然语言处理和机器翻译:生成式人工智能在自然语言处理和机器翻译领域有广泛应用,可以帮助人们更好地进行沟通和交流。

  可能带来的风险有4点:

  假新闻和虚假信息:生成式人工智能可能被用于制造虚假的新闻和信息,对社会造成误导和混乱。

  侵犯隐私和数据安全:生成式人工智能需要大量数据进行训练,在处理个人数据时可能会引发隐私和数据安全问题。

  不可控的生成结果:生成式人工智能可能会产生不可预测、不受控制的结果,包括有害、冒犯或违法的内容。

  伦理和道德问题:生成式人工智能可能引发伦理和道德问题,如利用人工智能制作深度伪造视频等。

  需要加强数据监管和审查

  确保数据的准确性、可靠性

  华商报:在用人工智能工具文生图的操作过程中,经常会发现输入的关键词希望生成的图片和最终实际生成的图片存在中西方文化差异。不知在文生视频中是否也会出现这种情况?

  焦李成:几乎所有基于数据训练的模型都会出现这样的问题。这种中西方文化差异在人工智能生成图像中出现的原因可能有几个方面:

  训练数据集的偏差:人工智能模型在生成图像时通常会基于大量训练数据,这些数据可能来自于特定地区或特定文化背景的图片,生成的图片可能会受到这种文化影响。

  模型设计和算法:人工智能生成图像的模型和算法可能对不同文化的视觉特征和风格有所偏好,导致生成的图像在中西方文化之间存在差异。

  数据样本不足:对于一些特定主题或概念,可能存在的中西方文化差异导致某些文化的样本数据较少,从而影响了模型对于该主题的理解和生成能力。

  为减小这种中西方文化差异带来的影响,可以尝试使用更广泛和多样化的训练数据集,同时调整模型参数或使用不同的生成算法。此外,也可通过后期处理或编辑生成的图片来使其更符合文化背景和偏好的要求。

  华商报:在一条视频中,美籍华人、美国工程院院士、NVIDIA创始人兼首席执行官黄仁勋提出:AI主权要独立掌握,否则历史文化会被篡改,每个国家都需要拥有自己的智能产品。Sora的横空出世,也再次说明了数据资源的重要性。在这方面,您有何观点?

  焦李成:数据资源的重要性不言而喻,我们国家也高度重视这块,成立了国家数据局来主要做这个事情,当然也包括对生成数据的管控问题,但这是一个世界范围内的数据治理问题。

  人工智能生成的数据存在潜在的安全隐患,为了减少这些安全隐患,需要加强对人工智能生成数据的监管和审查,确保数据的准确性和可靠性。同时,需要加强数据隐私保护和安全防护,避免敏感信息被不当使用或泄露。此外,对抗性攻击和法律伦理问题也需要引起重视,建立相应的防护机制和监管措施。

  现状

  我国人工智能研究处于全球领先水平

  未来研究方向主要将从两个方面出发

  华商报:目前我国在该领域的研究处于什么水平?未来该领域的发展方向是什么?

  焦李成:目前我国在人工智能领域的研究处于全球领先水平,政府和企业对人工智能的投入和支持力度也非常大。研究机构和高校在人工智能领域取得了许多重要的成果,包括在语音识别、计算机视觉、自然语言处理等方面取得了显著进展。

  关于未来的研究方向,主要从两个方面出发,分别是判别式人工智能和生成式人工智能。

  判别式人工智能是一种通过学习输入数据的特征和模式来进行分类、识别或预测的人工智能方法。发展方向是不断提升模型性能、数据效率和资源利用率,注重解释性和可解释性,同时加强泛化和迁移学习能力,应对多模态数据处理等挑战。

  生成式人工智能的主要任务是使用已知数据的统计特征来生成新的、以前未见过的数据。发展方向是不断提升生成模型的各方面的能力,包括稳定性、连贯性、逻辑性、真实性等,实现更多领域的创新和应用。

  华商报:您所带领的团队在人工智能领域耕耘三十余载,可否简单介绍一下相关研究成果?

  焦李成:西电在人工智能领域人才培养工作方面起步很早,1986年就展开了研究生的人工智能教育与培养,2001年获批模式识别与智能系统的博士点,2003年设立了智能信息处理硕士点与博士点,1991年成立国内第一个神经网络研究中心,2017年成立部属高校首个人工智能学院,是全国唯一一所“智科”和“人工智能”专业双双入选国家“双一流”建设的高校,也是教育部获批的“人工智能+教育”三所标杆大学之一。

  在大模型技术方面,我们一直面向国家重大需求开展着研究。主要做了西电遥感脑大模型和智能医学影像分析大模型系统。西电遥感脑大模型是国际上第一个遥感大模型,主要对机载和星载卫星获取的图像和视频进行智能识别与解译。智能医学影像分析大模型是一款全面的医学影像分析平台,能够协助从医工作者提高诊断效率,支持MRI、X光、CT和B超等多种医学影像数据的显示与处理。可提供丰富的医学影像解译算法。 华商报记者 马虎振

  专家简介

  焦李成,欧洲科学院院士,IEEEFellow,西安电子科技大学华山学者杰出教授。现任西安电子科技大学计算机科学与技术学部主任、人工智能研究院院长、智能感知与图像理解教育部重点实验室主任、教育部科技委学部委员、“一带一路”人工智能创新联盟理事长、陕西省人工智能产业技术创新战略联盟理事长、西安市人工智能产业发展联盟理事长、中国人工智能学会第六-七届副理事长、亚洲计算智能学会主席,连续九年入选爱思唯尔高被引学者榜单。国务院学位委员会学科评议组成员,第八届全国人大代表,国务院政府津贴的专家,全国模范教师、陕西省突出贡献专家、陕西省师德标兵和陕西省西迁精神传承人。主要研究方向为智能感知与图像理解、深度学习与类脑计算、进化优化与遥感解译。



来源:华商网-华商报

编辑:田媛

相关热词搜索:

上一篇:太阳再次爆发X级耀斑打破2017年纪录 有何影响? 下一篇:“西安年”何以成“顶流”

表达看法

本地 新闻 娱乐 财经 数码 教育