英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图
时间:2023-06-25 13:37:17来源:互联网

LDM3D是业界领先的可创建深度图的生成式AI模型,有望革新内容创作、元宇宙和数字体验。

英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LDM3D是业界领先的利用扩散过程(diffusion process)生成深度图(depth map)的模型,进而生成逼真的、沉浸式的360度全景图。LDM3D有望革新内容创作、元宇宙应用和数字体验,改变包括娱乐、游戏、建筑和设计在内的许多行业。

英特尔研究院人工智能和机器学习研究专家Vasudev Lal表示:“生成式AI技术旨在提高和增强人类创造力,并节省时间。然而,目前的大部分生成式AI模型仅限于生成2D图像,仅有少数几种可根据文本提示生成3D图像。在使用几乎相同数量参数的情况下,不同于现存的潜在扩散模型,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计中的标准后处理方法相比,LDM3D能够为图像中的每个像素提供更精准的相对深度,并为开发者省去了大量用于场景开发的时间。”


(资料图片)

封闭的生态系统限制了规模。英特尔致力于推动AI的真正普及,通过开放的生态系统让更多人从这项技术中受益。计算机视觉领域近年来取得了重大进展,特别是在生成式AI方面。然而,当今许多先进的生成式AI模型只能生成2D图像。与通常只能根据文本提示生成2D RGB图像的现有扩散模型不同,LDM3D可以根据用户给定的文本提示同时生成图像和深度图。与深度估计(depth estimation)中的标准后处理(post-processing)方法相比,LDM3D在使用与潜在扩散模型Stable Diffusion几乎相同数量参数的情况下,能够为图像中的每个像素提供更精准的相对深度(relative depth)。

这项研究有望改变我们与数字内容的互动方式,基于文本提示为用户提供全新的体验。LDM3D生成的图像和深度图能够将诸如宁静的热带海滩、摩天大楼、科幻宇宙等文本描述转化为细致的360度全景图。LDM3D捕捉深度信息的能力,可以即时增强整体真实感和沉浸感,使各行各业的创新应用成为可能,包括娱乐、游戏、室内设计、房产销售 ,以及虚拟博物馆与沉浸式VR体验等。

6月20日,在IEEE/CVF计算机视觉和模式识别会议(CVPR)的3DMV工作坊上,LDM3D模型获得了“Best Poster Award”。

LDM3D是在LAION-400M数据集包含一万个样本的子集上训练而成的。LAION-400M是一个大型图文数据集,包含超过4亿个图文对。对训练语料库进行标注时,研究团队使用了之前由英特尔研究院开发的稠密深度估计模型DPT-Large,为图像中的每个像素提供了高度准确的相对深度。LAION-400M数据集是基于研究用途创建而成的,以便广大研究人员和其它兴趣社群能在更大规模上测试模型训练。

LDM3D模型在一台英特尔AI超级计算机上完成了训练,该超级计算机由英特尔®至强®处理器和英特尔®Habana Gaudi® AI加速器驱动。最终的模型和流程整合了RGB图像和深度图,生成360度全景图,实现了沉浸式体验。

为了展示LDM3D的潜力,英特尔和Blockade的研究人员开发了应用程序DepthFusion,通过标准的2D RGB图像和深度图创建沉浸式、交互式的360度全景体验。DepthFusion利用了TouchDesigner,一种基于节点的可视化编程语言,用于实时互动多媒体内容,可将文本提示转化为交互式和沉浸式数字体验。LDM3D是能生成RGB图像及其深度图的单一模型,因此能够节省内存占用和降低延迟。

LDM3D和DepthFusion的发布,为多视角生成式AI和计算机视觉的进一步发展铺平了道路。英特尔将继续探索如何使用生成式AI增强人类能力,并致力于打造一个强大的开源AI研发生态系统,让更多人能够使用AI技术。延续英特尔对开放AI生态系统的大力支持,LDM3D正在通过HuggingFace进行开源,让AI研究人员和从业者能对这一系统作出进一步改进,并针对特定应用进行微调。

在2023年6月18日至22日举行的IEEE/CVF计算机视觉和模式识别会议上,英特尔将发表这项研究成果。

标签:

最新
  • 世界今热点:乡村有好物·渝快助振兴——重庆农商行开展涪陵专场迎端午助农直播带货活动

    自主题教育开展以来,重庆农商行积极创新支农惠农富农模式,竭力为群众

  • 全球今日讯!【透视】“末日博士”鲁比尼:高利率、粘性通胀、信贷紧缩三大因素叠加,美国经济注定陷入衰退

    【透视】“末日博士”鲁比尼:高利率、粘性通胀、信贷紧缩三大因素叠加

  • 速看:叙利亚去年上半年日产石油约8万桶 82%被美军偷走

    通过这些人提供的信息以及他们拍摄到的视频,埃伊汉姆为总台记者讲述了

  • 海信空调几级能效最好_空调几级能效最好_世界报道

    1、一级能效好。2、等级1表示产品节电已达到国际先进水平,能耗最低;

  • 尿道结石吃什么药能排出来_尿道结石 速看

    1、你好,泌尿系统结石有很多种比较常见的是膀胱结石,输尿管结石和肾

  • 南岭民爆中标47亿元矿山工程施工项目 为公司成立以来单项中标金额最大一单

    6月16日晚间,民爆龙头上市公司南岭民爆(002096)公告,全资子公司易普力

  • 同比增长7.3% !前5月房产税收入1737亿元

    土地增值税收入2579亿元,同比下降15 5%。

  • 环球今日报丨小邓利维出任勇士总经理:正式接替迈尔斯 三大遗留难题待解决

    小邓利维出任勇士总经理:正式接替迈尔斯三大遗留难题待解决,勇士,库里

  • 普陀区爱心暑托班报名方式(时间+流程)

    【报名方式】通过“随申办市民云”APP,进行线上报名,分为两个步骤—

  • 穿山越海高铁情!“发现最美铁路”再出发

    穿山越海高铁情!“发现最美铁路”再出发

  • 环球微动态丨耒和耜是一个东西吗(耜和耒耜有什么区别)

    想必现在有很多小伙伴对于耜和耒耜有什么区别方面的知识都比较想要了解

  • 10年63亿美元没了!中国人造太阳获重大突破后,全球最大的或烂尾_百事通

    2023年,中国“人造太阳”获重大突破后,结果世界最大的——全球最大的

  • 2023粤港澳车展:极狐阿尔法S/T森林版上市 售价18.58万元起

    6月16日,极狐阿尔法T和阿尔法S森林版在粤港澳大湾区车展正式上市,阿

  • 关注:世界互联网大会数字文明尼山对话将于山东济宁曲阜召开

    世界互联网大会数字文明尼山对话将于山东济宁曲阜召开---中新网北京6月

  • “数”“智”赋能产业转型提速 他们走在科技创新第一线

    芶文涵 陈科“我们小区地下室一直有渗漏问题,前段时间下暴雨,积了很

  • 济民可信GARP/ TGF-β1单抗创新药临床试验获批-全球热点评

    济民可信GARP TGF-β1单抗创新药临床试验获批---

  • 旅游
    • 最大的老虎浮出水面全国沸腾,前苏联发现世界最大的虎?-天天微头条

    • 【世界新要闻】5名患者死亡,Mersana又一次暂停ADC临床

    • 晚高峰提前!全路网严重拥堵!北京目前交通指数8.1

    • Mysteel解读:5月铜箔出口环比小幅减少 进口环比增加4.96%