近日顶级伦理片,上海电影学院影视工程系谢志峰、李梦甜训练团队的探讨责任《SonicVisionLM: Playing Sound with Vision Language Models》告捷被筹划机视觉国外顶级学术会议 The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024(CVPR)寄托,是上海大学上海电影学院初次以第一单元在筹划机视觉国外顶级会议上发表高水平学术论文,亦然上海大学“艺术技巧”阵脚成立的最新探讨效用。
CVPR是筹划机视觉限度顶级会议(CCF-A类),每年王人诱导环球繁多顶尖科研责任者投稿,其寄托论文代表着筹划机视觉限度最新的探讨效用,带领着该限度夙昔的探讨倡导。把柄巨擘的Google Scholar Citation最新统计,CVPR的H5-index为389,位列环球出书物第四(Nature位列第一),工程与筹划机类出书物第一,泛东说念主工智能限度第一。
论文初次使用AIGC技巧为电影自动生成音效,以大幅贬抑电影配乐制作的时刻和东说念主力资本,有用贬抑电影制作周期。具体来说,论文通过视觉-说话模子建议可控的音效生成框架SonicVisionLM,用于自动识别并生成影片的屏内音效,并配套提供了用户交互模块,用于配音师对影片的屏外音效完结创作剪辑,引发创作灵感。在技巧上针对生成音效与影片动作的时刻同步的抑制,和生成音效与影片实质的高度一致的问题,最终完结了影片实质与屏内音效的逻辑会通,以及对屏外音效的纯真剪辑。论文建议的门径在无条件生成和条件生成任务中王人得回了现时最好的实验效果。同期,论文为学术社区孝顺了公开的高质料的音效数据集CondPromptBank,其包含23个常见音效类别,10276 个悠闲条款,每个条款包括一个短于或便是10秒的高质料音效文献、对应文本和时刻戳。论文原文、代码和数据集详见表情主页:https://yusiissy.github.io/SonicVisionLM.github.io/(表情主页展示了经典影片《泰坦尼克号》和《这个杀手不太冷》的音效生见效果示例)。该论文的学生一行为余盛叶,数字媒体创意工程硕士探讨生二年龄在读;学生二行为何其乐,数字媒体创意工程硕士探讨生一年龄在读。
夏娃的诱惑SonicVisionLM暗意图:图中蓝色部分闪现屏内音生成经过:领先,一段无声视频干涉视觉-说话模子,得到声息文本;其次,视觉收罗对视频进行科罚,捕捉声息事件时刻戳;临了,这两个条件将被输入扩散模子,以生成与屏幕上的实质相匹配的屏内音效。紫色部分披露了用户若何创建和剪辑屏外音效。
训练团队先容:
谢志峰,工学博士,现为上海大学上海电影学院影视工程系、上海电影殊效工程技巧探讨中心副栽植、博士生导师,中国电影电视技巧学会电影高新技巧专科委员会委员。主要从事筹划机图形学、筹划机视觉、电影高新技巧等方面的探讨。主握国度当然科学基金、上海市科委科技翻新、上海市教委科研翻新、企业寄予等各级别课题10余项,参与973、863、当然基金要点、面上等多项国度级课题,发表高水平论文40余篇,其中SCI/EI收录30余篇(含国外顶级期刊和会论说文10篇),出书专著1本,肯求专利和软件著述权17项。获的2014年上海市科技跨越二等奖,2017年上海大学蔡冠深优秀后生训练奖,2022年中国筹划机图形学大会最好论文奖,及2023年CAD/Graphics 2023国外学术会议最好论文奖。仍是赴香港城市大学筹划机系作探望学者。
李梦甜,工学博士,博士后,现为上海大学上海电影学院讲师,硕士生导师。任中国筹划机学司帐算机提拔打算与图形学专委会实行委员,中国图像图形学学会数字文娱与智能生成专委会专科委员、数字文娱与仿真专委会专科委员,筹划机图形学与搀和实验在线平台(GAMES)实行委员。主要探讨倡导为筹划机视觉、筹划机图形学。参与国度当然科学基金要紧、面上、社科要紧,上海市科委、经信委要紧等科研表情。获CAD/Graphics 2023国外学术会议最好论文奖。以第一作家/通信作家在筹划机国外顶级期刊和会议CVPR、ECCV、PR上发表论文多篇,担任筹划机视觉顶级学术会议和期刊CVPR、ICCV、ECCV、ICLR、ICML,NeurIPS、AAAI、TIP顶级伦理片,TCSVT,PR审稿东说念主。