模式识别与人工智能
2025年4月5日 星期六   首 页     期刊简介     编委会     投稿指南     伦理声明     联系我们                                                                English
模式识别与人工智能  2021, Vol. 34 Issue (6): 572-580    DOI: 10.16451/j.cnki.issn1003-6059.202106009
研究与应用 最新目录| 下期目录| 过刊浏览| 高级检索 |
基于关键点表示的语音驱动说话人脸视频生成
年福东1,2, 王文涛1, 王妍1, 张晶晶1, 胡贵恒3, 李腾1
1.安徽大学 人工智能学院 合肥 230601
2.合肥学院 先进制造工程学院 合肥 230601
3.安徽工商职业学院 信息工程学院 合肥 231131
Speech Driven Talking Face Video Generation via Landmarks Representation
NIAN Fudong1,2, WANG Wentao1, WANG Yan1, ZHANG Jingjing1, HU Guiheng3, LI Teng1
1. School of Artificial Intelligence, Anhui University, Hefei 230601
2. School of Advanced Manufacturing Engineering, Hefei University, Hefei 230601
3. School of Information Engineering, Anhui Business and Technology College, Hefei 231131

全文: PDF (2728 KB)   HTML (1 KB) 
输出: BibTeX | EndNote (RIS)      
摘要 针对现有语音生成说话人脸视频方法忽略说话人头部运动的问题,提出基于关键点表示的语音驱动说话人脸视频生成方法.分别利用人脸的面部轮廓关键点和唇部关键点表示说话人的头部运动信息和唇部运动信息,通过并行多分支网络将输入语音转换到人脸关键点,通过连续的唇部关键点和头部关键点序列及模板图像最终生成面部人脸视频.定量和定性实验表明,文中方法能合成清晰、自然、带有头部动作的说话人脸视频,性能指标较优.
服务
把本文推荐给朋友
加入我的书架
加入引用管理器
E-mail Alert
RSS
作者相关文章
年福东
王文涛
王妍
张晶晶
胡贵恒
李腾
关键词 说话人脸人脸关键点唇部动作头部动作人脸视频    
Abstract:The speaker's head motion is ignored in the existing speech driven talking face video generation methods. Aiming at this problem, a speech driven talking face video generation method based on facial landmarks representation is proposed. The speaker's head motion information and lip motion information are represented by facial contour landmarks and lip landmarks, respectively. The speech is converted to facial landmarks through a parallel multi-branch network. The final talking face video is synthesized by continuous lip landmark sequence, head landmark sequence and template image. The corresponding quantitative and qualitative experiments are conducted. Experimental results show that the talking face video with head action synthesized by the proposed method is clear and natural, and its performance is better.
Key wordsTalking Face    Facial Landmark    Lip Action    Head Action    Face Video   
收稿日期: 2021-03-03     
ZTFLH: TP 391.4  
基金资助:安徽省高校协同创新项目(No.GXXT-2019-007)、国家自然科学基金项目(No.61902104)、安徽省自然科学基金项目(No.2008085QF295)、安徽高校自然科学研究项目(No.KJ2020A0651)、合肥学院人才科研基金项目(No.18-19RC54)
通讯作者: 年福东,博士,副教授,主要研究方向为计算机视觉、多媒体计算.E-mail:nianfd@hfuu.edu.cn.   
作者简介: 王文涛,硕士研究生,主要研究方向为图像生成.E-mail:18755124416@163.com.
王 妍,博士研究生,主要研究方向为卷积神经网络、多模态融合.E-mail:ywanglt@gmail.com.
张晶晶,博士,副教授,主要研究方向为计算机视觉.E-mail:fannyzjj@ahu.edu.cn.
胡贵恒,硕士,讲师,主要研究方向软件技术、人工智能.E-mail:545572406@qq.com.
李 腾,博士,教授,主要研究方向为计算机视觉、多媒体计算.E-mail:liteng@ahu.edu.cn.
引用本文:   
年福东, 王文涛, 王妍, 张晶晶, 胡贵恒, 李腾. 基于关键点表示的语音驱动说话人脸视频生成[J]. 模式识别与人工智能, 2021, 34(6): 572-580. NIAN Fudong, WANG Wentao, WANG Yan, ZHANG Jingjing, HU Guiheng, LI Teng. Speech Driven Talking Face Video Generation via Landmarks Representation. , 2021, 34(6): 572-580.
链接本文:  
http://manu46.magtech.com.cn/Jweb_prai/CN/10.16451/j.cnki.issn1003-6059.202106009      或     http://manu46.magtech.com.cn/Jweb_prai/CN/Y2021/V34/I6/572
版权所有 © 《模式识别与人工智能》编辑部
地址:安微省合肥市蜀山湖路350号 电话:0551-65591176 传真:0551-65591176 Email:bjb@iim.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发 技术支持:support@magtech.com.cn