S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing

Wang, Guangzhi; Chen, Tianyi; Ghasedi, Kamran; Wu, HsiangTao; Ding, Tianyu; Nuesmeyer, Chris; Zharkov, Ilya; Kankanhalli, Mohan; Liang, Luming

Computer Science > Computer Vision and Pattern Recognition

arXiv:2404.08111 (cs)

[Submitted on 11 Apr 2024]

Title:S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing

Authors:Guangzhi Wang, Tianyi Chen, Kamran Ghasedi, HsiangTao Wu, Tianyu Ding, Chris Nuesmeyer, Ilya Zharkov, Mohan Kankanhalli, Luming Liang

View PDF HTML (experimental)

Abstract:Face attribute editing plays a pivotal role in various applications. However, existing methods encounter challenges in achieving high-quality results while preserving identity, editing faithfulness, and temporal consistency. These challenges are rooted in issues related to the training pipeline, including limited supervision, architecture design, and optimization strategy. In this work, we introduce S3Editor, a Sparse Semantic-disentangled Self-training framework for face video editing. S3Editor is a generic solution that comprehensively addresses these challenges with three key contributions. Firstly, S3Editor adopts a self-training paradigm to enhance the training process through semi-supervision. Secondly, we propose a semantic disentangled architecture with a dynamic routing mechanism that accommodates diverse editing requirements. Thirdly, we present a structured sparse optimization schema that identifies and deactivates malicious neurons to further disentangle impacts from untarget attributes. S3Editor is model-agnostic and compatible with various editing approaches. Our extensive qualitative and quantitative results affirm that our approach significantly enhances identity preservation, editing fidelity, as well as temporal consistency.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
Cite as:	arXiv:2404.08111 [cs.CV]
	(or arXiv:2404.08111v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2404.08111

Submission history

From: Tianyi Chen [view email]
[v1] Thu, 11 Apr 2024 20:25:26 UTC (12,816 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators