publication | Li Mengtian (李梦甜)

Conference Proceedings

Conference Articles

FoleyDesigner: Immersive Stereo Foley Generation with Precise Spatio-Temporal Alignment for Film Clips

Mengtian Li , Kunyan Dai , Yi Ding , Ruobing Ni , Ying Zhang , Wenwu Wang , and Zhifeng Xie

In CVPR , 2026

@inproceedings{li2026foleydesigner,
  title = {FoleyDesigner: Immersive Stereo Foley Generation with Precise Spatio-Temporal Alignment for Film Clips},
  author = {Li, Mengtian and Dai, Kunyan and Ding, Yi and Ni, Ruobing and Zhang, Ying and Wang, Wenwu and Xie, Zhifeng},
  booktitle = {CVPR},
  year = {2026},
}

EditMaster: Bridging Text instruction and Visual Example for Multimodal guided Image Editing

Jiahui Zhang , Mengtian Li* , Jiewei Tang , Junyu Deng , Siyu Tian , Xiang Liu , Meng Zhang , Guangnan Ye* , and Yu-Gang Jiang

In ACMMM , 2025

Bib

@inproceedings{10.1145/3746027.3754926,
  author = {Zhang, Jiahui and Li*, Mengtian and Tang, Jiewei and Deng, Junyu and Tian, Siyu and Liu, Xiang and Zhang, Meng and Ye*, Guangnan and Jiang, Yu-Gang},
  title = {EditMaster: Bridging Text instruction and Visual Example for Multimodal guided Image Editing},
  booktitle = {ACMMM},
  year = {2025},
  isbn = {9798400720352},
  publisher = {Association for Computing Machinery},
  address = {New York, NY, USA},
  url = {https://doi.org/10.1145/3746027.3754926},
  doi = {10.1145/3746027.3754926},
  pages = {9509–9518},
  numpages = {10},
  keywords = {diffusion model, image editing, multimodal large language model},
  location = {Dublin, Ireland}
}

FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation

Zhifeng Xie , Keyi Zhang , Yiye Yan , Yuling Guo , Fan Yang , Jiting Zhou , and Mengtian Li*

In AAAI , 2026

arXiv Bib

@inproceedings{xie2025filmscenedesignerchainingsetdesign,
  title = {FilmSceneDesigner: Chaining Set Design for Procedural Film Scene Generation},
  author = {Xie, Zhifeng and Zhang, Keyi and Yan, Yiye and Guo, Yuling and Yang, Fan and Zhou, Jiting and Li*, Mengtian},
  booktitle = {AAAI},
  year = {2026},
  archiveprefix = {arXiv},
  primaryclass = {cs.CV},
  url = {https://arxiv.org/abs/2511.19137}
}

GTAD: Global Temporal Aggregation Denoising Learning for 3D Semantic Occupancy Prediction

Tianhao Li , Yang Li , Mengtian Li , Yisheng Deng , and Weifeng Ge

In IROS , 2025

arXiv Bib

@inproceedings{li2025gtad,
  title = {GTAD: Global Temporal Aggregation Denoising Learning for 3D Semantic Occupancy Prediction},
  author = {Li, Tianhao and Li, Yang and Li, Mengtian and Deng, Yisheng and Ge, Weifeng},
  booktitle = {IROS},
  year = {2025},
}

CustAny: Customizing Anything from A Single Example

Lingjie Kong , Kai Wu , Chengming Xu , Xiaobin Hu , Wenhui Han , Jinlong Peng , Donghao Luo , Mengtian Li , Jiangning Zhang , Chengjie Wang , and others

In CVPR (Oral) , 2025

Bib Code Website

@inproceedings{kong2025custany,
  title = {CustAny: Customizing Anything from A Single Example},
  author = {Kong, Lingjie and Wu, Kai and Xu, Chengming and Hu, Xiaobin and Han, Wenhui and Peng, Jinlong and Luo, Donghao and Li, Mengtian and Zhang, Jiangning and Wang, Chengjie and others},
  booktitle = {CVPR (Oral)},
  year = {2025},
}

FilmComposer: LLM-Driven Music Production for Silent Film Clips

Zhifeng Xie , Qile He , Youjia Zhu , Qiwei He , and Mengtian Li*

In CVPR , 2025

arXiv Bib Code Website

@inproceedings{li2025filmcomposer,
  title = {FilmComposer: LLM-Driven Music Production for Silent Film Clips},
  author = {Xie, Zhifeng and He, Qile and Zhu, Youjia and He, Qiwei and Li*, Mengtian},
  booktitle = {CVPR},
  year = {2025},
  publisher = {IEEE},
}

StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts

Zhaoxing Gan , Mengtian Li* , Ruhua Chen , Zhongxia Ji , Sichen Guo , Huanling Hu , Guangnan Ye* , and Zuo Hu

In CVPR , 2025

arXiv Bib Code Website

@inproceedings{li2025stagedesigner,
  title = {StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts},
  author = {Gan, Zhaoxing and Li*, Mengtian and Chen, Ruhua and Ji, Zhongxia and Guo, Sichen and Hu, Huanling and Ye*, Guangnan and Hu, Zuo},
  booktitle = {CVPR},
  year = {2025},
  publisher = {IEEE},
}

LMTalker: Sparse Landmark-guided Gaussian Splatting for High-fidelity Talking Head Synthesis

Zhifeng Xie , Zhiwen Jiang , Xuemin Lei , and Mengtian Li*

In ICASSP , 2025

Bib Website

@inproceedings{li2024lmtalker,
  title = {LMTalker: Sparse Landmark-guided Gaussian Splatting for High-fidelity Talking Head Synthesis},
  author = {Xie, Zhifeng and Jiang, Zhiwen and Lei, Xuemin and Li*, Mengtian},
  booktitle = {ICASSP},
  year = {2025},
  pages = {1--5},
  publisher = {IEEE},
}

Knowledge Transfer Across Modalities for Weakly Supervised Point Cloud Semantic Segmentation

Zihan Wang , Yunhang Shen , Mengtian Li , Ke Li , Xing Sun , Shaohui Lin , and Lizhuang Ma

In ICASSP , 2025

Bib

@inproceedings{wang2025knowledge,
  title = {Knowledge Transfer Across Modalities for Weakly Supervised Point Cloud Semantic Segmentation},
  author = {Wang, Zihan and Shen, Yunhang and Li, Mengtian and Li, Ke and Sun, Xing and Lin, Shaohui and Ma, Lizhuang},
  booktitle = {ICASSP},
  pages = {1--5},
  year = {2025},
  organization = {IEEE}
}

HieraFashDiff: Hierarchical Fashion Design with Multi-stage Diffusion Models

Zhifeng Xie , Hao Li , Huiming Ding , Mengtian Li , Xinhan Di , and Ying Cao

In AAAI , 2024

arXiv Bib Website

@inproceedings{li2024hierahashdiff,
  title = {HieraFashDiff: Hierarchical Fashion Design with Multi-stage Diffusion Models},
  author = {Xie, Zhifeng and Li, Hao and Ding, Huiming and Li, Mengtian and Di, Xinhan and Cao, Ying},
  booktitle = {AAAI},
  year = {2024},
  publisher = {AAAI},
}

SonicVisionLM: Playing Sound with Vision Language Models

Zhifeng Xie , Shengye Yu , Qile He , and Mengtian Li*

In CVPR , 2024

arXiv Bib Website

@inproceedings{xie2024sonicvisionlm,
  title = {SonicVisionLM: Playing Sound with Vision Language Models},
  author = {Xie, Zhifeng and Yu, Shengye and He, Qile and Li*, Mengtian},
  booktitle = {CVPR},
  pages = {14930--14939},
  year = {2024},
}

Hyperspherical learning in multi-label classification

Bo Ke , Yunquan Zhu , Mengtian Li , Xiujun Shu , Ruizhi Qiao , and Bo Ren

In ECCV , 2022

Bib

@inproceedings{ke2022hyperspherical,
  title = {Hyperspherical learning in multi-label classification},
  author = {Ke, Bo and Zhu, Yunquan and Li, Mengtian and Shu, Xiujun and Qiao, Ruizhi and Ren, Bo},
  booktitle = {ECCV},
  pages = {38--55},
  year = {2022},
  organization = {Springer}
}

Hybridcr: Weakly-supervised 3d point cloud semantic segmentation via hybrid contrastive regularization

Mengtian Li , Yuan Xie , Yunhang Shen , Bo Ke , Ruizhi Qiao , Bo Ren , Shaohui Lin , and Lizhuang Ma

In CVPR , 2022

Bib

@inproceedings{li2022hybridcr,
  title = {Hybridcr: Weakly-supervised 3d point cloud semantic segmentation via hybrid contrastive regularization},
  author = {Li, Mengtian and Xie, Yuan and Shen, Yunhang and Ke, Bo and Qiao, Ruizhi and Ren, Bo and Lin, Shaohui and Ma, Lizhuang},
  booktitle = {CVPR},
  pages = {14930--14939},
  year = {2022}
}

Journal Articles

AniGaussian: Animatable Gaussian Avatar With Pose-Guided Deformation

Mengtian Li , Shengxiang Yao , Kai Chen , Zhifeng Xie , and Keyu Chen

Computer Graphics Forum, Mar 2026

Bib

@article{li2026anigaussian,
  title = {AniGaussian: Animatable Gaussian Avatar With Pose-Guided Deformation},
  author = {Li, Mengtian and Yao, Shengxiang and Chen, Kai and Xie, Zhifeng and Chen, Keyu},
  journal = {Computer Graphics Forum},
  year = {2026},
  month = mar,
  publisher = {Wiley},
  doi = {10.1111/cgf.70304},
  url = {https://doi.org/10.1111/cgf.70304}
}

Class-imbalanced semi-supervised learning for large-scale point cloud semantic segmentation via decoupling optimization

Mengtian Li , Shaohui Lin , Zihan Wang , Yunhang Shen , Baochang Zhang , and Lizhuang Ma

Pattern Recognition, Mar 2024

arXiv Bib

@article{LI2024110701,
  title = {Class-imbalanced semi-supervised learning for large-scale point cloud semantic segmentation via decoupling optimization},
  journal = {Pattern Recognition},
  volume = {156},
  pages = {110701},
  year = {2024},
  issn = {0031-3203},
  doi = {https://doi.org/10.1016/j.patcog.2024.110701},
  url = {https://www.sciencedirect.com/science/article/pii/S0031320324004527},
  author = {Li, Mengtian and Lin, Shaohui and Wang, Zihan and Shen, Yunhang and Zhang, Baochang and Ma, Lizhuang},
}

A fine-grained vision and language representation framework with graph-based fashion semantic knowledge

Huiming Ding , Sen Wang , Zhifeng Xie , Mengtian Li* , and Lizhuang Ma

Computers & Graphics, Mar 2023

Bib

@article{ding2023fine,
  title = {A fine-grained vision and language representation framework with graph-based fashion semantic knowledge},
  author = {Ding, Huiming and Wang, Sen and Xie, Zhifeng and Li*, Mengtian and Ma, Lizhuang},
  journal = {Computers \& Graphics},
  volume = {115},
  pages = {216--225},
  year = {2023},
  publisher = {Elsevier}
}

Paying attention for adjacent areas: Learning discriminative features for large-scale 3D scene segmentation

Mengtian Li , Yuan Xie , and Lizhuang Ma

Pattern Recognition, Mar 2022

Bib

@article{li2022paying,
  title = {Paying attention for adjacent areas: Learning discriminative features for large-scale 3D scene segmentation},
  author = {Li, Mengtian and Xie, Yuan and Ma, Lizhuang},
  journal = {Pattern Recognition},
  volume = {129},
  pages = {108722},
  year = {2022},
  publisher = {Elsevier}
}

Preprints & Others

Miscellaneous

GaussianMorphing: Mesh-Guided 3D Gaussians for Semantic-Aware Object Morphing

Mengtian Li , Yunshu Bai , Yimin Chu , Yijun Shen , Zhongmei Li , Weifeng Ge , Zhifeng Xie , and Chaofeng Chen

2025

arXiv Bib

@misc{li2025gaussianmorphingmeshguided3dgaussians,
  title = {GaussianMorphing: Mesh-Guided 3D Gaussians for Semantic-Aware Object Morphing},
  author = {Li, Mengtian and Bai, Yunshu and Chu, Yimin and Shen, Yijun and Li, Zhongmei and Ge, Weifeng and Xie, Zhifeng and Chen, Chaofeng},
  year = {2025},
  archiveprefix = {arXiv},
  primaryclass = {cs.CV},
  url = {https://arxiv.org/abs/2510.02034}
}

AvatarBrush: Monocular Reconstruction of Gaussian Avatars with Intuitive Local Editing

Mengtian Li , Shengxiang Yao , Yichen Pan , Haiyao Xiao , Zhongmei Li , Zhifeng Xie , and Keyu Chen

2025

arXiv Bib

@misc{li2025avatarbrushmonocularreconstructiongaussian,
  title = {AvatarBrush: Monocular Reconstruction of Gaussian Avatars with Intuitive Local Editing},
  author = {Li, Mengtian and Yao, Shengxiang and Pan, Yichen and Xiao, Haiyao and Li, Zhongmei and Xie, Zhifeng and Chen, Keyu},
  year = {2025},
  archiveprefix = {arXiv},
  primaryclass = {cs.GR},
  url = {https://arxiv.org/abs/2511.19189}
}

Infinite Motion: Extended Motion Generation via Long Text Instructions

Mengtian Li , Chengshuo Zhai , Shengxiang Yao , Zhifeng Xie , and Keyu Chen

2024

arXiv Bib Website

@misc{li2024infinite,
  title = {Infinite Motion: Extended Motion Generation via Long Text Instructions},
  author = {Li, Mengtian and Zhai, Chengshuo and Yao, Shengxiang and Xie, Zhifeng and Chen, Keyu},
  eprint = {2407.08443},
  archiveprefix = {arXiv},
  year = {2024},
  primaryclass = {cs.CV},
}

GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting

Mengtian Li , Shengxiang Yao , Zhifeng Xie , and Keyu Chen

2024

arXiv Bib

@misc{li2024gaussianbody,
  title = {GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting},
  author = {Li, Mengtian and Yao, Shengxiang and Xie, Zhifeng and Chen, Keyu},
  year = {2024},
  eprint = {2401.09720},
  archiveprefix = {arXiv},
  primaryclass = {cs.CV},
}