智能多媒体实验室

实验室博士生赖映鑫同学论文被CVPR 2025录用


标题:Font-Agent: Enhancing Font Understanding with Large Language Models

简介:随着生成模型的蓬勃发展,字体生成取得了显著进展,但对其可解释性与评估仍然不足。为此,我们构建了含13.5万字体-文本对的多模态数据集DFD,涵盖多种生成字体类型、语言描述与质量注释,为字体分析模型的训练与评估奠定了坚实基础。基于此,我们提出了VLM架构的Font-Agent,引入EAT模块捕捉字体笔画边缘信息,并通过D-DPO策略高效微调模型,赋予解释性问答能力。实验证明,Font-Agent在DFD及其他公开数据集上均表现突出,不仅能精准评估生成字体质量,也能深度理解其内容。在多样化数据集上的实验也验证了其泛化性能,彰显了Font-Agent的潜力。

该论文第一作者是厦门大学信息学院2024级博士研究生赖映鑫,通讯作者是罗志明副教授。由许璀杰(图形起源),史海天(图形起源),杨国庆、李晓宁、李绍滋教授共同合作完成。