VistaDream’s Evaluation

采用了[@shriram_RealmDreamer_arXiv2024] (未发表)和[@you_NVS-Solver_arXiv2024](技术报告)的评价数据集

可视化效果初看很好

  • 代码可跑通其预设样例
    • todo 自己找的其他数据集样例

与[@yao_CAR_arXiv2024]未见明显质量差距

定量评估部分设计了LLaVA-IQA。

  • Q:这类用大模型提问以评估非语义质量的是可靠的方式吗?
    • 是否已有采用这样的大模型评估的3d领域已发表工作。
    • 是否已有采用这样的大模型评估的图像生成已发表工作。

    Note: 之前有 TIFAscore [@hu_TIFA_2023] 是评估语义正确性的。该方法则评估噪声、清晰度等

本文引用了[@wang_CLIP-IQA_2023] [@yu_WonderJourney_2024] 其中 [@wang_CLIP-IQA_2023] (AAAI)基于CLIP对正负prompt的相似度评价质量,包括模糊、噪声和语义概念 [@yu_WonderJourney_2024] 使用GPT4-V验证图像中是否有近似相框的物体,和检测模糊物体 (Yu et al., 2024, p. 7):