几项工作为MOKA提供了重要的灵感。MOKA扩展了KPAM (https://sites.google.com/view/kpam) 和KETO (https://sites.google.com/view/ke-to) 中基于点的可供性表示,以涵盖更广泛的任务。所使用的视觉提示技术受到Set-of-Marks (https://som-gpt4v.github.io/) 中最新视觉问答结果和“LMMs的黎明” (https://arxiv.org/pdf/2309.17421.pdf) 的启发。