人类在信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。比如,如果一个人要在一片草坪上找到一朵盛开的花朵,既可以通过视觉这一模态来寻找,也就是直接用眼睛看;也可以通过嗅觉这一模态来搜索,也就是用鼻子闻;还可以通过触觉这一模态来探寻,也就是用手触摸。面对寻找花朵这个问题,一般来说,人们会采取视觉、嗅觉等多模态的方式来进行。“某种程度上说,多模态的输入、输出方式正是人类智慧的重要体现之一。”