聊 也略懂略懂 愈系机器人!看图说故事 AI 打造

看图说故事对人类来说,是轻松好玩的事,但对 AI 来说,却是巨大挑战,因为这代表 AI 必须看出图中有哪些物件、理解图片意义、能够生成文句,还要看懂图片间的因果逻辑。在中研院资讯科学研究所古伦维副研究员的努力下, AI 看图说故事的能力有了很大的进展。她的模型有什么独特之处呢?跟着研之有物一起来瞧瞧!

俗话说得好:「发文不附图,此风不可长。」不论你发的是爆卦文、闲聊文还是业配文,有图更容易晋身流量热文。不过近年来,社群网站发文的风向渐渐有了改变,从「发文附图」转变成「发图附文」,我们总是先来一张照片,再配上相应的描述文字。接下来,我们的发文习惯还会怎么改变?

或许,未来你拍下一张照片上传社群网站,电脑就会自动「看图说故事」,为你的照片脑补一段说明文字,节省你的思考时间。

让电脑学会「看图说故事」的伎俩,正是中研院资讯科学研究所的古伦维副研究员正在钻研的主题之一。她的主要研究领域是人工智慧( AI )的自然语言处理,在因缘际会下,接触到一个 AI 看图说故事的竞赛: Visual Storytelling ( VIST ),开启了她对 AI 看图说故事的兴趣。

中研院资讯科学研究所的古伦维副研究员,主要研究领域是人工智慧( AI )的自然语言处理,现正开发如何让 AI 不只会说故事,还会看图说故事。 摄影│林洵安

电脑如何学会「看图说故事」?目前学界使用「机器学习」,简单来说,就是让电脑从大量的图文搭配组合,从中学习看到怎样的图片,应该说出怎样的故事。中研院资讯所古伦维副研究员说:「其实一开始我们做得并不特别好。我们跟其他参加竞赛的人一样,用机器学 ... ... ,把图和对应的文字丢进电脑,让机器自己学习更佳的图文搭配。然而机器学习几乎是军备竞赛了!谁的电脑计算能力更强,得到的模型更复杂,生成的文字就会更好。」

先选角、打草稿,再写故事

在军备竞争不足的情况下,古伦维决定采取不同的策略:「既然完全由 AI 看图说故事的效果不够好,能不能在故事生成的过程中,有一个人类可以介入改善的步骤。」所以她把原来的做法分成了两个阶段,先从图片抽取语意,接着再生成文字故事。

语意抽取,是指先从个别图片中选出用来说故事的概念(如同电影选角),用知识库找出概念之间的关系,建立图片的关联,再为这些图片拟定更好的草稿(如同电影故事大纲)。

重点来了!在「选角」阶段, AI 会先以机器学 ... 结果,找出最适合说故事的「角色组合」,尤其是面对连续图片。这就好比张曼玉、梁朝伟、成龙三个演员,前两个主要演爱情片,第三个以武打戏为主,如果之一张照片选了张曼玉,第二张照片应该选梁朝伟,生成的故事会比较好看。

但目前 AI 选角部分还不够灵光,有时仍会发生如「张曼玉配成龙」的选角名单。古伦维的两阶段设计让人类可在「选角」阶段介入修改。实际例子如:图片中有小男孩、天空、脚踏车三个概念。AI 从上图抽取出的概念可能是「小男孩」、「天空」,最后生成的故事可能是「一个小男孩在天空下」…… 满无聊的。但人类可以把「天空」改成「脚踏车」,机器最后就可能生成「一个小男孩骑着脚踏车。」嗯,是不是比较有故事性了?

最后,人类再将修改后的选角和故事大纲,交给 AI 产生整个故事。这种「先选角、打草稿,再说故事」的方式,最后产生的故事比较不会无聊或是不合理,更接近人类说出的故事。

古伦维的故事生成模型将产生故事的过程分成「语意抽取」及「故事生成」两个阶段。 图说重制│黄晓君、林洵安 资料来源│古伦维

知识库,AI 想像力的补充包

为了增加 AI 的想像力,古伦维也在模型中纳入「知识库」,帮 AI 增加故事的知识。例如图片中有人与马,如果没有知识库,AI 可能只能生成「有一个人与一匹马」这种平淡的句子。但知识库可以补充人与马关联的知识,包括人可以骑马、养马等等,让 AI 有机会说出「有一个人骑着自己养的马」比较具故事性的句子。「当然 AI 也可能从大量的故事中以机器学习取得『很多人都会骑马、养马』的知识。但知识库的更大功用,就是直接提供这个知识给 AI ,缩短学习历程。」 古伦维解释。

更重要的是,知识库让 AI 更容易解读出图片之间的关联。如 VIST 竞赛的题目就是包含了五张图片的图组,在知识库的协助下, AI 比较容易找出各别图片的概念之间的关联,说出的故事会比较连贯,具有因果关系。

AI 是完全没有想像力的,但若透过知识库给它知识,这些知识在故事中呈现出来的,就像是 AI 的想像力。

电脑看图说故事的范例。No KG 代表机器在不添加额外知识时所产生的故事,Visual Genome 与 Open IE 古伦维团队用两个不同的知识库分别产生的故事,GLAC 是除了古伦维的模型外目前成果更好的模型。由上可知,知识库的确能帮助故事的上下文连结。最后的 Human 是真人所写的故事,包含了许多图片中没有的知识,甚至精神性的内容。 图说美化│林洵安 资料来源│古伦维

巧妙切开「语意抽取」与「生成文本」

两阶段生成故事的 ... 还有一个优点,就是可善用大量的「图片辨识」与「故事文本」资料库,避开「图文搭配」资料的缺乏。

现今的「图片辨识」技术和资料库非常成熟,可以精准的从图片中抽取出各式各样的概念。另一方面,说故事是人类从古至今不断从事的活动,留下了大量的「故事文本」。相较之下,看图说故事的「图文搭配」资料量却相当少,需要有人刻意去蒐集图组、撰写文字,古伦维说:「这种图文搭配的资料必须人工建立,能有一万组就很厉害了,但这个数量对于机器学习来说却是远远不够的。」

古伦维则把生成故事的过程拆成「语意抽取」与「生成文本」两个阶段,之一阶段可利用精熟的图片辨识技术和资料库,抽取故事概念;第二阶段再运用故事文本资料库,让机器学习如何将之一阶段抽取(并由人类修改过)的概念,组合成漂亮的故事,巧妙避开了「图文搭配」资料不足的难题。

把「语意抽取」与「生成文本」切开的话,两个阶段都可以利用几千万笔的既有资料,供机器学习。

脑补,让机器更有温度

说了半天,但 AI 会看图说故事,到底能干嘛?难道只是帮贴图写写图说?以研究的层面来说,如果 AI 能看图说故事,代表 AI 在理解图片、文字分析及因果逻辑等方面,都达到一定的水准,代表 AI 语言能力更加接近人类。在实际应用上, 可以为图文创作者提供故事草稿,或是对于常常需要撰写广告文案、出差报告的人,能够很快从图像生成文本,人类只要略做修改润饰即可 (小职员计画通!)。

但更重要的是,机器人也能因此更有温度!古伦维与台大人工智慧与机器人研究中心的傅立成教授合作,希望透过 AI 看图说故事的技术,让居家照护机器人更有「人味」,会主动关怀人类。因为居家照护机器人在家中「看见」的一切,其实就是一张张的图, AI 可以透过这些「图」形成可能的故事,再转化为暖心的问句。

想像一下,未来居家照护机器人看见老人家在厨房,故事剧情可能是「他要煮饭」,于是问出:「今晚想吃什么?需要帮忙吗?」当老人拿出相簿缅怀过去,AI 也能从旧照片解读可能故事,转化成聊天的问句:「照片中的这个人是谁啊?你们去哪里玩?」还能变身孩子更爱的说故事姊姊!AI 可能从储存的绘本资料库中,随机抽出不同图画重新组合,说出全新的故事。

会看图说故事的 AI ,可以从眼前的情景连结到事件或情感,就像人类的脑补一般,而这些脑补就是故事。

AI 看图说故事的能力,可让照顾居家照护机器人了解眼前的生活情境,具有找话题的能力,变得温暖许多。 图片来源│iStock

如此一来,居家照护机器人不再只是被动的处理人类需求,相反的,「说故事的能力赋予了 AI 机器人找话题的功能。」古伦维笑着解释,机器人从此不再词穷,可以主动关心人类,与人类互动聊天,让机器人变得温暖许多。看来 AI 看图说故事,不只是写写图说、帮忙解决麻烦的出差报告,在不远的未来,更是拉近我们与机器人距离的关键所在呢。

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender