NLP中语义表示调研 - 持续更新

发表于 2018-06-04

前言

序列建模在NLP领域已研究多年。有着非常成熟的序列建模、高级语义表达、变长输入处理等经验。

目前计算机视觉领域挺近视频，原本处理静态图像的技术越来越难以为继。

考虑到视频是图像的序列，自然而然地，我们想到可否参考NLP中的优秀经验？

本文研究的主要问题：

如果把图像特征视为Word embedding，那么句子语义表示（Sentence representation）和全文的语义表示（Semantic representation）就对应着Clips (or say snippets) 和videos 级的表示。如何将NLP中的经验转移到视频的表示中来？
视频的序列长度有可能远远大于文本。如何解决变长输入的问题？
NLP中是否存在着“语义定位”的问题？即不是把文本视为一个主体，而是要在文本中定位某一段重要内容？提出这个问题是因为直观上感觉此问题与视频中的热点检测有关（动作检测或物体检测）。

Tipping

前言