NLP中语义表示调研 - 持续更新

前言

序列建模在NLP领域已研究多年。有着非常成熟的序列建模、高级语义表达、变长输入处理等经验。

目前计算机视觉领域挺近视频,原本处理静态图像的技术越来越难以为继。

考虑到视频是图像的序列,自然而然地,我们想到可否参考NLP中的优秀经验?

本文研究的主要问题:

  • 如果把图像特征视为Word embedding,那么句子语义表示(Sentence representation)和全文的语义表示(Semantic representation)就对应着Clips (or say snippets) 和videos 级的表示。如何将NLP中的经验转移到视频的表示中来?
  • 视频的序列长度有可能远远大于文本。如何解决变长输入的问题?
  • NLP中是否存在着“语义定位”的问题?即不是把文本视为一个主体,而是要在文本中定位某一段重要内容?提出这个问题是因为直观上感觉此问题与视频中的热点检测有关(动作检测或物体检测)。
Tipping