摘要:
自动识别和描述图像的内容是人工智能中一个重要的研究方向,它涉及计算机视觉和自然语言处理技术。针对这一难题,提出了一种由深层神经网络模型生成自然语言句子来描述图像内容的方法。该方法提出的模型由卷积神经网络(ConvolutionNeuralNetwork,CNN)和循环神经网络(Recurrent Neural Network,RNN)组成,其中,CNN用来提取输入图像的特征生成固定长度的特征向量,该特征向量初始化RNN来生成句子。在MSCOCO图像描述数据集上的实验结果表明了该模型所生成句子的语法准确性和语义准确性,且优于先前的基线模型。