文本分类研究综述
DOI: , PDF, 下载: 64  浏览: 426 
作者: 汪岿 刘柏嵩
作者单位: 宁波大学信息科学与工程学院
关键词: 文本分类;特征降维;机器学习
摘要: 在大数据时代,网络上的文本数据日益增长。采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。文本分类算法的研究起源于上个世纪50年代,一直受到科研人员的广泛关注。本文围绕文本分类的关键技术和基本流程进行重点阐述,主要包括文本预处理、词和文本的分布式表示、特征降维、分类算法等多个模块。其中详细分析了几种分类模型与分类方法,如深度学习、迁移学习、强化学习等等。此外,本文简单介绍了文本分类的评价指标与应用场景,并对当前面临的挑战及未来的发展趋势进行总结、预测。