人工客服:2025-06-17 13:31:31

世纪中文出版社 ——“建设顶级中文期刊”为使命!期待与您同行......
请输入您想了解的内容!
截图后在输入框直接粘贴

请您为我的服务评分:

发送提交
PDF下载
面向机器学习的流式文档逻辑结构标注方法研究

刘倩 李宁 田英爱

北京信息科技大学计算机学院

摘要: 针对采用机器学习方法识别流式文档结构时语料库稀少、语料标注复杂的问题,该文在研究文档的逻辑结构和编辑语义特征的基础上,确立流式文档逻辑结构标注体系,并提出一种三段式的半自动文档逻辑结构标注方法:第一阶段通过机助人工实现文档元数据的分离式标注,第二阶段自动重建逻辑结构,第三阶段自动填充特征向量。实验结果表明,该文提出的文档逻辑结构标注方法能够节省人工成本、提高机器学习算法对文档结构识别的准确率与召回率,F值达到97.5%。
关键词: 结构标注;文档结构识别;机器学习
DOI:
基金资助:
文章地址:https://www.ccnpub.com/wenzhangd-2-96663

版权所有 © 2025 世纪中文出版社  京ICP备2024086036号-2