案例,spss,数据分析

基于深度学习的中文文本分类系统


全文字数:20000字左右  原创时间:<=2022年

【内容摘要】

基于深度学习的中文文本分类系统 互联网蓬勃发展,各种媒体公众号、论坛、贴吧、微博等平台也随之活跃起来。越来越多的人们喜欢在互联网媒体发表观点和文章,每天都有海量的文本出现,因而漂浮在网络中的文本数据错综复杂,如果没有一个好的文本分类系统,很难精确定位到有用的信息。我国的文本分类却进度缓慢,汉语自身的特殊性更是加大了分类的难度。深度学习技术在文本分类方面的深入研究,为提升中文文本分类的精确度带来了希望。因此将深度学习更好地应用到中文文本分类中是极具价值的事情。 本文对中文文本分类的原理、以及有关的深度学习模型进行了简单分析,梳理了中文文本分类系统的工作流程。以深度学习中的长短期记忆网络(LSTM)为模型分类器,用python语言编写了一个中文文本分类系统,并对1000条中文新闻文本进行分类测试,计算了相关精度以对模型进行评估,最后对中文文本分类技术的远景进行了展望。 关键词:中文文本分类;循环神经网络;长短期记忆网络 Chinese text classification system based on deep learning ABSTRACT The Internet is booming, and all kinds of media, such as official account, forum, post bar, micro-blog, etc., are also active. More and more people like to express their opinions and articles in the Internet media, and a large amount of text appears every day, so the text data floating in the network is complex. Without a good text classification system, it is difficult to accurately locate the useful information. However, the progress of Chinese text classification technology is slow, and the particularity of Chinese itself increases the difficulty of Chinese text classification. The in-depth study of deep learning technology in text classification brings hope for improving the accuracy of Chinese text classification. Therefore, it is very valuable to apply deep learning to Chinese text classification. In this paper, the principle of Chinese text classification, related technical support for a simple analysis, combing the workflow of Chinese text classification system. A Chinese text classification system based on long-term and short-term memory network (LSTM) in deep learning is developed in Python language. 1000 Chinese news texts are classified and tested, and the relative accuracy is calculated to evaluate the model. Finally, the development prospect of Chinese text classification technology is prospected. Keywords:Chinese text classification;Recurrent Neural Network ;Long-short Term Memory 目录 一、 绪论 1 (一) 课题的研究背景及其意义 1 (二) 国内外研究现状 1 1. 国外文本分类技术研究现状 1 2. 我国文本分类技术研究现状 2 (三) 本论文所做的主要工作 2 (四) 本论文的组织结构 3 二、 中文文本分类理论综述 4 (一) 中文文本分类之分词技术 4 1. 基于词典的方法 5 2. 基于统计的分词 5 (二) 中文文本分类之计算文档频率 5 (三) 中文文本分类之词向量技术 5 三、 循环神经网络相关理论及技术支持 6 (一) 循环神经网络概述 6 (二) 三种循环神经网络存在形式 6 1. 传统的循环神经网络(SimpleRNN) 6 2. 长短期记忆网络(Long-short Term Memory,LSTM) 6 3. 门限循环单元(Grated Recurrent Unit,GRU) 7 四、 基于深度学习的中文文本分类系统的实现 9 (一) 语料库的选取 9 (二) 文本预处理 9 (三) 使用Torchtext库进行预处理 11 (四) 定义迭代器 12 (五) 构建LSTM网络 12 (六) 定义网络的训练过程 13 (七) 定义优化器并对模型进行迭代训练 14 (八) 测试集的训练 16 (九) 实验小结 17 五、 总结与展望 18 (一) 本文总结 18 (二) 展望 18 参考文献 20 致谢 21

 

*若需了解更多与协助请咨询↓→[电脑QQ][手机QQ]【数据协助】

  • 上一篇:基于子空间学习的跨媒体检索
  • 下一篇:没有了