案例,spss,数据分析

互联网舆情分析与实时监测系统


全文字数:30000字左右  原创时间:<=2022年

【内容摘要】

互联网舆情分析与实时监测系统
随着互联网上用户的不断增加,每天互联网上都会产生大量的数据信息,如何从中提取有用的数据并加以分析整理以获得我们所需要的信息是很重要的内容,通过对数据的分析整理我们能够得知当前社会人们所关心的热点话题,对互联网进行有效的监控并对一些突发事件进行及时的预警。
针对以上需求,本文独立研究实现了一个互联网舆情分析与实时监测系统,主要工作分为四个模块:数据抓取,这是系统的设计重点,研究如何实现对互联网上指定数据的抓取,以此作为后续分析的数据源;词频分析,对获取的数据源进行分词处理,统计词频值,并将结果做可视化展示;用户分析,实现对当前互联网上用户的追踪,获取其言论的具体信息,也将分析的结果做可视化展示,可视化展示也是本系统的一个创新点;最后一个模块是主题分类,该模块是本系统的一个设计难点,利用训练模型,构建分类器完成对数据源的分类。
系统首先利用网络爬虫原理设计算法实现对数据源的抓取,之后利用HTMLParser构建页面数据采集规则,实现页面数据的提取。接着采用ICTCLAS中文分词工具对数据源进行分词处理,获得分词结果。此外,系统还会以多种形式对词频信息,用户信息进行可视化展示,可视化的界面显示由JFreeChart辅助完成。最后,利用SVM算法完成对数据源的分类工作。整个系统采用C/S结构,在MyEclipse8.5集成开发环境中完成开发,能使用户对互联网上的话题有个基本的掌握,了解社会上的大致舆情走向。
系统测试的数据源来自天涯论坛的天涯杂谈版块,测试结果显示本系统能对论坛上的数据实现准确的抓取,解析;对词频信息,用户信息的可视化展示也有良好的效果;此外,也能完成对帖子的分类功能。系统设计达到了预期目标。
 [主题词]  互联网舆情分析;分词;词频分析;svm;可视化

 

*若需了解更多与协助请咨询↓→[电脑QQ][手机QQ]【数据协助】