案例,spss,数据分析

基于Hadoop的xx网盘与论文推荐功能


全文字数:16000字左右  原创时间:<=2022年

【内容摘要】

基于Hadoop的学者网盘与论文推荐功能
由于学者网有大量的数据要进行存储和处理,既包括关系型数据,也包括非关系型数据,数据种类也非常多,既有教学视频,音频,也有学者的论文,课件等文档。普通的文件系统已经不适合存储这么大的数据,而开源的Hadoop框架提供高吞吐量来处理数据,适合学者网大量数据的要求。
学者的数据处理过程包括:数据预处理,数据存储,数据计算,从计算结果中找出有用的信息。数据存储方面采用HDFS来存储,数据计算利用MapReduce模式分布式进行。
为了分布式存储学者网的大量数据,设计了基于HDFS的学者网盘,让学者能够在网页上进行HDFS的各种文件操作,如上传,下载,复制,预览文件等,同时也提供了HDFS文件操作的基础服务,为进一步开发实际可用的学者网盘奠定了基础。
学者网盘采用的后台的架构是spring,struts2,jdbc,mysql,Hadoop。spring作为一个大容器,将系统中的各个组件都在里面配置,从而增强系统的可扩展性,健壮性。前端采用的技术主要是html,css,jquery以及相关插件,调用后台服务大部分采用异步传输操作,以加快数据传输,减少响应时间,提高用户体验。并且将很多常用的数据都缓存在前端的标签中,降低了数据的传输次数。最重要的是,界面做得简洁大方,清晰易懂,一目了然。
为了让学者网的论文推荐功能分布式计算,设计了一个基于HDFS和MapReduce的论文推荐的子功能。推荐功能主要分两个步骤:首先是利用Ansj框架将论文分词,并提取关键词,接着在论文集中通过SimHash算法找出相似度最高的文章。同时利用学者网的部分论文数据对该功能进行实验,得到的实验结果也较符合实际,能推荐与学者研究方向较相似的文章。
   
关键词:大数据,HDFS,学者网盘,MapReduce,推荐

 

*若需了解更多与协助请咨询↓→[电脑QQ][手机QQ]【数据协助】