基于Hadoop的xx网盘与论文推荐功能-计算机与软件案例-SPSS案例分析

【内容摘要】
基于Hadoop的学者网盘与论文推荐功能
由于学者网有大量的数据要进行存储和处理，既包括关系型数据，也包括非关系型数据，数据种类也非常多，既有教学视频，音频，也有学者的论文，课件等文档。普通的文件系统已经不适合存储这么大的数据，而开源的Hadoop框架提供高吞吐量来处理数据，适合学者网大量数据的要求。
学者的数据处理过程包括：数据预处理，数据存储，数据计算，从计算结果中找出有用的信息。数据存储方面采用HDFS来存储，数据计算利用MapReduce模式分布式进行。
为了分布式存储学者网的大量数据，设计了基于HDFS的学者网盘，让学者能够在网页上进行HDFS的各种文件操作，如上传，下载，复制，预览文件等，同时也提供了HDFS文件操作的基础服务，为进一步开发实际可用的学者网盘奠定了基础。
学者网盘采用的后台的架构是spring，struts2，jdbc，mysql，Hadoop。spring作为一个大容器，将系统中的各个组件都在里面配置，从而增强系统的可扩展性，健壮性。前端采用的技术主要是html，css，jquery以及相关插件，调用后台服务大部分采用异步传输操作，以加快数据传输，减少响应时间，提高用户体验。并且将很多常用的数据都缓存在前端的标签中，降低了数据的传输次数。最重要的是，界面做得简洁大方，清晰易懂，一目了然。
为了让学者网的论文推荐功能分布式计算，设计了一个基于HDFS和MapReduce的论文推荐的子功能。推荐功能主要分两个步骤：首先是利用Ansj框架将论文分词，并提取关键词，接着在论文集中通过SimHash算法找出相似度最高的文章。同时利用学者网的部分论文数据对该功能进行实验，得到的实验结果也较符合实际，能推荐与学者研究方向较相似的文章。

关键词：大数据，HDFS，学者网盘，MapReduce，推荐

*若需了解更多与协助请咨询↓→[电脑QQ][手机QQ]【数据协助】

基于Hadoop的xx网盘与论文推荐功能

〖全文字数:16000字左右 原创时间:<=2022年〗

〖全文字数:16000字左右原创时间:<=2022年〗