案例,spss,数据分析

基于MapReduce的Web信息检索系统


全文字数:18000字左右  原创时间:<=2022年

【内容摘要】

基于MapReduce的Web信息检索系统

 随着信息技术的发展,互联网应用数量的不断增长,Internet正在影响着人们生活的各个方面,同时也悄悄的改变着人们的生活方式和思维习惯,并且方便了全球范围内的信息共享。目前全球的网页总数量已经超过了100亿,并且仍然在以每天上百万的数量增加着,可以看出,全世界范围内的电子信息资源数量正以爆炸式的速度增长着。想要在如此庞大的数据集合里寻找自己想要的信息,无异于“大海捞针”。这时用户就会思考,能不能有一种工具可以让自己在短时间内就从数量庞大的信息海洋中找到自己想要的信息呢?答案是“有”,这就是本文所介绍的搜索引擎系统。当今世界,搜索引擎系统已经成为人们在互联网中寻找信息所必不可少的工具之一。
 搜索引擎系统就是指能够在互联网环境中接收用户提出的查询请求,并根据自身存储索引进行查询,返回用户所需查询结果的系统,是一种在Internet上查询网页或网站数据的工具。完整的搜索引擎系统包括信息收集,信息处理,查询服务三个模块。搜索引擎系统是互联网中的核心技术之一,其开发过程涉及到计算机网络,人工智能,数据挖掘,信息查询、数据库,分布式处理,自然语言处理等多个方面的技术和理论,所以十分具有挑战性。
 现在,面临大数据时代的到来,传统意义上的基于单机实现的搜索引擎系统在性能上的瓶颈已经渐渐显露出来,人们普遍在期待一个能在硬件成本和查询性能上表现较好的系统实现出现,就在这个时候,Google公司提出了一种基于计算机集群的用于大规模数据集处理和并行运算的变成模型——MapReduce,该编程模型可以利用普通计算机的集群来提高对大数据处理时的性能,从而在接受使用者查询的时候可以体现出比较好的性能。
 本文所讨论的分布式搜索引擎系统的开发主要框架是基于Apache基金会旗下发布的基于MapReduce的开源实现架构程序Hadoop来实现,数据收集以及处理的功能搭配以同样是Apache旗下的开源搜索引擎Nutch,中文文字的语义处理利用了使用了中文分词的全文检索引擎Lucene,查询服务的实现基于开源全文搜索服务器Solr来实现,经过测试,基本达到了MapReduce框架使用较低硬件配置达到较高查询性能的目的。
 本文基于软件工程的思想,对本系统的分析、设计、实现方面进行了详细的阐述。

 


关键词:MapReduce,Hadoop,Solr,分布式搜索引擎

 

 

*若需了解更多与协助请咨询↓→[电脑QQ][手机QQ]【数据协助】