Web访问日志的预处理方法研究
随着互联网的飞快发展,web上的信息量也在飞速增长。为了获得用户的访问模式和提供给用户更加个性化的信息服务,就需要对web访问日志进行挖掘。而web日志挖掘的第一步就是web日志预处理,它的处理结果直接影响后续挖掘算法的准确度和效率。因此,本文将对web日志预处理方法进行研究。Web日志预处理过程主要包括数据清理、用户识别、会话识别、路径补充和事务识别五个步骤。本文对web日志挖掘的过程和web日志格式进行了简要介绍,重点阐述了web日志预处理的一般过程及各个步骤的相关理论基础。后面详细研究了web日志预处理过程前三个步骤所涉及的算法及其实现,其中重点研究了静态时间阈值和动态时间阈值两种方法,并通过实验分析对比两种方法的优缺点,以期让人们更好地理解web日志预处理过程。
关键词: WEB日志挖掘;日志预处理;数据清理;用户识别;会话识别