手工分词和词性标注的问题
手工分词和词性标注的问题
摘要 本文对《一个王朝的背影》(节选)进行了手工分词和词性标注,从而归纳总结了
手工分词和词性标注存在的问题:词的界定上语素和词、词和短语问题;词类问题。同
时,简略阐释了中文信息处理对语言学的意义。
关键词 手工分词;词性标注;问题;语言学
引言
词的问题是汉语语言学界的老大难问题,一直存有争议,远未求得共识,没有系统的成熟的理论。《说文解字》中把词解释为言外而意内,《马氏文通》开始的现代汉语语言学,承接西方语言学的观念和理论,引进印欧语中word的概念,译为“词”,用它来指称汉语最小而又能独立运用的结构单位。然而,过了近百年,我们却仍然搞不清楚什么是词,在分词的过程仍存在很大的障碍,主要是无法对词与语素、词组进行有效的区分,无法对词进行准确分类。