自然语言处理(Natural Language Processing, NLP)
分词、词性标注 与句法分析等基础任务构成NLP的根基,而机器翻译、问答系统、文本摘要 等应用任务则代表了NLP在更广泛场景中的应用实践。
基本技术
分词
最初靠人工规则(像查字典一样),后来使用统计模型(通过大量例子学习规律),现在主要用深度学习方法(能自动发现更复杂的特征和模式)。
词性标注
词性标注就像是给句子中的每个词语贴上身份标签。
句法分析
句法分析是更高层次的结构化处理技术,包括短 语结构分析与依存句法分析。
语义分析
语义分析是迈向更深层次理解文本含义的关键步骤,它通过多个层次逐步深化对文本的理解。在词汇层面,词义消歧构成了语义分析的基本环节,其核心任务是解决多义词在特定上下文中的正确含义选择问题。
篇章分析
篇章分析则扩展了处理的范围,不再局限于单句,而是关心多句子构成的文本或语篇。篇章分析的重要任务包括连贯性分析与指代消解。
连贯性分析
连贯性分析 涉及局部与全局层面的连贯,如局部连贯体现为相邻句子的逻辑、语义、实体 和话题关联性,全局连贯体现为整个文本主题、信息结构和文本组织形式的一致性。