说在前面的话
文字是传递和记录信息和知识的一种形式,也是一种无结构化的数据。自然语言处理技术旨在基于对语言文字的理解,用机器挖掘其中的信息和知识,赋予其可计算的属性,并将这些信息和知识应用到不同的自动化任务上,如文本分类、实体抽取、实体关系挖掘、事件抽取和智能问答系统。为了在各种自动化任务上取得良好的效果,让机器理解自然语言和文字是关键的一个步骤,但也是最具有挑战性的步骤之一。
一方面,由于语言本身满足约定俗成的语法规则,但文字却往往以无结构的符号化序列的形式呈现,机器理解自然语言和文字的第一个挑战在于识别句子中的语义成分的边界,如分词、实体标注、语义标注和句法分析等。
另一方面,语言和文字的符号化表征需转变为机器可计算的语义表征(如词袋模型、N-Gram、TF-IDF和embedding表征等),以便机器通过句子中的各个语义成分,组合和推理出语句级,甚至篇章级的语义。因此,机器理解自然语言和文字的第二个挑战在于设计语义表征,希望该表征能区分词义、兼容语法结构、便于计算、推理和表征更上层的语义关系。
不定期更新NLP的框架
形式化语义表示
TODO