1 Named Entity Recognition
评估方法: 基于实体而非Token进行评估
1.1 Sequence Models for NER
- 编码方式:IO编码和IOB编码
- 特征工程
- 单词
- current word
- 上下文单词
- 语言学分类特征
- 词性标注
- 单词内部与正字法特征
- 前缀和后缀
- 单词形状等
- 单词
- 标签的上下文特征
1.1.1 HMMs
- 生成式模型,最大化$P(X,Y)$
- 假设特征是独立的
- 优点:速度极快;缺点:仅具备局部归一化能力
1.1.2 CRFs
- 判别式模型,也是 Stanford NER 使用的模型
- 不假设特征是独立的
- 优点:全局归一化,准确率通常更高;缺点:训练慢
2 Relation Extraction
识别出实体后,识别实体之间的语义关系,用来构建和扩充知识图谱,也可支持复杂的问答系统。
关系数据库标准
- ACE(Automated Content Extraction):定义了17种关系类型
- UMLS:生物学领域的统一语言系统
- WordNet:本体关系,如(IS-A上下位关系,Instance of 实例关系)
2.1 抽取方法
A. 手写模式(Hand-written patterns)
- 利用固定句式提取关系(例如IS-A)
- 优缺点:高精确度,低召回率,且费时费力
B. 监督学习(Supervised Machine Learning)
- 流程
- 找出句子中的所有实体对
- 判断二者是否存在关系(二分类问题)
- 如果存在,分类具体关系类型
- 特征
- 词特征:中心词,实体间的词袋/二元组
- 实体特征:实体类型、实体层级
- 句法特征:句法块序列、句法树路径、依存路径
- 分类器:MaxEnt, Naive Bayes,SVM
C. 神经关系抽取(Neural RE)
- 使用CNN等深度学习网络
- 引入位置潜入:编码词语距离实体1和实体2之间的相对距离
- 使用Max pooling 自动提取特征
优缺点
优点: 只要有足够的高质量手工标注数据,且测试集与训练集领域相似,就能获得极高的准确率。
缺点:成本高,跨领域泛化能力不足
3 Event Extraction
事件抽取是一个更具挑战性的任务,目的是识别文档中发生的事件及其详细信息。
事件的结构
- 事件触发词(Event Trigger):最能表达清楚事件发生的词
- 事件论元(Event Argument):参与事件的实体、事件或数值
- 论元角色(Argument Role):论元再事件中扮演的角色(攻击者、受害者、工具等)
3.1 Basic Idea
- Stage I
- Trigger Detection
- Event type identification
- Stage II
- Argument detection
- Argument role identification
3.2 PipeLine
根据Basic Idea 进行多阶段任务
3.3 Machine Reading Comprehension
- 背景:传统分类方法面临数据稀缺问题
- 新思路:将事件转化为问答任务
- 抽取触发词:向模型提问
- 抽取论元:根据事件类型和角色生成问题,让模型从文本中寻找答案
- 利用样式迁移生成自然的问题以提高效果