,

更新于：2026-01-09

本文：751字阅读时长：2分

信息抽取

1 Named Entity Recognition

评估方法： 基于实体而非Token进行评估

1.1 Sequence Models for NER

编码方式：IO编码和IOB编码
特征工程
1. 单词
  - current word
  - 上下文单词
2. 语言学分类特征
  - 词性标注
3. 单词内部与正字法特征
  - 前缀和后缀
  - 单词形状等
标签的上下文特征

1.1.1 HMMs

生成式模型，最大化$P(X,Y)$
假设特征是独立的
优点：速度极快；缺点：仅具备局部归一化能力

1.1.2 CRFs

判别式模型，也是 Stanford NER 使用的模型
不假设特征是独立的
优点：全局归一化，准确率通常更高；缺点：训练慢

2 Relation Extraction

识别出实体后，识别实体之间的语义关系，用来构建和扩充知识图谱，也可支持复杂的问答系统。

关系数据库标准

ACE(Automated Content Extraction)：定义了17种关系类型
UMLS：生物学领域的统一语言系统
WordNet：本体关系，如（IS-A上下位关系，Instance of 实例关系）

2.1 抽取方法

A. 手写模式(Hand-written patterns)

利用固定句式提取关系（例如IS-A）
优缺点：高精确度，低召回率，且费时费力

B. 监督学习(Supervised Machine Learning)

流程
1. 找出句子中的所有实体对
2. 判断二者是否存在关系（二分类问题）
3. 如果存在，分类具体关系类型
特征
- 词特征：中心词，实体间的词袋/二元组
- 实体特征：实体类型、实体层级
- 句法特征：句法块序列、句法树路径、依存路径
分类器：MaxEnt， Naive Bayes，SVM

C. 神经关系抽取(Neural RE)

使用CNN等深度学习网络
引入位置潜入：编码词语距离实体1和实体2之间的相对距离
使用Max pooling 自动提取特征

优缺点

优点：只要有足够的高质量手工标注数据，且测试集与训练集领域相似，就能获得极高的准确率。

缺点：成本高，跨领域泛化能力不足

3 Event Extraction

事件抽取是一个更具挑战性的任务，目的是识别文档中发生的事件及其详细信息。

事件的结构

事件触发词(Event Trigger)：最能表达清楚事件发生的词
事件论元(Event Argument)：参与事件的实体、事件或数值
论元角色(Argument Role)：论元再事件中扮演的角色(攻击者、受害者、工具等)

3.1 Basic Idea

Stage I
- Trigger Detection
- Event type identification
Stage II
- Argument detection
- Argument role identification

3.2 PipeLine

根据Basic Idea 进行多阶段任务

3.3 Machine Reading Comprehension

背景：传统分类方法面临数据稀缺问题
新思路：将事件转化为问答任务
- 抽取触发词：向模型提问
- 抽取论元：根据事件类型和角色生成问题，让模型从文本中寻找答案
- 利用样式迁移生成自然的问题以提高效果