预训练模型实战之文本摘要

发表于2023-08-30|nlppython

|总字数:652|阅读时长:2分钟|浏览量:

预训练模型实战之文本摘要

任务描述

文本摘要是指通过各种技术，对文本或者是文本的集合，抽取、总结或是精炼其中的要点信息，用以概括和展示原始文本的主要内容或大意。作为文本生成任务的主要方向之一，从本质上而言，这是一种信息压缩技术。文本摘要技术是信息爆炸时代，提升人们获取有效信息效率的关键技术之一，如何从冗余、非结构化的长文本中提炼出关键信息，构成精简通顺的摘要，是文本摘要的核心问题。

实验概述

在之前的文章预训练模型实战中，介绍到了四种预训练语言模型，四种语言模型都可以做文本摘要任务，但像bert这种掩码语言模型效果就相对差一点儿。本文选取四种语言模型，在文本摘要任务上做对比试验。

实验配置

数据集

LCSTS_new中文短摘要生成数据集
2015年发布的生成式短摘要数据集，以微博原文为输入，1~2句话的短摘要为输出。

预训练模型

鉴于资源限制，本文选择的模型在一方面要支持中文，另一方面要模型体积尽可能小，所以本实验的结果并不能代表模型的性能。

hfl/chinese-macbert-base
掩码语言模型
Langboat/mengzi-t5-base
seq2seq模型
uer/gpt2-chinese-cluecorpussmall
因果语言模型，为什么不直接选择GPT-2？是因为官方的GPT-2并不支持中文。
THUDM/glm-large-chinese
前缀语言模型

评价标注

Rouge-Chinese库（Python）

专用于计算中文rouge指标的python库 (paper)
代码请见github仓库：
https://github.com/Isaac-JL-Chen/rouge_chinese
安装方法:

1	pip install rouge-chinese

使用方法

from rouge_chinese import Rouge

true_data=['张三是个好学生',
		   '小鱼吃猫博客是个好网站',
		   '小鱼不吃香菜']
pred_data=['张三是个坏学生',
		   '小鱼吃猫博客确实是个好网站',
		   '小鱼不吃香菜，所以长不高']
true_list=[' '.join(true_data) for arg in dev_data]
pred_list=[' '.join(pred_data) for arg in dev_data]
rouge = Rouge()
scores = rouge.get_scores(pred_list, true_list, avg=True)
{
    "rouge-1": scores["rouge-1"]["f"],
    "rouge-2": scores["rouge-2"]["f"],
    "rouge-l": scores["rouge-l"]["f"],
}

代码实现

文章作者: 小鱼吃猫

文章链接: https://jhacker.cn/posts/2023/ai/%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B%E5%AE%9E%E6%88%98%E4%B9%8B%E6%96%87%E6%9C%AC%E6%91%98%E8%A6%81/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小鱼吃猫！

相关推荐

Pypi本地镜像服务器搭建

Pypi本地镜像服务器搭建主要功能全镜像同步(可以指定镜像源) 下载指定依赖包定时同步快速开始安装依赖 1pip install pip2pi==0.8.2 执行main.py 原理其实是下载依赖，然后执行 dir2pi -S . 1python main.py 此时可以看到packages目录下有所有的包和一个sample文件夹，如果需要在内网环境下使用，请把sample拷贝进内网机即可。 3.配置pypi索引服务器可以使用python,也可以使用Nginx,当然，也可以使用对象存储（做一个静态映射即可） 123#在下载目录里创建server服务，8080为端口号，可以随意设置：cd packagespython -m http.server 8080 nginx配置如下： 12345678server { listen 80; server_name example.com; root /sample; index index.html index.htm;} 4.打开网页就可以看所有的包了 1http:/...

Module ‘XXX‘ doesn‘t exist on the Hugging Face Hub

Module ‘accuracy’ doesn’t exist on the Hugging Face Hub either.问题：12Module 'accuracy' doesn't exist on the Hugging Face Hub either.Module 'f1' doesn't exist on the Hugging Face Hub either. 原因出现这个错误，主要在使用evaluate时，加载accuarcy,由于网络问题访问不到导致的。 1acc_metric = evaluate.load("accuracy") 解决方案下载对应的py文件，然后从本地加载 1https://github.com/huggingface/datasets/tree/main/metrics 从本地加载评估模块 123from datasets import load_metricacc_metric = load_metric("./accuracy.py&quo...

文本摘要之前缀语言模型-GLM

文本摘要之前缀语言模型-GLM 文本摘要相关内容查阅预训练模型实战之文本摘要 1 导入相关包12345import osos.environ["CUDA_VISIBLE_DEVICES"] = "1" import torchfrom datasets import Datasetfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainer, Seq2SeqTrainingArguments 2 加载数据集123456789import json# train.json有140w数据，dev.json只有1w数据，with open('./LCSTS_new/train.json','r') as f: lines = f.readlines() train_data = [json.loads(line) for line in lines[:...

Transformers 框架学习——持续更新

Transformers 框架学习——持续更新一、概述官方文档 Transformers快速入门二、组件 Transformers框架之分词器（Tokenizer）学习 Transformers框架之Model学习 Transformers框架之Datasets 组件 Transformers学习之Evaluate组件 Transformers学习之Trainer组件三、实战文本 Transformers框架实战——商品评价的情感分析实战命名实体识别基于BERT的命名实体识别基于BERT+LSTM+CRF的命名实体识别预训练模型分类及代码实战文本摘要文本摘要之前缀语言模型-GLM 文本摘要之序列到序列模型-t5 检索式问答-综述文本相似度匹配向量数据库的安装与使用基于向量匹配的检索式问答实战图像图像分类之——阿猫阿狗的识别四、其他 Module ‘XXX‘ doesn‘t exist on the Hugging Face Hub 五、附件代码地址： https://github.com/Lyn4ever29/transfor...

基于向量匹配的检索式问答实战

基于向量匹配的检索式问答实战可以先看一看检索式问答的综述，《检索式问答综述》,这篇是实战，直接上代码。准备工作数据集：wangrui6/Zhihu-KOL，包含10w条知乎通用问答数据，以下是两个示例： INSTRUCTION (string) RESPONSE (string) 从北大光华读完MBA的人都去了哪里工作？这里我们根据北大光华的数据给大家分析一下。 Python3中如何得到Unicode码对应的中文？ “看的头晕啊！编码真是把人绕晕了啊！” 模型：哈工大的一个中文BERThfl/chinese-macbert-base 分析可以根据要问的问题和知识库里的句子计算相似度进行答案的搜索，但这要求需要有成对的相似句子对作为训练数据集。这需要每个文法都需要有至少两个以上的句子，这很不现实。所以在实际中，可以直接计算问题和答案之间的相似度，以此来完成答案的索引。代码实现模型训练利用问答对训练一个文本相似度计算模型用做编码器这部分和之前的文章是一样的，可以参考文本相似度匹配中问题2的代码存储数据利用上一步训练来的编...

基于BERT+LSTM+CRF的命名实体识别

基于BERT+LSTM+CRF的命名实体识别定义参数12345678910111213141516171819202122232425262728293031class CommonConfig: bert_dir = "hfl/chinese-macbert-base" output_dir = "./checkpoint/" data_dir = "./data"class NerConfig: def __init__(self): cf = CommonConfig() self.bert_dir = cf.bert_dir self.output_dir = cf.output_dir # self.output_dir = os.path.join(self.output_dir) if not os.path.exists(self.output_dir): os.mkdir(self.out...

数据加载中