Transformers框架之Model学习

发表于2023-08-02|nlppython

|总字数:470|阅读时长:1分钟|浏览量:

Transformers框架之Model学习

在Transformers快速入门中介绍了pipeline()方法的使用。Model是Transformers中重要组件之一，主要负责加载和使用模型。接下来，以翻译任务为例子，使用huggingface中的现有模型进行翻译。

一、快速使用

# pileline中指定从英文翻译到中文（只针对多语言，这里是可以不指定的）
from transformers import pipeline  
  
pipe = pipeline("translation_EN_to_ZH", model="Helsinki-NLP/opus-mt-en-zh")   
print(pipe("are you ok?")) #[{'translation_text': '你还好吗?'}]

接下来，就逐步操作，了解一下Model组件。

二、加载模型

我们需要先在huggingface中找到自己想要的模型，这里我选择Helsinki-NLP/opus-mt-en-zh，更多模型，可以在https://huggingface.co/models中获取

在线加载模型

# Load model directly
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-zh")
model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-zh")

它自动从huggingface下载完模型后，会保存到 ~/.cache/huggingface/hub/models 目录下。

保存模型到本地

保存模型到本地，方便下次加载：

# 保存模型
model.save_pretrained("../model/opus-mt-en-zh")
# 分词器也保存一下
tokenizer.save_pretrained("../model/opus-mt-en-zh")

离线加载模型

1 2	tokenizer = AutoTokenizer.from_pretrained("../model/opus-mt-en-zh") model = AutoModelForSeq2SeqLM.from_pretrained("../model/opus-mt-en-zh")

使用模型

# 编码
inputs = tokenizer("are you ok?", return_tensors="pt")
# 模型预测 
outputs = model.generate(**inputs)
# 解码
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# 你还好吗?

三、查看与修改模型配置

1
2
3

print(model.config)
# 内容太多，就不全放出来了。只看一个配置
# "max_length": 512 输入和输出最在长度是512

本章暂只介绍一下Model的基础用法，比如训练模型操作，后续会给出示例。

更多内容

查看Transformers 框架学习
关注微信公众号codeCraft编程工艺

文章作者: 小鱼吃猫

文章链接: https://jhacker.cn/posts/2023/ai/Transformers%E6%A1%86%E6%9E%B6%E4%B9%8BModel%E5%AD%A6%E4%B9%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小鱼吃猫！

相关推荐

Module ‘XXX‘ doesn‘t exist on the Hugging Face Hub

Module ‘accuracy’ doesn’t exist on the Hugging Face Hub either.问题：12Module 'accuracy' doesn't exist on the Hugging Face Hub either.Module 'f1' doesn't exist on the Hugging Face Hub either. 原因出现这个错误，主要在使用evaluate时，加载accuarcy,由于网络问题访问不到导致的。 1acc_metric = evaluate.load("accuracy") 解决方案下载对应的py文件，然后从本地加载 1https://github.com/huggingface/datasets/tree/main/metrics 从本地加载评估模块 123from datasets import load_metricacc_metric = load_metric("./accuracy.py&quo...

基于BERT+LSTM+CRF的命名实体识别

基于BERT+LSTM+CRF的命名实体识别定义参数12345678910111213141516171819202122232425262728293031class CommonConfig: bert_dir = "hfl/chinese-macbert-base" output_dir = "./checkpoint/" data_dir = "./data"class NerConfig: def __init__(self): cf = CommonConfig() self.bert_dir = cf.bert_dir self.output_dir = cf.output_dir # self.output_dir = os.path.join(self.output_dir) if not os.path.exists(self.output_dir): os.mkdir(self.out...

Transformers框架之Trainer组件

Transformers框架之Trainer组件Trainer参数解读在学习完Tokenizer、Datasets、Model、Evaluate组件后，Trainer组件是用来训练模型的，也是最简单的。以下是一个最基础的Trainer的参数示例: 123456789trainer = Trainer( model=model, # 模型 args=training_args, # 训练参数 train_dataset=train_dataset, # 训练集 eval_dataset=eval_dataset, # 验证集 tokenizer=tokenizer, # 分词器 data_collator=data_collator, # 数据收集器 compute_metrics=compute_metrics, # 评估函数) 接下来，以**情感分析（外卖评价）**为...

OpenCode安装使用及MCP、Skill的使用

OpenCode安装使用及MCP、Skill的使用以“完成一个网页版的2048”为例，讲解下如何使用OpenCode。技术栈：纯前端项目，使用Vue和JavaScript完成项目

文本摘要之前缀语言模型-GLM

文本摘要之前缀语言模型-GLM 文本摘要相关内容查阅预训练模型实战之文本摘要 1 导入相关包12345import osos.environ["CUDA_VISIBLE_DEVICES"] = "1" import torchfrom datasets import Datasetfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, Seq2SeqTrainer, Seq2SeqTrainingArguments 2 加载数据集123456789import json# train.json有140w数据，dev.json只有1w数据，with open('./LCSTS_new/train.json','r') as f: lines = f.readlines() train_data = [json.loads(line) for line in lines[:...

预训练模型分类及其代码实战

预训练模型分类及其代码实战本文是带你手把手对预训练模型进行继续训练。预训练模型分类对于什么预训练模型，以及预训练模型的由来，可以参考知乎上的“请问深度学习中预训练模型是指什么？如何得到？”，一个比一个好。本文主要是以代码的角度进行解析如何与对这些预训练模型进行继续训练。目前预训练模型的分类以及适用任务：序列到序列（Transformer）：机器翻译，阅读理解，文本生成任务,文本摘要因果语言模型（Causal Language Model, CLM）：文本生成任务掩码语言模型（Masked Language Model, MLM）：自然语言理解，如：信息抽取，完型填空，情感分析等前缀语言模型（Prefix language model）：文本生成任务，文本摘要预训练模型详解序列到序列模型序列到序列模型，其实就是Encoder-Decoder模型，也就是最简单的Transformer架构。Encoder 部分是 Masked Multi-Head Self-Attention，Decoder 部分是 Casual Multi-Head Cross-Attentio...

数据加载中