常见向量数据库的安装与使用
发表于|nlp
|总字数:15|阅读时长:1分钟|浏览量:
常见向量数据库的安装与使用
vector-database
文章作者: 小鱼吃猫
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 小鱼吃猫!
相关推荐
2023-09-11
NLP之文本相似度匹配
NLP之文本相似度匹配问题 计算两个文本之间的相似度,相似返回1,不相似返回0 从n个候选文本中选取出与当前文本最相似的文本 解决方案问题1 问题:计算两个文本之是否相似,相似返回1,不相似返回0 数据集:shibing624/sts-sohu20212021搜狐校园文本匹配算法大赛数据集,数据来源https://www.biendata.xyz/competition/sohu_2021/data/,由于计算资源有限,只选择其中短短文本匹配作为样例。 模型:哈工大的一个中文BERT,下载地址hfl/chinese-macbert-base 代码实现: 展开查看问题1代码 1. 数据预处理 123456789datas = load_dataset("shibing624/sts-sohu2021",'dda')tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")def pr...
2023-10-09
Module ‘XXX‘ doesn‘t exist on the Hugging Face Hub
Module ‘accuracy’ doesn’t exist on the Hugging Face Hub either.问题:12Module 'accuracy' doesn't exist on the Hugging Face Hub either.Module 'f1' doesn't exist on the Hugging Face Hub either. 原因出现这个错误,主要在使用evaluate时,加载accuarcy,由于网络问题访问不到导致的。 1acc_metric = evaluate.load("accuracy") 解决方案 下载对应的py文件,然后从本地加载 1https://github.com/huggingface/datasets/tree/main/metrics 从本地加载评估模块 123from datasets import load_metricacc_metric = load_metric("./accuracy.py&quo...
2023-08-18
基于BERT+LSTM+CRF的命名实体识别
基于BERT+LSTM+CRF的命名实体识别定义参数12345678910111213141516171819202122232425262728293031class CommonConfig: bert_dir = "hfl/chinese-macbert-base" output_dir = "./checkpoint/" data_dir = "./data"class NerConfig: def __init__(self): cf = CommonConfig() self.bert_dir = cf.bert_dir self.output_dir = cf.output_dir # self.output_dir = os.path.join(self.output_dir) if not os.path.exists(self.output_dir): os.mkdir(self.out...
2023-08-23
预训练模型分类及其代码实战
预训练模型分类及其代码实战 本文是带你手把手对预训练模型进行继续训练。 预训练模型分类对于什么预训练模型,以及预训练模型的由来,可以参考知乎上的“请问深度学习中预训练模型是指什么?如何得到?”,一个比一个好。本文主要是以代码的角度进行解析如何与对这些预训练模型进行继续训练。目前预训练模型的分类以及适用任务: 序列到序列(Transformer):机器翻译,阅读理解,文本生成任务,文本摘要 因果语言模型(Causal Language Model, CLM):文本生成任务 掩码语言模型(Masked Language Model, MLM):自然语言理解,如:信息抽取,完型填空,情感分析等 前缀语言模型(Prefix language model):文本生成任务,文本摘要 预训练模型详解序列到序列模型序列到序列模型,其实就是Encoder-Decoder模型,也就是最简单的Transformer架构。Encoder 部分是 Masked Multi-Head Self-Attention,Decoder 部分是 Casual Multi-Head Cross-Attentio...
2023-08-07
Transformers框架实战——商品评价的情感分析实战
Transformers框架实战——商品评价的情感分析实战 Transformers框架基础教程及更多实战内容 以商品评价数据集为例,使用bert进行情感分析。数据集来源:https://github.com/SophonPlus/ChineseNlpCorpus Step1 导包12from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArgumentsfrom datasets import load_dataset,load_from_disk Step2 加载数据集1dataset = load_dataset("csv", data_files="./JD.com_comments.csv", split='train') 这个数据集共包含720 万条评论,包含用户ID,商品ID,评分,时间,评论标题,评论内容这六个字段。看一下第一条数据。 12345678{'...
2023-08-30
预训练模型实战之文本摘要
预训练模型实战之文本摘要任务描述文本摘要是指通过各种技术,对文本或者是文本的集合,抽取、总结或是精炼其中的要点信息,用以概括和展示原始文本的主要内容或大意。作为文本生成任务的主要方向之一,从本质上而言,这是一种信息压缩技术。文本摘要技术是信息爆炸时代,提升人们获取有效信息效率的关键技术之一,如何从冗余、非结构化的长文本中提炼出关键信息,构成精简通顺的摘要,是文本摘要的核心问题。 实验概述在之前的文章预训练模型实战中,介绍到了四种预训练语言模型,四种语言模型都可以做文本摘要任务,但像bert这种掩码语言模型效果就相对差一点儿。本文选取四种语言模型,在文本摘要任务上做对比试验。 实验配置数据集LCSTS_new中文短摘要生成数据集2015年发布的生成式短摘要数据集,以微博原文为输入,1~2句话的短摘要为输出。 预训练模型 鉴于资源限制,本文选择的模型在一方面要支持中文,另一方面要模型体积尽可能小,所以本实验的结果并不能代表模型的性能。 hfl/chinese-macbert-base 掩码语言模型 Langboat/mengzi-t5-base seq2s...
公告

