NLP之文本相似度匹配
NLP之文本相似度匹配问题 计算两个文本之间的相似度,相似返回1,不相似返回0 从n个候选文本中选取出与当前文本最相似的文本 解决方案问题1 问题:计算两个文本之是否相似,相似返回1,不相似返回0 数据集:shibing624/sts-sohu20212021搜狐校园文本匹配算法大赛数据集,数据来源https://www.biendata.xyz/competition/sohu_2021/data/,由于计算资源有限,只选择其中短短文本匹配作为样例。 模型:哈工大的一个中文BERT,下载地址hfl/chinese-macbert-base 代码实现: 展开查看问题1代码 1. 数据预处理 123456789datas = load_dataset("shibing624/sts-sohu2021",'dda')tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")def pr...
Transformers 框架学习——持续更新
Transformers 框架学习——持续更新一、概述 官方文档 Transformers快速入门 二、组件 Transformers框架之分词器(Tokenizer)学习 Transformers框架之Model学习 Transformers框架之Datasets 组件 Transformers学习之Evaluate组件 Transformers学习之Trainer组件 三、实战文本 Transformers框架实战——商品评价的情感分析实战 命名实体识别 基于BERT的命名实体识别 基于BERT+LSTM+CRF的命名实体识别 预训练模型分类及代码实战 文本摘要 文本摘要之前缀语言模型-GLM 文本摘要之序列到序列模型-t5 检索式问答-综述 文本相似度匹配 向量数据库的安装与使用 基于向量匹配的检索式问答实战 图像 图像分类之——阿猫阿狗的识别 四、其他 Module ‘XXX‘ doesn‘t exist on the Hugging Face Hub 五、附件 代码地址: https://github.com/Lyn4ever29/transfor...
不吹牛X,我真的干掉了if-else
不吹牛X,我真的干掉了if-else我们在web开发中,经常使用数据库表中的字段作为“标记”来表示多个“状态”,比如: 我们就以某宝的在线购物流程为例进行分析。在订单表中,使用zt字段来表示定单的状态,常见的状态就有: 状态码 状态说明 0 待付款 1 待发货 2 待收货 3 待评价 4 售后 当我们想按条件查询各个类型的订单的时候,只需要一个接口,在前端传入相应的状态码就可以了。在dao层大概也就是通过如下的语句进行查询: 1select * from orders where zt = #{zt} 如何才能有很高的扩展性?假设有这么几个“不成需求的需求”: 我想让待收货的订单按照订单发货时间或者预计送达时间排序,其他的暂且按照订单创建时间排序吧 想将“待收货”的状态区分开,分为“用户未收到货”和“用户收到货但是未点击确认收货按纽”两种状态 常规方式如何解决? 需求一(不同的状态处理方式不同): 这个很容易的,在sevice层添加一个判断就可以,其他的代码不用改,代码如下: 123456// 2 表示待收货if(...
OpenCode安装使用及MCP、Skill的使用
OpenCode安装使用及MCP、Skill的使用 以“完成一个网页版的2048”为例,讲解下如何使用OpenCode。 技术栈: 纯前端项目,使用Vue和JavaScript完成项目
Openclaw的skill编写原则
Skill 编写规则目录结构12345skill-name/├── SKILL.md # 必须,唯一必要文件├── scripts/ # 可选:可执行脚本(Python/Bash 等)├── references/ # 可选:参考文档,按需加载到上下文└── assets/ # 可选:输出用资源(模板、图片、字体等) 禁止创建 README.md、INSTALLATION_GUIDE.md、CHANGELOG.md 等辅助文档,只放 AI agent 执行任务所需的内容。 SKILL.md 结构每个 SKILL.md 由两部分组成: 12345---YAML frontmatter(必须)---Markdown 正文(必须) YAML Frontmatter 字段必须字段 字段 类型 说明 name string skill 唯一标识,小写字母+数字+连字符,≤64 字符 description string 触发机制,决定 agent 何时使用此 skill...
GB28181协议到底是干什么的?一文讲清楚
GB28181协议到底是干什么的?一文讲清楚GB28181是什么的?GB/T 28181 是中国公安部制定的《公共安全视频图像信息联网系统信息传输、交换、控制技术要求》,简称“国标”或“28181”。核心使命只有一句话: 让全国不同厂家、不同时期、不同协议的摄像头和平台,能够“无缝对接、统一管理”。 GB28181 和常见协议的区别 协议 制定者 主要用途 是否强制 典型场景 能不能跨厂家 GB28181 中国公安部 全国公安联网强制标准 是 雪亮工程、天网、应急、智慧城市 能 Onvif 国际组织 国际通用安防设备发现与控制 否 国外项目、小型项目 基本能 RTSP/RTP IETF 纯媒体拉流协议 否 所有拉流场景 能 海康SDK 海康威视 海康自家设备深度控制 否 海康项目 不能 大华SDK 大华 大华自家设备 否 大华项目 不能 GB35114 公安部 治安管理数据交换(非视频流) 是 案件关联、人员轨迹等 - GB28181的版本 2012 年发布 GB/T 28181-2011 2016 年发布 GB&...
GB28181教程——Catalog目录更新方法
GB28181教程——Catalog目录更新方法 设备上线、离线、目录增删到底是怎么通知平台的? 读完这篇你立刻就能: 看懂任何厂家的 Catalog XML 知道设备一上电 30 秒内必须干 3 件事 解决 90% 的“平台看不到通道”“目录不更新”问题 1. 先把整个目录体系画出来12345678910111213141516171819设备上电后 30 秒内必须完成以下 3 件事1 设备注册成功(第3篇讲过)2 主动上报本设备信息(DeviceInfo)3 主动上报所有通道目录(Catalog) 设备(IPC/NVR) 平台 │ │ │ ① MESSAGE (CmdType=DeviceInfo) │ │──────────────────────────────────────► │ │ ...
GB28181教程————SIP基础
GB28181教程————SIP基础这一篇的目标是:读完 15 分钟后,随手拿起 Wireshark 抓到的任何一条国标 SIP 包,都能一眼看懂它在干嘛,99% 的注册不上、心跳超时、点播失败问题都能秒定位。 1. 先一句话说清楚:SIP 到底是个啥?SIP(Session Initiation Protocol)本身是一个 信令协议,只负责“建会话、改会话、拆会话”,真正的视频数据根本不走它。 类比成生活:SIP 就像电话的拨号、振铃、挂机过程,真正说话的声音不是通过电话线里的拨号音传的。在国标里,SIP 就是公安平台和几万个摄像头之间那根“指挥电话线”。 官方文档: RFC 3261 主协议https://www.ietf.org/rfc/rfc3261.txt国标真正用到的只有 RFC 3261 的前 20 页 + 后面几段,后面 300 页基本可以无视。 2. 一条 SIP 消息长什么样?(国标真实样子)下面是一条最常见的设备注册包(已删掉部分无关字段),以后 99% 的包都长这样: 123456789101112131415REGISTER sip:340200000...
GB28181教程——点播回放
GB28181教程——点播回放 把 INVITE + SDP + SSRC + 倍速 + TCP/UDP 一次讲透 读完这篇,你立刻就能: 手写一个能点播、能 16 倍速、能切 TCP/UDP 的完美 INVITE 看懂海康、大华、宇视任意厂家的 SDP 解决 95% 的“点播黑屏”“只有声音没图像”“卡顿”问题 流程图123456789101112131415客户端/平台 设备/下级平台 │ │ │ 1. INVITE(带 SDP Offer) │ │──────────────────────────────────────────►│ │ │ │ 2. 100 Trying ...
GB28181教程——设备注册流程
GB28181教程——设备注册流程 带你从 0 到 1 手写一个能通过公安三方检测的注册包 这一篇干货浓度 100%,读完你立刻就能: 能看懂任何厂家的注册抓包 能自己算出 Authorization 的 response 能解释为什么注册总是 401 → 200 → 超时注销 1. 先把整个流程画出来(永远记住这张图)123456789101112131415161718设备 平台 │ │ │ 1. 第一次 REGISTER (不带认证) │ │──────────────────────────────────►│ │ │ │ 2. 401 Unauthorized + nonce│ │◄──────────────────────────────────│ │ │ │3. 第二次...


