深度学习-13-小语言模型之SmolLM的使用

文章附录

  • 1 SmolLM概述
    • 1.1 SmolLM简介
    • 1.2 下载模型
  • 2 运行
    • 2.1 在CPU/GPU/多 GPU上运行模型
    • 2.2 使用torch.bfloat16
    • 2.3 通过位和字节的量化版本
  • 3 应用示例
  • 4 问题及解决
    • 4.1 attention_mask和pad_token_id报错
    • 4.2 max_new_tokens=20
  • 5 参考附录

1 SmolLM概述

1.1 SmolLM简介

SmolLM是一系列尖端小型语言模型,提供三种规模的版本:分别为135M、360M和1.7B参数。这些模型基于Cosmo-Corpus构建,这是一个经过精心策划的高质量训练数据集。
在这里插入图片描述

Cosmo-Corpus涵盖了Cosmopedia v2(由Mixtral生成的280亿个token的合成教科书和故事)、
Python-Edu(来自The Stack的40亿个token的教育性Python样本)以及FineWeb-Edu(来自FineWeb的220亿个token的去重教育性网页样本)。在测试常识推理和世界知识的多个基准测试中,SmolLM模型与其他同类规模的模型相比展现出了有希望的结果。

据 Hugging Face 官方消息,Hugging Face 近日推出一系列 SmolLM小模型,包含多个不同参数的模型。

SmolLM系列模型采用原创 SmolLM-Corpus 的数据集训练。该数据集主要包含 Python 教学内容 Python-Edu、Web 教育内容 FineWeb-Edu 以及使用 Mixtral-8x7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1535297.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

白话:大型语言模型中的幻觉(Hallucinations)

大型语言模型(LLM)可是自然语言处理和人工智能的一大步。它们能做的事情可多了,比如生成听起来挺靠谱的文本,翻译语言,总结文档,甚至写诗。但你知道吗,这些模型有时候会出现 “幻觉(…

idea。正则

正则替换,$ 变量保持不变 to_char(O.CREATED_TIME,"yyyy-MM-dd HH24:m1:ss) aS CREATED_TIME date format(O.CREATED TIME, %Y-%m-%d %H:%6i:%6s) aS CREATED_TIME. 本次正则的目标是:to_char 》date format 以及"yyyy-MM-dd HH24:m1:ss替换…

源码运行springboot2.2.9.RELEASE

1 环境要求 java 8 maven 3.5.2 2 下载springboot源码 下载地址 https://github.com/spring-projects/spring-boot/releases/tag/v2.2.9.RELEASE 3 修改配置 修改spring-boot-2.2.9.RELEASE/pom.xml 修改spring-boot-2.2.9.RELEASE/spring-boot-project/spring-boot-tools…

<Python>基于python使用PyQt6编写一个延迟退休计算器

前言 这两天关于延迟退休的话题比较火,官方也退出了延迟退休计算器的小程序,我们使用python来实现一个。 环境配置 系统:windows 平台:visual studio code 语言:python 库:pyqt6 程序依据 程序的算法依据…

【linux-Day2】linux的基本指令<上>

【linux-Day2】linux的基本指令<上> 一键查看操作系统的重要地位linux下的基本指令&#x1f4e2;ls&#xff1a;显示当前目录下所有的子目录和文件&#x1f4e2;pwd&#xff1a;显示用户当前所在的目录&#xff0c;在windows中&#xff0c;相当于显示当前目录的绝对路径。…

CesiumJS+SuperMap3D.js混用实现天际线分析

版本简介&#xff1a; cesium&#xff1a;1.99&#xff1b;Supermap3D&#xff1a;SuperMap iClient JavaScript 11i(2023)&#xff1b; 官方下载文档链家&#xff1a;SuperMap技术资源中心|为您提供全面的在线技术服务 示例参考&#xff1a;support.supermap.com.cn:8090/w…

Linux:git

hello&#xff0c;各位小伙伴&#xff0c;本篇文章跟大家一起学习《Linux&#xff1a;git》&#xff0c;感谢大家对我上一篇的支持&#xff0c;如有什么问题&#xff0c;还请多多指教 &#xff01; 如果本篇文章对你有帮助&#xff0c;还请各位点点赞&#xff01;&#xff01;&…

Istio下载及安装

Istio 是一个开源的服务网格&#xff0c;用于连接、管理和保护微服务。以下是下载并安装 Istio 的步骤。 官网文档&#xff1a;https://istio.io/latest/zh/docs/setup/getting-started/ 下载 Istio 前往Istio 发布页面下载适用于您的操作系统的安装文件&#xff0c;或者自动…

远程跨境传输大文件如何做到安全又稳定?

在当今全球化的商业环境中&#xff0c;企业跨境传输大文件的需求日益增长。这不仅涉及到数据的快速迁移&#xff0c;还包括了安全性、稳定性和合规性等多重挑战。本文将探讨企业在跨境传输大文件时可能遇到的问题&#xff0c;以及在传输过程中应注意的事项&#xff0c;并重点介…

AI重塑视觉体验:将图像与视频转化为逼真可编辑的3D虚拟场景

在这个数字化飞速发展的时代&#xff0c;AI技术正以前所未有的方式重塑我们的视觉体验。特别是当AI能够轻松将普通的照片和视频转化为高度逼真、可交互的3D虚拟场景时&#xff0c;它不仅简化了3D内容创作的复杂性&#xff0c;还极大地拓宽了应用场景的边界。今天&#xff0c;我…

测试工具笔记

性能测试是软件测试中非常重要的一部分&#xff0c;它可以帮助识别软件在高负载条件下的性能瓶颈。市面上有许多性能测试工具&#xff0c;它们各有特点和优势。以下是一些流行的性能测试工具&#xff1a; 1. LoadRunner&#xff1a; 由Micro Focus提供&#xff0c;是一个业界广…

PHP 环境搭建教程

搭建一个稳定的PHP开发环境是开发Web应用的基础。在Linux系统上&#xff0c;LAMP&#xff08;Linux, Apache, MySQL/MariaDB, PHP&#xff09;堆栈是最广泛使用的组合。本文将详细介绍如何在Linux上搭建PHP开发环境&#xff0c;涵盖安装步骤、配置和测试。更多内容&#xff0c;…

【方法】如何禁止PDF转换成其他格式文件?

在工作中&#xff0c;PDF文件因其易于阅读和不易修改的特性&#xff0c;成为了广泛使用的文件格式。然而&#xff0c;出于安全性或版权保护的考虑&#xff0c;有时候我们不希望他人将PDF文件转换为其他格式。下面一起来看看禁止PDF转换格式的方法&#xff01; 我们只需要通过P…

152-钓鱼篇邮件钓鱼Ewomail系统网页克隆劫持用户后门上线

承接上节课没讲完的邮件钓鱼和全部的网页钓鱼 #知识点&#xff1a; 1、红队技能-网络钓鱼-邮件系统 2、邮件钓鱼-平台-Gophish&Swaks 3、邮件钓鱼-系统-smtp2go&SendCloud 4、邮件钓鱼-自定义-Ewomail&Postfix 5、网页钓鱼-克隆修改-劫持口令&下载后门 这…

【Linux】ICMP

一、ICMP协议 ICMP协议是一个网络层协议&#xff0c;基于IP协议&#xff1b;一个新搭建好的网络&#xff0c;往往需要先进行一个简单的测试&#xff0c;来验证网络是否通畅&#xff1b;但是IP协议并不提供可靠传输。如果进行丢包了&#xff0c;IP协议并不能通知传输层是否丢包以…

专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

编者按&#xff1a;近日&#xff0c;2024 龙蜥操作系统大会已于北京圆满举办。大会期间&#xff0c;CSDN 采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇&#xff0c;前瞻性宏观解读面向 AI 智算时代&#xff0c;服务器操作系统面临的挑战与机遇。以下为采访…

Java 语法基础

计算机存储规则 text 文本 : 数字、字母、汉字imagesound声音计算机中,任意数据都是以二进制的形式存储的 汉字存储: 计算机的存储规则 1. GB2312编码: 1981年5月1日发布的简体中文汉字编码国家标准。收录7445个图形字符,其中包括6763个汉字。 2. B1G5编码:台湾地区繁体…

基于SpringBoot+Vue的考务报名平台(带1w+文档)

基于SpringBootVue的考务报名平台(带1w文档) 基于SpringBootVue的考务报名平台(带1w文档) 当前社会各行业领域竞争压力非常大&#xff0c;随着当前时代的信息化&#xff0c;科学化发展&#xff0c;让社会各行业领域都争相使用新的信息技术&#xff0c;对行业内的各种相关数据进…

CesiumJS+SuperMap3D.js混用实现可视域分析 S3M图层加载 裁剪区域绘制

版本简介&#xff1a; cesium&#xff1a;1.99&#xff1b;Supermap3D&#xff1a;SuperMap iClient JavaScript 11i(2023)&#xff1b; 官方下载文档链家&#xff1a;SuperMap技术资源中心|为您提供全面的在线技术服务 示例参考&#xff1a;support.supermap.com.cn:8090/w…

切换淘宝最新镜像源npm详细讲解

​ 大家好&#xff0c;我是程序员小羊&#xff01; 前言&#xff1a; 在中国大陆&#xff0c;npm&#xff08;Node Package Manager&#xff09;的默认源由于网络限制&#xff0c;速度可能较慢。为了解决这个问题&#xff0c;淘宝提供了一个镜像源&#xff0c;它同步了 npm 的…