Mistral AI再创新高,Pixtral 12B多模态模型强势来袭

前沿科技速递🚀

近日,Mistral AI 发布了其首款多模态大模型——Pixtral 12B。作为一款具有语言与视觉处理能力的模型,Pixtral 12B 支持高达1024×1024像素的图像,具备强大的文本生成、图像理解与生成能力,能够处理复杂的文本与图像任务,在OCR、图像分类、问答系统等场景表现出色。

来源:传神社区

01 Mistral AI推出Pixtral 12B

Mistral AI是一家专门从事人工智能(AI)产品的法国公司。该公司由Meta Platforms和Google DeepMind的前员工于2023年4月成立,并迅速在人工智能领域确立了自己的地位。该公司专注于生产大型开源语言模型,强调了自由和开源软件的创始重要性,并将自己定位为专有模型的替代品。

最近,Mistral AI刚刚推出了其第一个名为Pixtral 12B的多模态模型,与OpenAI和Anthropic等公司竞争。这个120亿参数模型能够同时处理图像和文本,目前使用其Nemo 12B文本模型。该模型的大小为24 GB,理论上应该能够执行任务,如为图像添加字幕和计算照片上的对象数量。

图片

02 Pixtral 12B的技术亮点

先进的神经网络架构

Pixtral 12B 是基于先进的 Transformer 架构设计的,具备 40 层神经网络、14,336 个隐藏维度以及 32 个注意力头。该设计赋予它强大的计算能力,尤其擅长处理多模态数据,在大规模图像处理和语言生成任务中表现尤为突出。

专业的视觉编码器

Pixtral 12B 配备了一个专门用于图像处理的视觉编码器,能够处理分辨率高达 1024×1024 像素的图像,并包含 24 层隐藏层。这种架构不仅使其能够高效处理复杂的图像任务,还与语言处理模块无缝衔接,使其在 OCR(光学字符识别)、图像分类和图表解析等任务中表现优异。

强大的多模态融合

Pixtral 12B 的多模态能力源自其对文本、图像和 URL 数据的整合处理。通过统一建模,它能够在语言与视觉任务间实现深度融合,擅长复杂的问答系统、图像理解、多图像比较及视频分析等任务,展现出卓越的性能。

出色的语言与图像处理能力

该模型支持长达 131072 个 tokens 的上下文长度,使其在处理长文本和复杂对话时游刃有余。此外,其视觉模块可以处理高分辨率图像,尤其在多帧图像比较和视频总结任务中表现强劲。

技术创新与优化

Pixtral 12B 采用了 GeLU(高斯误差线性单元)激活函数和 2D ROPE(旋转位置嵌入)技术,用以提升视觉编码器的性能。这些技术不仅增强了模型的推理能力,还显著提高了其在高分辨率图像处理中的精度和速度,确保了其在视觉任务中的领先地位。

精细优化与多语言支持

Pixtral 12B 的语言处理模块经过精细调优,特别在语言生成和问答任务中表现出色。通过引入高质量的多语言数据集,模型支持多语言处理,适用于多种语言环境下的任务执行,具备广泛的全球应用前景。

图片

03 模型表现如何?数据告诉你!

根据公开的基准测试结果,Pixtral 12B 在多模态任务中表现突出。相比 Qwen2-VL-7B、LLaVA-OV-7B 和 Phi-3 Vision 等同类模型,Pixtral 12B 在多模态推理、问答系统、图像理解等任务上均表现优异,尤其是在图像生成和高级图像处理任务上处于领先地位。这不仅展示了该模型在视觉处理中的强大效能,也证明了其在语言和图像任务融合方面的领先技术。

图片

Pixtral 也具备非常出色的解释和推理能力。具体指标上,Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有 GPT-4o 和 Claude-3.5 Sonnet)。多模态问答性能也表现卓越,处于领先位置。

图片

多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于 Claude-2 Haiku。

图片

04 应用实例

多模态问答与内容生成

Pixtral 12B 的多模态能力使得其在问答系统、内容生成和用户交互方面有广泛的应用前景。通过结合图像和文本输入,模型可以自动生成复杂的报告、分析文档,甚至可以根据输入的图像生成详细的描述或故事情节。这种能力在电商、医疗、教育等领域将发挥巨大作用。

图片

图像理解与视频分析

借助其强大的视觉处理能力,Pixtral 12B 可以广泛应用于图像识别、视频分析等领域。例如,在安全监控中,该模型可以处理高分辨率视频,并从中提取关键图像信息;在智能文档处理系统中,Pixtral 12B 可以通过 OCR 技术解析扫描文档并生成对应的文本内容。

图片

OCR

在医疗和教育领域,它的OCR和复杂文档解析功能将大大提高处理效率,生成精确的诊断报告或学习材料。即使是面对繁杂的手写草稿或者公式复杂的科学文档,Pixtral 12B 也能快速、准确地完成内容识别和转换。

图片

图片

04 模型下载

传神社区:

https://opencsg.com/models/mistral-community/pixtral-12b-240910

huggingface:

https://huggingface.co/mistral-community/pixtral-12b-240910

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/142123.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

热成像目标检测数据集

热成像目标检测数据集 V2 版本 项目背景 热成像技术因其在安防监控、夜间巡逻、消防救援等领域的独特优势而受到重视。本数据集旨在提供高质量的热成像图像及其对应的可见光图像,支持热成像目标检测的研究与应用。 数据集概述 名称:热成像目标检测数据…

Kafka日志索引详解与常见问题分析

目录 一、Kafka的Log日志梳理 1、Topic下的消息是如何存储的? 1. log文件追加记录所有消息 2. index和timeindex加速读取log消息日志 2、文件清理机制 1. 如何判断哪些日志文件过期了 2. 过期的日志文件如何处理 3、Kafka的文件高效读写机制 1. Kafka的文件…

图神经网络模型扩展(5)--2

1.图的无监督学习 在数据爆炸的时代,大部分数据都是没有标签的。为了将它们应用到深度学习模型上,需要大量的人力来标注数据,例如我们熟知的人脸识别项目,如果想取得更好的识别效果,则一定需要大量人工标注的人脸数据。…

Android MediaPlayer + GLSurfaceView 播放视频

Android使用OpenGL 播放视频 概述TextureView的优缺点OpenGL的优缺点 实现复杂图形效果的场景参考 概述 在Android开发中,使用OpenGL ES来渲染视频是一种常见的需求,尤其是在需要实现自定义的视频播放界面或者视频特效时。结合MediaPlayer,我…

【论文阅读】BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning

Abstract 在这篇论文中,我们研究了使基于视觉的机器人操纵系统能够泛化到新任务的问题,这是机器人学习中的一个长期挑战。我们从模仿学习的角度来应对这一挑战,旨在研究如何扩展和扩大收集的数据来促进这种泛化。为此,我们开发了…

数据库之索引<保姆级文章>

目录: 一. 什么是索引 二. 索引应该选择哪种数据结构 三. MySQL中的页 四. 索引分类及使用 一. 什么是索引: 1. MySQL的索引是⼀种数据结构,它可以帮助数据库高效地查询、更新数据表中的数据。 索引通过 ⼀定的规则排列数据表中的记录&#x…

F28335 时钟及控制系统

1 F28335 系统时钟来源 1.1 振荡器OSC与锁相环PLL 时钟信号对于DSP来说是非常重要的,它为DSP工作提供一个稳定的机器周期从而使系统能够正常运行。时钟系统犹如人的心脏,一旦有问题整个系统就崩溃。DSP 属于数字信号处理器, 它正常工作也必须为其提供时钟信号。那么这个时钟…

【例题】lanqiao3225 宝藏排序Ⅰ

这里的n的范围可以使用冒泡排序、选择排序和插入排序等算法。 冒泡排序 nint(input()) alist(map(int,input().split()))def pop_sort(a):for i in range(n):for j in range(n-i-1):if a[j]>a[j1]:a[j],a[j1]a[j1],a[j] pop_sort(a) print( .join(map(str,a)))选择排序 n…

数据结构(7.3_2)——平衡二叉树

平衡二叉树,简称平衡树(AVL树)----树上任一结点的左子树和右子树的高度之差不超过1. 结点的平衡因子左子树高-右子树高 //平衡二叉树结点 typedef struct AVLNode {int key;//数据域int blalance;//平衡因子struct AVLNode* lchild, * rchild; }AVLNode,*AVLTree; …

4. Python之运算符

一. Python运算符 常用的运算符有:算述运算符,赋值运算符,比较运算述,逻辑运算符,位运算符等等。 1. 算述运算符 用于处理四则运算的符号,主要有: 运算符描述加法-减法*乘法/除法//整除%取余…

Nature Climate Change | 全球土壤微生物群落调控微生物呼吸对变暖的敏感性(Q10)

本文首发于“生态学者”微信公众号! 全球变暖将加速有机物分解,从而增加土壤中二氧化碳的释放,触发正的碳-气候反馈。这种反馈的大小在很大程度上取决于有机质分解的温度敏感性(Q10)。Q10仍然是围绕土壤碳排放到大气的预测的主要不确定性来源…

FreeRTOS实战指南 — 3.2 FreeRTOS中链表的实现

目录 1 FreeRTOS中链表的实现 1.1 实现链表节点 1.2 实现链表根节点 1.3 将节点插入到链表的尾部 1.4 将节点按照升序排列插入到链表 1.5 将节点从链表删除 1.6 节点带参宏小函数 2 链表操作实验 1 FreeRTOS中链表的实现 1.1 实现链表节点 在FreeRTOS操作系统中&…

第二界陇剑杯赛-MISC

1 题目名称:hard_web-1 题目内容:1.服务器开放了哪些端口,请按照端口大小顺序提交答案,并以英文逗号隔开(如服务器开放了80 81 82 83端口,则答案为80,81,82,83) 题目分值:100.0 题目难度:容易 …

go语言中的数组指针和指针数组的区别详解

1.介绍 大家知道C语言之所以强大,就是因为c语言支持指针,而且权限特别大,c语言可以对计算机中任何内存的指针进行操作,这样自然而然也会带来一些不安全的因素,所以在golang中,「取消了对指针的一些偏移&…

自动排课管理系统(源代码+论文+开题报告)

一、题目摘要 题目简要说明: 选排课系统功能的设计上,选排课系统可以分为登录、排课和选课3个子系统。登录子系统区分排课者(也即系统的管理者)、教师和学生这三者的不同身份,给出不同的权限,在页面中根据身份判断其相应具有的功…

战斗机检测系统源码分享

战斗机检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Visio…

【K230 实战项目】气象时钟

【CanMV K230 AI视觉】 气象时钟 功能描述:说明HMDI资源3.5寸屏幕 使用方法 为了方便小伙伴们理解,请查看视频 B站连接 功能描述: 天气信息获取:通过连接到互联网,实时获取天气数据,包括温度、湿度、天气状…

您的计算机已被.lcrypt勒索病毒感染?恢复您的数据的方法在这里!

导言 在网络安全领域,勒索病毒已经成为一种威胁极大的恶意软件,其中.lcrypt勒索病毒(.lcrypt ransomware)是最近出现的一种新的变种。它以加密用户数据并要求赎金为手段,严重影响个人和组织的日常运营。本文91数据恢复…

力扣题解1184

大家好,欢迎来到无限大的频道。 今日继续给大家带来力扣题解。 题目描述(简单): 公交站间的距离 环形公交路线上有 n 个站,按次序从 0 到 n - 1 进行编号。我们已知每一对相邻公交站之间的距离,distanc…

【Motion Forecasting】【摘要阅读】BANet: Motion Forecasting with Boundary Aware Network

BANet: Motion Forecasting with Boundary Aware Network 这项工作发布于2022年,作者团队来自于OPPO。这项工作一直被放在arxiv上,并没有被正式发表,所提出的方法BANet在2022年达到了Argoverse 2 test dataset上的SOTA水准。 Method BANet…