阿里开源多模态大模型Ovis1.6,重塑出海电商AI格局

阿里开源Ovis1.6:多模态领域再夺第一

阿里再一次证明了自己在多模态领域的实力。这一次,阿里国际AI团队开源的多模态大模型Ovis1.6,不仅成功开源,还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,荣登300亿参数以下模型榜首。

Ovis1.6不仅仅是在视觉感知推理、数学推理以及科学分析等多项任务中表现优异,甚至在一些评测中超过了闭源模型GPT-4o-mini。无论是学术研究、生活场景,还是金融财报分析,Ovis1.6的表现堪称卓越。

Ovis1.6的实际应用

在应用方面,Ovis1.6展示了多模态大模型的广泛适用性。例如,它可以通过视觉理解和数学推理来帮助用户处理复杂的大学数学问题;

还能够解析论文,生成关键内容,或进行财务报表的分析。

这一模型甚至可以通过图像分析,生成简单易懂的烹饪指导,例如教用户如何做一道经典的炸鱼薯条。

更重要的是,Ovis系列大模型遵循Apache 2.0开源协议,允许开发者进行商用。这种开放性和灵活性使其在开发和商用环境中具有极高的实用价值。​

技术细节揭秘:视觉与文本嵌入的对齐

阿里国际AI团队在开发Ovis1.6时,针对多模态模型存在的视觉与文本信息不协调的问题提出了创新性的解决方案。传统多模态大模型往往通过简单的连接器将预训练的大语言模型(LLM)与视觉Transformer结合,但这种方法导致文本和视觉模块难以有效融合,影响模型的整体性能。

Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token。然后,这些视觉token会和文本token一起被处理,完成多模态任务。

这种架构设计,不仅解决了视觉和文本信息的对齐问题,还显著提升了模型在处理复杂视觉任务和文本生成任务时的性能。

优化与应用

Ovis1.6相较于前代产品Ovis1.5,在架构、数据以及训练策略等方面进行了全面优化。例如,采用动态子图方案来灵活处理不同分辨率的图像特征,在实际任务中提升了模型的应对能力。数据方面,Ovis1.6涵盖了丰富的数据集,如Caption、OCR、表格、图表和数学数据,确保模型在多个应用场景中保持优异表现。训练策略方面,通过DPO等优化手段,进一步增强了模型的生成和理解复杂任务的能力。

实验表明,Ovis1.6与基于MLP连接器的架构相比,性能提升了8.8%。此外,Ovis1.6已经应用于阿里国际的多项实际业务中,特别是在出海电商领域,展现出了显著的降本增效效果。

Ovis1.6助力出海电商

阿里国际通过Ovis1.6的强大AI能力,改变了跨境电商领域的工作方式。特别是在退货和退款审核环节,Ovis1.6通过处理用户提供的图文、视频信息,实现了秒级别的审核,极大减少了人力成本,提高了效率和一致性,确保了商家与消费者的公平权益。

此外,Ovis1.6还在商品属性提取、生成卖点等应用场景中被广泛应用,优化了商品发布流程,并提升了商品的搜索量和曝光度。阿里国际的AI能力已覆盖营销、客户服务、商品发布等40多个应用场景,日均调用超过5000万次。

AI助力商家:降本增效的秘密武器

Ovis1.6只是阿里国际AI能力的一部分,阿里国际还构建了多语言增强大模型Marco,以及电商版多模态大模型MarcoVL,专门为电商领域提供定制化服务。这些AI技术已经成为跨境商家在全球市场中提升竞争力的重要工具。

例如,通过AI生成的多语言商品描述,使得商家能够突破语言障碍,更加高效地与全球消费者沟通。AI图片处理技术,如一键生成虚拟试衣效果等,也让商品展示更加生动,进一步提高了购买转化率。

阿里国际的Ovis1.6大模型,不仅在技术上取得了重要突破,更在实际商业应用中展现了强大的降本增效能力。通过开源和AI技术的赋能,阿里国际为出海电商商家提供了更具竞争力的工具和服务,也为全球开发者和企业提供了更多技术创新的可能。

对于广大开发者而言,Ovis1.6的开源无疑是一个重大利好,为他们带来了强大的多模态技术,推动更多创新和应用的诞生。

Ovis1.6开源地址和Demo:
arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145529.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT 4o 使用指南 (9月更新)

首先基础知识还是要介绍得~ 一、模型知识: GPT-4o:最新的版本模型,支持视觉等多模态,OpenAI 文档中已经更新了 GPT-4o 的介绍:128k 上下文,训练截止 2023 年 10 月(作为对比,GPT-4…

数据结构强化(直播课)

应用题真题分析&备考指南 (三)线性表的应用 (六)栈、队列和数组的应用 (四)树与二叉树的应用 1.哈夫曼(Huffman)树和哈夫曼编码 2.并查集及其应用(重要) (四)图的基本应用 …

伊犁职业技术学院linux 部署教学用首先创建两台linux 主机

1 一台是主机 一台是克隆 能够正常通信,虚拟机全局采用nat 模式 2 主机 地址 192.168.200.10 备机 192.168.200.20 、打开终端 在我们的root 用户上进行配置 另外一台机子也是如此配置流程一样,主要是地址改为 192.168.200.20 不再重复 最终…

【CustomPainter】绘制圆环

说明 绘制一个圆环,进度为0时,显示“圆形”。 效果 源码 MyRingPainter class MyRingPainter extends CustomPainter {final double progress;MyRingPainter({required this.progress});overridevoid paint(Canvas canvas, Size size) {double _stro…

JavaWeb纯小白笔记02:Tomcat的使用:发布项目的三种方式、配置虚拟主机、配置用户名和密码

通过Tomcat进行发布项目的目的是为了提供项目的访问能力:Tomcat作为Web服务器,能够处理HTTP请求和响应,将项目的内容提供给用户进行访问和使用。 一.Tomcat发布项目的三种方式: 第一种:直接在Tomcat文件夹里的webapp…

排序---冒泡排序、堆排序

一、冒泡排序 相邻两个位置交换,假设排升序,就不断把最大的往后拿,所以这段序列从后往前变得有序。 //flag为0,即这个数组已经是有序的了,节省循环次数 二、堆排序(数组实现) 具体原理介绍看这…

道路坑洞分割数据集/道路裂纹分割数据集

1.道路坑洞,道路裂纹分割数据集,包含5790张坑洞分割图像数据(默认分割标注png图片,850MB)2.10000余张道路裂纹图像数据(默认分割标注png图片,3.7GB)3。道路坑洞,道路 道路坑洞与裂纹…

华为昇腾服务器+Atlas300IPro*2 部署Dify+MindIE+Embedding+Rerank实现Qwen2.5-7B全国产化的大模型推理平台

文章目录 一、概要二、平台介绍和相关链接三、MindIE、Embedding、Rerank接口测试四、Dify安装和部署五、测试 一、概要 记录基于华为昇腾推理服务器Atlas300IPro两卡基于MindIE大模型推理引擎和Embedding、Rerank部署dify大模型应用平台。(LangChain-ChatChat和Ne…

安克创新25届校招CATA北森测评:笔试攻略、真题题库、高分技巧

安克创新自适应能力CATA测评是该公司用于评估候选人认知能力的计算机自适应测评系统。该测评系统由北森题库提供支持,是国内唯一被国际计算机自适应测验协会(IACAT)收录的产品。测评主要评估以下几个维度: 言语能力:测试理解言语信息并基于这…

QFramework v1.0 使用指南 更新篇:20240918. 新增 BindableList

20240918. 新增 BindableList BindableProperty 很好用,但是不支持 List 等集合。 而 Bindable List 功能群友呼吁了很久了。 应群友要求,笔者实现了 Bindable List。 基本使用方式如下: using System; using UnityEngine; using UnityEngine.UI;na…

科技打造智享出行:深蓝L07抢先试驾

在深秋九月的金风送爽中,在深蓝L07即将正式发布之际,趣味科技来到山城重庆参加了深蓝L07的全国媒体试驾活动,亲身体验了这款科技智享中型轿车。 而深蓝L07在本次试驾中的表现,也让趣味科技深刻感受到了“智享科技美学、智享科技座…

秒懂Linux之共享内存

目录 共享内存概念 模拟实现共享内存 创建key阶段 ​编辑创建共享内存阶段 删除共享内存阶段 查看共享内存属性阶段 挂接共享内存到进程阶段 取消共享内存与进程挂接阶段 进程通信阶段 添加管道改进版 共享内存函数 shmget函数 shmat函数 shmdt函数 shmctl函数 共享内存概念 共…

Redis中Hash(哈希)类型的基本操作

文章目录 一、 哈希简介二、常用命令hsethgethexistshdelhkeyshvalshgetallhmgethlenhsetnxhincrbyhincrbyfloathstrlen 三、命令小结四、哈希内部编码方式五、典型应用场景六、 字符串,序列化,哈希对比 一、 哈希简介 几乎所有的主流编程语言都提供了哈…

一文带你掌握 tmux -- 高效的终端复用工具

一、什么是tmux? tmux 是一款开源的终端复用器,允许用户在一个终端窗口中访问多个终端会话,同时提供了会话管理功能,使得用户可以在同一个窗口中创建、访问和控制多个会话。它对于需要同时运行多个命令行程序的用户来说非常有用&…

自动化立体仓库几种典型的解决方案

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》 完整版文件和更多学习资料,请球友到 知识星球【智能仓储物流技术研习社】 自行下载。 文件《自动化立体仓库几种典型的解决方案》的核…

浅谈“流量回放”

一、流量回放定义 “流量回放”通常指的是将之前记录的网络请求和响应数据重新发送到系统中,以模拟真实用户的操作。这种技术主要用于测试和调试目的,帮助开发人员和测试人员更好地理解系统在特定条件下的行为。 二、流量回放的技术原理: 数…

3、无线通信系统的组成

通常把实现信息传输的系统称为通信系统,下图表示一个通信系统的基本组成。在通信系统中,一般要进行两种变换与反变换。在发送端,第一个变换是输入变换器,它把要传输的信号变为电信号,该信号一般是低频的,而…

YOLOv5白皮书-第Y1周:调用官方权重进行检测

>- **🍨 本文为[🔗365天深度学习训练营](小团体~第八波) 中的学习记录博客** >- **🍖 原作者:[K同学啊](K同学啊-CSDN博客)** 一、前言 拖了好久,终于要开始目标检测系列了。自己想过好几次&#xf…

python中ocr图片文字识别样例(一)

一、使用easyocr安装依赖 pip install easyocr pip install opencv-python-headless # 处理图像二、具体实现,此处有个缺陷,大家可以尝试解决下,识别的文字打印结果没问题,但是图片识别出现乱码: 2.1 具体识别的图片…

创新驱动,技术引领:2025年广州见证汽车电子技术新高度

汽车行业的创新浪潮正汹涌澎湃,一场引领未来出行的科技盛宴即将拉开帷幕! AUTO TECH 2025 第十二届广州国际汽车电子技术展览会将于 2025 年 11 月 20日至 22 日在广州保利世贸博览馆(PWTC Expo)隆重举行。 作为亚洲地区领先的汽…