作为校招新人,他们如何在字节跳动做 AI 研究并中选 ICLR 的?

校招生和实习生在字节跳动,工作一年就中选 ICLR 2024 ,这是怎样一种体验?

就在 5 月 7 日至 5 月 11 日,2024 年度国际表征学习大会 ICLR 2024 在奥地利维亚纳举办。该活动是深度学习领域最重要的学术活动之一,由深度学习三巨头之二的 Yann LeCun 与 Yoshua Bengio 发起。

e9d00d98cb1f7241b736d887d77ade9b.jpeg


今年 ICLR ,共有 7262 篇论文提交,整体接收率约为 31% ,中选文章作者中,不乏字节跳动校招新人的身影。

这些同学中,有的人是实习生,有的人刚刚毕业一年左右。在公司时间虽短,却也做出了顶会成果。

今天,我们一起看看他们是如何做到的。

5c383558e11fab1c2c90d31ace37b7bd.png

一句话让机器人拿起西兰花

Terry 字节跳动 2022 校招生  

毕业于 JHU

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation 核心作者

这个项目立项是在 2023 年的三四月份。当时 ChatGPT 刚出来没多久,证明了其在 NLP 领域的有效性。后来大家也看到了,大模型在图像、视频生成都能用上。

但在机器人领域,训练数据相比 NLP 和图像来说少很多,而且采集难度大、周期长。我们团队希望探索新的方法,在少量数据的情况下,也能在端到端多任务操作上达到不错的鲁棒性和泛化性。

这也是整个团队在端到端的多任务操作上的第一次探索。

8643b1894bc54747c721ef5cd68f3a5d.png

具体来说,我们参考大模型做法,希望通过大量公开视频数据帮助机器人实现更高效的学习。最终,我们也验证了这个方法在机器人学习上面效果很好,鲁棒性、抗干扰性也更强。

我们这个模型也参考了 GPT 的做法,语言模型是根据前面的词,生成后面的内容。我们也是,让机器人根据前面的数据对后面的动作进行预判。

8fe1fee61126406fa793e89df201dd95.gif

接下来是验证思路,这也不是我一个人完成的,而是由不同背景的同学一起参与完成。

有同学做学习算法、数据集,有同学负责硬件,即机器人本体,也有负责机器人控制的同学,还有的同学负责进行测试。我主要是做学习算法和测试这块。

面对各种问题,相关同学就会来一起积极帮助调试,很多方法也是由不同背景的同学提出,我们一起去验证对比,大家一起把事情完成,这样的协作沟通其实让人感到轻松一些。

而且 Leader 也会帮助我们,为大家选出真正有价值的研究课题,我们的课题是前沿的,研究方法也是前沿的,加上公司提供了丰富的计算资源。我觉得,还是非常难得的。

最兴奋的还是经过很多次尝试后,终于成功的那一刻。想想看,跟机器人说一句话,它就可以帮我做一件事,比如,从一些蔬果中拿起西蓝花,放到盘子里去。这让我们觉得很有成就感。

后面就是抓紧时间,去探索机器人的能力边界在哪,比如去做更复杂的任务、增加干扰物、变换背景完成任务等等。

3bf0baba404781d3db846ed4989b1806.gif

这个项目里,大家工作都是奔着很高的目标去的。就算方法已经达到了 SOTA ,但我们还是会想,哪些地方可以做得更好一些?这个方法是不是足够通用?

感觉在字节跳动, Leader 跟你的讨论,与在学校导师跟你探讨思路、一起解决问题是一样的。遇到困难,大家也会坐下来一起讨论:问题出在哪儿,哪个方法对,哪个方法不对。

跟在学校不一样的是,加入公司后,我开始更多去思考什么项目对公司和产业更有价值,这也是我进入公司这一年的变化。

c6ba84ca447e8158a4fde50cf2782897.png

做高质量的研究,而不是刷论文

Paul 字节跳动 2023 校招生 

毕业于中科院自动化所

Image Background Serves as Good Proxy for Out-of-distribution Data 核心作者

我做的研究是分布样本检测,在大模型时代,算一个比较小的研究方向。

e5e4a4c9dcfa85fdb0d06d0a0d3e5832.png

分布样本检测其实应用很多。拿猫狗分类举例,一方面要去分辨是猫还是狗,另一方面,也要分辨图片到底属不属于猫或狗,不然就是分布外样本。

一开始我就想,能不能探索一种方法,从图像本身获取分布内和分布外特征。也就是说,将目标所在部分作为正样本,其他部分背景作为负样本进行模型训练。这样做出的模型在分类上,应该有非常好的鲁棒性,且也适用于现实。

后来证明,这个思路是有效的。其实这篇文章,团队其他同学也给了我很多帮助,包括提供了效果更好的方法,也从论文撰写和排版角度,提供了不少建议。

32b6057b961c5f86ce8575e17e564fca.png

应用方面,这个成果也能与多模态结合,比如,多模态模型目前在看图答题时,常会出现“胡编乱造”问题,明明图片没有的物体,它会说有。这个成果的结合,能减少幻觉产生的。

加入之前,我也在其他公司实习过,感觉字节跳动这边工作时间灵活,对不同习惯的研究工作者来说,比较友好。

另一方面是字节跳动的 Mentor 都非常资深,而且在日常工作中,他们不会随意将自己的想法强加给你,团队对研究是非常开放的, Leader 不会阻止你去探索。

只不过,比起“水”文章,我们还是倡导大家探索前沿技术,做真正让人眼前一亮的工作。

a57c0dc62340e5db4eff59ab0a42384c.png

第一次试验,我们就有很大希望

继续做下去

Jory 前字节跳动实习生  


 NUS 在读博士

AdjointDPM: Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models 核心作者

这篇论文是我在字节跳动实习期间做的。

一开始有想法,是在 2022 年底,那时各种生成模型比较火,尤其扩散模型。

我们就想,能否将一些预训练好的判别模型与生成模型结合,这个是我们最初的灵感。

具体思路是,根据生成的图片,让判别模型算出 Loss 数值,再用 Loss 微调扩散模型参数,以生成更符合要求的图片。

举个落地的例子来说,我们在亚马逊上看到的图片可能美感不够,或不符合审美要求,其实,可以用预训练好的审美评价模型去微调生成模型,再让生成模型生成商品图,这样美感就更好。

149bddd8d77e1d34b9ba17c2ae7dc710.png

这个项目是 Mentor 提出了大致的框架,我去进行尝试。

我们的设想其实是个比较数学的方法,原本不确定是否有效,没想到,第一次试验效果就还可以,这也给了我们很大希望继续做下去。

另外一个同学对视觉任务特别了解,代码能力也很强,给我提供了一些技术支持。当然,公司科学家也在背后支持我们整个团队。

这当中,我负责自己去跑实验,有困难就可以找大家解决,毕竟他们经验比较丰富。

在微调网络参数的过程中,我们希望优化整个过程,把算力要求降下来,也是大家一起商量,聚焦文字信息嵌入关键层,Cross Attention 层,这样就容易一点。

e64af563b579e54f2985494cf4c123e3.png

图注:采用论文方法,生成的小狗面部细节与小鸟羽毛细节更贴合左侧参考图片

来字节跳动实习前,我一直都在纯研究的机构里,刚进入字节跳动时,最大感受就是——公司里技术交流特别多,大家每天都在分享、讨论科技界有什么最新的、让人眼前一亮的模型。

这当中,我也开始理解了业务驱动的感觉,更看重应用,收获了新视角,对自己后续发展也有很大帮助。

d351537b5ce697ae5d2deca75de37de5.png

入我们,一起探索

AI 的价值与乐趣

上述内容仅仅展现了字节跳动在机器学习、大模型、具身 AI 等方向成果的一小部分。

本届 ICLR 2024,字节跳动共有 20 余篇论文入选,相关同学来自智能创作、ByteDance Research、豆包大模型团队等业务线。

如果你也对 AI 、大模型、机器人等研究工作感兴趣,想在务实高效的氛围里,和优秀的人,一起做高质量、有价值的前沿研究,欢迎加入我们。

长按下方二维码,或点击阅读原文,投递简历。

51ca34144bbc541fc7865663235008e3.png
扫码一键投递

注:本文提及同学均使用化名。

 字节跳动更多技术应用 

4383b930db252380e536a77542d5661c.jpeg

用扣子 / Coze 揭秘吴恩达的 4 种 AI Agent 设计模式

34688e7fb1aa32dc2f8e3cde2327c559.jpeg
自回归超越扩散!北大、字节跳动 VAR 范式解锁视觉生成 Scaling Law

7f6a3f68ee7ea374a65da3412bd799d0.gif

 点击「阅读原文」,一起来做高质量、有价值的前沿研究。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1420839.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

pycharm 里面安装 codeium 插件的时候,不能够弹出登录界面

pycharm 里面安装 codeium 插件的时候,不能够弹出登录界面 pycharm 里面安装 codeium 插件的时候,不能够弹出登录界面--解决如下A pycharm 里面安装 codeium 插件的时候,不能够弹出登录界面–解决如下 #踩坑/pycharm/codeium插件无法登录 安…

C脚本实现WIncc模拟量趋势窗口弹出

文章目录 前言一、步骤及解析二、运行画面演示三、总结 前言 本文给出了一种基于C脚本实现点击输入输出域对象,弹出对应模拟量趋势窗口的方法。 一、步骤及解析 在Wincc变量管理中,添加两个变量; 示例如下: 将以上两个变量添加到…

pikachu靶场(xss通关教程)

(注:若复制注入代码攻击无效,请手动输入注入语句,在英文输入法下) 反射型xss(get型) 1.打开网站 发现有个框,然后我们在框中输入一个“1”进行测试, 可以看到提交的数据在url处有显示&#xf…

阮怀俊参与五龙乡黄沙村村企联办“强村公司”

为走好海岛县高质量发展共同富裕特色之路,探索村级集体经济发展新路径、扶持新模式、运行新机制,嵊泗县五龙乡黄沙村股份经济合作社与杭州山舍乡建乡村产业发展有限责任公司联办成“强村公司”。 创始人阮怀俊表示,双方就融合乡域发展和文旅产…

【考研数学】汤家凤“免单“数学题被吐槽‘太难’,老汤回应「怎么还有脸笑」,网友:这些题有毒!

我看了汤家凤老师出的几道题,实际上对于考研的同学来说,确实是送分题 第一个是三角函数变换中的万能公式;第二个e^x的泰勒展开公式;第三个是第一类重要极限。只要复习过,那基本上都能正常做出来。 至于汤家凤老师说「…

纯CSS实现步骤条

纯CSS实现纵向Steps步骤条效果 效果图 实现思路 步骤条是一种用于引导用户按照特定流程完成任务的导航条,在各种分步表单交互场景中广泛应用。步骤条通常由编号、名称和引导线三个基本要素组成。本文中要实现的是一个简单的步骤条,包含上述三个基本要素…

AI预测福彩3D采取887定位策略+杀断组+杀和尾+杀和值012缩水测试5月12日预测第1弹

前段时间工作太忙,手头上各种事情较多,没有静下心来对我的AI模型预测结果进行进一步分析筛选,导致最近连续几期与实际开奖结果相差较大。当然,客观来说,搞6码定位的确难度比较大,昨天跟几个常年研究3D的彩友…

2024最新最全【网络安全】逆向工程教学

逆向工程 以设计方法学为指导,以现代设计理论、方法、技术为基础,运用各种专业人员的工程设计经验、知识和创新思维,对已有产品进行解剖、深化和再创造。 逆向工程不仅仅在计算机行业、各行各业都存在逆向工程。 计算机行业逆向工程 计算…

ssm120基于SSM框架的金鱼销售平台的开发和实现+jsp

金鱼销售平台 摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势;对于金鱼销售平台当然也不能排除在外,随着网络技术的不断成熟,带动了金鱼销售平台,它彻底改…

【GlobalMapper精品教程】080:WGS84转UTM投影

参考阅读:ArcGIS实验教程——实验十:矢量数据投影变换 文章目录 一、加载实验数据二、设置输出坐标系三、数据导出一、加载实验数据 打开配套案例数据包中的data080.rar中的矢量数据,如下所示: 查看源坐标系:双击图层的,图层投影选项卡,数据的已有坐标系为WGS84地理坐标…

变色龙还是树懒:揭示大型语言模型在知识冲突中的行为

你是知识变色龙还是树懒?我今天在ICLR学到一个很有趣的术语,叫做证据顺序(order of evidence)。 大模型RAG处理知识冲突的探讨: 在检索增强生成(Retrieval-Augmented Generation, RAG)的过程中,技术团队会将检索到的前几名文档作为证据,并提示(prompt)给大型语言模型(Large La…

数据结构:包装类初始泛型

目录 1.包装类1.1 基本数据类型和对应的包装类1.2 装箱和拆箱 2.什么是泛型3.引出泛型3.1 语法3.2 泛型的使用 4.泛型是如何编译的4.1 擦除机制4.2 为什么不能实例化泛型类型数组 5.泛型的上界5.1 语法5.2 示例5.3 复杂示例 6.泛型方法6.1 定义语法6.2 示例6.3 使用示例-可以类…

97. 交错字符串-----回溯、动态规划

题目链接 97. 交错字符串 - 力扣(LeetCode) 解答 递归回溯 题目所述为两个字符串交替组成第三个字符串,之前好像做过相似的题目,直接联想到可以考虑使用递归回溯的做法,让字符串s1和字符串s2分别作为起始字符串&…

SiC MOSFET之寄生电容

1.什么是寄生电容 咱们平常意义上的电容指的是大多给人的印象是两个极板,中间有绝缘介质,加上电压之后有电荷的积累,这可以称得上是电容。经过最近的学习,我对电容有了一些新的认识,可能很简单,浅浅分享一下…

【校园生活小程序_超详细部署】

校园生活小程序 1 完整小程序源码2 运行环境3 初次运行3.1 启动后端程序3.1.1 导入项目,找到项目的pom.xml文件,点击ok进行打开。3.1.2 创建数据库并插入内容 3.1.3 配置项目结构信息3.1.4 配置Tomcat服务器3.1.5 正式启动后端项目3.1.6出现BUG3.1.7 解决…

wordpress增加谷歌分析

wordpress增加谷歌分析 为了更好的浏览体验,欢迎光顾勤奋的凯尔森同学个人博客 http://www.huerpu.cc:7000 一、创建谷歌分析账号与媒体应用 谷歌分析地址:https://analytics.google.com/analytics 创建一个账号,如果你没有的话。 在该账…

Linux提权--定时任务--打包配合 SUID(本地)文件权限配置不当(WEB+本地)

免责声明:本文仅做技术交流与学习... 目录 定时任务 打包配合 SUID-本地 原理: 背景: 操作演示: 分析: 实战发现: 定时任务 文件权限配置不当-WEB&本地 操作演示: 定时任务 打包配合 SUID-本地 原理: 提权通过获取计划任务执行文件信息进行提权 . 1、相对路径和…

软考--信息系统项目管理师课程笔记

第一章 信息化发展 1.国家信息化:应用(上),技术(下),人才(左),规范(右) 2.广域网协议包括:ISDN,ASDL&#xf…

【Ubuntu】apt命令安装最新版本Nginx

目录 环境前言添加Nginx仓库步骤1、仓库公钥2、文本公钥转二进制GPG公钥(可选)3、添加apt软件源4、安装新版Nginx 参阅 环境 Ubuntu 22.04 前言 ubuntu官方apt软件仓库(或者叫软件源)的软件版本可能会比较旧,导致无…

Linux网络编程】传输层中的TCP和UDP(UDP篇)

【Linux网络编程】传输层中的TCP和UDP(UDP篇) 目录 【Linux网络编程】传输层中的TCP和UDP(UDP篇)传输层再谈端口端口号范围划分认识知名端口号netstatiostatpidofxargs UDP协议UDP协议端格式UDP的特点面向数据报UDP的缓冲数据UDP使…