Cyber Weekly #25

赛博·新闻

1、阿里云Qwen2.5发布！再登开源大模型王座，Qwen-Max性能逼近GPT-4o

阿里云在云栖大会上宣布通义千问发布新一代开源模型Qwen2.5，开源旗舰模型Qwen2.5-72B性能超越Llama3.1-405B，再次登上全球开源大模型的王座；通义旗舰模型Qwen-Max全方位升级，性能已经逼近GPT-4o。Qwen2.5的特点：

模型多样：涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型，总计上架100多个模型。
性能提升：在18万亿tokens的数据上进行预训练，整体性能提升18%以上，知识更丰富，编程和数学能力更强。
专项模型升级：用于编程的Qwen2.5-Coder和用于数学的Qwen2.5-Math有实质性飞跃。
多语言支持：支持29种以上语言。
多模态模型开源：视觉语言模型Qwen2-VL-72B正式开源，具备强大的视觉理解能力和视觉智能功能。

2、腾讯元器AI智能体接入公众号

9月20日，腾讯混元官方发文，宣布腾讯元器AI智能体支持发布到公众号。目前，用户通过「设置智能体-授权公众号历史文章到知识库-一键配置到公众号」三个步骤，即可零门槛创建腾讯元器AI智能体。具体功能如下：

打造数字分身，与粉丝实时互动
可作为7*24小时的智能客服，回答用户问题
插入公众号文章，解锁更多文章玩法

3、可灵AI面向全球发布1.5模型

可灵AI最近面向全球发布了全新的1.5版本模型。本次升级的重点内容：

可灵1.5模型直出1080P高清视频，画面美感及运动合理度、文本响应度均有明显提升，「高品质模式」已正式上线，生成价格不变。
可灵1.0模型的图生视频新增「运动笔刷」功能，支持为图片中的人物/物体等各种元素指定运动轨迹，从而实现更好的运动控制和运动表现。

4、跃问宣布接入Step-2万亿参数MoE语言大模型

9月20日消息，阶跃星辰官方公众号发文，表示跃问接入了Step-2万亿参数MoE语言大模型。相比Step-1千亿参数语言大模型，Step-2的综合能力提升了近50%，无论是编程、逻辑推理、数学、知识等维度都能更好地解决问题。访问跃问App或跃问电脑端，就可以选择切换到Step-2万亿参数语言大模型，限时免费试用。另外，跃问还上线了「拍照问」的功能，借助这一功能，用户可以完成识别单词、计算食物卡路里及识别宠物MBTI的功能。

赛博·洞见

1、o1发布后，信息量最大的圆桌对话：杨植麟、姜大昕、朱军探讨大模型技术路径

文章记录了2024云栖大会上的一场圆桌对话，其中姜大昕、杨植麟、朱军三位AI领域的专家就AI技术的发展现状进行了讨论。他们分析了过去两年AI领域的快速进步，特别是OpenAIo1模型的发布对行业的重大影响。专家们还探讨了o1背后的强化学习新范式对算力和数据的新要求，以及AI应用层创业的新策略。最后，他们对AI技术和应用在未来18个月的发展路径进行了预测，包括推理能力的提升、多模态融合的挑战以及对算力需求的增加。

2、AI大佬齐聚国际顶会KDD2024，中国队刷脸！大模型教育应用分析论文被录用

在KDD2024大会上，中国企业松鼠Ai展示了其在AI教育领域的最新研究成果，包括在时间序列分析中的应用。松鼠Ai的智适应教育模型LAM通过分析学生数据，动态调整学习内容和难度，为每个学生提供个性化学习路径。该模型结合了知识图谱、推荐系统和检索增强生成技术，能够精准定位学生的错误并提供个性化反馈。此外，松鼠Ai还提出了全新的算法，以进一步提升模型的泛化能力和减少对标注数据的依赖。文章还讨论了智适应教育的未来方向，强调了生成式AI在教育领域的应用潜力，以及如何通过AI技术实现个性化学习，提高教学效率。

3、Claude工程师聊prompt：不要把模型当小孩子、不需要角色扮演、实话实说

在Anthropic公司的播客中，工程师们分享了他们对编写有效prompt的见解和经验。他们认为，编写好的prompt需要清晰的任务描述和深入的概念思考，而不是过度简化或构建抽象概念。工程师们强调了迭代过程中观察和调整的重要性，以及在特殊情况下测试模型反应的必要性。他们还讨论了如何将模型的输出作为优化提示的依据，以及如何通过具体描述使用环境来提高模型的理解能力。此外，工程师们提倡直接与模型沟通，避免角色扮演，因为随着模型能力的提升，诚实和清晰的沟通变得更加有效。他们还分享了在面对难以通过提示实现的任务时，选择放弃并期待模型未来进步的策略。最后，他们预测了提示工程的未来发展，认为尽管模型将变得更擅长理解人类意图，但清晰地表达目标和需求始终是必要的。

4、Atom Capital：OpenAI o1的阳谋和其开启的新世界

文章首先介绍了OpenAI o1模型的发布情况，包括其命名、训练方式和推理能力。o1模型采用强化学习，通过思维链提升模型的推理能力，尤其在数学、科学和编程领域表现出色。然而，用户实际体验与官方宣传存在差距，成本高昂且功能受限。文章进一步探讨了o1的技术原理，指出强化学习和思维链是关键技术，但也面临泛化能力和成本效益的挑战。文章还分析了o1对大模型技术发展的影响，认为它可能开启增量发展模式，降低行业门槛，推动AI推理能力的普及和提升。同时，o1的发布也可能加速垂直领域模型的发展。文章最后讨论了o1对应用开发者的影响，指出尽管存在局限性，但o1提供了新的应用开发思路，即通过让AI“多说”来提升推理能力。文章还对OpenAI的产品战略进行了推测，认为其核心目的是收集高质量的CoT数据，以推动模型的进一步发展。

5、北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

一篇关于OpenAIo1模型的深度解读文章，由北京大学对齐与交互实验室撰写。文章指出，o1模型的成功不仅在于构建庞大的逻辑数据集和使用类似AlphaGo中的蒙特卡洛树搜索（MCTS）与强化学习（RL）方法，还在于其独特的后训练扩展律（Post-Training Scaling Laws）。这些技术使得模型能够通过迭代式的Bootstrap模型产生合理的推理过程，并将其融入训练过程内，从而提升模型的推理能力。o1模型在一些常规任务上并没有显著提升，表明推理能力和指令跟随能力的提升可能呈现分离。此外，文章探讨了如何通过强化学习优化模型的内部推理过程，以及如何通过引入Critic Model来提供更精准的反馈和监督。

6、LLM应用路在何方？

本文深入分析了大模型在实际应用中面临的挑战，包括技术限制、市场需求不明确、资本观望态度等。文章指出，尽管大模型在多模态对话、人形机器人等领域有潜力，但恶劣的外部环境和不清晰的商业化路径导致投资和应用发展缓慢。文章进一步讨论了大模型在不同需求层次上的应用问题，如基本需求与自我实现需求的技术门槛和市场规模差异。作者提出，大模型应用应专注于高价值场景，并通过技术创新来降低成本和提高效率。文章还探讨了智能体的可信逻辑推导能力、数学抽象和表达能力，以及实时更新知识的能力。最后，文章展望了大模型应用的未来，包括数据系统、知识图谱、范畴论在深度学习中的应用，以及自动化验证回路的重要性。

7、红杉美国对话英伟达科学家Jim Fan：十年内人形机器人将超越人类的敏捷性和可靠性，所有可移动的东西终将实现自主化

Jim Fan在访谈中展示了英伟达在构建智能机器人方面的长期愿景，并讨论了推动这项技术的核心挑战和突破机会。他预测，未来十年内，人形机器人将达到甚至超越人类的敏捷性和可靠性，目标是开发能够承担家庭琐事的机器人以提升生活质量和经济价值。Jim强调了虚拟世界在加速机器人现实应用中的作用，提出通过在虚拟环境中训练，智能体可以无缝泛化到物理世界。他还认为视频生成是AI的重要方向，能够为AI模型提供真实的物理和渲染数据，并期待AI智能体在自动编程和加速软件开发方面取得重大进展。此外，Jim提到研究中的“品味”，即确定值得解决的问题比寻找解决方案更难且更重要，并建议AI创业者保持对最新文献和工具的敏锐洞察。

8、李飞飞最新CHMLive现场访谈全文万字记录

在这次CHMLive的访谈中，李飞飞博士分享了她对人工智能领域的深刻见解。她从人工智能的起源讲起，回顾了达特茅斯会议和随后几十年的发展，包括专家系统的兴起与泡沫破灭，以及统计建模和机器学习的兴起。李飞飞特别提到了她在斯坦福大学的研究经历，以及ImageNet项目如何推动了现代人工智能的发展。她强调了人工智能技术对个人、社区和社会层面的影响，并提出了以人为本的人工智能发展框架，包括对个人、社区和社会的影响考量。访谈还涉及了人工智能在医疗、教育、农业等领域的应用潜力，以及跨学科合作的重要性。李飞飞对人工智能的未来持乐观态度，但也提醒人们需对技术的风险有清醒认识，并强调了公共投资在推动人工智能发展中的关键作用。

9、每个白领岗位都会有一个Copilot，直到被Agent取代

硅谷风险投资公司a16z在其文章中预判，未来每个白领岗位都将配备AI Copilot，这些AI助手将协助完成工作，而某些岗位最终可能被AIAgent完全自动化。文章指出，尽管传统企业对技术变化反应较慢，但许多Copilot和Agent的自然应用场景仍在传统行业和岗位中。初创公司可以通过在数据收集阶段介入上游、将繁琐工作流程“人工智能化”、整合不同数据源创建新的多模式记录系统等方式，来构建大型Copilot或Agent公司，并胜过现有企业和员工的天然优势。文章还提到，通过整合电子邮件、Slack消息、销售支持材料等多种数据源，新公司可以获得比现有公司更全面的数据，从而构建新型的SOR。此外，文章还提到了OpenAI和宾夕法尼亚大学的研究，发现借助LLM，美国约15%的工人任务可以被AI以更快速度完成，如果结合垂直SaaS工具，这一比例可上升至47%至56%。文章最后鼓励读者思考如何将特定岗位或职能转变为AI应用，认为这可能是一个巨大的机会。

赛博·工具

1、退休年龄计算器

按照最新的退休政策，目前几乎所有大模型的回答都不对，大家可以在官方平台查询退休年龄：输入出生年月和性别，计算对应的退休年龄。

2、dbbqb

逗比拯救世界，专业表情包搜索网站。

3、ueg-文本处理工具

一个强大的在线文本处理工具，它让数据清洗变得简单快捷。

赛博·资源

1、【QuestMobile】2024AI智能体应用洞察半年报

QuestMobile数据显示，截止到7月份，AI原生应用（也即APP）月活用户规模已经突破了6630万，其中，豆包、文小言、Kimi智能助手、星野、通义位居前五位，月活用户规模分别为3042万、1008万、625万、466万、424万。目前来说，国内AIGC应用行业发展速度非常快，各厂商均已经将“智能体”打造为各端服务的核心，成为用户解决特定场景问题的助手。PC/Web端的“智能体创作平台”集成丰富的功能简化AI应用开发，适合复杂场景的智能体搭建；而APP端则以“一句话生成”的低门槛创作模式吸引广大C端用户参与。