❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
Claude Computer Use:AI 自动化操作电脑任务
Claude Computer Use 是 Anthropic 公司推出的新功能,支持 AI 模型 Claude 3.5 Sonnet 执行类似人类的电脑操作,如查看屏幕、移动光标、点击按钮和输入文本。基于 API,开发者能将自然语言指令转化为计算机操作,实现自动化处理重复性任务。
资源
- 产品官网:https://docs.anthropic.com/en/docs/build-with-claude/computer-use
Cofounder:全栈 AI 应用构建器
Cofounder 是一个开源的全栈 AI 开发代理,能帮助开发者自动生成完整的应用程序,包括后端、前端、数据库和有状态的 Web 应用。Cofounder 提供基于应用架构的 UI、AI 引导的原型设计工具和模块化设计系统,大幅提高开发效率和简化开发流程。
资源
- 项目官网:https://cofounder.openinterface.ai/
- GitHub 仓库:https://github.com/raidendotai/cofounder
Docling:文档解析工具
Docling 是 IBM 开源的文档解析和转换工具,能高效地将多种格式的文档解析并导出为 Markdown 或 JSON 格式。Docling 支持高级 PDF 理解、OCR 功能,能与 LlamaIndex 和 LangChain 等工具集成,增强文档的检索和问答能力。
资源
- 项目官网:https://ds4sd.github.io/docling/
- GitHub 仓库:https://github.com/DS4SD/docling
- arXiv 技术论文:https://arxiv.org/pdf/2408.09869
WebRL:在线课程强化学习框架
WebRL 是清华大学和智谱 AI 联合推出的自我进化的在线课程强化学习框架,训练使用开放大型语言模型(LLMs)的高性能网络代理。WebRL 动态生成任务、结果监督奖励模型(ORM)评估任务成功与否,并采用自适应强化学习策略,解决训练任务稀缺、反馈信号稀疏和在线学习中的策略分布漂移等挑战。
资源
- GitHub 仓库:https://github.com/THUDM/WebRL
- arXiv 技术论文:https://arxiv.org/pdf/2411.02337v1
MagicTailor:组件可控个性化图像生成框架
MagicTailor 是专门为组件可控个性化设计的新框架,让 T2I 模型在个性化过程中能精确控制。基于动态掩码退化(DM-Deg)和双流平衡(DS-Bal)两项关键技术,MagicTailor 解决了语义污染和语义不平衡的挑战,显著提高个性化图像生成的质量和控制能力。
资源
- 项目官网:https://correr-zhou.github.io/MagicTailor/
- GitHub 仓库:https://github.com/correr-zhou/MagicTailor
- arXiv 技术论文:https://arxiv.org/pdf/2410.13370
Cerebellum:浏览器 AI 助手
Cerebellum 是基于 Claude 3.5 Sonnet 和 Selenium WebDriver 构建的浏览器 AI 智能助手,能理解任务意图、执行网页自动化任务。Cerebellum 将网页浏览简化为有向图导航,用 LLM 分析页面内容和交互元素,智能规划行动路径,精确模拟用户行为,适用于复杂的自动化场景。
资源
- GitHub 仓库:https://github.com/theredsix/cerebellum
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦