magic-html : 通用HTML数据提取器!DocAI:从非结构化文档中提取结构化数据!强大、快速、开源的微信机器人底层框架:wcf.js!

magic-html : 通用HTML数据提取器!DocAI:从非结构化文档中提取结构化数据!强大、快速、开源的微信机器人底层框架:wcf.js!

在这里插入图片描述

magic-html : 通用HTML数据提取器

magic-html提供了一套工具,能够轻松地从HTML中提取主体区域内容。无论您处理的是复杂的HTML结构还是简单的网页,这个库都旨在为您的HTML抽取需求提供一个便捷高效的接口。

特点
返回主体区域html结构,可自定义输出纯文本/markdown

支持多模态抽取

支持多种版面extractor,文章/论坛

支持latex公式提取转换

安装

pip install https://github.com/opendatalab/magic-html/releases/download/magic_html-0.1.2-released/magic_html-0.1.2-py3-none-any.whl

使用

from magic_html import GeneralExtractor# 初始化提取器
extractor = GeneralExtractor()url = "http://example.com/"
html = """<!doctype html>
<html>
<head><title>Example Domain</title><meta charset="utf-8" /><meta http-equiv="Content-type" content="text/html; charset=utf-8" /><meta name="viewport" content="width=device-width, initial-scale=1" />  
</head><body>
<div><h1>Example Domain</h1><p>This domain is for use in illustrative examples in documents. You may use thisdomain in literature without prior coordination or asking for permission.</p><p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""# 文章类型HTML提取数据
data = extractor.extract(html, base_url=url)# 论坛类型HTML提取数据
# data = extractor.extract(html, base_url=url, html_type="forum")# 微信文章HTML提取数据
# data = extractor.extract(html, base_url=url, html_type="weixin")print(data)

benchmark report
根据html页面类型,文章/论坛,对比不同开源通用抽取框架抽取准确性

文章类型:选取头部新闻、博客站点共标注158个html页面


╒══════════════════════╤═════════════╤════════════╤═══════════╕
│ func                 │   prec_mean │   rec_mean │   f1_mean │
╞══════════════════════╪═════════════╪════════════╪═══════════╡
│ magic_html           │    0.9088650.950320.92913  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ trafilatura          │    0.8334340.9123840.871124 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ trafilatura_fallback │    0.8312290.9337130.879496 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ readability-lxml     │    0.865870.8613910.863625 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ newspaper3k          │    0.4095850.3720830.389935 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ goose3               │    0.5257170.4576690.489339 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ justext              │    0.2249450.1170920.154014 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ gne                  │    0.8288490.6291120.715299 │
╘══════════════════════╧═════════════╧════════════╧═══════════╛

论坛类型:选取头部论坛、问答站点与开源建站框架搭建站点共103个html页面


╒══════════════════════╤═════════════╤════════════╤═══════════╕
│ func                 │   prec_mean │   rec_mean │   f1_mean │
╞══════════════════════╪═════════════╪════════════╪═══════════╡
│ magic_html           │    0.7962520.8268190.811248  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ trafilatura          │    0.7160090.6959470.705835  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ trafilatura_fallback │    0.7303040.6913280.710282  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ readability-lxml     │    0.7880180.4450870.568867  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ newspaper3k          │    0.5969760.2983220.397837  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ goose3               │    0.6758350.3129690.427821  │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ justext              │    0.1758890.05176280.0799863 │
├──────────────────────┼─────────────┼────────────┼───────────┤
│ gne                  │    0.810030.3897090.526241  │
╘══════════════════════╧═════════════╧════════════╧═══════════╛

项目链接
http://github.com/opendatalab/magic-html


DocAI:从非结构化文档中提取结构化数据!

使用 Answer.AI 的Byaldi 、OpenAI gpt-4o和Langchain 的结构化输出从非结构化文档中提取结构化数据。

安装

pyenv virtualenv 3.10.6 docai
pyenv activate docai
poetry install

环境变量
确保您在环境变量中设置了 OPENAI_API_KEY 和 HF_TOKEN。

export OPENAI_API_KEY=<your key>
export HF_TOKEN=<your token>

使用示例
从 pdfs/ 文件夹构建索引:

python scripts/build_index.py --folder "pdfs/" --index_name "application"

样本输出

What losses have occurred in the past 5 years?
LossHistory(losses=[Loss(loss_date='2/20/21', loss_amount=7003.0, loss_description='Claimant was in his sleeper when his truck got hit by insured driver on the left', date_of_claim='4/19/21'),Loss(loss_date='2/4/21', loss_amount=92584.0, loss_description='The IV was attempting to merge on the highway when the IV lost control and struck', date_of_claim='4/30/21'),Loss(loss_date='9/14/21', loss_amount=5583.0, loss_description='IV was in the fast lane, when IV tire flew off and struck OV1, OV2, OV3, OV4', date_of_claim='9/15/21'),Loss(loss_date='9/14/21', loss_amount=6299.0, loss_description='IV was in the fast lane, when IV tire flew off and struck OV1, OV2, OV3, OV4', date_of_claim='9/15/21')]
)What is the basic application information?
Application(insured_name='Greentown Burgers LLC', insured_address='Not provided', insured_phone='Not provided',insured_email='Not provided', effective_date='07/22/2024'
)

项目链接
https://github.com/madisonmay/docai


强大、快速、开源的微信机器人底层框架:wcf.js!

再一次让 Wechaty 免费协议(PC Hook)重放荣光 - @wechatferry/puppet

安装

pnpm add wechatferry

Packages

在这里插入图片描述

免责声明
使用本项目则表示您同意并认可以下声明

使用目的
本项目仅供学习交流使用,请勿用于非法用途,请勿用于非法用途,请勿用于非法用途,否则后果自负。

用户理解并同意,任何违反法律法规、侵犯他人合法权益的行为,均与本项目及其开发者无关,后果由用户自行承担。

  1. 使用期限
    您应该在下载保存,编译使用本项目的24小时内,删除本项目的源代码和(编译出的)程序;超出此期限的任何使用行为,一概与本项目及其开发者无关。

  2. 操作规范
    本项目仅允许在授权情况下对数据库进行备份与查看,严禁用于非法目的,否则自行承担所有相关责任;用户如因违反此规定而引发的任何法律责任,将由用户自行承担,与本项目及其开发者无关。

严禁用于窃取他人隐私,严禁用于窃取他人隐私,严禁用于窃取他人隐私,否则自行承担所有相关责任。

严禁进行二次开发,严禁进行二次开发,严禁进行二次开发,否则自行承担所有相关责任。

  1. 免责声明接受
    下载、保存、进一步浏览源代码或者下载安装、编译使用本程序,表示你同意本警告,并承诺遵守它;

  2. 禁止用于非法测试或渗透
    禁止利用本项目的相关技术从事非法测试或渗透,禁止利用本项目的相关代码或相关技术从事任何非法工作,如因此产生的一切不良后果与本项目及其开发者无关。

任何因此产生的不良后果,包括但不限于数据泄露、系统瘫痪、侵犯隐私等,均与本项目及其开发者无关,责任由用户自行承担。

  1. 免责声明修改
    本免责声明可能根据项目运行情况和法律法规的变化进行修改和调整。用户应定期查阅本页面以获取最新版本的免责声明,使用本项目时应遵守最新版本的免责声明。

  2. 其他
    除本免责声明规定外,用户在使用本项目过程中应遵守相关的法律法规和道德规范。对于因用户违反相关规定而引发的任何纠纷或损失,本项目及其开发者不承担任何责任。

请用户慎重阅读并理解本免责声明的所有内容,确保在使用本项目时严格遵守相关规定。

致谢
wechatferry 之所以成为可能,得益于以下项目的灵感:

WeChatFerry

wcf-client-rust

node-wcferry

wechaty

项目链接
https://github.com/wechatferry/wechatferry

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1562005.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

水凝胶制造新突破,DIW 技术来助力,打印参数很关键

大家好&#xff01;今天我们来了解一篇《Innovations in hydrogel-based manufacturing: A comprehensive review of direct ink writing technique for biomedical applications》发表于《Advances in Colloid and Interface Science》。水凝胶因其独特性质在多领域备受关注&a…

STL之set、map的使用

STL之set、map 1. 序列式容器和关联式容器2. set系列的使⽤参考文档链接&#xff1a;2.1 set的介绍&#xff08;2&#xff09;set的增删查2.2 multiset的介绍 3 map3.1 参考文档3.2 map类的介绍3.3 pair类型介绍3.4 map的构造3.6 map的数据修改3.7 multimap和map的差异 1. 序列…

解锁未来新技能——揭秘人工智能工程师证书!

为进一步贯彻落实中共中央印发《关于深化人才发展体制机制改革的意见》和国务院印发《关于“十四五”数字经济发展规划》等有关工作的部署要求&#xff0c;深入实施人才强国战略和创新驱动发展战略&#xff0c;加强全国数字化人才队伍建设&#xff0c;持续推进人工智能从业人员…

MySQL 【日期】函数大全(二)

DATE_ADDDATE_FORMATDATE_SUBDATEDIFFDAYDAYNAMEDAYOFMONTHDAYOFWEEK 1、DATE_ADD DATE_ADD(date, value) &#xff1a;在指定的日期/时间上加上指定的时间间隔加并返回新的日期/时间。 DATE_ADD(date, value) DATE_ADD(date, INTERVAL value unit) date&#xff1a;需要操作…

Agent的四种设计模式,从零实现Agent框架

让大模型返回json格式&#xff0c;方便直接处理数据。 LLM支持json格式&#xff1a; def chat(self, user\_prompt, json\_modeFalse): kwargs {} if json\_mode: kwargs\["response\_format"\] \ {"type": "json\_object"} completion …

深圳大学-Java程序设计-选实验1 基础知识练习

实验目的与要求&#xff1a; 实验目的&#xff1a;掌握Java程序设计开发环境的搭建&#xff0c;编写简单Java Project&#xff0c;掌握编译、运行等基本步骤和命令。 实验要求&#xff1a; (1).下载、安装"Java SE Development Kit 20.0.2"最新的版本&#xff0c;需…

【harmonyOS开发笔记3】ArkTS中数组的使用

数组的定义 数组&#xff1a;是一个容器&#xff0c;可以存储多个数据 定义数组的格式&#xff1a; let 数组名: 类型[] [数据1&#xff0c; 数据2&#xff0c; ] 示例&#xff1a;let names: string[] [小明, 小红] // 数组 let 数组名: 类型[] [数据1, 数据2, ] let …

基于yolov8、yolov5的动物检测系统(含UI界面、训练好的模型、Python代码、数据集)

摘要&#xff1a;动物识别在生态保护及科研领域中起着至关重要的作用&#xff0c;不仅能有效监测野生动物的分布&#xff0c;还为自动化生态监测提供了可靠的数据支撑。本文介绍了一款基于YOLOv8、YOLOv5等深度学习框架的动物识别模型&#xff0c;该模型使用了大量图片进行训练…

MySQL 8.4.0解压版安装记录

这几天&#xff0c;安装最新版mysql 8.4的时候&#xff0c;遇到了不少问题&#xff0c;网上的教程大多数都是旧版本的&#xff0c;也安装不成功。 参考了大量教程后&#xff0c;经过自己的摸索终于装好了&#xff0c;这里记录一下。 我下载的是8.4.0 LTS MySQL :: Download …

面试官:讲一下SEO优化

一、什么是SEO优化&#xff1f; SEO就是搜索引擎优化 二、为什么要做SEO优化&#xff1f; 通过优化将网站的排名更靠前&#xff0c;吸引更多的用户访问&#xff0c;达到网站营销或者宣传效果&#xff0c;实现盈利 三、SEO优化要怎么做&#xff1f; 1、TKD设置 可以通过准确的TK…

解决pyinstaller 打包 ddddocr 库方法

前言 ddddocr 库 在打包成 exe 文件后一直有各种各样的问题。无法运行。 总是提示缺少 onnxruntime_providers_shared.dll 等问题。例如下图: 所以这里总结一下打包解决方法。 方法 1、 第一步,先使用命令打包一次 pyinstaller -F demo.py -p D:\Python38\Lib\site-pac…

Tongweb7049m4+THS6010-6012配置故障轉移+重試机制(by lqw)

使用场景 1.ths代理tongweb多套后端&#xff0c;假如有其中一套tongweb因为服务器重启或者宕机后没有及时启动&#xff0c;导致ths一直轮询在这个出故障的节点上。 2.即使在tongweb重启了&#xff0c;有的应用启动也需要一定的时间&#xff0c;这个时候只是启动了应用端口&…

【力扣刷题实战】(归并排序)合并两个有序数组

大家好&#xff0c;我是小卡皮巴拉 文章目录 目录 力扣题目&#xff1a; 合并两个有序数组 题目描述 示例 1&#xff1a; 示例 2&#xff1a; 示例 3&#xff1a; 解题思路 具体思路 题目要点 作图助解 完整代码&#xff08;C语言&#xff09; 兄弟们共勉 &#…

Docker 教程二 (架构)

Docker 架构 Docker 包括三个基本概念: 镜像&#xff08;Image&#xff09;&#xff1a;Docker 镜像&#xff08;Image&#xff09;&#xff0c;就相当于是一个 root 文件系统。比如官方镜像 ubuntu:16.04 就包含了完整的一套 Ubuntu16.04 最小系统的 root 文件系统。容器&am…

【C++】——继承(下)

【C】——继承&#xff08;下&#xff09; 5 继承与友元6 继承与静态成员7 多继承7.1 继承模型7.2 菱形继承的问题7.3 虚继承7.4 多继承中的指针偏移问题 8 组合与继承 5 继承与友元 友元关系不能被继承。即一个函数是父类的友元函数&#xff0c;但不是子类的友元函数。也就是说…

这篇Cell刚上线的AI for Science论文,能给你带来哪些灵感?

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 2024年10月9日&#xff0c;中山大学医学院施莽教授团队和阿里云李兆融团队合作在Cell上发表了文章Using artificial intelligence to document the hidden RNA virosphere。 研…

再也不怕面试官问我几百亿ip相关的问题了

首先要明确这一类的问题都是海量那个数据类型的问题&#xff0c;对于海量数据我们一般采用分而治之的思路去解决&#xff0c;考官考察的就是你有没有处理海量数据的经验。总结几个常见的海量数据相关的面试&#xff0c;供参考。 有一个存放10GB的ip地址文件&#xff0c;每行一…

10款电脑加密软件超好用分享|2024年常用电脑加密软件排行榜

在数字化日益加深的今天&#xff0c;数据安全变得愈发重要。无论是个人的隐私信息还是企业的敏感数据&#xff0c;加密软件都能有效保护文件不被未授权访问。以下是2024年常用的10款电脑加密软件&#xff0c;供您参考与选择。 1.安秉网盾 安秉网盾是一款专为企业设计的信息安全…

超级会员卡积分收银系统源码 余额充值+积分功能+积分商城 带完整的安装代码包以及搭建部署教程

系统概述 超级会员卡积分收银系统是一款专为中小商家设计的会员卡管理系统&#xff0c;旨在通过智能化的会员管理和丰富的营销活动&#xff0c;提升客户的忠诚度和消费频次。该系统采用先进的Web技术架构&#xff0c;支持多终端访问&#xff0c;无论是PC端、手机端还是平板&am…

福禄克通道测试和跳线测试的不同于在哪里?

简单的从测试报告&#xff0c;我们也可以看出&#xff0c;channel的测试参数比patchcord的测试参数多很多。 有的朋友会认为&#xff0c;是不是channel测试更严格&#xff0c;错&#xff0c;反而是patchcord更严格。