前端读取PDF和DOCX文件(干货分享)

前端读取PDF和DOCX文件-干货分享

    • 1. 读取PDF文件内容
      • 1.1 使用JavaScript库
        • PDF.js 使用示例
    • 2. 读取DOCX文件内容
      • 2.1 使用JavaScript库
        • mammoth.js 使用示例
    • 3. 通过PDF Reader库读取文件内容(推荐)
    • 结论


⚠️⚠️文前推荐一下👉
前端必备工具推荐网站(图床、API和ChatAI、智能AI简历、AI思维导图神器等实用工具):
站点入口:http://luckycola.com.cn/


在Web开发中,前端页面往往需要处理各种类型的文件,特别是PDF和DOCX这类常见的文档格式。读取这些文件的内容对于文档预览、内容提取或在线编辑等功能尤为重要。本文将介绍几种在前端实现读取PDF和DOCX文件内容的技术方法。

1. 读取PDF文件内容

1.1 使用JavaScript库

对于PDF文件的读取,可以借助一些流行的JavaScript库,如PDF.jspdfplumber(后者虽然主要在Python中使用,但此处作为参考说明JavaScript库的选择和用法)。然而,PDF.js是一个纯JavaScript编写的库,适用于在浏览器端渲染PDF文件。

PDF.js 使用示例

PDF.js 由Mozilla开发,可以在网页中渲染PDF文件。尽管它主要用于渲染而非直接读取文本内容,但你可以通过访问渲染后的页面元素来获取文本。

<!DOCTYPE html>  
<html>  
<head>  <title>Read PDF Content</title>  <script src="https://cdnjs.cloudflare.com/ajax/libs/pdf.js/2.10.377/pdf.min.js"></script>
</head>  
<body>  <input type="file" id="pdf-file-input">  <div id="pdf-container"></div><script> window.onload = function() {async function readPDFPage(doc, pageNo) {const page = await doc.getPage(pageNo);const tokenizedText = await page.getTextContent();const pageText = tokenizedText.items.map(token => token.str).join(' ');return pageText.replace(/\s+/g, ' ');}async function readPDFDoc(file) {try {const doc = await pdfjsLib.getDocument(file).promise;const pageTextPromises = [];for (let pageNo = 1; pageNo <= doc.numPages; pageNo++) {pageTextPromises.push(readPDFPage(doc, pageNo));}const pageTexts = await Promise.all(pageTextPromises);return pageTexts.join('\n');} catch (err) {throw new Error(err);}}document.getElementById('pdf-file-input').addEventListener('change', function(event) {  const file = event.target.files[0];  if (!file || file.type !== 'application/pdf') {  return alert('Please upload a PDF file.');  }  const reader = new FileReader();reader.readAsArrayBuffer(file);reader.onload = async (event) => {const text = await readPDFDoc(event.target.result);console.log('pdf text data:', text)document.getElementById('pdf-container').innerHTML = text;};reader.onerror = (err) => {console.log('err:', err)};});  }</script>  
</body>  
</html>

2. 读取DOCX文件内容

2.1 使用JavaScript库

对于DOCX文件,JavaScript中可以使用mammoth.js这样的库来解析并转换为HTML或其他前端友好的格式。

mammoth.js 使用示例
<!DOCTYPE html>
<html>
<head><title>Mammoth.js Example</title><script src="https://cdnjs.cloudflare.com/ajax/libs/mammoth/1.4.2/mammoth.browser.min.js"></script>
</head>
<body><input type="file" id="docxInput"><div id="result"></div><script>window.onload = function() {function handleFileInput(event) {const file = event.target.files[0];if (file.type !== 'application/vnd.openxmlformats-officedocument.wordprocessingml.document') {return alert('Please upload a DOCX file.');}const reader = new FileReader();reader.onload = function(e) {const arrayBuffer = e.target.result;mammoth.convertToHtml({arrayBuffer: arrayBuffer}).then(function(result){var html = result.value; // The generated HTMLvar messages = result.messages; // Any messages, such as warnings during conversiondocument.getElementById('result').innerHTML = html;}).catch(function(err){console.error(err);});};reader.readAsArrayBuffer(file);}document.getElementById('docxInput').addEventListener('change', handleFileInput, false);}</script>
</body>
</html>

3. 通过PDF Reader库读取文件内容(推荐)

如果不想自己原生去实现这里推荐一个好用js库,他已经帮我们封装好了这些文件的读取能力,直接使用就可以,非常方便.
pdf-view-reader官网: https://www.npmjs.com/package/pdf-view-reader

  • 1、安装库
npm install pdf-view-reader
  • 2、使用示例
import PDFViewReader from 'pdf-view-reader';
const viewer = new PDFViewReader();

读取或预览 PDF 文件

document.getElementById('fileInput').addEventListener('change', function (event) {const file = event.target.files[0];if (file) {// 预览 PDFviewer.readOrPreviewPdf(file, 'view', (text) => {console.log("PDF preview:", text);// 'text' 在预览模式下通常不使用,因为预览是直接在 DOM 中渲染的}, (error) => {console.error('Error previewing PDF:', error);}, 'xdsxssxc'); // 预览容器的 ID// 或者读取 PDF 文本内容// viewer.readOrPreviewPdf(file, 'read', (text) => {//     console.log("PDF Text:", text);//     document.getElementById('xdsxssxc').innerHTML = text;// }, (error) => {//     console.error('Error reading PDF:', error);// });}
});

读取 DOCX 文件

viewer.readDocx(file, (data) => {console.log("readDocx Text data:", data.text);document.getElementById('xdsxssxc').innerHTML = data.text;
}, (error) => {console.error('Error reading DOCX:', error);
});

结论

前端读取PDF和DOCX文件内容的需求在现代Web应用中非常普遍。通过适当的JavaScript库或结合后端服务,我们可以有效实现这一功能。选择合适的工具和方法取决于具体的应用场景和性能要求。希望本文的内容能够对你的开发工作有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/150238.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

LOGO设计新革命:5款AI工具让你秒变设计大师(必藏)

大家好&#xff0c;我是Shelly&#xff0c;一个专注于输出AI工具和科技前沿内容的AI应用教练&#xff0c;体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具&#xff0c;拥抱AI时代的到来。 你是否曾因设计一个既独特又专业的LOGO而感…

Tableau|二 如何利用功能区创建视图

一 认识 Tableau 数据 1.数据角色 维度和度量是Tableau的一种数据角色划分&#xff0c;离散和连续是另一种划分方式。 1.维度和度量 维度往往是一些分类、时间方面的定性字段&#xff0c;将其拖放到功能区时&#xff0c;Tableau不会对其进行计算&#xff0c;而是对视图区进行分…

Swin Transformer(ICCV 2021 best paper):基于卷积层级式架构的移动窗口视觉Transformer!

有关ViT的学习笔记详见&#xff1a;学习笔记——ViT(Vision Transformer)-CSDN博客 ViT在图像分类方面的结果令人鼓舞&#xff0c;但由于其低分辨率的特征映射和复杂度随图像大小的二次方增长&#xff0c;其架构不适合作为密集视觉任务或高分辨率输入图像的backbone。根据经验&…

JetBrains系列产品无限重置免费试用方法

JetBrains系列产品无限重置免费试用方法 写在前面安装插件市场安装插件 写在前面 支持的产品&#xff1a; IntelliJ IDEA AppCode CLion DataGrip GoLand PhpStorm PyCharm Rider RubyMine WebStorm为了保证无限重置免费试用方法的稳定性&#xff0c;推荐下载安装2021.2.2及其…

OpenAI GPT-3 API error: “This model‘s maximum context length is 2049 tokens“

题意&#xff1a;OpenAI GPT-3 API 错误&#xff1a;“此模型的最大上下文长度是 2049 个token” 问题背景&#xff1a; I have two issues relating to the response result from OpenAI completion. 我遇到了两个与OpenAI完成响应结果相关的问题 The following result does…

Sam Altman的博客:The Intelligence Age

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

《深入解析:水果销售数据库操作与查询技巧》

文章目录 一、数据库结构与数据源插入1.1 创建数据库与表1.2 插入数据 二、基础数据查询2.1 查询客户信息2.2 查询供应商信息 三、查询优化与技巧3.1 使用LIMIT子句 四、高级查询技巧4.1 使用聚合函数4.2 连接查询4.3 使用子查询 五、案例分析5.1 客户订单详情查询 一、数据库结…

无法将“allure”项识别为 cmdlet、函数、脚本文件或可运行程序的名称的解决方法-allure的安装配置全过程

新手在使用allure之前&#xff0c;以为只是pip install allure-pytest就可以&#xff0c;no&#xff01;&#xff01;&#xff01; 其实&#xff0c;还需要下载allure&#xff0c;allure的具体步骤如下&#xff1a; 1.下载 allure。 allure的下载地址&#xff1a;Central Re…

828华为云征文 | 使用Linux管理面板1Panel管理华为云Flexus云服务器X实例

828华为云征文 | 使用Linux管理面板1Panel管理华为云Flexus云服务器X实例 一、华为云Flexus云服务器X实例介绍1.1 Flexus云服务器X实例简介1.2 Flexus云服务器X实例特点 二、1Panel介绍2.1 1Panel 简介2.2 1Panel 特点 三、本次实践介绍3.1 本次实践简介3.2 本次环境规划 四、购…

报表做着太费劲?为你介绍四款好用的免费报表工具

1. 山海鲸可视化 介绍&#xff1a; 山海鲸可视化是一款免费的国产可视化报表软件&#xff0c;与许多其他宣传免费的软件不同&#xff0c;山海鲸的报表功能完全免费并且没有任何限制&#xff0c;就连网站管理后台这个功能也是免费的。同时山海鲸可视化还提供了种类丰富的可视化…

「数组」离散化 / Luogu B3694(C++)

目录 概述 思路 算法过程 复杂度 Code 概述 Luogu B3694&#xff1a; 给定一个长度为 n 的数列 aa。定义 rank(i) 表示数列 a 中比 ai 小的不同数字个数再加一。 对 1≤i≤n&#xff0c;现在请你求出所有的 rank(i)。 输出格式 对每组数据&#xff0c;输出一行 n 个整数&a…

BUUCTF [SCTF2019]电单车

使用audacity打开&#xff0c;发现是一段PT2242 信号 PT2242信号 有长有短&#xff0c;短的为0&#xff0c;长的为1化出来 这应该是截获电动车钥匙发射出的锁车信号 0 01110100101010100110 0010 0前四位为同步码0 。。。中间这20位为01110100101010100110为地址码0010为功…

关于预处理的一系列问题

1. 预定义符号 C语⾔设置了⼀些预定义符号&#xff0c;可以直接使⽤&#xff0c;预定义符号也是在预处理期间处理的。 2. #define定义常量 #define name stuff 如果定义的 stuff过⻓&#xff0c;可以分成⼏⾏写&#xff0c;除了最后⼀⾏外&#xff0c;每⾏的后⾯都加⼀个反…

值得入手的宠物空气净化器——希喂、352、IAM三款产品真实测评

在快节奏的现代生活中&#xff0c;养宠成为很多人的精神寄托&#xff0c;回到家中与猫咪玩耍是一天中最放松的时刻。但这美好的生活也存在着一些烦恼——宠物毛发清理与异味。宠物空气净化器作为一种新兴的清理工具&#xff0c;以其高效、全面的特点&#xff0c;受到了越来越多…

PMP--二模--解题--91-100

文章目录 14.敏捷91、 [单选] 在敏捷团队完成三次迭代之后&#xff0c;项目经理确定团队在这三次迭代中的平均速度是30个故事点。还有292个故事点来完成项目的剩余部分。团队需要多少次额外的迭代才能完成项目&#xff1f; 9.资源管理92、 [单选] 项目经理前往另一个国家执行最…

Go基础学习04-变量重声明;类型转换;类型断言;Unicode代码点;类型别名;潜在类型

目录 变量重声明 类型断言 类型转换 类型转换注意事项 Unicode代码点 类型别名、潜在类型 类型别名的意义 变量重声明 编写代码&#xff1a; package mainimport "fmt"var container []string{"Beijing", "Shanghai"}func main() {fmt.Pr…

关于Python升级以后脚本不能运行的问题

近日将Python从3.11升级到了3.12&#xff0c;然后把几个包例如numpy等也通过pip给upgrade了一下&#xff0c;结果原来运行的好好的脚本&#xff0c;都运行不了了&#xff0c;还出现各种报错。怀疑是自己升级了环境导致的&#xff0c;因此通过搜索引擎检索了一下&#xff0c;有这…

两个月学习大语言模型(LLM)的详细计划,保姆级教程非常详细收藏我这一篇就够了!

随着人工智能技术的发展&#xff0c;大语言模型&#xff08;Large Language Models, LLMs&#xff09;因其在自然语言处理、机器翻译、文本生成等领域的广泛应用而受到越来越多的关注。对于希望掌握这一前沿技术的朋友来说&#xff0c;制定一个系统的学习计划至关重要。本计划旨…

ATTCK实战系列-Vulnstack靶场内网域渗透(二)

ATT&CK实战系列-Vulnstack靶场内网域渗透&#xff08;二&#xff09; 前言一、环境搭建1.1 靶场下载地址1.2 环境配置1.2.1 DC域控服务器&#xff1a;1.2.2 WEB服务器&#xff1a;1.2.3 PC域内主机&#xff1a;1.2.4 攻击者kali&#xff1a; 1.3 靶场拓扑图 二、外网渗透2.…

Ubuntu磁盘不足扩容

1.问题 Ubuntu磁盘不足扩容 2.解决方法 安装一下 sudo apt-get install gpartedsudo gparted