scrapy 爬取微博(四)【最新超详细解析】: 设计篇

一、功能设计

开始开发之前我们先对本文的scrapy微博爬虫工程进行一个功能的设计,包含的功能模块如下:

功能模块具体描述
微博文章爬取根据关键词、时间范围等参数爬取微博文章,获取用户名、ID、微博mid、微博内容、点赞、转发、评论等数据
微博评论爬取通过微博评论接口爬取文章相应的评论内容
重复过滤通过管道过滤掉重复性的微博(mid重复)
情感分析通过管道对微博的文本进行情感分析,分为积极、中性和消极,基于bert利用深度学习进行情感分析
保存数据库爬取结果保存到MySQL数据库中

二、 管道设计

在爬虫公工程内设计了3个管道,首先是重复性检查,其次是情感分析,最后是保存MySQL,可以根据需要激活或者禁用这些管道。
在这里插入图片描述

三、 数据库设计

先给出爬取微博文章的表

CREATE TABLE `tb_weibo` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT '自增ID',`mid` varchar(20) NOT NULL,`bid` varchar(12) NOT NULL,`user_id` varchar(20) DEFAULT NULL,`screen_name` varchar(30) DEFAULT NULL,`text` varchar(2000) DEFAULT NULL,`article_url` varchar(100) DEFAULT NULL,`topics` varchar(200) DEFAULT NULL,`at_users` varchar(1000) DEFAULT NULL,`pics` varchar(3000) DEFAULT NULL,`video_url` varchar(1000) DEFAULT NULL,`location` varchar(100) DEFAULT NULL,`created_at` datetime DEFAULT NULL,`source` varchar(30) DEFAULT NULL,`attitudes_count` int(11) DEFAULT NULL,`comments_count` int(11) DEFAULT NULL,`reposts_count` int(11) DEFAULT NULL,`retweet_id` varchar(20) DEFAULT NULL,`user_authentication` varchar(100) DEFAULT NULL,`keywords` varchar(100) DEFAULT NULL,`ip` varchar(100) DEFAULT NULL,`label` varchar(100) DEFAULT NULL COMMENT '情感分析',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=254 DEFAULT CHARSET=utf8;

参考项目

weibo-search 非常好的一个项目,可以下载直接爬取数据的,本文的爬取工程就是在此基础上进行扩展的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/150934.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

《深度学习》卷积神经网络 使用最优模型、调整学习率 用法解析及案例实现

目录 一、使用最优模型 1、什么是最优模型 2、如实使用最优模型 1)读取参数方法 2)调用完整模型方法 3)实例 完整代码: 打印结果: 二、调整学习率 1、什么是调整学习率 2、目的 3、调整学习率的方法 1&am…

C++ 语言课程笔记

C 语言课程笔记 C语言程序设计第四版——谭浩强著,此书中的代码题大部分已经在本文中展示,以及南开大学 C 语言上机题库 100 题的作答,如果有作答不正确的地方或者可优化的地方,欢迎指正,谢谢! 001 屏幕输出…

DAMODEL丹摩智算平台实践CogVideoX

文章目录 前言 一、平台账号注册并登录 二、部署CogVideoX (一)简介 (二)部署 1. 创建实例 2. 配置环境和依赖 3.预制模型与配置文件 三、开始运行 总结 前言 该文章主要记录DAMODEL丹摩智算平台实践过程与心得体会&…

【YashanDB知识库】客户端字符集与数据库字符集兼容问题

本文转自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7352675.html?templateId1718516 问题现象 客户端yasql配置字符集为GBK,服务端yasdb配置字符集为UTF8,之后执行语句: 会发现: 期望是两个都…

FAT32取证分析

前言: 在正常工作中经常会有数据恢复或者取证分析的场景,数据是否能被恢复,主要还是看数据是否被覆盖,正常情况下文件虽然被删除,只是修对应的标志位,文件本身数据并不会被破坏,所以我们就可以…

【Java】1.初识Java

文章目录 1. 使用记事本创建.Java程序2. 使用IDEA创建第一个Java程序3. 标识符4. 关键字 1. 使用记事本创建.Java程序 先创建了HelloWorld.java这个文件。然后用Sublime Text记事本打开,输入以下代码。 winr,cmd输入D:切换到D盘,然后输入cd …

投资气膜场馆:开启未来体育发展的新纪元—轻空间

随着对体育设施建设的重视,气膜场馆作为一种创新的体育设施,正日益成为投资的热门选择。气膜场馆凭借其独特的优势和多重好处,不仅能提升体育场馆的功能性和经济性,更为地方经济发展注入了新的活力。 成本效益显著 气膜场馆具有快…

419. 棋盘上的战舰(C++)

题目 给你一个大小为 m x n 的矩阵 board 表示棋盘,其中,每个单元格可以是一艘战舰 X 或者是一个空位 . ,返回在棋盘 board 上放置的 舰队 的数量。 舰队 只能水平或者垂直放置在 board 上。换句话说,舰队只能按 1 x k&#xff…

SimpleAIAgent:使用免费的glm-4-flash即可开始构建简单的AI Agent应用

SimpleAIAgent是基于C# Semantic Kernel 与 WPF构建的一款AI Agent探索应用。主要用于使用国产大语言模型或开源大语言模型构建AI Agent应用的探索学习,希望能够帮助到感兴趣的朋友。 接下来我想分享一下我的AI Agent应用实践。 翻译文本并将文本存入文件 第一个…

Transformer入门指南!14天速成

想系统而又透彻地入门和学习Transformer,可以按照以下思路(步骤): 1、首先,了解一些NLP领域的基本知识,比如文本是如何被表征的,序列文本信息的处理,基于(深度神经网络)的语言模型是如何处理自然语言的; 2、Transfor…

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21 1. AIvril: AI-Driven RTL Generation With Verification In-The-Loop Authors: Mubashir ul Islam, Humza Sami, Pierre-Emmanuel Gaillardon, and Valerio Tenace AIVRIL: 人工智能驱动的RTL生成与验证内…

表观项目文章速递,平均IF=9.7

表观组学是研究基因组层面的表观遗传变化及其调控机制的一门学科,它在现代生物学研究中具有重要意义。传统的遗传学研究主要关注DNA序列的变化,而表观组学则着眼于在不改变DNA序列的情况下,如何通过化学修饰和染色质结构的改变进而影响基因表…

【开源免费】基于SpringBoot+Vue.JS墙绘产品展示交易平台(JAVA毕业设计)

本文项目编号 T 049 ,文末自助获取源码 \color{red}{T049,文末自助获取源码} T049,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

Windows 10 on ARM, version 22H2 (updated Sep 2024) ARM64 AArch64 中文版、英文版下载

Windows 10 on ARM, version 22H2 (updated Sep 2024) ARM64 AArch64 中文版、英文版下载 基于 ARM 的 Windows 10 请访问原文链接:https://sysin.org/blog/windows-10-arm/,查看最新版。原创作品,转载请保留出处。 作者主页:s…

Ansible-playbook使用roles

文章目录 一、Ansible的内置目录及文件总览目录及文件解释production目录staging目录host_vars目录和group_vars目录library目录、module_utils目录、filter_plugins目录site.ymlroles目录roles/自定义角色名目录下roles/自定义角色名目录/tasks目录下roles/自定义角色名目录/h…

NLP技术在营业选址中的实践与探索

传统营业选址面临的问题 在电信业务的服务流程中,用户装机地址的准确性和清晰度对于整个服务体验和运营效率起着至关重要的作用。然而,在实际操作中,装机地址的确定往往面临诸多挑战,这些问题不仅影响用户的服务体验,也…

详解机器学习经典模型(原理及应用)——逻辑回归

一、什么是逻辑回归 逻辑回归模型是经典的统计模型,主要用于处理二分类问题(预测一个事件发生与否的概率)。得益于其简单性和高度可解释性,逻辑回归在业务中常被用作baseline之一。即便是上亿量级的数据,也能够在很短的…

Gattchart使用手册

一.组件概述 GanttChart是Delphi的一个交互式非数据库感知前端VCL组件,可以在gantt图表中可视化任务。该组件可用于调度许多资源和任务,并可用于多种项目场景,如项目管理、任务管理、生产调度或员工调度。该组件包括用于不同数据类型的pert图…

应用层 IV(万维网WWW)【★★】

(★★)代表非常重要的知识点,(★)代表重要的知识点。 一、WWW 的概念与组成结构 1. 万维网的概念 万维网 WWW(World Wide Web)并非某种特殊的计算机网络。万维网是一个大规模的、联机式的信息…

MSF工具使用教程

Metasploit 简介 Metasploit 是一个漏洞框架,拥有超过 1700 个漏洞利用程序,大大简化了渗透测试的工作,同时具有模块化的体系结构,渗透测试人员可以很方便的添加或修改exploit。 安装及维护 安装 使用 Rapid7 的一套快速安装项…