【Python实战案例】爬虫项目实例(附赠源码)

文章目录

    • 声明
    • 安装必要的库
    • 项目结构
    • 技术细节
    • 小结

声明

在这里插入图片描述

请您遵守网站的robots文件规定,本文目的只是做学习交流使用,包括多个模块,例如数据存储、日志记录、错误处理、多线程或异步请求

安装必要的库

pip install requests beautifulsoup4 sqlite3

项目结构

创建以下文件和目录结构
my_crawler/
├── config.py
├── crawler.py
├── db.py
├── logger.py
└── main.py

技术细节

配置文件 config.py
配置文件用于存储常量和配置项:

BASE_URL = 'https://example.com'
ARTICLES_URL = f'{BASE_URL}/articles'
DATABASE_NAME = 'articles.db'
LOG_FILE = 'crawler.log'

1.数据库操作 db.py
用于创建数据库表和插入数据:

#db.pyimport sqlite3
from config import DATABASE_NAMEdef init_db():conn = sqlite3.connect(DATABASE_NAME)cursor = conn.cursor()cursor.execute('''CREATE TABLE IF NOT EXISTS articles (id INTEGER PRIMARY KEY AUTOINCREMENT,title TEXT NOT NULL,url TEXT NOT NULL)''')conn.commit()conn.close()def insert_article(title, url):conn = sqlite3.connect(DATABASE_NAME)cursor = conn.cursor()cursor.execute('INSERT INTO articles (title, url) VALUES (?, ?)', (title, url))conn.commit()conn.close()

2.日志记录 logger.py
用于配置日志记录:

logger.pyimport logging
from config import LOG_FILEdef setup_logger():logging.basicConfig(filename=LOG_FILE,level=logging.INFO,format='%(asctime)s - %(levelname)s - %(message)s')logger = setup_logger()

3.爬虫逻辑 crawler.py
包含爬虫的主要逻辑:

 crawler.pyimport requests
from bs4 import BeautifulSoup
from config import ARTICLES_URL
from db import insert_article
from logger import loggerdef fetch_page(url):"""获取网页内容"""try:response = requests.get(url)response.raise_for_status()  # 检查请求是否成功return response.textexcept requests.RequestException as e:logger.error(f"请求错误: {e}")return Nonedef parse_html(html):"""解析HTML,提取文章标题和URL"""soup = BeautifulSoup(html, 'html.parser')articles = []for article in soup.find_all('div', class_='article'):title = article.find('h1', class_='article-title').get_text(strip=True)url = article.find('a')['href']articles.append((title, url))return articlesdef crawl_articles():"""抓取并保存文章"""html = fetch_page(ARTICLES_URL)if html:articles = parse_html(html)for title, url in articles:insert_article(title, url)logger.info(f"已保存文章: {title} - {url}")
  1. 主程序 main.py
    启动爬虫的主程序:
 main.pyfrom crawler import crawl_articles
from db import init_db
from logger import loggerdef main():logger.info("开始爬虫任务")init_db()crawl_articles()logger.info("爬虫任务完成")if __name__ == '__main__':main()

小结

请您遵守网站的robots文件规定,本文目的只是做学习交流使用,感谢csdn平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/4996.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Boot 与 Vue 共筑电影院选票新体验

作者介绍:✌️大厂全栈码农|毕设实战开发,专注于大学生项目实战开发、讲解和毕业答疑辅导。 🍅获取源码联系方式请查看文末🍅 推荐订阅精彩专栏 👇🏻 避免错过下次更新 Springboot项目精选实战案例 更多项目…

基于java+SpringBoot+Vue的星之语明星周边产品销售网站设计与实现

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: Springboot mybatis Maven mysql5.7或8.0等等组成&#x…

leetcode - 每日一题 - 3226. 使两个整数相等的位更改次数

位运算 3226. 使两个整数相等的位更改次数 题目 想法 n k 直接返回 0n & k ! k, 直接返回 -1 (从题目来说,只能将位的值 从1改为0,&:只有两个数中位的数都是1,才为1,所以符合答案的一…

宠物空气净化器哪家好?希喂、安德迈、霍尼韦尔除毛能力测评

宠物空气净化器哪家好?最近猫咪们开始换毛了,咱猫咖店里的30多只小家伙们集体换毛,掉毛量超多。为了解决这满屋子的猫毛,我特地买了好几台宠物空气净化器,把它们分散放在店里的各个角落,几乎全天24小时不间…

人才画像系统:助力企业打造动态人才成长体系

在当今竞争激烈的市场环境中,人才已成为企业发展的核心竞争力。为了满足企业发展对人才的需求,人才画像系统应运而生,通过以岗位胜任力模型为基础定义人才标准,多维度采集员工信息进行人才对标和盘点,为企业的人才选拔…

浅谈特朗普上台后对IT行业的影响

想必大家都已经知晓,特朗普在2024年再次上台,本篇文章主要来自网络,如果不喜,请勿喷,主要瞎掰下特朗普上台后对IT行业的影响: 贸易政策和关税:特朗普可能会实施更高的关税,这对IT行业…

⭐DINOv2: Learning Robust Visual Features without Supervision 2023 CVPR

GitHub - facebookresearch/dinov2: PyTorch code and models for the DINOv2 self-supervised learning method. 用于估计图像深度、图像分割、特征提取等视觉任务 前段时间,Meta AI 高调发布了 Segment Anything(SAM),SAM 以交互…

Node.js回调函数以及事件循环使用介绍(基础介绍 三)

回调函数 Node.js 异步编程的直接体现就是回调。 异步编程依托于回调来实现,但不能说使用了回调后程序就异步化了。 回调函数在完成任务后就会被调用,Node 使用了大量的回调函数,Node 所有 API 都支持回调函数。 例如,我们可以…

Linux系列-进程的属性

🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” 我们上一篇文章当中讲到了进程的概念,我们知道进程信息是放到一个tast_struct的结构体当中的,这个结构体也叫做PCB。 PCB是内存级的操作,我们…

PLC单键启停控制的多种写法

题目:编写程序,实现当按下SB1按钮奇数次,灯亮;当按下SB1按钮偶数次,灯灭,即单键启停控制,设计梯形图。 解法一:使用标志位进行自锁互锁 (1)刚上电&#xff0c…

PH热榜 | 2024-11-06

DevNow 是一个精简的开源技术博客项目模版,支持 Vercel 一键部署,支持评论、搜索等功能,欢迎大家体验。 Github:https://github.com/LaughingZhu/DevNow 1. MindOne Builder 标语:这是一个“设计优先”的应用构建工具…

11.6 校内模拟赛总结

打的很顺的一场 复盘 7:40 开题,看到题目名很interesting T1 看起来很典,中位数显然考虑二分,然后就是最大子段和;T2 构造?一看数据范围这么小,感觉不是很难做;T3 神秘数据结构;T…

SpringBoot健康监控

文章目录 1_监控-健康监控服务2_监控-Admin可视化3_使用介绍 1_监控-健康监控服务 目的:能够理解健康监控actuator的作用 讲解: 每一个微服务在云上部署以后,我们都需要对其进行监控、追踪、审计、控制等。SpringBoot就抽取了Actuator场景…

时间序列算法---ARIMA

时间序列其他相关参考文章: 时间序列分类任务—tsfresh库 时间序列预测—Prophet python时间序列处理 有季节效应的非平稳序列分析   现代时间序列分析方法主要有两个不同的方向:一个方向是由外向内的分析视角产生的方法是与确定性因素分解相关的方法&…

Java内存模型

Java内存模型 JMM即java memory model,它定义了主存、工作内存抽象概念,底层对应着CPU寄存器、缓存、硬件内存、CPU指令优化等。 JMM体现在以下几个方面 原子性 - 保证指令不受到线程上下文切换的影响(之前的synchornized原理文章有介绍过) 可见性 - 保证指令不会受CPU缓…

软考高级架构 - 8.2 - 系统架构评估 - 超详细讲解+精简总结

8.2-系统架构评估 系统架构评估就是对系统架构的质量进行分析,以便帮助设计者作出架构决策,确保系统能够符合需求。评估方法大致分为三种: 基于问卷或检查表:通过设计好的问卷或清单,收集开发人员和相关人员的…

【LLM】Generative Agents和代码实践

note Generative Agents是2023年斯坦福提出的agent小镇,通过memory->reflection->planning的框架提高NPC的行为目标性,给游戏NPC的灵活设计带来了可能。Generative Agents是一种多智能体交互的框架,它模拟现实中的人类行为。这些Agent…

K. Farm Management 【CCPC2024哈尔滨站】

K. Farm Management 思路: 很容易想到的策略: 给每个作物都安排最短的时长 l l l,剩下的时间作为可支配时间。选择删除收益最高的作物,然后将尽可能多的可支配时间用于这个作物。或者选择删除收益低时间还长的作物,然后将时间解…

智能 ODN 系统研究与设计

智能 ODN 系统研究与设计 摘 要:为了解决ODN面临的光纤错综复杂,故障定位低效等问题,引入电子标签,智能OTDR技术,提出了一种基于电子标签、光纤检测笔和智能OTDR故障监测的智能 ODN 解决方案,并重点讲述了智能ODN系统的…

Openlayers实现长度测量

概述 在 Openlayers 中,计算两点之间的距离,通常会用到ol/sphere模块。ol/sphere模块主要用于处理与球体(特别是地球球体)相关的数学和几何计算。而长度测量主要用到ol/sphere中的getDistance函数。 getDistance函数用于计算地球表面两点之间的距离,通常用于经纬度坐标。…