Python脚本,用于爬取链家网站上的二手房数据,并进行数据清洗、可视化、建模和预测。
1. **导入库**:代码首先导入了多个Python库,包括`requests`用于获取网页内容,`re`和`etree`用于解析数据,`fake_useragent`用于生成随机User-Agent,以及`csv`、`datetime`、`LabelEncoder`、`pandas`、`seaborn`、`matplotlib`、`sklearn`等用于数据处理和分析。
2. **数据爬取**:定义了一个`get`函数,用于获取网页内容。然后定义了多个函数,用于获取每个二手房详情页的标题、总价、单价、小区名称、地段、房屋基本属性和交易属性等信息,并将这些信息保存到CSV文件中。
3. **数据清洗**:定义了一个`data_cleaning`函数,用于清洗CSV文件中的数据。这包括去除重复数据、无用的列、缺失值,以及分割房屋户型、所在楼层等字段。
4. **数据可视化**:定义了一个`visualizing`函数,用于绘制各种图表,如区域二手房单价和总价的对比、房屋面积和价格的关系、房屋户型的分布、装修情况的饼图等。
5. **建模