Skip to content

爬虫笔记

基础概念

  • 什么是网络爬虫:自动化程序,用于从网站抓取数据
  • 常用语言:Python(最流行)、JavaScript、Java
  • 主要库:requests、BeautifulSoup、Scrapy、Selenium

基本步骤

  1. 发送HTTP请求获取网页内容
  2. 解析HTML/XML文档
  3. 提取所需数据
  4. 存储数据(数据库、CSV、JSON等)

常用工具

  • requests:发送HTTP请求
  • BeautifulSoup:解析HTML文档
  • Scrapy:完整的爬虫框架
  • Selenium:处理JavaScript动态内容
  • lxml:快速的XML和HTML解析器

注意事项

  • 遵守robots.txt协议
  • 控制请求频率,避免对服务器造成压力
  • 尊重网站的使用条款和版权
  • 使用User-Agent标识
  • 处理异常和错误

反爬虫应对

  • 使用代理IP池
  • 设置随机延时
  • 模拟浏览器行为
  • 处理验证码
  • Cookie管理

数据存储方式

  • 文件存储:CSV、JSON、XML
  • 数据库:MySQL、MongoDB、SQLite
  • 云存储:对象存储服务

AST解混淆学习计划

JavaScript 原型链大师级学习计划

补环境

数据提取入门:XPath 与 CSS 选择器

利用龙猫大模型解析 HTML 为 JSON

爬虫管理系统设计方案

逆向补环境问题

AI 辅助爬虫与逆向学习计划

补环境框架设计

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v3.7.1