个人介绍
掌握Python爬⾍开发,熟练使⽤ requests、BeautifulSoup、lxml 等库进⾏静态⻚⾯及API数据采集具备JavaScript逆向能⼒:能处理 webpack 打包模块、SM系列国密算法(SM2/SM3/SM4)的还原,熟练使⽤浏览器开发者⼯具进⾏断点调试、堆栈追踪熟悉动态⽹⻚抓取,能通过抓包分析定位XHR接⼝,模拟请求获取JSON数据了解常⻅反爬策略:User-Agent伪装、Referer校验、Cookie维持、简单验证码识别(OCR/打码平台)了解 Selenium/Playwright 基本使⽤,可处理少量需渲染的场景 能使⽤MD5、哈希、集合等对数据进⾏去重了解Scrapy框架的基本结构(能编写简单Spider),了解MongoDB、MySQL、Redis 的基础使⽤
核心技能
网络爬虫
python
精选作品集
票星球演唱会信息抓取
项目名称:票星球演唱会信息实时采集与监控系统
项目描述:
本项目是一个针对票星球(piaoxingqiu.com)演出票务平台的自动化数据采集系统。系统能够突破网站的动态渲染与反爬限制,高效、稳定地采集全国范围内热门演唱会、音乐节、Livehouse等演出的名称、艺人、时间、场馆、票价、库存状态及座位图等核心字段,并支持增量更新与数据可视化分析。
技术栈:
语言:Python 3.9
核心库:Playwright / Selenium(处理动态渲染)、Requests(接口辅助)
解析框架:BeautifulSoup 4、lxml、正则表达式
数据存储:MySQL / SQLite(轻量部署)、Pandas(数据清洗与导出)
反爬对抗:Stealth.min.js 指纹隐藏、IP代理池轮换、随机请求头、行为模拟(随机延迟/鼠标移动)
部署工具:Docker(可选)、Crontab 定时任务
核心职责与实现亮点:
动态内容抓取与反爬对抗
分析网站加载逻辑,确认演唱会列表及详情页为 JavaScript 异步渲染,采用 Playwright 模拟真实浏览器环境,结合 Stealth.js 插件 隐藏 WebDriver 特征,绕过浏览器指纹检测。
设计 多级等待策略(wait_for_selector + 智能重试),确保动态票价、库存标签加载完毕后再提取数据,解决传统请求库获取空壳 HTML 的问题。
大规模数据采集架构设计
实现 分布式增量抓取:通过城市分类 URL 遍历,结合 Redis 记录已抓取演出 ID,避免重复请求,每日增量更新仅获取新增与变更场次。
针对网站 单 IP 高频访问封禁 的问题,搭建了简易 代理 IP 池(整合免费代理源 + 付费隧道代理),实现请求失败后自动切换 IP 重试,将采集成功率维持在 95% 以上。
复杂字段解析与数据清洗
对 嵌套座位图区域、阶梯票价数组 进行精准的 XPath/CSS 定位与正则清洗,将非结构化的页面文字转化为结构化的 price_range、seat_map_url 等字段。
使用 Pandas 对原始数据进行去重、缺失值填充及格式标准化,最终产出可直接用于业务分析的 CSV/Excel 报表。
异常监控与日志系统
集成 Logging 模块记录每次抓取的成功率、失败页面 URL 及错误堆栈。
编写 健康检查脚本:若连续 5 次无法获取目标数据,自动推送预警信息至微信/钉钉机器人,确保持续运行的稳定性。
京东联盟秒杀数据采集
项目名称:京东联盟秒杀商品数据采集与分析系统
项目描述:本项目针对京东联盟高佣秒杀商品页面,设计并实现了一套高可用、高成功率的自动化数据采集系统。系统能够突破京东平台复杂的动态渲染、浏览器指纹检测、行为特征分析与IP频率限制等反爬防线,稳定采集秒杀商品的标题、价格、佣金、销量、优惠券、推广链接等核心字段,并支持定时增量采集与数据落盘,为电商选品、竞品分析与联盟推广提供高质量的数据支撑。
技术栈:
语言:Python 3.9
核心库:Playwright(浏览器自动化)、Requests(API调用辅助)、asyncio(异步并发)
解析框架:BeautifulSoup 4 / lxml / XPath / 正则表达式
数据存储:MongoDB(非结构化商品数据)/ MySQL(结构化分析)/ CSV / Excel
反爬对抗:Stealth.js 指纹隐藏、CDP远程调试接管、IP代理池轮换、随机请求头、行为模拟(随机延迟/滚动/鼠标轨迹)、验证码识别集成
部署工具:Crontab 定时任务 / Docker(可选)
核心职责与实现亮点:
破解京东高难度反爬体系(本项目最大技术亮点)
分析京东联盟秒杀页面的反爬策略,发现平台综合运用了动态参数加密(sign/token/eid/fp等)、Canvas/WebGL浏览器指纹采集、鼠标轨迹与点击模式监测、IP频率限制等多层防御机制。
采用Playwright + Stealth.js 插件模拟真实浏览器环境,彻底隐藏 WebDriver 特征,绕过浏览器指纹检测。
通过CDP(Chrome DevTools Protocol)远程调试模式接管已打开的Chrome浏览器实例,保留真实用户的登录态与Cookie,大幅降低风控概率。
搭建高可用IP代理集群,实现请求失败后自动切换代理IP重试,将爬取成功率从最初的不足20%提升至98.9%,实现零IP封禁。
秒杀商品数据精准定位与采集
精准访问京东联盟“定向高佣”秒杀商品页面(union.jd.com/proManager/index?pageNo=1),通过 XPath 复合定位策略(如 //span[text()="定向高佣"])切换商品筛选标签。
实现多级等待策略(wait_for_selector + wait_for_load_state + 随机延迟),确保动态加载的秒杀价格、佣金标签、库存状态等异步数据完整渲染后再提取。
提取字段全面覆盖运营需求:商品名称、店铺名称、原价、到手价、佣金比例、优惠券信息、销量、推广链接等。
双轨数据采集架构:官方API + 自动化兜底
优先接入京东联盟官方关键词搜索接口(jd.union.open.goods.search),完成AppKey/AppSecret签名认证与调用,合法获取基础商品数据。
针对官方秒杀接口(jd.union.open.goods.seckill.query)已于2024年11月下线的情况,开发网页自动化爬虫作为兜底方案,通过京粉精选接口传入 eliteId=33 参数迂回获取秒杀数据,确保系统在接口变更后仍能持续运行。
数据存储与监控体系
设计 MongoDB 文档结构存储非结构化商品数据,支持灵活字段扩展;同时产出结构化 CSV/Excel 报表供业务团队直接使用。
集成 Logging 模块记录每次采集的成功率、失败页面 URL 及错误堆栈,便于问题定位。
编写健康检查脚本:若连续多次无法获取目标数据,自动推送预警信息至钉钉/飞书机器人,确保持续运行的稳定性。
项目成果:
成功绕过京东多层反爬防线,单次全量采集商品数量可达10万+,数据准确率达99%以上。
系统支持每日定时增量更新,单次全量采集耗时控制在合理范围内,资源消耗可控。
产出的数据直接用于高佣选品推荐、竞品价格监控与联盟推广素材自动化生成。
工作经历
杭州海康威视有限公司桐庐分公司 · 数据采集员
2022-06-01 - 1
教育背景
浙江工贸职业技术学院 · 计算机应用技术
2020-06-01