数据分析
能力图谱
| 模块 | 核心能力 |
|---|---|
| 数据获取 | 爬虫、API 对接、数据库查询、文件解析 |
| 数据预处理 | 清洗、转换、ETL、NumPy/Pandas |
| 数据可视化 | Matplotlib、pyecharts、ECharts、AntV |
| 图像处理 | OpenCV、PyMuPDF、视觉差异检测 |
学习路线
| 阶段 | 内容 |
|---|---|
| 数据获取 | 爬虫、API、多源数据采集 |
| 数据预处理 | Pandas 清洗、NumPy 计算、ETL 流水线 |
| 数据可视化 | Matplotlib、pyecharts、前端图表库 |
| 图像处理 | OpenCV、PDF 处理、视觉比对 |
工具选型
| 场景 | 推荐工具 |
|---|---|
| 表格数据处理 | Pandas |
| 数值计算 | NumPy |
| 基础图表 | Matplotlib |
| 交互式图表 | pyecharts / ECharts |
| 图像处理 | OpenCV |
| PDF 处理 | PyMuPDF (fitz) |
| 爬虫 | requests + BeautifulSoup / Selenium |
实战建议
数据分析的核心不是工具,而是明确问题 -> 获取数据 -> 清洗转换 -> 分析可视化 -> 得出结论的完整链路。每个环节都可能出问题,数据质量决定分析质量。