LIVE
完整源码 GitHub ↗在线体验
fin-data-pipeline · 清洗 / 校验(可编辑)
7
输入
6
输出
1
去重
13
规范化
7
错误
| 日期 | 对手方 | 金额 | 币种 | 流水号 |
|---|---|---|---|---|
| 2023-05-01 | 某某贸易 | 1200 | CNY | TX001 |
| 2023-05-02 | Acme Corp | ¥2,400 | CNY | TX002 |
| null | Bad Date Co | 500 | CNY | TX003 |
| 2023-05-04 | null | 1OOO | USD | TX004 |
| null | Null Date Co | null | CNY | TX005 |
| 2023-05-06 | Trailing Co | 1500 | CNY | TX006 |
修正行1·date规范化:「2023/05/01」→「2023-05-01」
修正行1·counterparty规范化:「某某贸易」→「某某贸易」
修正行1·amount规范化:「¥1200.00」→「1200」
修正行1·currency规范化:「cny」→「CNY」
修正行2·date规范化:「2023.5.2」→「2023-05-02」
错误行2·amount无法解析金额 ¥2,400
… 共 20
我的角色
数据工程
年份
2023
团队
Natixis 团队
状态
原型 / Demo
01
项目概述
多源行情、报表与监管数据的清洗、校验与定时编排管道(Natixis 场景):3000+ 行自动化代码支撑日报与异常追踪,把人工操作减少约 20%。
02
问题
P01
多源数据格式不一、人工清洗易错,日报交付不稳定。
P02
缺少定时刷新与异常追踪,问题往往滞后发现。
03
架构与流程
architecture.diagram
STEP 01
多源接入
行情/报表/监管数据
STEP 02
清洗校验
格式统一与校验
STEP 03
特征工程
派生指标与口径
STEP 04
定时刷新
自动调度
STEP 05
交付
报表 / ML 下游
04
核心功能
VIEW 01
多源接入
统一接入异构数据源。
VIEW 02
清洗与校验
口径校验与异常提示。
VIEW 03
定时刷新
支撑稳定日报。
VIEW 04
异常追踪
问题及时暴露与回溯。
05
量化成果
3000+
自动化代码
端到端数据管道。
-20%
人工操作
减少约 20% 重复人工。
Daily
日报支撑
日报 + 异常追踪。
06
技术栈
PythonETLPandasSchedulingPower BI
下一个项目