支付平台用户流失预测（XGBoost）

Machine LearningXGBoost

基于通联支付金融科技实习期间的真实业务场景，构建端到端机器学习流程，预测支付平台用户流失并驱动精准留存策略。

Pythonpandasscikit-learnXGBoostLightGBMmatplotlibJupyter

1项目概述

在通联支付金融科技实习期间，我注意到平台每月用户流失率高达12%，直接导致约240万元/月的收入损失。本项目旨在构建一个机器学习模型，提前30天预测可能流失的用户，从而使运营团队能够实施针对性的留存干预措施。

业务痛点

12%

月度用户流失率

¥2.4M / 月

收入损失

项目目标

30 天

提前预警窗口

精准识别高风险用户

实现针对性留存干预

预期成果

25%

流失率降低目标

¥600K / 月

预期挽回收入

ML 流程概览

数据收集特征工程模型训练超参数调优评估验证业务落地

2数据集与预处理

50,000

用户样本量

8 个月

行为数据跨度

12%

正样本比例（流失用户）

#	特征名称	类型	描述
1	`user_id`	ID	用户唯一标识
2	`registration_date`	datetime	账号注册时间戳
3	`last_login_days`	int	距上次登录天数
4	`transaction_count_30d`	int	近30天交易笔数
5	`transaction_amount_30d`	float	近30天交易金额（¥）
6	`avg_transaction_value`	float	平均单笔交易金额（¥）
7	`payment_methods_used`	int	使用的支付方式数量
8	`support_tickets`	int	提交的客服工单数
9	`app_sessions_7d`	int	近7天App会话数
10	`feature_usage_score`	float	功能使用综合评分（0-1）
11	`channel_source`	categorical	用户获取渠道（自然流量/付费/推荐等）
12	`device_type`	categorical	主要设备类型（iOS/Android/Web）
13	`city_tier`	categorical	城市等级分类（一至四线）
14	`age_group`	categorical	用户年龄段（18-24/25-34/35-44/45+）
15	`is_churned`	binary	目标变量 — 1为流失（12%正样本率）

data_loading.py

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Load dataset
df = pd.read_csv('allinpay_user_data.csv', parse_dates=['registration_date'])
print(f"Dataset shape: {df.shape}")  # (50000, 15)
print(f"Churn rate: {df['is_churned'].mean():.2%}")  # 12.00%

# Train/test split with stratification (preserve class ratio)
X = df.drop(['user_id', 'is_churned'], axis=1)
y = df['is_churned']
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)
print(f"Train: {X_train.shape[0]}, Test: {X_test.shape[0]}")  # 40000, 10000

3特征工程

基于领域知识和数据探索，我从原始特征中衍生出4大类共15个工程特征，显著提升了模型的预测能力。

RFM 特征

recency距上次交易天数

frequency全周期交易频次

monetary全周期总消费金额

rfm_scoreR/F/M 五分位综合评分（1-5）

行为特征

session_trend7天/30天会话比率（活跃趋势方向）

feature_diversity使用的平台功能种类数

payment_method_shift主要支付方式变更标记

peak_hour_ratio高峰时段活跃占比

时间特征

days_since_registration账号注册天数

weekend_ratio周末/工作日活跃比率

activity_decay_rate活跃度随时间衰减速率（斜率）

month_of_year月份周期编码（sin/cos）

参与度特征

login_frequency_change登录频率变化（近期 vs 历史）

transaction_gap_increase交易间隔增长幅度

support_interaction_ratio客服工单/交易比率

feature_engineering.py

# RFM Feature Engineering
df['recency'] = (pd.Timestamp.now() - df['last_transaction_date']).dt.days
df['frequency'] = df.groupby('user_id')['transaction_id'].transform('count')
df['monetary'] = df.groupby('user_id')['transaction_amount'].transform('sum')

# Quintile scoring (1=worst, 5=best)
df['r_score'] = pd.qcut(df['recency'], 5, labels=[5,4,3,2,1]).astype(int)
df['f_score'] = pd.qcut(df['frequency'].rank(method='first'), 5, labels=[1,2,3,4,5]).astype(int)
df['m_score'] = pd.qcut(df['monetary'].rank(method='first'), 5, labels=[1,2,3,4,5]).astype(int)

# Behavioral: Activity trend detection
df['session_trend'] = df['app_sessions_7d'] / (df['app_sessions_30d'] / 4.28 + 1e-6)
df['activity_decay_rate'] = np.polyfit(range(8), weekly_activity_series, 1)[0]

# Engagement delta features
df['login_frequency_change'] = (
    df['login_count_recent_14d'] / (df['login_count_prior_14d'] + 1e-6) - 1
)
df['transaction_gap_increase'] = (
    df['avg_gap_recent_30d'] - df['avg_gap_prior_30d']
)

4模型对比

我训练并比较了4种主流分类模型，使用5折交叉验证和一致的超参数搜索策略。所有模型均在相同的训练/测试集上评估。

模型	AUC-ROC	Precision	Recall	F1 Score	结果
逻辑回归	0.78	0.71	0.65	0.68	-
随机森林	0.85	0.79	0.73	0.76	-
XGBoost最优	0.89	0.83	0.78	0.80	选中
LightGBM	0.88	0.82	0.77	0.79	-

为什么选择 XGBoost？

在所有评估指标上均表现最优：AUC 0.89、F1 0.80
内置处理缺失值和类别不平衡的能力，适合金融数据
提供可解释的特征重要性排序，便于业务团队理解和行动
推理速度快（<10ms/样本），满足准实时预测需求

model_training.py

import xgboost as xgb
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import roc_auc_score, classification_report

# Handle class imbalance with scale_pos_weight
scale_ratio = (y_train == 0).sum() / (y_train == 1).sum()  # ~7.33

# XGBoost with hyperparameter tuning
param_grid = {
    'max_depth': [4, 6, 8],
    'learning_rate': [0.01, 0.05, 0.1],
    'n_estimators': [200, 500, 800],
    'min_child_weight': [1, 3, 5],
    'subsample': [0.8, 0.9],
    'colsample_bytree': [0.8, 0.9],
}

xgb_clf = xgb.XGBClassifier(
    objective='binary:logistic',
    scale_pos_weight=scale_ratio,
    eval_metric='auc',
    random_state=42,
    use_label_encoder=False,
)

grid_search = GridSearchCV(
    xgb_clf, param_grid, scoring='roc_auc',
    cv=5, n_jobs=-1, verbose=1
)
grid_search.fit(X_train, y_train)

# Best model evaluation
best_model = grid_search.best_estimator_
y_pred_proba = best_model.predict_proba(X_test)[:, 1]
print(f"AUC-ROC: {roc_auc_score(y_test, y_pred_proba):.4f}")  # 0.8903

5结果与评估

特征重要性 Top 10

last_login_days0.18

transaction_gap_increase0.14

activity_decay_rate0.12

session_trend0.10

transaction_count_30d0.09

feature_usage_score0.08

support_tickets0.07

payment_method_shift0.06

login_frequency_change0.05

avg_transaction_value0.04

混淆矩阵(阈值 = 0.45)

预测值

真实值

流失

留存

780

220

160

4,840

流失（真实）

留存（真实）

阈值优化

默认阈值0.50会遗漏较多潜在流失用户。通过业务收益分析，我将阈值调整至0.45，在精确率和召回率之间取得更好的平衡——在金融场景中，漏掉一个流失用户的损失远大于对留存用户的一次营销触达成本。

默认阈值

0.50

最优阈值

0.45

召回率提升

+5.2%

最终模型指标

Accuracy

93.7%

Precision

83.0%

Recall

78.0%

F1 Score

0.80

6商业价值

模型预测结果被转化为可执行的运营策略，通过精准的留存营销活动实现了显著的商业回报。

78%

流失用户识别率，提前2周预警

¥50

针对高风险用户发放优惠券

¥600K

月度预期挽回收入（流失减少25%）

8.5x

ML系统投资回报率（¥600K / ¥70K）

ROI 成本收益分析

干预成本（月度）

优惠券发放（~940人 x ¥50）¥47,000

短信/推送通知¥3,000

ML 基础设施 & 维护¥15,000

运营人力成本¥5,000

总成本¥70,000

预期收益（月度）

减少的流失用户数~1,500人

用户平均月度价值（ARPU）¥400

挽回收入¥600,000

客户生命周期价值保护¥2.4M+

ROI8.5x (¥600K / ¥70K)

7结论

本项目成功证明了机器学习在支付金融科技用户留存场景中的巨大应用价值。通过系统的特征工程和模型优化，XGBoost模型实现了AUC 0.89的预测性能，能够在流失事件发生前2周准确识别78%的潜在流失用户。该模型驱动的精准留存策略预计可每月挽回¥600K收入，ROI达8.5倍。

下一步计划

实时评分流水线

部署模型至Kafka流处理架构，实现用户行为实时评分（<100ms延迟），从批量预测升级为实时预警系统。

深度学习探索

尝试LSTM/Transformer序列模型捕捉用户行为时序模式，利用注意力机制识别关键流失信号，预期AUC可再提升3-5个百分点。

CRM 系统集成

将模型预测结果自动同步至CRM系统，根据流失风险等级自动触发差异化留存策略（短信/优惠券/专属客服），实现全自动化闭环运营。

对机器学习与产品运营感兴趣？

我正在寻找产品运营实习机会，欢迎就数据驱动增长、机器学习应用或支付金融科技行业进行交流。

联系我查看更多项目