// principle 01
先对齐口径,再聊结论。
复盘 GMV 异常之前,先核对维度、过滤条件、归因窗口。 90% 的数据撕逼来自口径错位,而不是模型错。
我叫 彭茜,应用统计在读硕士。在 快手电商、MIQ 程序化广告、 Bilibili 直播 之间打过工。 我习惯把 ETL、AB 实验、用户画像、爆品归因拆成可以解释的"为什么", 也把 AI 产品里的模型选择、提示词迭代和验收标准变成可复盘的产品判断。
// status
$ available_from = "2026-06"
$ focus = ["growth", "product_data", "AI_apps"]
$ location = "Shanghai / Beijing OK"▮
01 / Internships
03
02 / Dashboards shipped
08+
03 / Best campaign GMV lift
150%
04 / Years of SQL
3.0
01 / about
// principle 01
复盘 GMV 异常之前,先核对维度、过滤条件、归因窗口。 90% 的数据撕逼来自口径错位,而不是模型错。
// principle 02
看板不是用来交差的,是用来让小二第二天少踩一个坑。 每一个图表都附一行行动建议。
// principle 03
XGBoost 告诉我哪个标签权重高, 但是要不要把它真的投入营销策略,是人的判断。
02 / work · 实习经历
从 B 站直播间,到 MIQ 跨国广告投放,再到快手电商核心场。 每一段都让我对"数据如何驱动决策"的理解多了一层。
2026.01 — 2026.05
01
KUAISHOU E-COMMERCE · DATA & BI
// impact card
CAMPAIGN HEALTH 92/100
Open BI Board →2025.08 — 2026.01
02
MIQ · PROGRAMMATIC · TTD / DV / GLOBAL
// ad-ops console
WEEKLY IMPRESSIONS
2025.03 — 2025.07
03
BILIBILI · LIVE COMMERCE · CATEGORY OPS
// live-room snapshot
SALES TREND · 12 WEEKS
03 / stack · 技能
百分比反映的是「我在真实项目里独立完成的把握度」,不是自封的水平。 每一条都能展开聊一个 case。
Hive / Spark SQL · 多维归因 · 长周期查询调优
pandas / numpy / sklearn · 高并发抓取与清洗脚本
从口径定义到大盘 / 异常监控看板
KMeans · XGBoost · 时间序列 · 智能风控方法
海量数据链路搭建 · DWM 层重构
短带 / 数字人直播 AB · CUPED 思路
模型选择 · 提示词迭代 · AI 原型验收 · Cursor / Trae / Codex
用户路径拆解 · 边界条件判断 · 上线后优化
04 / labs · 项目
项目覆盖用户画像建模、AI 数据流、跨境数据集与实时直播竞拍系统;共同特征是端到端跑通、能解释业务问题,并保留可访问的线上预览。
LAB / 01 · USER MODELING
清洗 2 万条 抖音用户动态后台标签、搜索记录与商家商品信息, 可视化多维购买动态偏好;KMeans 处理特征标签;XGBoost 回归预测, 量化不同标签对消费转化的影响权重 — 从 0 到 1 构建一个基于机器学习的用户画像产品模型, 为商家提供精准营销与推荐策略。
model
XGBoost
cluster
KMeans · k=6
data
20K rows
// feature importance (top 5)
LAB / 02 · SOCIAL × FITNESS
— 社交 + 运动的趣味性工具
主导将海量非结构化业务数据结构化并接入 LLM, 设计与优化数据清洗逻辑与 Prompt 架构, 打通 数据接入 → AI 处理 → 云端部署 的全链路自动化流转。
step 01
RAW
step 02
LLM
step 03
CLOUD
→ 端到端自动化跑通
LAB / 03 · CROSS-BORDER DATA
— 出国旅行刚需信息聚合
运用 Python 编写 高并发自动化抓取与清洗 脚本, 搭建稳定的多源异构数据挖掘链路, 产出高质量海外护肤品、保健品结构化数据集, 支持原始数据自动化处理与特征模拟。
$ scraper --concurrency 32 --regions JP KR ID
$ pipeline --clean --dedupe --normalize
$ export > dataset.parquet
✔ 12,540 rows produced
LAB / 04 · BYTE DANCE AI FULL-STACK CHALLENGE
Real-Time Auction Master / PC 商家端 × H5 用户端 × Edge API × WebSocket
与团队协作完成一套直播电商实时竞拍系统,围绕挑战赛场景参与从需求拆解、AI 辅助原型、前后端开发到线上部署的完整闭环。目标不是堆功能,而是解决三个真实问题: 商家能否低成本上架拍品、用户能否放心实时出价、系统能否公平结算且可被演示验证。 因此把产品拆成商家端、H5 用户端和 Edge 实时后端三条链路,并用可运行预览页承接简历展示。
role
Full-stack
realtime
WS + DO
data
D1 SQLite
deploy
Edge + Pages
A / 需求与产品拆解
参与定义商家、主播、竞拍用户三类角色,拆出「上架拍品 → 配置规则 → 加入直播队列 → 用户出价 → 成交订单」主路径。
B / 前端与交互实现
参与实现 PC 商家后台、H5 竞拍页、预览页、素材库、直播设置、订单管理,并补齐空态、错误态和 API fallback。
C / 实时竞价与数据闭环
参与设计实时竞价链路:用 Durable Objects 承接单房间状态,用 WebSocket 同步价格、领先用户、倒计时和排行榜,用 D1 持久化拍品、出价和订单。
D / 部署与简历化展示
负责将 Cloudflare Workers / D1 / Pages 和 Vercel 预览整理成线上可访问版本,并把项目入口、素材图和技术栈接入个人站。
problems solved
并发出价不能乱序、倒计时要自动延时、封顶价要自动成交、订单要和最终领先用户一致、预览页不能因为 API 波动空白。
design optimization
把创建流程拆成拍品信息、竞价规则、加入队列三步;用真实商品素材替代占位图;把关键按钮放在首屏可达位置。
AI workflow
按任务选择强推理、代码生成、长上下文和图像生成模型;提示词从 PRD、页面结构、接口约束、边界 case 到测试清单逐轮迭代。
// product judgment is the core
01 价值判断:优先跑通“上架-出价-成交-订单”闭环,而不是扩成泛直播平台。
02 技术判断:实时竞价选择 WebSocket + Durable Objects,而不是只用 REST 轮询。
03 体验判断:优先让用户看懂当前价、领先者、剩余时间、封顶价和中拍反馈。
04 AI 判断:AI 负责方案草稿和代码切片,人负责口径、边界、风险和最终验收。
05 数据判断:用成交闭环、延时触发、订单一致性和可访问预览判断项目是否真的成立。
06 模型判断:轻量任务不用强模型,复杂架构和长日志才上更强推理 / 长上下文模型,控制成本和稳定性。
// challenge output
$ stack --frontend react18,typescript,vite,antd,react-vant,zustand
$ stack --backend cloudflare-workers,hono,zod,d1,drizzle,durable-objects,websocket
$ ai_iteration --model-select reasoning,code,long-context,image --prompt prd,api,ui-state,test-cases
$ product_judgment --value --tech-tradeoff --ux-priority --data-validation
✔ 线上可访问:商家预告页、创建拍品、直播设置、订单与素材演示
full technology stack
Frontend / PC 商家端
React 18, TypeScript 5, Vite 5, React Router, Ant Design 5, @ant-design/icons, Axios, Dayjs
Frontend / H5 用户端
React 18, Vite, React Router, React Vant, Zustand, Lucide React, Sass, WebSocket hooks
Backend / Edge API
Cloudflare Workers, Hono, TypeScript, REST APIs, Zod, @hono/zod-validator, Wrangler
Realtime / Consistency
WebSocket, WebSocketPair, Durable Objects, AuctionRoom, LiveRoomDO, DO alarm, room snapshot sync
Data / Storage
Cloudflare D1 SQLite, Drizzle ORM, Drizzle Kit migrations, KV cache, R2 assets, Cron Triggers
AI Product / Model Choice
强推理模型做需求拆解,代码模型做 TS / Worker 实现,长上下文模型读日志和文档,图像模型生成商品素材
Prompt / Evaluation
PRD prompt, API contract prompt, UI state prompt, bug reproduction prompt, edge-case checklist, browser verification
Product Judgment
价值优先级、用户路径、技术取舍、数据口径、成本控制、上线风险与验收标准
Deploy / QA / AI Workflow
Cloudflare Pages, Workers deploy, Vercel preview, Playwright E2E, Node test, contract tests, Cursor, Trae, Codex, GitHub
05 / edu
2025.09 — 2027.06
已修课程:统计模型 · 机器学习 · 时间序列分析 · 高级程序设计 · 高级数据库技术 · 智能风控方法与应用。
2021.09 — 2025.06
跨学科背景:让我除了懂数据,也懂"用数据的人"。
通用素质
熟悉 PS / Figma / Animate / 可画等设计工作;逻辑思维严密,对数据异常敏感, 具备快速学习新业务并抽象问题的能力。
let's build something
06 / contact · 联系
正在找 2026 暑期实习。 如果你的团队需要一个能从 ETL 一直管到 Dashboard 再到决策建议的人 — 我可能合适。 欢迎邮件 / 微信,简历有更多 case 可以聊。
// direct line