Oliver's Blog

关于我

发表于 2025-02-11 分类于个人简介

脚踏实地，持续精进，用技术改变生活

终端简介

Terminal

> whoami
王梦琦 | Full Stack Developer

> cat about.txt
热爱编程，专注于Web开发和人工智能领域
擅长后端开发，对分布式系统和云原生技术充满热情

> ls skills/
backend/  database/  devops/  tools/

教育背景

北京城市学院 | 大数据与互联网专业 | 2021-2025

主修课程：Java编程、数据结构、计算机网络、数据库系统
GPA：3.8/4.0

实习经历

超星图书馆
神州数码（滴滴外包）

后端开发工程师 | 2023.07 - 2023.09

{
  "responsibilities": [
    "参与核心业务模块开发",
    "优化系统性能",
    "数据库设计与维护"
  ],
  "achievements": [
    "系统性能提升30%",
    "重构核心模块",
    "部分接口实现"
  ]
}

运维工程师 | 2024.08 - 2025.01

{
  "responsibilities": [
    "系统运维",
    "服务器管理",
    "监控系统维护"
  ],
  "achievements": [
    "构建监控平台",
    "优化部署流程",
    "提升系统稳定性"
  ]
}

技术栈

Java / Spring Boot / MyBatis
RESTful API 设计
微服务架构

MySQL / Redis / MongoDB
数据库优化
缓存策略

Docker / Nginx / Jenkins
Linux 系统管理
CI/CD 流程

Git / Maven / IDEA
Postman / Swagger
JMeter

项目经验

数据仓库ETL平台

技术栈： Python, Airflow, MySQL, Redis, Kafka

核心功能：

数据抽取转换加载
任务调度管理
数据质量监控
性能优化管理

项目亮点：

处理效率提升200%
数据准确率达99.9%
监控覆盖率100%

汽车改装推荐系统

技术栈： Spring Boot, Python, TensorFlow, MySQL

核心功能：

智能推荐算法
合法性检测
性能优化
用户行为分析

项目亮点：

推荐准确率提升30%
系统响应时间优化50%
用户满意度提升40%

个人特点

热爱技术，持续学习
关注技术发展趋势
积极参与技术社区

良好的沟通能力
积极主动的工作态度
优秀的问题解决能力

注重代码质量
追求优雅的设计
编写完善的文档

职业规划

深入研究分布式系统
提升架构设计能力
探索云原生技术
贡献开源项目

联系方式

1419235897@qq.com

15811534195

github.com/oliver037

数据仓库ETL流程设计与实现

发表于 2025-02-10 分类于技术分享

文章导航

协同过滤在汽车改装推荐中的应用

本文详细介绍数据仓库ETL流程的设计与实现，包括数据抽取、转换、加载的最佳实践。

架构设计

整体采用分层架构：

ODS层：原始数据层
DWD层：明细数据层
DWS层：服务数据层
ADS层：应用数据层

ETL流程实现

数据抽取

def extract_data(source_config):
    """
    数据抽取模块
    """
    try:
        # 建立数据源连接
        conn = create_connection(source_config)
        
        # 增量抽取逻辑
        last_etl_time = get_last_etl_time()
        sql = f"""
            SELECT * FROM source_table 
            WHERE update_time > '{last_etl_time}'
        """
        
        # 执行抽取
        df = pd.read_sql(sql, conn)
        return df
    
    except Exception as e:
        logging.error(f"数据抽取失败: {str(e)}")
        raise

数据转换

def transform_data(df):
    """
    数据清洗转换
    """
    # 数据类型转换
    df['create_time'] = pd.to_datetime(df['create_time'])
    
    # 空值处理
    df['category'] = df['category'].fillna('未分类')
    
    # 业务规则转换
    df['status'] = df['status'].map({
        0: '待处理',
        1: '处理中',
        2: '已完成'
    })
    
    return df

数据加载

def load_data(df, target_config):
    """
    数据加载到目标表
    """
    try:
        # 建立目标库连接
        engine = create_engine(target_config)
        
        # 分批写入
        df.to_sql(
            'target_table',
            engine,
            if_exists='append',
            index=False,
            chunksize=1000
        )
        
    except Exception as e:
        logging.error(f"数据加载失败: {str(e)}")
        raise

调度管理

使用Airflow进行任务调度：

from airflow import DAG
from airflow.operators.python_operator import PythonOperator

dag = DAG(
    'etl_pipeline',
    schedule_interval='0 2 * * *',  # 每天凌晨2点执行
    start_date=datetime(2024, 1, 1)
)

extract_task = PythonOperator(
    task_id='extract_data',
    python_callable=extract_data,
    dag=dag
)

transform_task = PythonOperator(
    task_id='transform_data',
    python_callable=transform_data,
    dag=dag
)

load_task = PythonOperator(
    task_id='load_data',
    python_callable=load_data,
    dag=dag
)

extract_task >> transform_task >> load_task

监控告警

实现了完整的监控告警机制：

数据质量监控
- 空值检查
- 重复值检查
- 数据一致性校验
任务执行监控
- 运行状态
- 执行时长
- 错误日志
告警通知
- 邮件通知
- 企业微信通知
- 短信通知

性能优化

主要从以下几个方面进行了优化：

分批处理
并行计算
索引优化
资源控制

实践总结

保证数据质量是首要任务
合理的分层设计很重要
监控告警要及时准确
持续优化性能指标

协同过滤在汽车改装推荐中的应用

发表于 2025-02-09 分类于技术分享

文章导航

数据仓库ETL流程设计与实现

本文详细介绍如何在汽车改装领域应用协同过滤算法，实现个性化的配件推荐。

算法原理

协同过滤算法主要分为两类：

基于用户的协同过滤（User-Based CF）
基于物品的协同过滤（Item-Based CF）

基于用户的协同过滤实现

相似度计算

def calculate_user_similarity(user_item_matrix):
    """计算用户之间的相似度"""
    # 使用余弦相似度
    user_similarity = cosine_similarity(user_item_matrix)
    
    # 转换为DataFrame便于查询
    similarity_df = pd.DataFrame(
        user_similarity,
        index=user_item_matrix.index,
        columns=user_item_matrix.index
    )
    
    return similarity_df

def get_similar_users(user_id, user_similarity, n=5):
    """获取最相似的用户"""
    similar_users = user_similarity[user_id].sort_values(
        ascending=False
    )[1:n+1]
    
    return similar_users

基于物品的协同过滤实现

物品相似度计算

class ItemBasedCF:
    def __init__(self, n_neighbors=5):
        self.n_neighbors = n_neighbors
        self.item_similarity_matrix = None
        
    def fit(self, user_item_matrix):
        """计算物品相似度矩阵"""
        # 转置矩阵，计算物品间的相似度
        self.item_similarity_matrix = cosine_similarity(
            user_item_matrix.T
        )
        
        # 转换为DataFrame
        self.item_similarity_matrix = pd.DataFrame(
            self.item_similarity_matrix,
            index=user_item_matrix.columns,
            columns=user_item_matrix.columns
        )
    
    def recommend(self, user_id, user_item_matrix):
        """为用户生成推荐"""
        # 获取用户已有的配件
        user_items = user_item_matrix.loc[user_id]
        user_items = user_items[user_items > 0]
        
        # 计算推荐分数
        recommendations = defaultdict(float)
        
        for item, rating in user_items.items():
            # 获取相似物品
            similar_items = self.item_similarity_matrix[item]
            
            # 计算加权评分
            for similar_item, similarity in similar_items.items():
                if similar_item not in user_items:
                    recommendations[similar_item] += similarity * rating
        
        return sorted(
            recommendations.items(),
            key=lambda x: x[1],
            reverse=True
        )

冷启动问题解决

基于内容的推荐

def content_based_recommendation(user_profile, items_features):
    """基于内容的推荐"""
    # 提取用户特征
    user_features = extract_user_features(user_profile)
    
    # 计算物品相似度
    similarities = cosine_similarity(
        user_features.reshape(1, -1),
        items_features
    )
    
    # 返回最相似的物品
    return np.argsort(similarities[0])[::-1]

混合推荐策略

def hybrid_recommendation(user_id, user_profile):
    """混合推荐策略"""
    if is_new_user(user_id):
        # 新用户使用基于内容的推荐
        recommendations = content_based_recommendation(
            user_profile,
            items_features
        )
    else:
        # 老用户使用协同过滤
        cf_recommendations = collaborative_filtering(user_id)
        content_recommendations = content_based_recommendation(
            user_profile,
            items_features
        )
        # 融合两种推荐结果
        recommendations = merge_recommendations(
            cf_recommendations,
            content_recommendations
        )
    
    return recommendations

性能优化

数据预处理

def preprocess_data():
    """数据预处理优化"""
    # 使用稀疏矩阵存储
    sparse_matrix = csr_matrix(user_item_matrix)
    
    # 归一化处理
    normalized_matrix = normalize(sparse_matrix)
    
    return normalized_matrix

计算优化

def optimize_similarity_calculation():
    """相似度计算优化"""
    # 使用近似最近邻搜索
    ann_index = AnnoyIndex(f=vector_dim)
    
    # 批量计算相似度
    with ThreadPoolExecutor() as executor:
        similarities = list(executor.map(
            calculate_similarity,
            vectors
        ))

效果评估

系统上线后取得了显著效果：

推荐准确率：85%
用户采纳率：提升40%
系统响应时间：<100ms

经验总结

数据质量至关重要
需要合理处理冷启动问题
性能优化不能忽视
持续监控和改进很重要

分享与交流

如果您觉得本文对您有帮助，欢迎：

在下方评论区留言讨论
分享给更多朋友
关注我的 GitHub

Oliver's Blog

关于我

终端简介

教育背景

实习经历

技术栈

项目经验

数据仓库ETL平台

汽车改装推荐系统

个人特点

职业规划

联系方式

数据仓库ETL流程设计与实现

文章导航

相关文章

架构设计

ETL流程实现

数据抽取

数据转换

数据加载

调度管理

监控告警

性能优化

实践总结

协同过滤在汽车改装推荐中的应用

文章导航

相关文章

算法原理

基于用户的协同过滤实现

相似度计算

推荐生成

基于物品的协同过滤实现

物品相似度计算

冷启动问题解决

基于内容的推荐

混合推荐策略

性能优化

效果评估

经验总结

分享与交流