JONGSH'S BLOG = 穷拾の小屋

2025-04-1736k字32 分钟

强化学习的数学原理

强化学习（Reinforcement Learning, RL）是机器学习的核心范式之一，其核心目标是通过智能体与环境的动态交互，自主习得最优决策策略，以最大化长期累积奖励。本文系统梳理了强化学习算法的相关数学原理，希望能对强化学习的理解有所帮助。同时，本文省略了部分基础知识的介绍，把重点放在强化学习经典算法和数学理解上，对复杂的证明和推导予以省略。 # 基础概念智能体（Agent）：决策主体，通过观察环境状态选择动作。例如，游戏 AI 中的角色控制器。环境（Environment）：也称为模型，是智能体交互的外部世界，提供状态信息和反馈奖励。环境可以是物理世界（如机器人导航场景）或虚拟

more...

2025-03-0919k字18 分钟

Python 多进程编程

许多实际应用场景涉及到大规模数据的处理，这往往离不开并行计算。Python 的 multiprocessing 模块是一个强大而实用的工具，利用多核处理器的优势，将任务分配给多个进程并同时执行，从而提高程序的性能和效率。本文将详细总结如何使用 multiprocessing 模块来实现多进程编程。 # 概述现代操作系统如 MacOS，UNIX，Linux，Windows 等，都是支持 “多任务” 的操作系统，即可以同时运行多个任务。在单核 CPU 环境中，多任务执行是轮流让各个任务占用 CPU 交替执行。由于 CPU 调度执行速度非常快，从而有多个任务同时执行的效果。在多核

more...

2025-02-118.6k字8 分钟

PyTorch 模型训练之基础篇

# 前言想来已经很久没有写博客了，趁着春节假期刚结束，我一时兴起，决定利用 DeepSeek 水一篇博客，既为之后的学习做个记录，也为眼前的毕业设计留下一些痕迹。这篇博客的主题是《深度学习模型训练代码》，顾名思义，主要讨论如何编写深度学习中的 train.py 文件。相信写过训练代码的人都知道， train.py 的基本逻辑大致相同：加载数据集、调用模型、计算损失、梯度优化、保存结果等。虽然听起来简单，但要写出一份既优雅整洁又功能完备的代码，还是需要费些功夫。既然如此，不如直接把这个框架搭建好，以后只要依葫芦画瓢，稍作调整即可。此博客将在后续实践中不断更新 # 编写规范为

more...

2024-09-176.7k字6 分钟

Vue3 项目构建指南

在前端开发领域，Vue 框架无疑是一个重要的角色。然而，每次创建和初始化 Vue 项目时，我总是要一边查阅文档和浏览器一边配置。这主要是因为为了完整地初始化一个 Vue 项目，往往需要考虑其他组件的使用和配置等细节。因此，我写下这篇博客，主要是依据我个人的开发习惯，整理了 Vue3 项目的构建和配置流程，望一劳永逸～ # 基本配置 # 概述依据我的个人习惯，下面给出构建 Vue3 项目时的包管理器和创建方式。包管理器：常见的包管理器有 npm、yarn 和 pnpm，使用哪一个都可以方便地满足 Vue 项目的构建和开发需求。对于我个人而言，更偏向于选择使用 pnpm 来管理 JavaS

more...

2024-07-2815k字14 分钟

微博 POI 数据爬取

POI (Point of Interest，兴趣点)，通常指的是在地理信息系统、地图应用程序或导航系统中的特定地点。兴趣点可以是自然景观、历史遗迹、文化地标、餐馆、商店、娱乐场所等。前段时间，实验室的学长给我派活，内容大概是爬取一些 POI 数据，包括经纬度和文本描述信息。在此之前，我从未接触过爬虫相关的知识，所以这算是我第一次经历。虽然任务内容不多，但是我还是花费了些功夫，翻阅了许多资料，最终勉强写了个半成品。这里简单记录下这次的学习过程，也方便日后翻阅复习。 # 数据来源 # POI 文本数据获取 POI 的地理坐标并非难点，众多来源如高德地图和百度地图提供的 API 服务均可实现。

more...

2024-07-168.4k字8 分钟

Linux 环境配置 NFS 与 CIFS

暑期实习两周，负责老师终于给我派了任务。闲来无事，遂写下这篇博客记录所学内容和踩过的坑。 # 概述网络文件系统（NFS）最早是由 Sun 公司发展出来的，也是 FreeBSD 支持的文件系统中的一个，它允许网络中的计算机之间通过 TCP/IP 网络共享资源。通过 NFS，我们本地 NFS 的客户端应用可以透明地读写位于服务端 NFS 服务器上的文件，就像访问本地文件一样方便。简单的理解，NFS 就是可以透过网络，让不同的主机、不同的操作系统可以共享存储的服务。通用 Internet 文件系统（CIFS）最初由微软于 1990 年代中期发布，是服务器消息块（SMB）文件访问协议的扩

more...