继续请教问题:关于 Pytorch 的 Autograd

雷达 · 发表于 2023-2-14 13:09:28

本帖最后由雷达于 2023-2-14 13:12 编辑

为预防老年痴呆，时不时学点新东东玩一玩。
Pytorch 下面的代码做最简单的一元线性回归：
----------------------------------------------
import torch
import numpy as np
import matplotlib.pyplot as plt
import random

x = torch.tensor(np.arange(1,100,1))
y = (x*27+15+random.randint(-2,3)).reshape(-1)  # y=wx+b, 真实的w0 =27, b0=15

w = torch.tensor(0.,requires_grad=True)  #设置随机初始 w,b
b = torch.tensor(0.,requires_grad=True)

epochs = 100

losses = []
for i in range(epochs):
  y_pred = (x*w+b) # 预测
  y_pred.reshape(-1)

  loss = torch.square(y_pred - y).mean() #计算 loss
  losses.append(loss)

  loss.backward() # autograd
  with torch.no_grad():
w  -= w.grad*0.0001 # 回归 w
b  -= b.grad*0.0001    # 回归 b
  w.grad.zero_()
  b.grad.zero_()

print(w.item(),b.item()) #结果

Output： 27.26387596130371  0.4974517822265625
----------------------------------------------
最后的结果，w可以回到 w0 = 27 附近，b却回不去 b0=15。两处红字，损失函数是矢量计算后的均值，感觉 b 的回归表达有问题。
高手们帮看看是神马原因？

老福 · 发表于 2023-2-14 19:23:02

本帖最后由老福于 2023-2-14 21:58 编辑

没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
-------
不好意思，再看一遍，好像你在自算回归而不是用现成的工具直接出结果，上面的评论只有一点用，就是确认是不是算法有问题。
-------
算法诊断部分，建议把循环次数改为1000, 再看看loss是不是收敛。有点怀疑你循环次数不够，因为你起点是0, 步长很小。只是直观建议。

雷达 · 发表于 2023-2-14 21:52:57

老福发表于 2023-2-14 19:237 e7 j$ S* g% H2 D9 }: @6 e @
没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
1 W# P; C4 \' U) I! g0 n-------, D, V2 R0 N I: S0 y8 d, i/ y
不好意思， ...

谢谢，算法应该没问题，就是最简单的线性回归。
我特意没有用现成的工具，就是想从最基本的地方深入理解一下。

老福 · 发表于 2023-2-14 22:00:48

本帖最后由老福于 2023-2-14 22:02 编辑

雷达发表于 2023-2-14 21:52
7 b6 G; k" b% _; [2 _* ]1 |4 p谢谢，算法应该没问题，就是最简单的线性回归。) p6 d- g0 G1 b. a
我特意没有用现成的工具，就是想从最基本的地方深入理解 ...

刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。

或者把b但的起点改为1试试。

雷达 · 发表于 2023-2-15 00:25:26

本帖最后由雷达于 2023-2-15 00:31 编辑

老福发表于 2023-2-14 22:00# c6 ]9 K6 Z' G1 j9 t* }
刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。( Q/ C' \# S, t/ h

' B4 j5 w& p$ g或者把b但的起点改为1试试。 ...

你是对的。
去掉了随机部分
#y = (x*27+15+random.randint(-2,3)).reshape(-1)
y = (x*27+15).reshape(-1)

循环次数加成10倍，就看到 b 收敛了
w , b
27.002620697021484 14.826167106628418

和 b 的起始位置无关，但 labeled data 用 y = (x*27+15+random.randint(-2,3)).reshape(-1) ，收敛就很慢。

		自动登录	找回密码
密码			注册

[信息技术] 继续请教问题:关于 Pytorch 的 Autograd

评分

评分