爱吱声

标题: 继续请教问题:关于 Pytorch 的 Autograd [打印本页]

作者: 雷达 时间: 2023-2-14 13:09
标题: 继续请教问题:关于 Pytorch 的 Autograd
本帖最后由雷达于 2023-2-14 13:12 编辑

为预防老年痴呆，时不时学点新东东玩一玩。
Pytorch 下面的代码做最简单的一元线性回归：
----------------------------------------------
import torch
import numpy as np
import matplotlib.pyplot as plt
import random

x = torch.tensor(np.arange(1,100,1))
y = (x*27+15+random.randint(-2,3)).reshape(-1)  # y=wx+b, 真实的w0 =27, b0=15

w = torch.tensor(0.,requires_grad=True)  #设置随机初始 w,b
b = torch.tensor(0.,requires_grad=True)

epochs = 100

losses = []
for i in range(epochs):
  y_pred = (x*w+b) # 预测
  y_pred.reshape(-1)

  loss = torch.square(y_pred - y).mean() #计算 loss
  losses.append(loss)

  loss.backward() # autograd
  with torch.no_grad():
w  -= w.grad*0.0001 # 回归 w
b  -= b.grad*0.0001    # 回归 b
  w.grad.zero_()
  b.grad.zero_()

print(w.item(),b.item()) #结果

Output： 27.26387596130371  0.4974517822265625
----------------------------------------------
最后的结果，w可以回到 w0 = 27 附近，b却回不去 b0=15。两处红字，损失函数是矢量计算后的均值，感觉 b 的回归表达有问题。
高手们帮看看是神马原因？

作者: 老福 时间: 2023-2-14 19:23
本帖最后由老福于 2023-2-14 21:58 编辑

没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
-------
不好意思，再看一遍，好像你在自算回归而不是用现成的工具直接出结果，上面的评论只有一点用，就是确认是不是算法有问题。
-------
算法诊断部分，建议把循环次数改为1000, 再看看loss是不是收敛。有点怀疑你循环次数不够，因为你起点是0, 步长很小。只是直观建议。

作者: 雷达 时间: 2023-2-14 21:52

老福发表于 2023-2-14 19:23
- v. F& y: x8 F1 G+ J没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？8 C/ V" d, O2 h
-------1 G# P! R/ ?/ `1 z- B" ]' v6 `
不好意思， ...

谢谢，算法应该没问题，就是最简单的线性回归。
我特意没有用现成的工具，就是想从最基本的地方深入理解一下。

作者: 老福 时间: 2023-2-14 22:00
本帖最后由老福于 2023-2-14 22:02 编辑

雷达发表于 2023-2-14 21:52; V J0 p7 N. O) G. o- t
谢谢，算法应该没问题，就是最简单的线性回归。
! m1 t* o$ O) T$ i* I8 G/ H" {2 j* x我特意没有用现成的工具，就是想从最基本的地方深入理解 ...

刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。

或者把b但的起点改为1试试。

作者: 雷达 时间: 2023-2-15 00:25
本帖最后由雷达于 2023-2-15 00:31 编辑

老福发表于 2023-2-14 22:00
, i: Y% _$ G, i3 y6 R1 ]刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。
) F. b& w( T6 h8 b w2 A4 d/ _1 ^: H1 J1 N" {) i, [: X" G! A/ _+ \ K
或者把b但的起点改为1试试。 ...

你是对的。
去掉了随机部分
#y = (x*27+15+random.randint(-2,3)).reshape(-1)
y = (x*27+15).reshape(-1)

循环次数加成10倍，就看到 b 收敛了
w , b
27.002620697021484 14.826167106628418

和 b 的起始位置无关，但 labeled data 用 y = (x*27+15+random.randint(-2,3)).reshape(-1) ，收敛就很慢。

欢迎光临爱吱声 (http://129.226.69.186/bbs/)