爱吱声

标题: C++ 提速的新发现 [打印本页]

作者: 雷达 时间: 2022-9-24 22:54
标题: C++ 提速的新发现
C++ 比 Octave 慢好多，怎么破？

自相关两层循环，内层循环涉及浮点数计算，试验了一下把内层循环内部全都 comment out 只留个壳子, 但空的内层循环本身就把速度拉下来了，看来问题并不在浮点计算。

速度优化问题真的很有意思啊。

欢迎大家继续讨论

作者: 数值分析 时间: 2022-9-24 23:04
拉下来？拉多少？
把代码贴上来看看？

难道分支预测不准破坏流水线执行？不该啊。

作者: 沉宝 时间: 2022-9-24 23:15
会不会代码本身的缺陷阻止了自动优化？另外，硬件配置和开发环境可能也有关系。

作者: 风雨无阻 时间: 2022-9-24 23:33
Maybe Debug mode?

作者: 雷达 时间: 2022-9-24 23:54
本帖最后由雷达于 2022-9-24 23:57 编辑

数值分析发表于 2022-9-24 23:04
6 I5 \1 U6 n3 W4 _4 K拉下来？拉多少？
" G9 `) @5 A" z5 k! u3 |: J/ P$ x: ^把代码贴上来看看？

void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
xtimesy.re = 0;
xtimesy.im = 0;
int j0 = lenB - 1;
int i, j, i1, reali;
if (lenA % 2 == 1)
reali = lenA + 1;
else
reali = lenA;
reali /= 2;

int nconv = reali + lenB;
//#pragma omp parallel for
for (i = reali; i < nconv; i++)
{
temp.re = 0;
temp.im = 0;
i1 = i;
for (j = j0; j >= 0; j--)
{
/* floating date operation */
}
}
}

xcorr函数代码如上，comp是复数struct, 做过长度为11、19两个矢量的测试，和octave结果完全一样

红色部分是内循环，现在其内部操作都comment out 了, j0大概是 6000。
现在call xcorr 100次，耗时78s.

如果把红色部分内循环本身完全comment out， call xcorr 1000次，耗时 <1s.

作者: 雷达 时间: 2022-9-25 00:17

风雨无阻发表于 2022-9-24 23:339 J# x9 }% {0 C
Maybe Debug mode?

不应该，看我上面的回复。

我更怀疑是 VS 社区版的问题

作者: 数值分析 时间: 2022-9-25 00:20
本帖最后由数值分析于 2022-9-25 00:24 编辑

雷达发表于 2022-9-24 23:54
4 ]5 e2 f" J/ a  }void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
2 |% h4 A! w  ?5 A{
8 E$ x5 u. g( s8 ?  C* V comp temp, xtimesy;

这个不是这么比的吧。。。

您这个函数，不带内循环的话，汇编完总共操作也没几个（不到100个）。

而加上内循环，光jmp和dec指令就至少多执行了6000个，慢个几十倍不是正常的么？

作者: 雷达 时间: 2022-9-25 00:46
本帖最后由雷达于 2022-9-25 01:09 编辑

数值分析发表于 2022-9-25 00:20+ A! A5 ]8 N+ i8 F
这个不是这么比的吧。。。
0 y& w4 z" B7 @3 v9 F5 Z3 t& s! f; P$ z# N' d* q9 Z
您这个函数，不带内循环的话，汇编完总共操作也没几个（不到100个）。

有道理。
所以存在内循环速度就上不去，把内循环取消，改成两个向量直接点乘再求和应该就会好得多，记得 numeric 库里有算向量内积的，我回头试试。

我先尝试尽量用标准库，一个小程序，不想搞得太复杂。多谢了

作者: 沉宝 时间: 2022-9-25 01:27

雷达发表于 2022-9-25 00:46
4 f4 I9 u0 n: A% d! P' Q有道理。
; ]! g+ Q9 y+ T1 B. c8 ]3 R所以存在内循环速度就上不去，把内循环取消，改成两个向量直接点乘再求和应该就会好得多，这大 ...

你两个试验之间就差了一个空循环， call 1000次按理不会有秒级差异，可能还是编译器优化的问题。举个例子，把循环本身翻译成机器指令loop或dec/jnz，两者速度上会差很多
Why is the loop instruction slow? Couldn't Intel have implemented it efficiently?

作者: 沉宝 时间: 2022-9-25 01:48

数值分析发表于 2022-9-25 00:203 l/ p8 H6 x5 y
这个不是这么比的吧。。。
2 S T( A, L$ T, P7 m
0 C% d% A/ S. {# O4 {, z( ]$ u# M8 K您这个函数，不带内循环的话，汇编完总共操作也没几个（不到100个）。

而加上内循环，光jmp和dec指令就至少多执行了6000个

现在的CPU，可以把判断、jmp和dec指令全部融合进一个µOp（微操作，CPU内部流水线上的执行单位）。如果循环这样跑，花不了多少时间。

作者: 数值分析 时间: 2022-9-25 02:06
本帖最后由数值分析于 2022-9-25 02:16 编辑

沉宝发表于 2022-9-25 01:48" A. F: V, O" f
现在的CPU，可以把判断、jmp和dec指令全部融合进一个µOp（微操作，CPU内部流水线上的执行单位）。如果 ...

是的，兄台说的对。

其实我想说的是真正数值计算部分和代码中其他不直接计算的overhead的比值这个事儿。

雷达兄构造测试用例的时候，屏蔽掉了所有计算的部分，使得剩下的都是overhead，这样run time比较的结果就显得好像不合理了。如果把计算加回去，计算部分的run time会dominate，结果就不那么离谱了。因为不好说，所以用指令数对比的方式试图直观地说明这一点。

比如说，如果有计算，那么跑六千个循环相对于计算应该用不了多少时间。但是如果一边是什么都不做，另一边是六千个循环，那六千个循环比什么都不做慢几十倍了，就不是那么不合理了。

当然也有可能像兄台说的，是优化参数的问题，但我觉得更多地是测试用例设计的不合理。

作者: 雷达 时间: 2022-9-25 04:47
本帖最后由雷达于 2022-9-25 04:49 编辑

沉宝发表于 2022-9-25 01:27! a- ^* _$ K6 ~. e; t0 Q
你两个试验之间就差了一个空循环， call 1000次按理不会有秒级差异，可能还是编译器优化的问题。举个例子 ...

又写了个小实验，没有调用子函数，双层循环，外层6千次，内循环30万次空转，有或没有空转内循环，时间差一倍，我上面这个差的太多了。

我已经完全懵了。

作者: 沉宝 时间: 2022-9-25 05:51

雷达发表于 2022-9-25 04:47
4 X/ m% U- X( e; i1 Y又写了个小实验，没有调用子函数，双层循环，外层6千次，内循环30万次空转，有或没有空转内循环，时间差 ...

时间差一倍的结果可以接受。

你还是用profile工具看看吧。现在大家都主观瞎猜。

作者: 数值分析 时间: 2022-9-25 14:58
本帖最后由数值分析于 2022-9-25 15:38 编辑

雷达发表于 2022-9-25 04:47$ ~" h n& p; b1 @5 r: r" q
又写了个小实验，没有调用子函数，双层循环，外层6千次，内循环30万次空转，有或没有空转内循环，时间差 ...

能不能把这个也贴上来，看看和上一个有什么不同？

作者: 雷达 时间: 2022-9-26 01:30
本帖最后由雷达于 2022-9-27 01:17 编辑

数值分析发表于 2022-9-25 14:588 x4 `; H& }; K' r2 V$ Q. w6 ^
能不能把这个也贴上来，看看和上一个有什么不同？

理了理思路，重新做了一个测试。
做了两个 vector 和两个 float *, 都长 100000
外循环 6000，里面先做随机数生成，模拟真实环境，避免数据的 cache.

内循环试了4种方法，
1. 直接调用 vector inner_product 247s
2. vector 循环点乘累加 237s
3. float * 循环点乘累加 204s
4. 空循环 100000 次 202s

不做内循环 200s

你昨天说的对，内循环本身占比是很小的，大头在其他处理。
另外可以看到， float * 循环点乘累加并不差，比用vector 还更快。

至于我那个原始程序，还有一些疑问，见5楼，其他都不变仅仅是有无空的内循环就有很大不同，这是不对的，也许有一些其他缺陷我没有看到。（也许可以改成 while 试试）

（为什么下面我贴的 b1 加方括号里的 i , 显示出来却是 b1 ？方括号 i 消失了。 LOL . 改成 jj 好了，原来方括号里的 i 是斜体标志 LOL）

      std::vector < float > vec1(N);) l' ^3 D2 c" F8 T( _8 T, F# A! j
      std::vector < float > vec2(N);
/ U) O- C% L' w8 ]       float* b1 = new float[N];
3 f+ y  J0 g9 x& ^* a       float* b2 = new float[N];
& z5 W- l! A3 V/ ~5 r  z, g) r0 v# c- V% J
      for (int j = 0; j < 6000; j++)
" T3 ?  l0 e5 d8 |" c* L       {
. V% x( @1 l7 A' F  ?             std::generate(vec1.begin(), vec1.end(), []() {  H" m+ u7 G1 P& s6 D& R1 b1 ]% ^
                     return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;2 y! H  J7 t, ?! E2 D+ T1 @
                     });
# n' }2 f* W, }$ }% O, K: M- d4 z# Q, n& y2 K
            std::generate(vec2.begin(), vec2.end(), []() {
( a8 I6 w9 Z0 M, u7 T# {                      return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
6 b  V/ p% J) j3 {) L6 e. L                      });2 ]! K/ Y8 P! t# V

+ M. g! N. {% a# |) j0 ^             for (size_t jj = 0; jj < vec1.size(); jj++)/ z/ h0 x# N4 C& }
            {
) u3 f1 N3 q# s                      b1[jj] = vec1[jj];
$ w2 V7 x9 n+ ?: _             }! ^- u  f- p1 e
" L1 Z% s# \/ W% W
            for (size_t jj = 0; jj < vec2.size(); jj++)' L. l4 W% ~) ]5 g
            {% J- S! L1 C* F% Q- j
                     b2[jj] = vec2[jj];
; W) f. q6 O* j+ ]             }9 g" K1 o8 X3 |5 ]( f6 e) X7 ?$ l

8 I$ ]; `  Q$ A! f             //Method - 1  N=100000 247s  ' x, ]! q) G  s- q; z  W9 Z
            //fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);8 ?' {3 e; U8 a2 N2 ~6 U; \2 H

/ q4 ~7 n$ j3 K* L! e4 g1 o  h) S             //Method - 2  N=100000  237s" _; O" Q6 w+ w3 m" S! V! _
            /*
/ C) }3 \1 l" w% R* t$ R" u             for (int jj = 0; jj < N ; jj++)
9 s9 ~  M8 z' V6 N& L             {& q; f0 n$ A* I, c" w* S# d" U
                     fresult += vec1[jj] * vec2[jj];
) `' ?" i2 S% n) J- Z             }* t; ]; p9 p2 z8 n& t+ h: i
            */
: J. D4 Y% b3 q! F
$ h2 ?! {0 W8 a& Q9 z' I             //Method - 3  N=100000 204s
& p, p/ D/ q; N) b             /*
- {- e; L3 ^2 t' e3 a4 s0 r/ G" W             for (int jj = 0; jj < N; jj++)4 y* ^6 d% b+ Y6 ~5 O
            {
* t5 _3 h8 O2 Q, l5 }9 L6 x, u                      fresult += b1[jj] * b2[jj];
) `( t3 Q6 x3 W$ @5 E! a& W8 G& A; [             }9 ]( @: N/ e$ b; r
            */
, R1 e( _6 X6 X0 b6 h3 u& [2 l5 ~* m) O; |( q1 P
            //Method - 4 202s; I5 e1 n2 g' P- |" G) G! g" o. F
            /*3 f) {" v" K4 [) o
            for (int jj = 0; jj < N; jj++)
& U' T' w" I4 N4 ]             {+ z4 F6 Q: e( L

" _0 i1 Y7 s9 U1 ~( W             }1 e. g; j: x+ X1 H# n
            */0 O% T2 G8 J7 X5 T: P! S
            //comment out all methods, N=100000  202s             8 \3 k" s# u! y# t8 \# ~
      }3 k, z# `1 c9 a: Q# e# x8 V  j

: R; H' X7 D, A$ n& M       delete []b1;5 h# |  U% O" g+ B  b0 C
      delete []b2;

作者: 机器猫 时间: 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同？

你第二个试验里面的j在循环里面又重新定义了啊，你确定真的跑了6000次？

作者: 雷达 时间: 2022-9-27 01:16

机器猫发表于 2022-9-27 00:157 v/ d& N% ]# [# Z+ k
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同？
9 Q* S- q( k% o9 q" j+ g% {8 x. y% Q& y# ^) Z/ S- D
你第二个试验里面的j在循环里面又重新定义 ...

内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累、LOL

不和它较劲了，瞎耽误工夫，我已经转到 ubuntu, 也准备顺便试试 avx2 向量化。

作者: 机器猫 时间: 2022-9-27 02:06

雷达发表于 2022-9-27 01:16
0 m* p- k* Q; s6 v* v内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累、LOL) ^# `% s4 B. L" Q, h. b2 [
% i! c5 G2 z. m) d' O
不和它 ...

不过可以试试我说的register变量。前一个试验j是混在一堆其它变量里一起定义的，很有可能是在stack上，这样内存读写会更多，要是再碰上每次都需要加载cache就更慢了。
后面一个是在循环那里定义的，说不定编译器就把它优化成register变量了

作者: opensrc 时间: 2022-9-27 07:25
一个无关问题，为什么爱坛的帖子里在我这里有好些奇怪的东东在里面，是防拷贝措施吗？

作者: 雷声 时间: 2022-9-27 20:29

雷达发表于 2022-9-24 23:54
0 Z. q' d% ^( D* T& gvoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)$ N- A7 Q7 E4 v: a7 }/ q
{
8 A4 {. m% i' l) \/ H3 V comp temp, xtimesy;

这个code里面如果Openmp没有被注释掉的话，那么temp那个变量应该是定义在循环里面，否则线程之间会存在争夺写入那个temp的风险。
内层for循环如果没有内部操作的话，编译时应该被优化掉了，和你完全注册掉整个循环是一回事。可能你的编译设置没有打开优化？
VS社区版没有问题，我工作用的就是社区版，设置正常的话不会比商业版差。以前游说头头用Intel Compiler，他说不想花钱，而且差不了多少，就一直用到现在。

作者: 雷声 时间: 2022-9-27 20:39

雷达发表于 2022-9-26 01:30
7 ~" U" w. Q; T# J% I/ Q理了理思路，重新做了一个测试。
2 i5 l/ p7 F6 c+ i9 z- {- k0 ?做了两个 vector 和两个 float *, 都长 100000) t0 P* z1 _3 }* t
外循环 6000，里面先做随 ...

这个时间是从哪里开始算的？
我怀疑这个200多秒里面有200秒花在产生随机数上了，真正计算大概只用了2秒，用了vector那个因为有vector的额外开销，多了几十秒。
按照两个10万个数字的相关计算的规模来估计的话，两秒都算很长很长了。这个结果真的很奇怪。

作者: 雷达 时间: 2022-9-27 22:41

雷声发表于 2022-9-27 20:39
4 j6 q& ]' l& t$ V' B6 \这个时间是从哪里开始算的？) @% D1 n2 u( ]/ @0 ?
我怀疑这个200多秒里面有200秒花在产生随机数上了，真正计算大概只用了2秒， ...

我不管它了，回头 linux 下换g++重新编译，顺便加上你们建议的向量化。

作者: 四处张望 时间: 2022-9-28 00:12
你这个循环主要的计算时间是那个rand，这个循环本身占用时间微乎其微。
你的空循环，如果是现在的代码，编译器很可能完全不生成对应代码，因为没有任何输出或者修改变量，所以可以看到时间都是202S。你可以认为啥都不干的时间就是那么多。
与此对应用数组（指针）花了2S
你用vec1[jj]*vec2[jj]理论上不应该差30多秒，这里很可能是你对vector的操作带来了内存操作，你可以试试把初始化挪出循环然后再比较，理论上vector的随机访问和数组应该几乎没什么区别。

作者: opensrc 时间: 2022-9-28 00:29

雷达发表于 2022-9-24 23:54
( [& x7 j1 t% w1 f- hvoid xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
) J# g0 F3 |7 c* `5 V- S{* A5 w, j f( r8 m R
comp temp, xtimesy;

我有些迷糊，这样的code，难道不就应该时间差很多吗？也做了个简单的实验，你看看我做的有错吗

作者: 雷达 时间: 2022-9-28 00:49

opensrc 发表于 2022-9-28 00:293 B3 Z# [: W" Y/ J2 q+ D
我有些迷糊，这样的code，难道不就应该时间差很多吗？也做了个简单的实验，你看看我做的有错吗; w y& V% S2 }5 O( ?
0 l! A8 M- K0 P' Q$ o7 D% f
...

你是对的，是我搞错了。确实没有优化的情况下，空循环如果次数够长本来就应该耗时较大。我搞错的原因是在不自觉得与 octave 比较，而实际上 octave 是优化过的，和是不是空循环没关系，这种不同条件的比较是没意义的。

雷声网友说的也对，空循环应该被编译器优化掉，我的编译器设置有问题。

作者: 雷达 时间: 2022-9-28 00:56
本帖最后由雷达于 2022-9-28 01:09 编辑

是我自己的理解有误，没有优化的情况下，空循环如果次数够长本来就应该耗时较大。
有空时我会试试 SIMD和并行，看看能提高多少。
过去7、8 年没有正经用C++ 写过东西，没有 sense 了

。
谢谢大家的讨论，I learded a lot. 红包已发

欢迎光临爱吱声 (http://129.226.69.186/bbs/)