数值分析 发表于 2022-9-24 23:04 J+ b7 A" _% ?5 s5 r+ T
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{; x9 }* k6 U: f
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:204 b5 l: e2 w2 A9 F6 M
这个不是这么比的吧。。。6 y& v/ w* C9 Z' E
5 ^' T7 J6 e: i4 z1 |2 x
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。. I2 j0 K2 T% h; o2 I
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20! g, G$ C8 k9 l* m; v/ @) O. h& V
这个不是这么比的吧。。。 V! M i' X! H3 G& L3 a3 J
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47' F, _5 ^3 M: H+ p: B& v
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);) d3 H2 c! y9 n- h" Q4 |
std::vector < float > vec2(N);. T+ d `" @! t3 B: V
float* b1 = new float[N];
float* b2 = new float[N];- T& o5 M6 l i/ p6 {" a
, [) O' R$ f9 T' W& B
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {$ { F( z4 [! ^) n! Y- Y: w( _
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;3 H) m. W8 e y$ }
});4 b ^4 M. |2 c7 K+ }: u8 M0 y* Y
' P4 J2 e' t" [" O4 L% e( ^: u
std::generate(vec2.begin(), vec2.end(), []() {/ k' q4 R% p$ F+ f. |0 {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});& C. E* B4 i- Q
6 i( N3 ^' f0 _1 ]
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];- p# l' |6 n0 A; b) B' J0 x
}- f$ X8 a) h% _6 ^
: ^6 Y9 w' p$ C% B3 Q
//Method - 1 N=100000 247s 6 ^2 f5 H8 c+ E' s, A9 [1 |
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s, L3 z3 B5 w1 c8 n- G$ j* D0 U
/*4 ^* ^ [2 J+ Z/ S
for (int jj = 0; jj < N ; jj++): k F5 t6 p$ w" Q1 ~
{) S" a9 Q; |* \7 P
fresult += vec1[jj] * vec2[jj];) V% S' X) W2 o4 W
}
*/
//Method - 3 N=100000 204s2 Y, B2 |8 A$ ~ I6 r2 D
/*
for (int jj = 0; jj < N; jj++)/ n# o% D: m) R9 h; {) y8 _& `
{
fresult += b1[jj] * b2[jj];9 L( `- m# S9 q7 G
}/ {+ b4 Q8 K( n8 u! L. O
*/% \: {4 r+ k S9 i0 V* O
- u2 p$ ^3 A* J
//Method - 4 202s
/*; m# T6 a6 b: d9 j+ `* i
for (int jj = 0; jj < N; jj++)
{' F: ~1 U4 @0 N" d, [6 P% a
0 ~% m: S6 c# ?3 ~* u5 F; o4 a! Q' _
}
*/
//comment out all methods, N=100000 202s
}& w: E0 n" o" ?% z, V
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15( R& I6 H( n; q$ c) x4 d4 \/ ?, p
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?( J6 f+ H3 D+ H
+ A% l2 j. J6 X
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
! O8 W3 @# E' N; q; z6 c& O
不和它 ...
雷达 发表于 2022-9-24 23:540 }. Q8 T5 ^9 A4 [4 g) N" g( c
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{7 d3 t+ A7 _% y. _8 K- J
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:305 C; z0 f& L } ]1 ?+ k, W
理了理思路,重新做了一个测试。. c; E4 m% A+ m7 H$ Z
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:392 r# d; ?# ]) ]. p8 ~
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:546 W8 }! W, D" n' \+ Q7 ]6 @6 l- t$ U
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{3 a( K, A) ]. g/ q: F6 }
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29- C, b0 N# H! \* P! s6 F
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗; c' ^5 I9 ^3 n G
& x; P; L) T9 Q+ k0 j% u
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |