数值分析 发表于 2022-9-24 23:048 ?. p+ N( W# i' @, m4 U* {
拉下来?拉多少?( }* K( Q# d: Q( j
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33' b5 e. L6 d. |2 C! r
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20: }% w& |1 ^; l) K3 C& g0 |
这个不是这么比的吧。。。; _$ A& f" d2 E
% x/ P9 v" ]- W; m) J. m( C
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:463 O0 _0 T2 o l4 ^0 g8 ?
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。: Y z6 ]/ c8 A8 o: g& T4 ~
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48! V4 h7 p- E# l' S8 j
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);5 P7 K# t9 ?3 i. g9 ?; ~+ g
float* b1 = new float[N];) I1 ^1 r. Y8 p0 H3 e
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)* d. f, A. z1 }( _
{2 r2 w2 K; ]: t) v
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {( {5 A% Z. ~: \/ g
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;8 N8 ^4 D: N2 \1 R4 h# h ]
});. p/ Y5 j' a G+ z
1 b0 F9 s6 H7 \- k: o: I& W- C% x
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];; A/ F# U( g3 [; ^ E# a% O! B
}" P" A B% X& M0 p8 A9 h
4 i8 b, ~0 t( W" ~& y. W+ G
for (size_t jj = 0; jj < vec2.size(); jj++)- g; a1 A) P6 i+ D, e# A
{
b2[jj] = vec2[jj];" d! r6 I3 d8 r+ O
}$ L0 [1 z% c% ?- B9 G0 r
6 F. s; ~) `6 j7 a" r
//Method - 1 N=100000 247s . O% N& U2 `, |1 V2 _. H
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);. m' }( V* p" f$ r. E; u
1 g+ R2 Q0 J; {5 ~5 t
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];3 ]6 ~, w5 L' ?% [! i3 _! T
}
*/
//Method - 3 N=100000 204s
/*& R& D$ K f" \* r9 i
for (int jj = 0; jj < N; jj++)# u+ }; X2 {. e1 l: _- e& q2 _
{
fresult += b1[jj] * b2[jj];9 J* k6 r- R" d; s
}+ O/ a0 }7 H; \+ z
*/5 i" j2 V, l/ f7 D% ~' [9 c9 l5 q
& _9 u, K% a G: r' `
//Method - 4 202s# r& u! }1 \' d. i' Y) K
/*
for (int jj = 0; jj < N; jj++)
{
}# w7 w$ b( G4 B4 s: ^
*/4 H0 ]3 F! ]9 y5 B# ^
//comment out all methods, N=100000 202s
}
delete []b1;0 Q1 @6 O7 k$ R9 \' t* B
delete []b2;
机器猫 发表于 2022-9-27 00:15" Q1 T; l" |- @! E6 G3 H3 Y
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?4 {; t' t5 w3 h# q
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16 L& G5 |2 ?" D1 e( \3 w/ y
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL5 d+ E, Y1 U5 ~+ I( P1 k. e
" ]1 G+ J' H7 {. N
不和它 ...

雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。$ |4 T+ M' g9 g. y( r
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?3 v# }6 ?0 q# U5 u6 Y
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{+ Y6 T" h) U' I/ _+ b( S
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:297 R- Z" J+ c/ ]) b2 D$ T
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
6 P. S4 \; w( ~0 Y8 K
...
。

1 Y: z: @9 y/ @8 O) }| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |