数值分析 发表于 2022-9-24 23:04+ }6 O. x" w1 p! I$ T: [, A
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33( e' c- J) {& Y& w. r1 n
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{1 O& i; F0 d% G6 s, q5 O' b& b6 }
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。; \ M/ d# B$ i3 h
- B* h( h( y% L4 Y
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:463 W; O3 k9 t3 v4 ]* U! g/ O' S
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
+ V* l9 P6 ?& r, |
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48/ a% n+ Y/ z5 J/ e7 i3 v3 F+ Q* u+ t2 `; \
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:478 z M5 h% q: T% f) h4 M: o+ D* k
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:580 E8 M" c! `/ ?$ f3 F2 S- ~
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);5 u* s( |1 d2 @' z5 ^0 L5 x0 i
std::vector < float > vec2(N);+ q) Y4 Y( I) }& W }1 ?' P
float* b1 = new float[N];
float* b2 = new float[N];5 x, q- t$ V' S# K
7 l& J4 ^3 w# {, {8 B' F' P9 k4 f
for (int j = 0; j < 6000; j++): h* O! M. E5 ~; V& O% \) I
{- ]* n& Z+ M( `- e) V4 k
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;, j" C9 q- c% j! L Y: ], a+ K% d
});
5 C6 J- _0 A/ k8 x* G% |
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;5 P! W: D: B, E2 N& [
});
9 B3 d2 @: d: ^0 p" V# N& @: v4 L$ P4 Z
for (size_t jj = 0; jj < vec1.size(); jj++)' |& `) y. h" l* ^3 W& I
{
b1[jj] = vec1[jj];6 e- r9 E* w* q: D
}
6 w" e2 T' x5 j9 w! ~
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}. f5 Q- a) v. K; J, }+ y: S
//Method - 1 N=100000 247s + z0 r# h$ x- O0 C$ U8 F! e
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);. G+ L9 V' g. ?! w
( P6 W( U7 l4 w* n( n
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];' m% Z# Q$ T& y. q! }% S3 h
}
*/
* |( t7 v* c( B
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{5 o" H; a6 \ h) D- \ W
fresult += b1[jj] * b2[jj];
}
*/7 X0 V7 W# d+ v- N' O: K6 p* {! s
//Method - 4 202s" W, k, @& w% s$ {9 t: I
/*
for (int jj = 0; jj < N; jj++)
{
}
*/1 s% t( j2 Y3 G) H
//comment out all methods, N=100000 202s ( b# Z5 h9 r O- O
}8 ]5 Z* i, f1 Y5 _. b
3 m9 F' A1 s/ `2 W
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:150 y- _2 c! b8 m6 T% n( l
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?3 J3 Q* W. t- M
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16( @5 Z7 `9 w6 M8 s
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL( k7 f7 f1 v2 _5 y# J; ?
g, }* `% C9 z6 G* J" d) z1 o
不和它 ...
* d8 b- |: H; p4 ~雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{. Q8 S7 h# U. T* k. S c
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30' ]1 }8 R% S: w: ~) r/ M/ n
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000$ j; o9 M' C4 B% u( F
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39( i Y0 x3 F: E
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54/ X: _" t& [' ~1 _
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) j0 |# C: @8 ^; W- p+ ~- m+ e- G
{8 N6 G/ ]8 Z( p: k, ~
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29' ~" f! P3 W/ V7 x. v( X7 u' e
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
1 O- `. m0 V! l
...
。+ m2 N- v! f4 R/ C3 M

1 f% I8 k' i; m Z* S# Z| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |