数值分析 发表于 2022-9-24 23:049 K7 t+ n9 ~2 ]# ]
拉下来?拉多少? v& a6 z, h% ~- z
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54; ~4 C9 a* j1 C Z y, X
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)4 q. i$ T2 L6 n- X' o
{) r! r" h; `5 }: D8 a
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
) O% q' B) x$ } d( `/ r6 V/ W
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。& E. T) ?4 a' @* K6 T" q# g
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20' g* P: ^# a# V4 ] @9 [
这个不是这么比的吧。。。$ p1 o u6 p2 D$ c) E
* ]: r3 e8 r6 t# \* h2 {
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48: ~, m% ~+ d" ` A- h# }( a9 W
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:272 B7 m R2 j# R8 l V+ T" _# l" S- p
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58, L9 `1 V! g1 d% o( L8 e6 Y
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N); {* G& \. Q/ N) N! V) h
std::vector < float > vec2(N);
float* b1 = new float[N];& V- |& S- S) C* }/ @3 z
float* b2 = new float[N];
6 C7 X$ K1 c9 C6 X* ^2 D5 u; |
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {; a9 Z8 ^+ R. g; R X# e. [" ]8 o
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;: b1 a4 {# d4 h8 V- D# K K0 X3 k
});
: ]$ t. l( C& F" t8 c& V: V) @! E
std::generate(vec2.begin(), vec2.end(), []() {; R; X9 w- O4 }3 ~: a
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;2 \2 X8 u7 u I. x: `
});
* f# `4 T% u6 b- L6 j
for (size_t jj = 0; jj < vec1.size(); jj++)
{: l t6 ^+ O5 m0 H6 v% j
b1[jj] = vec1[jj];7 c& q# a& }6 y: m; U& @0 z
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{) z. K+ V2 P1 m# ^/ R
b2[jj] = vec2[jj];4 P% ?6 b7 j8 w: I' i
}; N7 }3 Q5 g1 b
//Method - 1 N=100000 247s " E$ D- c# i/ \2 P. O7 b
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0); `+ S- R2 z' x4 j
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)% i; y3 e2 ^* @
{% L! `! D0 q& B7 R
fresult += vec1[jj] * vec2[jj];
}
*/) H5 X1 } w8 b2 _' I4 E
3 ` f4 Q7 \9 v( ~/ _8 Y" X! H
//Method - 3 N=100000 204s @6 Y9 o, N% N
/** r3 d# O W1 R
for (int jj = 0; jj < N; jj++)
{7 O0 m2 X& Z2 t2 N1 [
fresult += b1[jj] * b2[jj];
}
*/
//Method - 4 202s$ v# v6 x& O* J" N7 Y
/*
for (int jj = 0; jj < N; jj++)
{
}+ }7 }- ^1 i: z6 z) G4 G$ _
*/; s0 j1 r' G. B! T1 y. W* N( G
//comment out all methods, N=100000 202s 5 c% h& N+ l) y2 d5 e V) K- E
}+ Y: ]. P6 {1 p1 K8 \; D) z2 W! u2 y
$ n9 K& D- P9 [* }1 k/ W
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15 S( u0 g) E) G5 \7 o$ W- U
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?7 R$ [6 M# d) a1 T
2 ~ u# [' a( C4 D" F
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL9 |$ B2 b5 O K3 W1 N( t; X
不和它 ...
5 M) T1 ^' J# J! v2 `9 P2 Y' C& t8 o雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。0 x5 k S- \/ W+ s! U4 R; _
做了两个 vector 和 两个 float *, 都长 100000% f. u1 I( C0 m4 r' l% t. r
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?3 R; S" {7 r# W$ R
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54( }$ ]2 i" L4 g7 L9 V
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)8 n% |& m; V: R& Y- H1 ?
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29# c( Z6 [8 }4 @3 U/ n* {
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗/ W4 y! c9 W& J0 b3 i
...
。


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |