数值分析 发表于 2022-9-24 23:04/ Q g$ V5 n, R4 N
拉下来?拉多少?9 H' u' k R) e$ Y
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54" \8 O; X/ @: Q" Q7 s0 a8 z! J
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)9 l" R K4 V/ ^. g0 i7 J7 ?- J
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。7 k* v- H3 R. L- x0 P4 `5 _9 H
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:208 ~0 G( K7 D4 G5 @ O0 t
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48' q7 r2 j$ u$ @- I2 g
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N); J- C0 H6 k8 _9 f. r( R1 i8 t
std::vector < float > vec2(N);* B: O* k5 E/ k8 S
float* b1 = new float[N];' f- B4 `, g; g0 N
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{& E, n5 J$ p" } e H* p# J- @
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;) V- G0 y# m) k6 w; B z
});$ S2 z+ a* n& [# [5 R* b) Q9 ~
for (size_t jj = 0; jj < vec1.size(); jj++)! ~7 W1 a, S) K M J5 D" }
{
b1[jj] = vec1[jj];
}
; n8 O1 T: B7 a1 e* A1 ^) I S
for (size_t jj = 0; jj < vec2.size(); jj++)1 h* t1 [! t, Y5 J8 A+ ^; _
{
b2[jj] = vec2[jj];+ V' |) i9 V2 y0 h' e }
}
- k- A/ z: w2 O& c# n0 p
//Method - 1 N=100000 247s : X3 `. j* g$ p# G
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s5 q( o3 P) j) g) w: ^
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];0 Y% O4 b) T, k# o5 t; _6 T
}
*/
4 `, r: q; V' F! L( N+ K
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)$ R. k, V2 o h1 U! Y* s1 p
{# }5 A2 g u& _+ k6 I
fresult += b1[jj] * b2[jj];- S4 I% v3 @$ y* |/ U" g
}# [# @" M, ~2 H$ f) f' W8 F8 B5 n( {
*/' z; |4 |9 n! g1 I
& p- h: G. H' e; `# F( @. m
//Method - 4 202s
/* {, x. h. K& i
for (int jj = 0; jj < N; jj++)9 B" E# B$ d0 Z! [1 K: ]
{
}
*/* Z3 d. e- U- s4 X) F5 H
//comment out all methods, N=100000 202s 7 k* B& O% h, T, N
}
$ p, A! m1 a: j4 J
delete []b1;6 x% C; \' Q% ~8 A2 u( F& J; l
delete []b2;
机器猫 发表于 2022-9-27 00:15! q% i5 b$ ]& Y* j) w! d3 }
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:160 H; R. o) j( d2 d6 h q: |
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
4 d2 G0 {0 \& g+ N4 |雷达 发表于 2022-9-24 23:544 D# x! q e7 g" {: |1 r
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30/ E/ L: N8 D5 Y J$ s: {
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 1000003 O( V n' \7 J5 F0 l( d
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?" u. V) U$ v+ K2 c
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54! p* x8 R" T- k9 U
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)1 b0 q/ ]* d( s+ Q4 t
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。( }: {* q3 H0 Z" }

) M# N# X3 }" `| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |