数值分析 发表于 2022-9-24 23:04" a3 H6 e' u, c0 ^& B& r/ R
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33; C$ Q6 ]( U9 c6 D
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)& E+ F! Z5 ^ A. _# O: N
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20+ M7 u* c: h) l" Y& z) [
这个不是这么比的吧。。。
- @( j) R- g+ `1 j7 E/ T+ {. p
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。8 r2 Q+ O l, u6 F5 _" Q
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:201 V$ U& i' b1 f, U0 |
这个不是这么比的吧。。。
2 Z2 j( y. G- |% z; b
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);' m/ ?( [& Q8 Q8 E2 p
std::vector < float > vec2(N);
float* b1 = new float[N];: g- t" e7 s6 o* A! w
float* b2 = new float[N];: H: O5 k8 d8 a; L/ {' S8 L
for (int j = 0; j < 6000; j++)
{. w, y( y7 G8 K; ^5 g5 Z' J m5 W( t
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;* k7 x: {3 t! x# R9 }* k/ Z
});0 F& L5 ]3 A$ j! P7 ?- }" V
for (size_t jj = 0; jj < vec1.size(); jj++)
{! C* G- Y: o9 j3 r8 o3 ~/ ]; N
b1[jj] = vec1[jj];
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{+ @: r! O( s7 L* P" Z
b2[jj] = vec2[jj];, H/ d8 E/ j! k. t0 w
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);+ ~! }1 J( r8 e% f8 U4 a
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++) h5 {1 F2 @: b- c5 p$ p
{
fresult += vec1[jj] * vec2[jj];
}
*/' f ^0 M5 [$ F4 w0 _0 p" h5 n
. M3 O3 T I& `1 S) n% g
//Method - 3 N=100000 204s7 H: i" l/ ^( L+ g( l9 o
/*3 P0 ]7 X. y Q: G
for (int jj = 0; jj < N; jj++)
{! M5 r& _; c. A) q2 O& P# G$ `! I. h
fresult += b1[jj] * b2[jj];
}) a9 e, ^/ o$ O
*/
8 C( A6 [4 b9 s/ `8 Z
//Method - 4 202s5 Q' ?: x: g# K0 z- n- ~1 ?0 q# ~
/*
for (int jj = 0; jj < N; jj++)
{/ j& v# j. |4 E5 p) f$ _/ o7 F1 k
& d' Y3 o2 G# s! {
}
*/
//comment out all methods, N=100000 202s
}) q/ E. [2 g8 h# @6 t, o( H
delete []b1;+ p8 I, i9 p, t. g! }8 U4 |
delete []b2;
机器猫 发表于 2022-9-27 00:15- V! P7 r. b$ x2 u) E" h, f
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
* q+ p+ y# _) b: f: `
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL" A( D H Q( K9 L7 Q+ p1 v
6 q6 X% H+ f. I4 k
不和它 ...
# x1 X7 m: s: s, [2 F/ S雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000) o8 R; R0 b9 W3 ?9 j4 P
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39% V; k: X: V% H+ N/ X1 o+ E
这个时间是从哪里开始算的?1 j, F# G0 e" Q! Z- v1 g* }
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:546 m) _* U; l" X2 e
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{( C G) m7 @3 y7 K" T7 ?
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29+ e( I. ~* J$ `
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
; v/ z6 s7 r4 n8 f% S1 K5 s9 `% K
...
。


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |