数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33) _- J6 l$ e% V( q
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{$ \3 C) L$ m7 s2 G$ T: G0 d. g
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20/ p" b' N! z; H0 P: s
这个不是这么比的吧。。。
. C+ ^- G5 M9 x& f' `% N$ N
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46# T$ i$ O- V9 H3 b. q) A) g
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20, d7 a% @0 c0 T6 o5 |
这个不是这么比的吧。。。, n$ d8 O0 |$ _0 y9 N
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:471 ` E8 P# |+ a! e% y0 s
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58# ~5 U x3 ]" D# \
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];
" n5 w4 ~0 P+ R
for (int j = 0; j < 6000; j++)2 k. A5 P' \- X
{. f5 r C [' ` i1 ]+ x( m. v
std::generate(vec1.begin(), vec1.end(), []() {" \0 p9 m4 U! u+ T
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;0 F) Y2 p: D8 V3 p9 I. L/ D
});4 L4 H3 R. G8 N, V
0 W$ A6 X9 ^* D
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
for (size_t jj = 0; jj < vec1.size(); jj++)* A7 D+ R4 _' o2 Y0 X# b
{! S/ i6 r9 m& @$ E7 T
b1[jj] = vec1[jj];
}
for (size_t jj = 0; jj < vec2.size(); jj++). V; i7 X ]% z1 V
{
b2[jj] = vec2[jj];4 T! t7 ]5 u/ i3 E2 n6 E; J
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);" u5 e+ E e2 T' g+ r L& G2 _
1 h- _7 b4 i1 w y$ f
//Method - 2 N=100000 237s
/*1 D$ B2 i5 `( }1 }5 c
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}4 w* ^. M. j6 V
*/' S% d; Y* G' f: d
//Method - 3 N=100000 204s4 M2 H$ U) w- N% G$ R
/*
for (int jj = 0; jj < N; jj++). S h5 b% P H- O9 @: L
{; u& J6 k0 I6 q8 y: O2 C" K
fresult += b1[jj] * b2[jj];% G3 t, J1 c9 \2 b8 l. E9 C$ E
}! w' [( Z' Y0 g2 r! d
*/+ x( u0 u0 V7 o) u( w
//Method - 4 202s7 A8 [$ ?6 S j, [. p$ u$ y
/*8 G& r0 o, o1 y, S, D9 k; k2 U
for (int jj = 0; jj < N; jj++)
{& n4 b, `$ `' X0 q9 }
}
*/. j' O7 y" T' [/ [' V8 B) \# U z
//comment out all methods, N=100000 202s ( P1 H* Q% Y( m) \( `
}; ~+ e0 {! ^' d
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15# o2 x1 R$ O2 W
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?1 O: ^" [" P- C5 \8 V) a. S
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL0 `" K* v0 Y/ A' z
2 e# H. w: V: I' K4 t6 e
不和它 ...
9 p# P- a, g8 M: G8 \( T0 g% C雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)6 M, G) y \! L8 I# X9 s
{* _4 _7 Z, Y) w) M7 q/ a$ }
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30/ w! {1 j& e0 }& N
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的? Z- C) e5 {7 h* X& o/ S b
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54) e" e* Q+ I' ?2 R A% f
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29/ H* w5 ]9 W! q8 M$ w
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。3 T0 m) O, }- u! m6 ?! r

% l* P* U$ t( f, H6 |" l" H' ^| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |