数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:337 r( b% l! N! V
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)( ^7 Y, p! m( {
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20% P5 u! n; f" i# T( }) Z
这个不是这么比的吧。。。" L- q+ h" H R, I1 |1 f! ]" P
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46; k3 T& p& ]7 r' T, l
有道理。! c) @' u H7 R$ z% J
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:209 B8 i2 w! B2 P& w8 p+ v
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48 m0 c$ X. l& M
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:276 ~, U$ j5 w' N; D, h
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47* d- T5 G! I4 F
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:588 I# Z" |! X, I* ^" T. G
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);2 a$ y2 M' W" p+ y% [( N
float* b1 = new float[N];
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)2 J$ {! [- Z4 w; A9 O6 p
{4 F4 [' q) @0 y: D
std::generate(vec1.begin(), vec1.end(), []() {9 l: w; ]7 k5 c4 _1 n- }6 D3 _
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;7 g& ^* t+ B5 I6 n6 c g
});
: f2 ~& e7 V) _& b5 V9 u. {% b
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});, j2 W; r& `8 z: ?$ M! a! U' J9 ^( F6 Z. @
: d: W t' l; c4 y7 t9 }
for (size_t jj = 0; jj < vec1.size(); jj++)$ t l: U; O0 \# l: W9 K V
{
b1[jj] = vec1[jj];
}
$ Z+ o" d# A* M
for (size_t jj = 0; jj < vec2.size(); jj++)
{, n) c \8 c& [: C* ]- Z
b2[jj] = vec2[jj];
}
/ @% _0 z' K. F2 J0 ?- W5 i
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);( S% i- o1 C6 d0 T/ I8 X( M
: t: ]+ Y" X/ r! i" A9 M. R4 p
//Method - 2 N=100000 237s) G9 I1 Q5 S, s, h! X1 B
/*+ c! q# @& `# p% F
for (int jj = 0; jj < N ; jj++)1 `' j/ O2 S( H7 o8 J- }' X
{
fresult += vec1[jj] * vec2[jj];
}$ |8 y" o, S5 B* R
*/' m- O+ v& Y5 C( x" D I
//Method - 3 N=100000 204s0 j2 m; E* T8 f( o9 ~9 t
/*: P1 S1 D! {. F7 D$ A
for (int jj = 0; jj < N; jj++)
{: E+ U, n8 z% Q. b( y
fresult += b1[jj] * b2[jj];
}
*/! M/ Q- m; m2 M% t
8 F1 K9 C2 U, N- g1 _6 h) s
//Method - 4 202s
/*/ w0 i# k' E, p1 C% E; L
for (int jj = 0; jj < N; jj++)
{
}7 a: z" |" Y6 o/ y+ Y
*/% |. q! O5 P& H ~& i
//comment out all methods, N=100000 202s
}8 u. o, Q& N' M" E8 L% {, H) e
# Q: B- X6 D* [0 `
delete []b1;1 b* q2 E5 s5 |
delete []b2;
机器猫 发表于 2022-9-27 00:15) c. L' \% g; S6 ~( U7 c
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?. X5 J/ k/ Q# E$ R7 }% F$ C
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16) l+ I7 E* U8 m1 v$ O
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL6 T% s+ X: K* \ ?
* c) G7 t% q( Y7 p; b
不和它 ...
% a& o0 }6 o9 u, A雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30# L+ ^, c2 t# F1 z
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000- K; h! M8 L) ?; e- H. e5 \
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?! q, F- ?# |* N3 K: T) |: w
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54, t8 c% x# S5 _% N+ z# r, K
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)1 A& Y# g6 z! Y1 R/ W0 m8 }4 o
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
1 o$ ]/ o- w0 `3 \% k) K* e
...
。

9 W9 a8 R+ s/ |, [ e| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |