数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:332 \& w8 n' Y5 A# ?2 W
Maybe Debug mode?
雷达 发表于 2022-9-24 23:541 }0 N! V5 G! ]; }
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{/ ~3 i% E7 {3 j2 u0 a: h$ q9 o4 m
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。7 U; E5 m! V7 O% y( \
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。/ H1 A5 F9 |& j4 M6 |) q2 o" u
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。9 i0 [" ]+ w5 U, w, \; M
8 Z' s/ T* N$ _$ k
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48% f! t4 R$ x% [! X) `( U2 }
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47! V, B: S2 o/ N" Z+ g) r
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];5 U7 \2 a5 e9 ^" T
float* b2 = new float[N];6 Y2 s8 _0 h7 K$ n, h2 Y
k+ Z! v8 k/ [6 D) t' f
for (int j = 0; j < 6000; j++): U, M5 y* K9 N1 k/ [
{# ?, O% X6 b& M3 w) G3 Z4 L! {0 A& x
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {: F/ E2 `2 K6 X: |
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
0 c, [3 N9 z) D2 @6 O o; U
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];
}
3 e ]* B2 A1 f
for (size_t jj = 0; jj < vec2.size(); jj++)* x/ E2 K! a+ I9 r# F# Y. k1 A
{
b2[jj] = vec2[jj];
}
w }5 x1 G& h; v
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);2 F6 I! _) Z J0 m
! Z9 x; q7 v5 a! M: i: I
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}
*/3 o9 d2 F- { a; h# E
% w# J/ r# T3 K0 a- m* W0 e( s- K
//Method - 3 N=100000 204s4 L4 x( I( E" i4 n4 X6 o/ J% @; j
/*
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];
}7 }, h9 H+ X! [' y; i2 ]6 c& y
*/
//Method - 4 202s
/*1 L- M- F4 m. k! P) L/ N
for (int jj = 0; jj < N; jj++)
{3 m% p" C, p* q" c$ X9 f6 \! y
}
*/
//comment out all methods, N=100000 202s
}
$ V% f4 ~8 t0 m
delete []b1;0 h' ^) u) r) [6 ? v
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?9 t! C/ ?. j: G
P1 N2 ]5 I) [ n! g8 ]
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:161 Y& C4 L0 X" f( B3 J' _1 x9 j
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
9 x+ C- t* e6 }( b/ e
不和它 ...

雷达 发表于 2022-9-24 23:54, J6 z- c; g0 v4 |: ^8 S8 j$ I
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{ o e' C; l: X9 Q- @6 t
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。; o4 j @% o3 N- S
做了两个 vector 和 两个 float *, 都长 1000006 j, T l4 v5 _8 w4 S/ Q* V
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39# K U# t0 r6 m& e; _. N
这个时间是从哪里开始算的?; V" J: s: s* [( E0 y! s- x
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54) y; }( F4 j c3 x! E- }/ v9 |
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29' n' X0 h1 f6 N8 F' J3 R/ z/ H
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗 I; J8 ^/ n1 f" Q2 ?
$ ~8 s+ l4 w; y* {& P" a4 _
...
。1 i) J$ Y% k7 ^% K


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |