数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)0 g1 k) ?! ]3 }8 X. u
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:468 R; e; }! P+ ~3 h0 W+ `
有道理。+ _; r6 z3 K/ |1 [+ F; F
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
% g( M& b7 H% g- _4 V
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47% X ^3 j1 z1 l: S) \' Z
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);8 j/ Y' A. ]8 S+ r( i; o' b% l
std::vector < float > vec2(N);
float* b1 = new float[N];4 [; g4 g; |7 ?' S' V& G
float* b2 = new float[N];* P1 K1 O" z. u4 o# W
for (int j = 0; j < 6000; j++)4 d! D3 |! w, C; S
{
std::generate(vec1.begin(), vec1.end(), []() {3 r, ~' l2 D* c# C
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
' O, c& d) M2 R5 E' `! t
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;! q1 x8 s5 Z; R5 u9 w4 c4 U" A3 [. @
});
for (size_t jj = 0; jj < vec1.size(); jj++)9 q) h2 j5 K/ M% d2 _) B) S
{
b1[jj] = vec1[jj];9 r, p. Y @: }- }6 s
}( u/ M# e( i4 l% R1 e- v
! y+ o) f) P, J+ ]
for (size_t jj = 0; jj < vec2.size(); jj++)8 l1 k+ x& }3 N% w: x, J* q
{
b2[jj] = vec2[jj];5 T& b3 |: g: ~3 K, A4 u. {
}
//Method - 1 N=100000 247s ' B' y" c7 J! z5 d& h; c
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}
*/
' c4 ]# a1 ~$ h7 b9 M( m) N
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];
}/ H/ ~- a; y$ x W5 k! r
*/
- u ?# f+ o$ j8 @/ O2 k: P
//Method - 4 202s, o" j1 E, [8 |! D! \1 E2 h8 a" t# N
/*
for (int jj = 0; jj < N; jj++)! h5 m! i" q4 @
{
/ q) A( {: q( P C" j
}. R" ?$ @( r2 r6 p8 X* b
*/
//comment out all methods, N=100000 202s ! r+ T2 B2 t/ T) u; v, P5 H
}* x: S6 C' X3 b
delete []b1;/ [7 w7 v* r4 C% P/ k, r, S
delete []b2;
机器猫 发表于 2022-9-27 00:150 h3 o% l' l7 x Y, ^5 i3 Y6 |9 h
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?& }( H$ B# E3 i4 C8 l" |5 |( T* t% \# b
% ?8 R+ [7 q/ z& L+ E7 B
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:161 z& j/ q7 f4 B6 D
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
雷达 发表于 2022-9-24 23:54- o7 n- N: R* Y* y$ T" i2 y
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 1000002 t" T) q, z3 t! H; ~2 s
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?! n7 J8 ~4 f. E$ ?$ N
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54- F; o2 e. G0 L# g7 w' R7 d
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)% \) M; @- E7 D* O
{6 G2 {' f, K. T+ m
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗* Y6 y; F, k4 S3 s' A: O9 h. k
" ^/ ]! x4 [, O! C ~
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |