数值分析 发表于 2022-9-24 23:04" \( I. w$ y; }! T: k; l0 ?
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54+ g) ^9 |3 \6 |8 ~0 \ A) Y! X
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)3 l6 \. m! i3 W( A& u% F) S, h; h# ]
{ ~. S+ `" E. W7 ]+ h5 d6 a$ T
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:208 l/ ~: n, v9 L$ {+ F$ Y
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:467 ?5 q( g; i) K" h
有道理。" J c* y T- O
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
% f# i8 P8 p" F2 P$ P' B
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:486 ^/ G9 Q" I3 l% j: K
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);, y( N2 x/ Z8 O! c+ U8 z- f
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{7 H' l, Y# B- z
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
8 n2 b' Y, a8 V! j m( m
std::generate(vec2.begin(), vec2.end(), []() {' c4 }4 M# G$ g- H; G
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));; _8 \+ k+ R; Y [; M p
});' z3 f3 C5 I0 }4 j6 h
2 g$ g2 \! ]: J+ i# d1 C
for (size_t jj = 0; jj < vec1.size(); jj++)! q- ~. T1 x* y
{7 \* |) Z3 Q) }9 x" I3 I
b1[jj] = vec1[jj];+ X) q$ T8 `+ y; J' Y
}
( I/ F: z r! J* T' b9 Z' u* x, d
for (size_t jj = 0; jj < vec2.size(); jj++)1 j- j G9 Y' D+ X" t/ ~
{' o8 ?1 f4 Z0 ~5 H7 i4 }0 h2 k( C* C
b2[jj] = vec2[jj];+ @! V5 ]/ H- h- k. J% a
}4 ?7 D5 d+ A2 A& k" J9 J! y9 i
//Method - 1 N=100000 247s % G+ N$ f$ X. u9 U9 o2 t
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)3 O6 B& k+ I' I- f7 t R8 _
{, \, ^; |, ]0 u) k8 t! l
fresult += vec1[jj] * vec2[jj];
}
*/
//Method - 3 N=100000 204s0 Y& c7 y5 ^) o7 n- p2 @: z
/*- L( z( T0 n5 [
for (int jj = 0; jj < N; jj++)- ^+ d' p8 |* x' u8 J F2 U
{
fresult += b1[jj] * b2[jj];9 J: u2 B! i0 \/ J. _) N, B$ ~, \
}
*/
( W+ I2 c+ a6 G7 t) _2 T* Z+ ]6 H
//Method - 4 202s# Y Q1 Z. @! e8 t0 @
/*
for (int jj = 0; jj < N; jj++)3 q( k# d( o$ g2 g3 S2 a& P
{
}+ o/ C q6 P" K7 [" p* O) @0 A
*/
//comment out all methods, N=100000 202s 5 P c# e% a5 z" ^! U2 i
}
1 v0 u; V8 }' [( o" ?
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15+ V7 N$ U W: i/ d0 F6 @- c" k; W4 U
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?( t' a2 R4 t$ M
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:161 k( ~; j5 _5 G6 I; B9 k1 ]6 M- ]9 |
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
3 d: A( x- }" [3 Y1 S2 J# r
不和它 ...

雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)# h" n/ |! D2 N$ G
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000/ \" a d" A: m$ E0 o% n9 y2 \
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39, O1 |8 y+ k5 k0 \% X4 ]
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54& `! p) R+ e$ i8 d$ _$ r2 g% h% [
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)+ \. G- Y* H' S. n( i Q
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29: L, e) n4 n: v9 y7 F3 x9 m
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
' t5 L' z; g5 ~. F
...
。

: ~ P' F$ x) i0 M& F| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |