数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?: g. c) Y# Q& ]
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) G% o, P$ u- k4 D
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46! ~+ ^+ | @0 m
有道理。( L" C6 X+ B9 B6 X5 i
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
5 }- O* a: d4 [2 n) i5 I' }( F
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48; a' K) w; A. p
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:470 M# {2 f1 w% c1 R
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:476 E9 k9 Z: c r) h
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);+ K5 E) E+ J$ s* r% ^1 k
float* b1 = new float[N];
float* b2 = new float[N];
' @ A) Y+ M) j8 r! ]& [' X L. {
for (int j = 0; j < 6000; j++)
{) M/ _( h7 m- _
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
1 z' n# ~# E2 R8 d
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});% x9 I0 K) }+ |8 u( N& S
X3 l7 W3 u( k5 f
for (size_t jj = 0; jj < vec1.size(); jj++), S% E* O- ?5 c4 \( O) q4 D
{+ o0 \& X% i% ^2 R% ^
b1[jj] = vec1[jj];2 w$ e8 @, ~3 Z* K7 t+ ?+ l3 i' m
}
$ ]: U/ X! U' _8 O
for (size_t jj = 0; jj < vec2.size(); jj++)' i* p. H" f- b
{
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
# C, E: F A5 D) k
//Method - 2 N=100000 237s! U; ]5 O& \ V9 W1 t- Q0 {
/*
for (int jj = 0; jj < N ; jj++), I; F# w% H: C% A5 @6 f
{* r$ O9 l% B: X
fresult += vec1[jj] * vec2[jj];* `7 W# o: Q: X6 y
}! s- A }- g- u% y. s
*/ a# _) x1 g" P9 U- g" U2 L+ L, v T
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)/ s! M2 W7 e( S8 ~. _4 a
{/ \2 @6 {. i' k& x
fresult += b1[jj] * b2[jj];
}" U8 h: E L! g) i
*/
0 B% k" j6 o& @# T
//Method - 4 202s& U B$ E' b: s9 D( f' q
/*
for (int jj = 0; jj < N; jj++)# J$ Q+ U% G" X% p
{% \4 \4 e; Z- C/ B3 G$ a
" A" y; Q2 R; L4 L
}
*/- U5 f1 v" [. \ e
//comment out all methods, N=100000 202s # S0 J/ J( v' J: |' N6 X5 F
}6 }: W# p) i' P: u& k: }) u. w. g
" y4 `1 }9 O$ A, e6 W
delete []b1;( m6 |7 o. D, ]( [
delete []b2;
机器猫 发表于 2022-9-27 00:158 ^# y" D, y$ |' ?
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:160 S' M1 ?& }( F V
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL. o" G4 O. _6 w4 c/ [5 y8 f
. Q/ P# g& Z0 ?: R k6 s; V& V
不和它 ...

雷达 发表于 2022-9-24 23:54& ]8 q6 J# E3 O N1 T$ t0 v' f
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。4 H j' W- D, w' K: J5 G
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39# h+ g& A: N4 A) E
这个时间是从哪里开始算的?6 t6 e5 r0 ]8 T- a& r `3 ?; J
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB) V( j3 Y+ Z! h0 x8 x' h7 o5 e5 p @
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29" l/ `( a* z( c. w; a8 ?
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |