数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:547 N$ E- @) x1 X
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)" J6 a' p1 ~ I/ `; U
{1 L0 p. @% \) b1 z5 x& ~
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。. y4 i6 z6 C& K c
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。 K2 _- m' j* ?0 u4 Z& w. \, K
+ {# T) J" t# n! v& e2 }( N
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48' Y" }7 n U0 ^3 H- s6 Q/ |
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27/ r3 L# `3 l. K8 B
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];" D# ?7 G7 D# U
float* b2 = new float[N];
* E$ s# Q8 l- R, R
for (int j = 0; j < 6000; j++)6 T, e; l ]6 w. t5 v* e
{* M8 Q- w9 s1 j/ h
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;3 F. f2 Q! V; h) ~3 M
});
2 B+ v4 @. }1 [. s0 K/ }9 ]* n
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;( I0 o- J/ D# _" ], r. W
});& t [. A- x' t9 n( t' H
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];7 z- Y$ j7 q# c( T _& Y
}
for (size_t jj = 0; jj < vec2.size(); jj++)7 j5 U& K+ \/ h$ o1 F3 U8 g
{4 h' f {1 p0 g% D$ s! w2 n
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s/ O1 {/ Y( ]* d% T1 f
/*
for (int jj = 0; jj < N ; jj++)0 `8 u! v2 k6 t. c
{
fresult += vec1[jj] * vec2[jj];5 L3 i. V* f7 D) Q" S9 o4 u {
}7 @( d7 t# @5 B s
*/
//Method - 3 N=100000 204s# f7 [: }3 [& K, P7 ~% ?
/*
for (int jj = 0; jj < N; jj++)" E, T: ?7 `+ e
{
fresult += b1[jj] * b2[jj];1 P% K; m* o6 ? L. B6 b
}
*/' k4 E3 `! W) W0 }
7 S3 {1 S5 Q' y* D( S
//Method - 4 202s. D3 O4 q7 {4 `( ~4 \9 N9 T6 K
/*
for (int jj = 0; jj < N; jj++)& s# \3 \/ a# s K. G# {
{" V) z( G- [4 r, J3 w
: e9 H9 h- O/ k( H; Y* L+ O, y4 O
}
*/. Z, J: d$ F" d
//comment out all methods, N=100000 202s
}
delete []b1;- S; V- O' P& ^4 H, n! p6 h P
delete []b2;
机器猫 发表于 2022-9-27 00:159 {+ d x! V- t) P9 |
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同? U: p, A! L& F' O* D
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16# K% t( Z) G& v2 l% a# d- C: f
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
1 S. i+ k! _5 H$ q+ m9 g雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)5 p$ o9 Z; O" Q7 k
{$ M$ @3 b4 E) a' Y; `% {
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30" O* l, O& U& N* I: G& O, t
理了理思路,重新做了一个测试。( r" J# w1 S$ X
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39! b6 E7 J* f. g1 z! g. p
这个时间是从哪里开始算的?1 ^2 V) g$ P0 n3 l' I6 G2 S" B$ M- m7 [
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29, j4 @, R. F2 P; N: H% O
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗; G5 S a D1 p0 F" a
* M/ D1 F* \9 C4 d" h
...
。" q6 D9 f5 Q# D


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |