数值分析 发表于 2022-9-24 23:04! V/ i2 P* B2 {$ n8 |
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:205 t7 ~3 t/ G/ Z: p- e. J
这个不是这么比的吧。。。% P5 n: b* V2 ~2 U4 ?
$ i5 G9 U, z, m
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20) e1 D J+ o1 l, _
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:480 L2 z r2 Q8 n [( h
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47! ?% o1 ^ m- p7 ^! e9 ]! D
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47# y O7 C3 K: R+ w1 ^6 T4 c
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];6 m4 v1 ^6 x; j4 G! ?
for (int j = 0; j < 6000; j++)
{2 @( B# X3 z7 \
std::generate(vec1.begin(), vec1.end(), []() {4 R0 j2 @+ D8 W: ]
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;8 `. _6 C& b% w) Y
});1 @% J A, X7 P; J9 |; ]' S0 N- S) a/ N
+ R: _# g+ H6 x3 i% @
std::generate(vec2.begin(), vec2.end(), []() {2 ^+ L$ M& i( O# O5 w* N3 Y
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
& w7 P+ W) j9 P3 J1 K5 ]2 f
for (size_t jj = 0; jj < vec1.size(); jj++)& G8 z4 x) r, y" n4 f$ s$ `" `- F
{
b1[jj] = vec1[jj];3 \* _ v7 z& V8 ]. J. e1 D
}
+ X; O1 r [- `$ G: F
for (size_t jj = 0; jj < vec2.size(); jj++)% N4 n9 z8 V2 ]
{) w/ }% ]- @" ~" G [. N& e2 w
b2[jj] = vec2[jj];5 _) B6 m3 J7 Y) e1 p+ c. |1 D
}
$ m: `" y" r# B/ F2 `; g
//Method - 1 N=100000 247s 9 b! n3 Y. n- U5 y- y* v
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);" f& G; o$ s# L7 s k
//Method - 2 N=100000 237s
/*& K. C8 \' u- t/ [
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];' C& B0 ? [$ b+ X3 z! l+ X
}
*/* L& S: u& K( X6 K8 S
/ H5 `- N+ x5 r1 {3 C; Y
//Method - 3 N=100000 204s
/*: s9 i$ b7 n: G; @# P) p
for (int jj = 0; jj < N; jj++) d/ z; r2 z0 t8 k
{ T" Z; b+ C* p% N* `- X
fresult += b1[jj] * b2[jj];
}
*/& k, L1 w/ Q; q8 _, y
9 p t; `2 U! }
//Method - 4 202s/ k7 b9 E2 i. P& i/ n5 y9 z
/*5 g6 m- x. c0 w: S
for (int jj = 0; jj < N; jj++) N/ h1 ^0 A5 n* |3 `3 g( q5 C
{' `6 U7 ]1 H6 ~- M& A2 j; m
}0 I3 a5 K8 Y$ x
*/! O. w4 W; Z8 x4 E0 ?* M \
//comment out all methods, N=100000 202s
}/ n) h4 j" d8 M1 V+ b" \. {
9 o+ v8 A/ g: n8 }0 k
delete []b1;% L* N. R% V) V% h" r) g
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
7 R# W' a8 H- O5 ~
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:165 h7 f6 @: e* R6 X: W' s
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL: `# W( `" ~" o' e* ?% a6 i6 T
( i5 `: i5 N" Y4 g" t
不和它 ...

雷达 发表于 2022-9-24 23:54. Y, Q2 z: ?* T8 D
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) X1 e7 q6 w n" b
{6 y, q* ~8 \1 g
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30; L. }" I' e% w/ v
理了理思路,重新做了一个测试。0 h H% e! b1 M8 H
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39' _4 {& N( u4 i( Y
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:297 T" P1 K& Z+ ]9 K' W" Q
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。! U- a5 l1 Z; a: d3 Q% C

a; N8 ^1 Z) o/ C% y| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |