数值分析 发表于 2022-9-24 23:049 w5 k' z5 Q" R; W7 r5 V
拉下来?拉多少?0 @) Y5 Z6 R/ w! i. d
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{( ~# y4 [; ^7 D, y
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20; o" B3 z: @% t+ V
这个不是这么比的吧。。。
4 R% {, @# w2 F) @" Q
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:466 d5 u& _( @$ ~& \4 }8 m
有道理。5 V$ ~0 k. `+ B2 _
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:209 ^$ R# C5 K+ D5 C3 f
这个不是这么比的吧。。。; q9 N: ]0 v* l4 O' W0 V
+ K5 S6 U% I" d) _* v- S9 j% [
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48; T; ^/ r* @/ ^. G$ a9 D" Y
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27' N5 J' P7 ?% `3 ^0 I
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47* Q5 h: Z0 W# X0 {# z
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);& g9 a( R: d0 }" R' B0 P- K! _
float* b1 = new float[N];
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)' Z. o1 \- ^1 h+ q3 j
{
std::generate(vec1.begin(), vec1.end(), []() {0 F6 v8 ^' k/ H! `+ O3 p/ U" Q
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;4 `* B" S4 v! ^$ X2 _; K
});5 L( b. `5 S& r4 ^* t, D; }
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
for (size_t jj = 0; jj < vec1.size(); jj++)9 j" I9 G3 v V* Q) |8 ?
{, [/ K& P- H* p4 P& Q" M# ~5 \
b1[jj] = vec1[jj];% h6 F" c0 D; M! A
}
for (size_t jj = 0; jj < vec2.size(); jj++)+ Y8 i9 Q) Y+ V/ C
{# z& y: J/ N4 b4 g
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s 7 j1 S$ N4 I/ x! Y
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
- [0 S- j; }# g! t: y+ t4 n
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)
{. q. H3 M4 P9 H h0 R) K* [8 V
fresult += vec1[jj] * vec2[jj];
}
*/; r9 t# x) u! m9 N
[& o( x6 V0 W b9 [$ P
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];
}' S0 W2 ?$ M* r( X& W0 \
*/ o6 G3 G' T4 }9 ?" Z9 b
* {/ u: g! n0 a! n) `- N% U2 |
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)" ` X$ }+ ]5 a- U+ a7 q5 e
{
}" @* s; o1 \" Z( @
*/
//comment out all methods, N=100000 202s 0 ^1 q7 ]- j& L7 X* G/ ~$ A
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15( r g; x3 S/ v: H8 ^
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL) P! k/ ?8 c& t; _6 j+ a/ a
不和它 ...

雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)# R. k, H5 P" q( |
{# E* w6 `6 @* o% q& \3 G! s
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30( P7 N( X8 P7 w- {2 T( S
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39) p6 f u- @' r0 R3 ^: F7 ^' c" i7 s
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)( }/ s) i/ k0 b7 p' s
{5 m8 o/ R6 Y) f* Q0 U, D- A p
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29 Y9 d! e5 j w; ~
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。9 a# r- i6 |" d2 ~* T% |3 j

6 C. D& a( S4 v* A) e8 ]) {) n| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |