数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54: x, O' ?* ]# m$ ~" }
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)% w; \" ?6 I9 O" s. m7 a1 \
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20( d% G7 P0 `- X! Y3 [! r( Z7 {
这个不是这么比的吧。。。$ ~& a, G0 ^7 y1 h: q# U. F9 d
1 P/ m* X+ h$ G$ }- L; x
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46/ r9 J$ |8 r* v; k) z
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
$ ^1 r* y9 L- M
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48* A2 e4 ? Y) Y: r6 V
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47( w2 [& }! U# K* y0 U& _) n# P: M
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47$ u- N6 i8 x) q$ Z6 m
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);6 p( H) X( W5 T1 O( ^
float* b1 = new float[N];
float* b2 = new float[N];0 `/ A" L9 O4 M! E1 a
. a! y5 z6 k4 I
for (int j = 0; j < 6000; j++)# U0 K; \! N( e2 v; A
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;$ P, X# _% _ T! ~+ A! l# P+ A
});' j2 F- D) W4 j+ y9 t7 ?
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;3 b, _' g* h2 Q! J/ t
});! I) W" X& b$ @0 z- Z& K
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];- K8 p. A& v3 R' _/ h+ E1 H2 N( C
}, a( y- W! L& E4 J, c# G3 N" c
# ?/ M2 v. f6 f+ m, q4 [
//Method - 1 N=100000 247s 8 d/ k8 E; V" R3 G) W# z% A7 y
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);" W4 G4 D9 Q* w1 R( ^
5 u( J0 W! b8 N8 Q: X l
//Method - 2 N=100000 237s
/*! r j2 B1 x% m: J& h
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}
*/
//Method - 3 N=100000 204s
/*9 W s; v) ?& m( `
for (int jj = 0; jj < N; jj++)
{) q* d. Y; P0 b" m5 _0 N5 S. v
fresult += b1[jj] * b2[jj];8 ?" @& B' M! Y( F/ D* T$ y$ v
}
*/
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++): `: K5 p& Y. M) `4 C; o) D
{. w* M* X l& C, P% e. P: r
, g* s5 g. @2 G% ?' }
}
*/
//comment out all methods, N=100000 202s
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?* `% L8 {' o: |! P' d) J6 j7 w
! I. t" a% [4 W) L1 Z; }
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
2 Q* y8 L: \# j& w, M& B0 K) y
不和它 ...

雷达 发表于 2022-9-24 23:54. _. e. O* y# S6 a5 C+ I
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{- ^7 Q9 M/ J4 j8 H& @ u
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
" x7 m# w, h" c. z2 R2 K
...
。3 U" h7 [$ h1 D7 c


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |