数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?7 M8 ^8 k6 H! w% Y& a
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:543 F' B! q/ P0 x5 M" K. c6 X5 _
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)4 r8 D5 _- z% I q) f; j# |
{- X- _2 L- m/ @4 _# m
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:206 }$ k9 Y4 F+ E6 \+ u- U
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46/ i; ^- }4 h" J( W
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20, ? d$ b9 b2 d9 g- S
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:486 L8 b, f# q) T# P3 x) o
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47: @* y) p$ ?% \# q
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];2 B1 ^4 ^; M7 l; m# o( B9 y
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{+ G. Z# A& Z" I* z- D: W
std::generate(vec1.begin(), vec1.end(), []() {1 v7 D; F, A( L/ o( r B3 |
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});5 [$ [1 W1 l0 f! ~. O
$ a7 L E4 U7 G) H6 i
std::generate(vec2.begin(), vec2.end(), []() {2 D! s! q8 @" O0 @
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
for (size_t jj = 0; jj < vec1.size(); jj++)
{4 j+ S; a' c* |+ v* a, P9 k
b1[jj] = vec1[jj];
}7 a. O- N# r' K% s; B" b
for (size_t jj = 0; jj < vec2.size(); jj++)
{1 z5 `/ F/ S4 y
b2[jj] = vec2[jj];* W7 b9 Q1 x# ? m
}2 @9 Y0 i0 A5 v( J6 W& l
( K- J- g5 X" H$ C1 A3 E) N
//Method - 1 N=100000 247s ; k3 Q' J' _. T6 N
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s% N. j& H0 S3 A
/*
for (int jj = 0; jj < N ; jj++). t; I7 ~* g" J6 K( m( L7 q
{
fresult += vec1[jj] * vec2[jj];6 |2 d- u* L0 e( S
}
*/- L, }$ r2 O) @
! u( V0 P7 l2 K" S" a. f6 G1 a
//Method - 3 N=100000 204s
/*: |: Z8 l0 b- {) N( u
for (int jj = 0; jj < N; jj++)4 y" \/ A! h& G
{
fresult += b1[jj] * b2[jj];8 ~ Q1 m6 j1 j7 A
}3 u) s& K& d n8 b
*/
//Method - 4 202s/ K2 I! g4 L* C9 y& T' ?1 T) t/ q0 B
/*
for (int jj = 0; jj < N; jj++)/ n: p$ N p4 T
{% P* c( c# n/ P
$ ]& z8 f- G$ ? S% |; [
}* Q$ ?, {: z% e- @( M1 d
*/: J/ w' Z# o- l% T2 g
//comment out all methods, N=100000 202s 2 B% z; _2 f4 n- u# I' L
}3 S% p ]6 b; Q' } C# \
delete []b1;' j3 ^6 U S; h' ?# s
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?) Z& F" Q$ G, t5 W
5 O; {1 k2 ?# M; k7 P, z
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:169 ?1 [: P( N7 V- S; Z6 j7 z: F' H5 ]
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL4 X" N. K j# H: s5 A& ]3 E0 j
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)$ c; l2 n4 D. b0 z. t" x e: d% i
{ y- F6 _$ }/ P6 ~& c
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?" _3 g7 Q5 F* `5 S
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54/ ]; e* Y2 q2 l* `- Q1 r1 T
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)9 I2 \! c/ M2 f2 E: M( Y
{; e9 x* f6 \* r
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29+ I0 S8 I' P; x
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
& |! ^- y$ C# D& |, f& R9 U9 o
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |