数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?. {1 A! V; X3 n( s4 P
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54; L8 f- t: L) m4 F6 R
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)2 P9 n/ U! h( N1 ^/ S" V4 T5 Z0 {9 W
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:204 [3 \- T4 Z# ?8 @: L- A
这个不是这么比的吧。。。
: @8 P; ]) W3 s6 n0 [. \9 I* Z% t1 c
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。2 w1 s U( L4 Q
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48/ `1 W+ T2 w3 e) G
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27. |) {/ w5 j7 P6 k4 I8 W
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47" [; T8 {8 Z2 A* \3 Y4 H/ _
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:586 O; c- G. k: _ R$ A0 W
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);2 Q! p8 p% f0 k% L
float* b1 = new float[N];
float* b2 = new float[N];
9 H- a7 F3 g, k; T# g6 j) j( f: D5 R! O
for (int j = 0; j < 6000; j++)
{) r. a U0 h2 Y8 I
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});1 B; R F: ]3 w9 S3 ~: X. J
9 `- Z1 _1 U, n% s$ e6 r
std::generate(vec2.begin(), vec2.end(), []() {' y4 n# y6 F# E$ R+ ~
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;1 q( m2 a( L! {6 Z
});0 W7 i! i4 I7 [. ^5 S
for (size_t jj = 0; jj < vec1.size(); jj++)- [, Y+ n% e K
{
b1[jj] = vec1[jj];3 M1 i0 \5 f8 M& P6 }9 B9 d
}& z1 E1 H/ |$ J0 t2 j# Z
% F5 ^# I, W/ k N! D i
for (size_t jj = 0; jj < vec2.size(); jj++)4 B- f3 h# v+ ~) T+ B8 Q3 s q
{/ }+ L A0 T. `5 T4 b; w
b2[jj] = vec2[jj];- G3 O1 j# ?0 s
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s. [' _! s C! S" M+ n
/*7 ~5 e! T- N/ r, E( `; ]
for (int jj = 0; jj < N ; jj++); l9 @' L0 ?: z5 X1 Q$ |: @8 y
{. W% j2 V3 Y) O7 p: X) v
fresult += vec1[jj] * vec2[jj];- _! `2 y0 [4 p K. O- S
}5 q& b! P K& L. e1 s, Z2 L
*/+ A# W$ d2 \% c/ K0 u2 h9 W
7 B7 p' ?1 j+ u' v3 E
//Method - 3 N=100000 204s
/*/ S6 [9 U3 r* N. b( Q" p$ y
for (int jj = 0; jj < N; jj++)
{. \% k' }- Z$ u& p0 C
fresult += b1[jj] * b2[jj];
}! v! A( h+ j4 p6 Z" d- y# @4 z
*/9 M; P U" A! Z8 Y/ m
* }; \7 ]- t8 {) Z7 r* y
//Method - 4 202s2 T/ Y B' j/ h* Y
/*- y% _; X+ Z% N r% y- `
for (int jj = 0; jj < N; jj++)$ O/ t5 D0 ^ W
{
}
*/2 c/ ~& a" i( `" Z5 j
//comment out all methods, N=100000 202s 0 m$ {, {6 @- C# A, N
}
delete []b1;5 \1 F1 G3 x+ W: O
delete []b2;
机器猫 发表于 2022-9-27 00:15, C5 O$ Y, V8 F# g) [! T
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
- A/ [( `7 k/ v/ s# ~) C
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL: x- S* J' l! M# |# M% _
9 b* G1 q6 E7 z& ?) o9 O0 r- O
不和它 ...
9 R! p- @9 r5 Z0 X雷达 发表于 2022-9-24 23:545 L$ A2 s: D' y3 {4 q
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30$ U v V( e7 Y6 B$ c7 C
理了理思路,重新做了一个测试。0 B. U2 I4 S- |) Q, g8 k1 |
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54/ U' Y5 N3 x: n9 d2 F' M9 {2 u8 h$ e
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29" c# z1 n$ r; m4 y0 s
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。* i2 ]. k0 \4 P* ^


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |