数值分析 发表于 2022-9-24 23:04
拉下来?拉多少? v/ l/ y0 ^$ n" `! |% |
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:338 Q, K& d# ^1 h" y+ D5 p8 Y
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。6 I* F6 v1 {" o$ t
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:463 r' k: O' B$ L- r; U: g
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。5 Y6 \( w4 u& w+ r P% V: C
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48; e* c8 u0 ^/ y2 j& D" ?9 l. O
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47$ q& `# e3 E! n, L& }
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:478 i5 A" b& |# \3 E3 C
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];: x; z8 ~( B2 O' X7 Y7 \
; |2 K& L' `9 x$ R
for (int j = 0; j < 6000; j++)
{+ V% h5 @& t! C4 o3 ]0 T
std::generate(vec1.begin(), vec1.end(), []() {% J9 a1 h, I& j3 j+ f8 y
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});' {+ Q* A- N2 {1 h& j) G8 r
for (size_t jj = 0; jj < vec1.size(); jj++)' v: B* _; u8 c8 Q1 Y
{( `# U% ]( X+ z2 q$ G
b1[jj] = vec1[jj];0 Q4 u/ z3 L" f2 D+ V( |- ^* p
}( q+ D* U6 b2 p( v9 z( U, r
* I( U; l x& L2 K' j
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s/ u' ?. p7 e* h% w6 i* t
/*% Y/ x6 Z9 \- B7 e) m
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];; J6 f; Q, f! f9 L. H
}8 J3 R0 p# e$ r9 N, N( ^2 s5 C
*/9 a/ I P7 r* H$ Y3 B; [8 v( x# N
//Method - 3 N=100000 204s% D6 }( d3 l U4 j) d
/*
for (int jj = 0; jj < N; jj++)2 K! W, z* W% k* L' R
{
fresult += b1[jj] * b2[jj];, b7 `) K3 M/ [0 R- `4 _2 w# r" X
}
*/
" V$ B* F- m8 v1 M% I/ f5 Q
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)2 A+ B* {" O" `! a$ L
{
8 o- B% {4 v# f1 } h
}
*/
//comment out all methods, N=100000 202s , f0 A; L5 N' L) a8 ~
}
! E, [9 o2 }( \( Q6 r& L
delete []b1;% v ?4 H) k! \8 C1 B' t
delete []b2;
机器猫 发表于 2022-9-27 00:15, w7 P4 }0 c- |- ?# u! t
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL) j& J3 J! k1 J
3 O9 t: N- X$ p' U$ j( s
不和它 ...
. v6 |9 j9 ?7 a9 A* ^# y雷达 发表于 2022-9-24 23:54! l, b2 v. _+ w& J8 a- x6 H
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB); ?9 T5 t; {! x8 Z6 R9 y# B) H
{8 C8 `8 s4 n f" K! y2 e" F& ^# I
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30. _, y' a3 }2 q6 O1 i
理了理思路,重新做了一个测试。7 g5 }) R) d. Z; @/ L0 \
做了两个 vector 和 两个 float *, 都长 1000007 C* {/ S; V3 e9 u7 t( T2 v+ O
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39% u3 e! ?$ y& f3 }" v
这个时间是从哪里开始算的?, k# K4 G0 D# Z$ d
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)4 x$ }5 j1 \3 y+ } z$ d
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。


| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |