数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54# D( z5 P+ [6 \; M! k) G
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)& J; Y5 N" S) \4 a
{( x- X1 o- l6 v' H
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20' P8 a0 d7 I2 ~5 I/ L S* k b
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。7 N% Z, t6 h7 o+ o7 D* i% J
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48! S' [. u9 R0 ]8 p
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:270 z8 |# w" X! J: u3 X9 e
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:472 S7 d" y; ?, ]7 H
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:476 k! E7 Z+ ^7 Y* G) u+ d
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58; q- m( o) }: n @- y
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);; ^3 f H+ h9 G" B' R
float* b1 = new float[N];5 r B+ i* `, f" D8 Y
float* b2 = new float[N];$ }- o Z8 ?& b
; a- f1 ^+ Z7 `: Z* R% f+ A
for (int j = 0; j < 6000; j++), g8 B% _1 J7 a" t) n9 O
{+ C4 X3 x* c& h
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;& |, p3 M0 x2 o0 e
});
std::generate(vec2.begin(), vec2.end(), []() {6 y) t0 w5 Y( k. @. K1 i N- I( I$ X
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
for (size_t jj = 0; jj < vec1.size(); jj++) x3 L. m+ s* x7 b2 O5 h
{
b1[jj] = vec1[jj]; y4 a# Q6 E; Q
}
for (size_t jj = 0; jj < vec2.size(); jj++)7 F! I7 N. m$ m! B8 Y
{ G/ s ^: }; R8 r; s& l1 i8 K* u
b2[jj] = vec2[jj];1 v4 P) } }5 P2 L/ m6 A1 ?
}
//Method - 1 N=100000 247s : @9 E# u$ F. s: H1 y
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);, A% J3 R7 B/ E: l$ u6 H; z
: L; d& |, e5 m9 \* k
//Method - 2 N=100000 237s9 W9 q h* z k4 L/ }: r) q, w
/*
for (int jj = 0; jj < N ; jj++)( G1 `" [; g" {! D
{
fresult += vec1[jj] * vec2[jj];1 m. o0 c; V: ?& j
}
*/
* L. v- D* ?/ h' ?6 L- `
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)* y/ k$ Y5 q/ }
{' Y( T& l7 {% y- v
fresult += b1[jj] * b2[jj];
}$ H) Z6 ~; h$ J: ~5 O D+ d+ T
*/
//Method - 4 202s
/*1 D, M0 s9 F; s5 a5 i7 e, g/ j
for (int jj = 0; jj < N; jj++), d Y: y. u4 B* k+ T* K( R4 O0 p
{
# W5 \" C, D( X8 X- | n3 R- X
}
*/
//comment out all methods, N=100000 202s
}6 j, ~* i, k# ~$ _, f9 R
% p" ?; d' e6 l# q
delete []b1;. V& w; E2 O0 H( m' d
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?0 K% }0 [3 g/ I( {* O% q# L
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:165 t' g+ S0 D. O
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
! L: _8 q4 c, h3 \: D6 s, g
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)# K: f3 x8 d9 }' f3 m
{3 t8 C5 l5 J9 c4 j. m
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。4 Y B$ @ N; r* w
做了两个 vector 和 两个 float *, 都长 100000' u! {0 j9 h2 `8 ~
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39$ y2 _6 v& V: B+ x
这个时间是从哪里开始算的?" O( y' _& v$ g" R( g
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54; I5 E" Y* X8 C. [. R
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:290 J9 b9 a' ?; ]
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
- `* z- N4 V( W! X
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |