数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:333 I! Q3 p( |( f8 b
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)& ?: m- g5 r( |+ J$ j2 E1 P+ U5 q; F
{! y, Y& [0 k" M. c: b
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20+ N0 y E; ~( D( W. n$ Z
这个不是这么比的吧。。。
. [& A" k. t2 { w
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。# n+ s: o; }. v0 ~3 w0 l( ?
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:276 D6 l9 G' d" c9 S* ^" P0 u- K0 k
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);. V( n& @' e" J4 {" q
std::vector < float > vec2(N);
float* b1 = new float[N];
float* b2 = new float[N];" {# j& G0 I5 c7 j% X
+ u0 j" \6 d6 X3 I- Y
for (int j = 0; j < 6000; j++)' i( d) Z8 o7 c& V
{; h' B+ c7 q& Q# [: Q9 l4 }
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;( [( e% }/ ~# o1 |
});
% W* N# Q4 C. J4 u) q {" y7 l
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});- { `4 }* z% K
for (size_t jj = 0; jj < vec1.size(); jj++)6 ^& B1 i- ~7 R4 s& P) R
{
b1[jj] = vec1[jj];
}7 A* d; T8 w! n8 q( j7 `2 O4 ?
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}
/ h$ _' w& Q& g$ e4 A6 E! \
//Method - 1 N=100000 247s * j4 {% k% `% T0 {. U
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);+ S2 f" `3 D% m& G' o
8 V; K) z7 a$ m4 I% V
//Method - 2 N=100000 237s8 n; S$ u2 n' o6 D
/*" m, [( y( m. J8 s/ g
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}
*/
5 E. y7 L) |- H% a7 @5 V" n
//Method - 3 N=100000 204s7 ]/ l8 k- W X8 f& G% ? l
/*
for (int jj = 0; jj < N; jj++)6 ]3 ?2 J5 j8 v
{9 x4 G4 C1 n4 ]
fresult += b1[jj] * b2[jj]; o5 c. C* }6 n3 R1 }4 W8 e
}
*/- a: `2 _6 m6 p6 i& n$ H* I
0 Q2 N3 |: [; o/ r
//Method - 4 202s
/*6 u8 ]( ^/ K* D& n
for (int jj = 0; jj < N; jj++)
{
5 D9 a% f2 e) J- K
}8 S' ?/ r& J9 o
*/
//comment out all methods, N=100000 202s
}3 k b4 [& i ]
delete []b1;2 m3 l* \8 j# b; N. c8 |; z
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?0 |! I$ }+ F: n* G
3 R" ?/ y1 [: t6 s! M9 ?3 ~
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16# U9 E6 y* M2 S& i, v) N, b% X. Y
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
* D5 U7 H2 k6 b
不和它 ...
' {( P3 I" ~- d f* z& F$ u5 E雷达 发表于 2022-9-24 23:54& R: R: z) y2 I% L
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)# Q2 z9 L$ m3 P' m* g' _' t2 i3 d
{: v5 I$ ?3 n- u
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。( `, T4 `8 Z( ~1 O( |4 q
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54, Q9 m2 z6 F+ _" u+ ], N& E
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{+ C+ ~! ]$ [$ g
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29. s0 w L" E5 W
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
5 m/ c" A; R/ W1 F
...
。

' X9 m4 P0 x; ~. v& M2 e" Y| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |