数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54, s4 S% Q: @: w0 n2 Q) p5 m+ a4 W @& o
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{# g1 j% R# h1 z
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20. K o" |* ]/ U) l1 o1 S/ G% v
这个不是这么比的吧。。。3 f# J w' S+ k( a# [
" t4 H" j8 X7 b1 r: {1 T6 N
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。; v8 c) x3 G; I0 B% A; g/ ]4 \
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20# ^! v. |+ B# O* m5 \6 j. S0 l
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47 F; T: u/ a f, U. t( _
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:479 e$ b: L% B" M0 Y" Y0 D' c
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58! ?9 l# V2 J7 \) b: ~* g
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);! E; { r/ i: P o
float* b1 = new float[N];
float* b2 = new float[N];! d# x* d9 {- \& d: |
for (int j = 0; j < 6000; j++)$ s" b' h- ^2 T4 x" ]
{$ `. f W$ ?9 l3 `7 S
std::generate(vec1.begin(), vec1.end(), []() {, s8 X& F) q7 X8 r
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
}); U, ~8 p) r6 Z+ X* ~- U \$ [
$ F; o+ y" z7 i0 ^, o5 b5 ~
std::generate(vec2.begin(), vec2.end(), []() {1 W) _) q( h% v5 Y4 I. `
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
9 ~- R# s6 W8 S
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];
}
. V) h# t4 f" _# ^! C0 g( p
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];5 s# t2 P4 r- b5 v, t$ `: |
}
- V3 u8 J+ P Z3 h' `: x8 I; Y8 _% R
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);9 k7 _" v: ~4 o- V# D
//Method - 2 N=100000 237s
/*2 G& p1 S' }. e$ `
for (int jj = 0; jj < N ; jj++)9 n# M( Z* E6 Z! M. ]& ~* h
{" c1 d! d% L6 @8 T2 y
fresult += vec1[jj] * vec2[jj];
}
*/
" ?" @- R+ ~& p% N
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];' ` @& `9 y4 u* c& ?
}
*/, W5 |1 @- W0 F9 A+ [
//Method - 4 202s
/*7 l% h# O3 @6 c
for (int jj = 0; jj < N; jj++). d" C- _2 u9 J
{* H9 W- G4 Z1 A1 |9 W: `
& d6 E" [. \# r
}' g# {' O6 T6 g1 o3 w
*/
//comment out all methods, N=100000 202s 5 T/ Z! W5 j2 J; q. W$ V* Q# K
}3 o1 D4 j& Y" k' }$ K
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL) ~8 W9 p/ k. Z
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{; s, t3 ~% h6 s( k1 \
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。% ?5 P6 I1 n5 W5 `# D1 \
做了两个 vector 和 两个 float *, 都长 100000. f- W" Y% K0 ?9 J7 I- j
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:396 T7 P- f( t2 ]. W
这个时间是从哪里开始算的?! E3 N% t P% D Y( b3 p( z3 c" q0 k
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29, ]& S2 W: q4 L7 L
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗1 H3 O0 a# Y G4 U$ `% [
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |