数值分析 发表于 2022-9-24 23:047 v/ n1 J: A2 j
拉下来?拉多少? c9 v3 B4 X3 t9 M6 E; Y8 q
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33 y, k5 M5 P$ p4 l/ `0 ?" k \
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。3 {) M4 `7 {' X; t* o; ~2 k1 W
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46) ~/ ?6 [+ ~! A/ D; E4 `& Y O" W
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
! X( o- x# M- v7 b
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48. i! r: d6 H ^; y# S
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47( J7 j! H; K6 X1 r
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47$ V8 x) n# b3 \% i: h
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:585 |3 Z( e$ F5 u4 m8 s: ~5 p
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N];9 Q6 D" A* J& g/ j" }7 E
float* b2 = new float[N];
for (int j = 0; j < 6000; j++): A3 B/ \$ l7 C
{& K$ z0 O/ B, [; C/ @: y s# y
std::generate(vec1.begin(), vec1.end(), []() {2 s5 O2 \, S: Y" d9 j
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});+ M }$ M6 W5 t3 B1 ~/ i* B9 d3 q6 ]
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
. J1 O1 Z9 c |! T! W: @# G
for (size_t jj = 0; jj < vec1.size(); jj++)/ {) W! k3 k/ u6 l# q
{& r; j* M1 `7 p* W z
b1[jj] = vec1[jj];
}
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}
//Method - 1 N=100000 247s 9 G9 V2 I2 \% g1 l) H
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);' W/ X0 o; z: G6 v7 ?5 R K
- i( `( O. T* g! N0 C4 B
//Method - 2 N=100000 237s$ ], [3 m8 L3 h( c* l
/*' }9 @- H# ?4 f) K0 e
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];3 c9 q/ \) C& m3 x+ `3 }
}
*/5 E, W+ o+ u5 D: u/ A
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)9 _: s7 c; N$ b8 q2 O, Z4 {& X
{5 s- [' @2 `1 B5 g2 K" ?7 O2 i4 E
fresult += b1[jj] * b2[jj];. w: k; Q' W2 b. _% W3 q1 Q
}
*/
* @5 p4 w! P, e0 Q g! V
//Method - 4 202s; y* t) E$ l/ {& I; g# x* N
/*
for (int jj = 0; jj < N; jj++)
{
% ?1 O2 z: G4 F3 {
}: {: X+ t% v, t
*/" k+ E+ M/ Y8 u0 |9 f
//comment out all methods, N=100000 202s ! A( N$ D' H+ O. g3 ^- ~ H* g) N
}
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15' \4 f; Q6 q% c3 j2 H7 M# H6 {
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
% H% \# x0 j+ z s: c
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL% `- A! ~( h* h7 s5 u3 C) x# I' ~- ?
不和它 ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000. |1 m0 X$ K, F! j$ v9 J' h8 H
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?) N1 Q; E u: n" d6 f
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54$ Q9 W8 ^6 b1 w: E c
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)! m7 U. D' I0 @, G
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
0 H1 F' _* `. h H$ P8 T
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |