数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{( f% `0 p$ V) e) a9 g
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。0 o# W; s; w% a3 d
, v! W6 p. B. F. y$ \. h* ?) K
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46" e" Z& i1 s5 R5 k! D- ?& J
有道理。# v' J+ O I7 Z- S+ N) F
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。5 C" L8 F, c, H: h0 _, e: {! [
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48 E6 v8 O; j' D2 \
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27" f! w" [' A6 I$ |9 J
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:580 p5 a- H8 P1 Z
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);9 Z0 w- [0 [% N2 D. |1 ^
float* b1 = new float[N];
float* b2 = new float[N];
& ^8 z" A, u8 z# u4 i
for (int j = 0; j < 6000; j++)
{; f1 d" B" X% U5 a! v
std::generate(vec1.begin(), vec1.end(), []() {- j m- n% a2 @/ n$ c3 k' m/ Q' E
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});' F3 X$ j8 w. o- Q: z6 j9 P
std::generate(vec2.begin(), vec2.end(), []() {; ]; P# n: J! I7 E+ U; i8 D1 P
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});7 o2 u5 I0 b6 B( I. y
for (size_t jj = 0; jj < vec1.size(); jj++)3 h% T+ R% Q# r& R" \- ^
{
b1[jj] = vec1[jj];+ B! }6 u1 d. i# H1 x w& h
}
+ a/ C6 K K" }
for (size_t jj = 0; jj < vec2.size(); jj++)1 ~: y: _, K! ]) ] U" y* [
{
b2[jj] = vec2[jj];, j. E# F% F1 R
}1 ^5 ?0 \* S8 e+ R& b: g+ L) d
4 Q2 Q" [+ K* x1 `
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);% |0 M0 l4 H2 Y$ u8 d$ V1 u! S# r
//Method - 2 N=100000 237s& B5 i J5 c# r: m
/*' t; i( x' X$ ^
for (int jj = 0; jj < N ; jj++)- t8 P7 [8 H9 m1 y
{
fresult += vec1[jj] * vec2[jj];4 r5 @$ k2 f$ b; I! T2 I
}/ h8 F T& y- K8 T! K8 I
*/
- ? M$ L9 [3 y2 n$ P/ \
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)5 X7 h8 Z6 c A% f9 t
{
fresult += b1[jj] * b2[jj];1 H& I Z) }$ M! d s: V
}
*/
//Method - 4 202s1 ?1 Y5 o. ]6 H0 n5 O- c& Q3 D7 G
/*7 L- T& H$ B3 a
for (int jj = 0; jj < N; jj++) B( s! u3 Y$ C6 d, B
{
}
*/# _1 A! v0 Y `% R9 l7 l
//comment out all methods, N=100000 202s
}9 A4 f. \1 B6 h2 R
delete []b1;$ x+ h3 I* ~( p: M5 X
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
9 d3 c' A1 t! U r
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL/ T) R: W$ Z" s4 J4 p0 m8 E$ E1 ^
7 C5 K5 G$ Q/ V/ S e8 J2 Y
不和它 ...
雷达 发表于 2022-9-24 23:54' x/ X. _9 q/ b/ }* D7 _% _
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000$ A d E' Q" n% k7 A
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |