数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?1 q- w/ B* r6 A; r4 l
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:333 q; K4 W6 o, E; d% n- m8 [) d
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54) h+ ]# H! ^# x& ]) U7 W; S
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。. q4 c% Q" a% N- F9 [
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。7 S8 z4 o' }- [2 C; I2 p* ^
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。! e) C; J7 v2 s$ P/ U. \+ i5 I
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:275 W" x( Z$ I+ }* I
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47) u8 T- M$ l+ v' p, z
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);% p( o8 ]/ \( Y: w2 r! L$ b% o
std::vector < float > vec2(N);
float* b1 = new float[N];8 i( Z5 z# `* E7 p+ G+ j: t
float* b2 = new float[N];6 ?4 W" e4 L! Z7 V, [ ~4 B( e
for (int j = 0; j < 6000; j++)! T9 [- N; h- G6 y ~0 i. |3 X3 H4 ~
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;5 q6 b& h% A. {$ }3 C! j( L# J% }
}); _/ j! N3 \, ^6 p
1 X) D4 Y$ f. f! f# l- t! Q9 ?
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});) @: [, U- L- l( ]) x' A8 z
- [, j8 p. z; j! X4 g
for (size_t jj = 0; jj < vec1.size(); jj++)4 @0 b: r4 ?: i; ~& Q5 C
{* G; ~ S- I0 U7 t1 y% t
b1[jj] = vec1[jj];
}6 P; N3 m- y' h' D+ G0 d a
for (size_t jj = 0; jj < vec2.size(); jj++)% N! N9 a2 R0 }/ c# h
{
b2[jj] = vec2[jj];2 U' U# X) S0 k" Y3 W4 B, A q+ F4 u4 U
}2 _! ~4 |; \' H. a; {
' m% U+ ^) |# z- h: W" k) o
//Method - 1 N=100000 247s + z0 C0 u0 n' n% a6 @6 L
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);2 A f' A# E) p9 _$ H# K- i: s
5 X8 _4 D' r, O+ f3 { @
//Method - 2 N=100000 237s( X; q) r6 i( F. D
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}
*/
& I S) n7 r# P) I: p
//Method - 3 N=100000 204s
/*
for (int jj = 0; jj < N; jj++)
{0 ~7 ?$ [) s; s; U) k" R' _
fresult += b1[jj] * b2[jj];+ @) l: z/ x: j
}+ c/ g% A" p C$ v/ ]/ m( d
*/
//Method - 4 202s
/*% E" y. m% D9 z2 q+ I
for (int jj = 0; jj < N; jj++)
{
: w+ ?' s: O8 g
}
*/
//comment out all methods, N=100000 202s
}
! P# O' |4 B- o
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15( \- B: |6 h- z2 @; m5 Z
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
3 G" \8 X* ]5 Y7 R6 V: H7 W& A- d
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...
7 C2 G5 O- I7 P8 c6 W* F雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30. a& h/ b: V+ d4 r
理了理思路,重新做了一个测试。- W. K# L7 @6 e9 W" F/ J9 ^! J
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?& ?/ d# p) h% l5 }, I7 o2 t
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)! I5 H& Y! ]1 N
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:299 W( R4 ?+ S3 W8 J4 ^# {
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
...
。

: L" I: B& S$ L9 b) w: d| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |