数值分析 发表于 2022-9-24 23:049 d# T. B1 D* @5 Z5 F9 J
拉下来?拉多少?/ J0 F2 ^7 h# `& ^/ U
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
$ O' o) o, Y" k* M+ @4 D% d" a+ \
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20& h& c' }) ~+ X
这个不是这么比的吧。。。
' t7 | h( m& t8 U
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:472 M( H1 E2 {$ V, _. W/ L
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58# Y, T4 Y6 E: Z( K2 t. N9 s& B4 |
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);
float* b1 = new float[N]; ]4 f/ m( Q1 H, [, F
float* b2 = new float[N];$ W4 `3 J8 {' V5 ?$ T; q
; V# \9 w7 t' h! I6 X; O. U
for (int j = 0; j < 6000; j++)
{/ a1 X9 n2 e& q) h; y, y; w' L
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;& v- f) f5 N* @/ ~/ z
});
' N6 P( W+ t+ Q3 z
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;- @$ S. w0 u3 [" O
});
for (size_t jj = 0; jj < vec1.size(); jj++)
{* P$ R. V! D; u2 u {) T7 f+ Y. c7 y
b1[jj] = vec1[jj];. Z" u4 o& J" n
}; N- u3 \& W) e: M& H5 T; P
4 ~ d0 Y- k4 } C
for (size_t jj = 0; jj < vec2.size(); jj++)4 t1 f; L% U% l
{
b2[jj] = vec2[jj];
}
% J8 v; i, Z2 x- g2 K
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
# V4 g& @ a+ k, b
//Method - 2 N=100000 237s7 x$ \ s: [, h: y& T* T) x- }; a; v
/*
for (int jj = 0; jj < N ; jj++)
{
fresult += vec1[jj] * vec2[jj];
}. H" b# G- R5 F" c! Y; d5 e
*/
& |& L7 a" g, f1 A: v
//Method - 3 N=100000 204s& A; [" i& ]/ p0 j8 |
/*0 T1 O% n. e# v) ~% o
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];
}# E- [; O! z" z- D; ^
*/0 U$ m5 `" {6 Z r# V7 n
//Method - 4 202s
/*7 b6 t N" T% s% L0 Y
for (int jj = 0; jj < N; jj++)) o8 A3 P+ X8 K7 K6 z( {' J
{
}
*/
//comment out all methods, N=100000 202s
}' n+ T! V1 h, ~; X' C% u
delete []b1;2 Q, H' h+ T: M A' B1 o
delete []b2;
机器猫 发表于 2022-9-27 00:157 O* B0 v+ s% j7 N! {( ~
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?6 C; z9 t v4 I" t
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:165 E% s% n0 p1 A& c. d6 O- x
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL9 J- N- i+ F( O8 J7 ~, E* S# l
" [& S8 B D) Z% y4 D7 Q
不和它 ...
6 w2 L# X+ {9 d1 F% F. o6 L; K雷达 发表于 2022-9-24 23:54+ h' h$ a7 h# V4 T+ m4 J
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)$ _3 N- A% s% N+ Z8 h; k
{( w. e, Z5 o7 | L+ ]! _8 I! }% |
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。6 f) h* j/ Q. E* v$ j
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?# `& J& y( M P: m! c2 q- u
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) ]" j* b& }2 ?& d1 s3 y; n
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗6 Q8 s2 G5 Q! a \( \2 Y
5 [% B8 o: k. w' {- ]
...
。& Y1 ^( v& f! m5 ~9 U$ W

7 S! J4 k# f8 a* e, q( a4 P| 欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |