From ee7630edfd231a990041e5519505b0281ff3f9ea Mon Sep 17 00:00:00 2001
From: pooler <pooler@litecoinpool.org>
Date: Sat, 26 May 2012 17:04:49 +0200
Subject: [PATCH] Reorder SSE2 instructions for better performance

---
 scrypt-x64.S | 332 ++++++++++++++++++---------------------------------
 scrypt-x86.S |  26 ++--
 sha2-x64.S   |  17 ++-
 sha2-x86.S   |  17 ++-
 4 files changed, 146 insertions(+), 246 deletions(-)

diff --git a/scrypt-x64.S b/scrypt-x64.S
index 4f0a0fb..16e08ae 100644
--- a/scrypt-x64.S
+++ b/scrypt-x64.S
@@ -520,8 +520,8 @@ scrypt_core_gen_loop2:
 	pslld	$7, %xmm4
 	psrld	$25, %xmm5
 	pxor	%xmm4, %xmm3
-	pxor	%xmm5, %xmm3
 	movdqa	%xmm0, %xmm4
+	pxor	%xmm5, %xmm3
 	
 	paddd	%xmm3, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -529,8 +529,8 @@ scrypt_core_gen_loop2:
 	psrld	$23, %xmm5
 	pxor	%xmm4, %xmm2
 	movdqa	%xmm3, %xmm4
-	pshufd	$0x93, %xmm3, %xmm3
 	pxor	%xmm5, %xmm2
+	pshufd	$0x93, %xmm3, %xmm3
 	
 	paddd	%xmm2, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -538,25 +538,25 @@ scrypt_core_gen_loop2:
 	psrld	$19, %xmm5
 	pxor	%xmm4, %xmm1
 	movdqa	%xmm2, %xmm4
-	pshufd	$0x4e, %xmm2, %xmm2
 	pxor	%xmm5, %xmm1
+	pshufd	$0x4e, %xmm2, %xmm2
 	
 	paddd	%xmm1, %xmm4
 	movdqa	%xmm4, %xmm5
 	pslld	$18, %xmm4
 	psrld	$14, %xmm5
 	pxor	%xmm4, %xmm0
-	pshufd	$0x39, %xmm1, %xmm1
-	pxor	%xmm5, %xmm0
 	movdqa	%xmm3, %xmm4
+	pxor	%xmm5, %xmm0
+	pshufd	$0x39, %xmm1, %xmm1
 	
 	paddd	%xmm0, %xmm4
 	movdqa	%xmm4, %xmm5
 	pslld	$7, %xmm4
 	psrld	$25, %xmm5
 	pxor	%xmm4, %xmm1
-	pxor	%xmm5, %xmm1
 	movdqa	%xmm0, %xmm4
+	pxor	%xmm5, %xmm1
 	
 	paddd	%xmm1, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -564,8 +564,8 @@ scrypt_core_gen_loop2:
 	psrld	$23, %xmm5
 	pxor	%xmm4, %xmm2
 	movdqa	%xmm1, %xmm4
-	pshufd	$0x93, %xmm1, %xmm1
 	pxor	%xmm5, %xmm2
+	pshufd	$0x93, %xmm1, %xmm1
 	
 	paddd	%xmm2, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -573,8 +573,8 @@ scrypt_core_gen_loop2:
 	psrld	$19, %xmm5
 	pxor	%xmm4, %xmm3
 	movdqa	%xmm2, %xmm4
-	pshufd	$0x4e, %xmm2, %xmm2
 	pxor	%xmm5, %xmm3
+	pshufd	$0x4e, %xmm2, %xmm2
 	
 	paddd	%xmm3, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -594,121 +594,60 @@ scrypt_core_gen_loop2:
 	
 	.p2align 6
 scrypt_core_xmm:
-	/* shuffle 1st block into %xmm8-%xmm11 */
-	movl	60(%rdi), %edx
-	movl	44(%rdi), %ecx
-	movl	28(%rdi), %ebx
-	movl	12(%rdi), %eax
-	movd	%edx, %xmm0
-	movd	%ecx, %xmm1
-	movd	%ebx, %xmm2
-	movd	%eax, %xmm3
-	movl	40(%rdi), %ecx
-	movl	24(%rdi), %ebx
-	movl	8(%rdi), %eax
-	movl	56(%rdi), %edx
-	pshufd	$0x93, %xmm0, %xmm0
-	pshufd	$0x93, %xmm1, %xmm1
-	pshufd	$0x93, %xmm2, %xmm2
-	pshufd	$0x93, %xmm3, %xmm3
-	movd	%ecx, %xmm4
-	movd	%ebx, %xmm5
-	movd	%eax, %xmm6
-	movd	%edx, %xmm7
-	paddd	%xmm4, %xmm0
-	paddd	%xmm5, %xmm1
-	paddd	%xmm6, %xmm2
-	paddd	%xmm7, %xmm3
-	movl	20(%rdi), %ebx
-	movl	4(%rdi), %eax
-	movl	52(%rdi), %edx
-	movl	36(%rdi), %ecx
-	pshufd	$0x93, %xmm0, %xmm0
-	pshufd	$0x93, %xmm1, %xmm1
-	pshufd	$0x93, %xmm2, %xmm2
-	pshufd	$0x93, %xmm3, %xmm3
-	movd	%ebx, %xmm4
-	movd	%eax, %xmm5
-	movd	%edx, %xmm6
-	movd	%ecx, %xmm7
-	paddd	%xmm4, %xmm0
-	paddd	%xmm5, %xmm1
-	paddd	%xmm6, %xmm2
-	paddd	%xmm7, %xmm3
-	movl	0(%rdi), %eax
-	movl	48(%rdi), %edx
-	movl	32(%rdi), %ecx
-	movl	16(%rdi), %ebx
-	pshufd	$0x93, %xmm0, %xmm0
-	pshufd	$0x93, %xmm1, %xmm1
-	pshufd	$0x93, %xmm2, %xmm2
-	pshufd	$0x93, %xmm3, %xmm3
-	movd	%eax, %xmm8
-	movd	%edx, %xmm9
-	movd	%ecx, %xmm10
-	movd	%ebx, %xmm11
-	paddd	%xmm0, %xmm8
-	paddd	%xmm1, %xmm9
-	paddd	%xmm2, %xmm10
-	paddd	%xmm3, %xmm11
+	pcmpeqw	%xmm1, %xmm1
+	psrlq	$32, %xmm1
 	
-	/* shuffle 2nd block into %xmm12-%xmm15 */
-	movl	124(%rdi), %edx
-	movl	108(%rdi), %ecx
-	movl	92(%rdi), %ebx
-	movl	76(%rdi), %eax
-	movd	%edx, %xmm0
-	movd	%ecx, %xmm1
-	movd	%ebx, %xmm2
-	movd	%eax, %xmm3
-	movl	104(%rdi), %ecx
-	movl	88(%rdi), %ebx
-	movl	72(%rdi), %eax
-	movl	120(%rdi), %edx
-	pshufd	$0x93, %xmm0, %xmm0
-	pshufd	$0x93, %xmm1, %xmm1
-	pshufd	$0x93, %xmm2, %xmm2
-	pshufd	$0x93, %xmm3, %xmm3
-	movd	%ecx, %xmm4
-	movd	%ebx, %xmm5
-	movd	%eax, %xmm6
-	movd	%edx, %xmm7
-	paddd	%xmm4, %xmm0
-	paddd	%xmm5, %xmm1
-	paddd	%xmm6, %xmm2
-	paddd	%xmm7, %xmm3
-	movl	84(%rdi), %ebx
-	movl	68(%rdi), %eax
-	movl	116(%rdi), %edx
-	movl	100(%rdi), %ecx
-	pshufd	$0x93, %xmm0, %xmm0
-	pshufd	$0x93, %xmm1, %xmm1
-	pshufd	$0x93, %xmm2, %xmm2
-	pshufd	$0x93, %xmm3, %xmm3
-	movd	%ebx, %xmm4
-	movd	%eax, %xmm5
-	movd	%edx, %xmm6
-	movd	%ecx, %xmm7
-	paddd	%xmm4, %xmm0
-	paddd	%xmm5, %xmm1
-	paddd	%xmm6, %xmm2
-	paddd	%xmm7, %xmm3
-	movl	64(%rdi), %eax
-	movl	112(%rdi), %edx
-	movl	96(%rdi), %ecx
-	movl	80(%rdi), %ebx
-	pshufd	$0x93, %xmm0, %xmm0
-	pshufd	$0x93, %xmm1, %xmm1
-	pshufd	$0x93, %xmm2, %xmm2
-	pshufd	$0x93, %xmm3, %xmm3
-	movd	%eax, %xmm12
-	movd	%edx, %xmm13
-	movd	%ecx, %xmm14
-	movd	%ebx, %xmm15
-	paddd	%xmm0, %xmm12
-	paddd	%xmm1, %xmm13
-	paddd	%xmm2, %xmm14
-	paddd	%xmm3, %xmm15
+	movdqa	0(%rdi), %xmm8
+	movdqa	16(%rdi), %xmm11
+	movdqa	32(%rdi), %xmm10
+	movdqa	48(%rdi), %xmm9
+	movdqa	%xmm8, %xmm0
+	pxor	%xmm11, %xmm8
+	pand	%xmm1, %xmm8
+	pxor	%xmm11, %xmm8
+	pxor	%xmm10, %xmm11
+	pand	%xmm1, %xmm11
+	pxor	%xmm10, %xmm11
+	pxor	%xmm9, %xmm10
+	pand	%xmm1, %xmm10
+	pxor	%xmm9, %xmm10
+	pxor	%xmm0, %xmm9
+	pand	%xmm1, %xmm9
+	pxor	%xmm0, %xmm9
+	movdqa	%xmm8, %xmm0
+	pshufd	$0x4e, %xmm10, %xmm10
+	punpcklqdq	%xmm10, %xmm8
+	punpckhqdq	%xmm0, %xmm10
+	movdqa	%xmm11, %xmm0
+	pshufd	$0x4e, %xmm9, %xmm9
+	punpcklqdq	%xmm9, %xmm11
+	punpckhqdq	%xmm0, %xmm9
+	
+	movdqa	64(%rdi), %xmm12
+	movdqa	80(%rdi), %xmm15
+	movdqa	96(%rdi), %xmm14
+	movdqa	112(%rdi), %xmm13
+	movdqa	%xmm12, %xmm0
+	pxor	%xmm15, %xmm12
+	pand	%xmm1, %xmm12
+	pxor	%xmm15, %xmm12
+	pxor	%xmm14, %xmm15
+	pand	%xmm1, %xmm15
+	pxor	%xmm14, %xmm15
+	pxor	%xmm13, %xmm14
+	pand	%xmm1, %xmm14
+	pxor	%xmm13, %xmm14
+	pxor	%xmm0, %xmm13
+	pand	%xmm1, %xmm13
+	pxor	%xmm0, %xmm13
+	movdqa	%xmm12, %xmm0
+	pshufd	$0x4e, %xmm14, %xmm14
+	punpcklqdq	%xmm14, %xmm12
+	punpckhqdq	%xmm0, %xmm14
+	movdqa	%xmm15, %xmm0
+	pshufd	$0x4e, %xmm13, %xmm13
+	punpcklqdq	%xmm13, %xmm15
+	punpckhqdq	%xmm0, %xmm13
 	
 	movq	%rsi, %rdx
 	leaq	131072(%rsi), %rcx
@@ -807,97 +746,60 @@ scrypt_core_xmm_loop2:
 	subq	$1, %rcx
 	ja scrypt_core_xmm_loop2
 	
-	/* re-shuffle 1st block back */
-	movd	%xmm8, %eax
-	movd	%xmm9, %edx
-	movd	%xmm10, %ecx
-	movd	%xmm11, %ebx
-	pshufd	$0x39, %xmm8, %xmm8
-	pshufd	$0x39, %xmm9, %xmm9
-	pshufd	$0x39, %xmm10, %xmm10
-	pshufd	$0x39, %xmm11, %xmm11
-	movl	%eax, 0(%rdi)
-	movl	%edx, 48(%rdi)
-	movl	%ecx, 32(%rdi)
-	movl	%ebx, 16(%rdi)
-	movd	%xmm8, %ebx
-	movd	%xmm9, %eax
-	movd	%xmm10, %edx
-	movd	%xmm11, %ecx
-	pshufd	$0x39, %xmm8, %xmm8
-	pshufd	$0x39, %xmm9, %xmm9
-	pshufd	$0x39, %xmm10, %xmm10
-	pshufd	$0x39, %xmm11, %xmm11
-	movl	%ebx, 20(%rdi)
-	movl	%eax, 4(%rdi)
-	movl	%edx, 52(%rdi)
-	movl	%ecx, 36(%rdi)
-	movd	%xmm8, %ecx
-	movd	%xmm9, %ebx
-	movd	%xmm10, %eax
-	movd	%xmm11, %edx
-	pshufd	$0x39, %xmm8, %xmm8
-	pshufd	$0x39, %xmm9, %xmm9
-	pshufd	$0x39, %xmm10, %xmm10
-	pshufd	$0x39, %xmm11, %xmm11
-	movl	%ecx, 40(%rdi)
-	movl	%ebx, 24(%rdi)
-	movl	%eax, 8(%rdi)
-	movl	%edx, 56(%rdi)
-	movd	%xmm8, %edx
-	movd	%xmm9, %ecx
-	movd	%xmm10, %ebx
-	movd	%xmm11, %eax
-	movl	%edx, 60(%rdi)
-	movl	%ecx, 44(%rdi)
-	movl	%ebx, 28(%rdi)
-	movl	%eax, 12(%rdi)
+	pcmpeqw	%xmm1, %xmm1
+	psrlq	$32, %xmm1
 	
-	/* re-shuffle 2nd block back */
-	movd	%xmm12, %eax
-	movd	%xmm13, %edx
-	movd	%xmm14, %ecx
-	movd	%xmm15, %ebx
-	pshufd	$0x39, %xmm12, %xmm12
-	pshufd	$0x39, %xmm13, %xmm13
-	pshufd	$0x39, %xmm14, %xmm14
-	pshufd	$0x39, %xmm15, %xmm15
-	movl	%eax, 64(%rdi)
-	movl	%edx, 112(%rdi)
-	movl	%ecx, 96(%rdi)
-	movl	%ebx, 80(%rdi)
-	movd	%xmm12, %ebx
-	movd	%xmm13, %eax
-	movd	%xmm14, %edx
-	movd	%xmm15, %ecx
-	pshufd	$0x39, %xmm12, %xmm12
-	pshufd	$0x39, %xmm13, %xmm13
-	pshufd	$0x39, %xmm14, %xmm14
-	pshufd	$0x39, %xmm15, %xmm15
-	movl	%ebx, 84(%rdi)
-	movl	%eax, 68(%rdi)
-	movl	%edx, 116(%rdi)
-	movl	%ecx, 100(%rdi)
-	movd	%xmm12, %ecx
-	movd	%xmm13, %ebx
-	movd	%xmm14, %eax
-	movd	%xmm15, %edx
-	pshufd	$0x39, %xmm12, %xmm12
-	pshufd	$0x39, %xmm13, %xmm13
-	pshufd	$0x39, %xmm14, %xmm14
-	pshufd	$0x39, %xmm15, %xmm15
-	movl	%ecx, 104(%rdi)
-	movl	%ebx, 88(%rdi)
-	movl	%eax, 72(%rdi)
-	movl	%edx, 120(%rdi)
-	movd	%xmm12, %edx
-	movd	%xmm13, %ecx
-	movd	%xmm14, %ebx
-	movd	%xmm15, %eax
-	movl	%edx, 124(%rdi)
-	movl	%ecx, 108(%rdi)
-	movl	%ebx, 92(%rdi)
-	movl	%eax, 76(%rdi)
+	movdqa	%xmm8, %xmm0
+	pxor	%xmm9, %xmm8
+	pand	%xmm1, %xmm8
+	pxor	%xmm9, %xmm8
+	pxor	%xmm10, %xmm9
+	pand	%xmm1, %xmm9
+	pxor	%xmm10, %xmm9
+	pxor	%xmm11, %xmm10
+	pand	%xmm1, %xmm10
+	pxor	%xmm11, %xmm10
+	pxor	%xmm0, %xmm11
+	pand	%xmm1, %xmm11
+	pxor	%xmm0, %xmm11
+	movdqa	%xmm8, %xmm0
+	pshufd	$0x4e, %xmm10, %xmm10
+	punpcklqdq	%xmm10, %xmm8
+	punpckhqdq	%xmm0, %xmm10
+	movdqa	%xmm9, %xmm0
+	pshufd	$0x4e, %xmm11, %xmm11
+	punpcklqdq	%xmm11, %xmm9
+	punpckhqdq	%xmm0, %xmm11
+	movdqa	%xmm8, 0(%rdi)
+	movdqa	%xmm11, 16(%rdi)
+	movdqa	%xmm10, 32(%rdi)
+	movdqa	%xmm9, 48(%rdi)
+	
+	movdqa	%xmm12, %xmm0
+	pxor	%xmm13, %xmm12
+	pand	%xmm1, %xmm12
+	pxor	%xmm13, %xmm12
+	pxor	%xmm14, %xmm13
+	pand	%xmm1, %xmm13
+	pxor	%xmm14, %xmm13
+	pxor	%xmm15, %xmm14
+	pand	%xmm1, %xmm14
+	pxor	%xmm15, %xmm14
+	pxor	%xmm0, %xmm15
+	pand	%xmm1, %xmm15
+	pxor	%xmm0, %xmm15
+	movdqa	%xmm12, %xmm0
+	pshufd	$0x4e, %xmm14, %xmm14
+	punpcklqdq	%xmm14, %xmm12
+	punpckhqdq	%xmm0, %xmm14
+	movdqa	%xmm13, %xmm0
+	pshufd	$0x4e, %xmm15, %xmm15
+	punpcklqdq	%xmm15, %xmm13
+	punpckhqdq	%xmm0, %xmm15
+	movdqa	%xmm12, 64(%rdi)
+	movdqa	%xmm15, 80(%rdi)
+	movdqa	%xmm14, 96(%rdi)
+	movdqa	%xmm13, 112(%rdi)
 	
 	scrypt_core_cleanup
 	ret
@@ -1915,8 +1817,8 @@ scrypt_core_3way_xop_loop2:
 	psrld	$23, %xmm5
 	pxor	%xmm7, %xmm14
 	movdqa	%xmm15, %xmm7
-	pshufd	$0x93, %xmm15, %xmm15
 	pxor	%xmm5, %xmm14
+	pshufd	$0x93, %xmm15, %xmm15
 	
 	paddd	%xmm2, %xmm4
 	paddd	%xmm10, %xmm6
@@ -1964,9 +1866,9 @@ scrypt_core_3way_xop_loop2:
 	pslld	$18, %xmm7
 	psrld	$14, %xmm5
 	pxor	%xmm7, %xmm12
-	pshufd	$0x39, %xmm13, %xmm13
-	pxor	%xmm5, %xmm12
 	movdqa	%xmm15, %xmm7
+	pxor	%xmm5, %xmm12
+	pshufd	$0x39, %xmm13, %xmm13
 	
 	paddd	%xmm0, %xmm4
 	paddd	%xmm8, %xmm6
diff --git a/scrypt-x86.S b/scrypt-x86.S
index 3a2d0e0..4fb2c46 100644
--- a/scrypt-x86.S
+++ b/scrypt-x86.S
@@ -607,8 +607,8 @@ scrypt_core_gen_loop2:
 	pslld	$7, %xmm4
 	psrld	$25, %xmm5
 	pxor	%xmm4, %xmm3
-	pxor	%xmm5, %xmm3
 	movdqa	%xmm0, %xmm4
+	pxor	%xmm5, %xmm3
 	
 	paddd	%xmm3, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -616,8 +616,8 @@ scrypt_core_gen_loop2:
 	psrld	$23, %xmm5
 	pxor	%xmm4, %xmm2
 	movdqa	%xmm3, %xmm4
-	pshufd	$0x93, %xmm3, %xmm3
 	pxor	%xmm5, %xmm2
+	pshufd	$0x93, %xmm3, %xmm3
 	
 	paddd	%xmm2, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -625,25 +625,25 @@ scrypt_core_gen_loop2:
 	psrld	$19, %xmm5
 	pxor	%xmm4, %xmm1
 	movdqa	%xmm2, %xmm4
-	pshufd	$0x4e, %xmm2, %xmm2
 	pxor	%xmm5, %xmm1
+	pshufd	$0x4e, %xmm2, %xmm2
 	
 	paddd	%xmm1, %xmm4
 	movdqa	%xmm4, %xmm5
 	pslld	$18, %xmm4
 	psrld	$14, %xmm5
 	pxor	%xmm4, %xmm0
-	pshufd	$0x39, %xmm1, %xmm1
-	pxor	%xmm5, %xmm0
 	movdqa	%xmm3, %xmm4
+	pxor	%xmm5, %xmm0
+	pshufd	$0x39, %xmm1, %xmm1
 	
 	paddd	%xmm0, %xmm4
 	movdqa	%xmm4, %xmm5
 	pslld	$7, %xmm4
 	psrld	$25, %xmm5
 	pxor	%xmm4, %xmm1
-	pxor	%xmm5, %xmm1
 	movdqa	%xmm0, %xmm4
+	pxor	%xmm5, %xmm1
 	
 	paddd	%xmm1, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -651,8 +651,8 @@ scrypt_core_gen_loop2:
 	psrld	$23, %xmm5
 	pxor	%xmm4, %xmm2
 	movdqa	%xmm1, %xmm4
-	pshufd	$0x93, %xmm1, %xmm1
 	pxor	%xmm5, %xmm2
+	pshufd	$0x93, %xmm1, %xmm1
 	
 	paddd	%xmm2, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -660,8 +660,8 @@ scrypt_core_gen_loop2:
 	psrld	$19, %xmm5
 	pxor	%xmm4, %xmm3
 	movdqa	%xmm2, %xmm4
-	pshufd	$0x4e, %xmm2, %xmm2
 	pxor	%xmm5, %xmm3
+	pshufd	$0x4e, %xmm2, %xmm2
 	
 	paddd	%xmm3, %xmm4
 	movdqa	%xmm4, %xmm5
@@ -704,10 +704,10 @@ scrypt_core_sse2_loop1:
 	movdqa	80(%esp), %xmm5
 	pxor	%xmm4, %xmm0
 	pxor	%xmm5, %xmm1
-	pxor	%xmm6, %xmm2
-	pxor	%xmm7, %xmm3
 	movdqa	%xmm0, 0(%edx)
 	movdqa	%xmm1, 16(%edx)
+	pxor	%xmm6, %xmm2
+	pxor	%xmm7, %xmm3
 	movdqa	%xmm2, 32(%edx)
 	movdqa	%xmm3, 48(%edx)
 	movdqa	%xmm4, 64(%edx)
@@ -750,11 +750,11 @@ scrypt_core_sse2_loop1:
 	
 	movl	$1024, %ecx
 scrypt_core_sse2_loop2:
+	movd	%xmm4, %edx
 	movdqa	0(%esp), %xmm0
 	movdqa	16(%esp), %xmm1
 	movdqa	32(%esp), %xmm2
 	movdqa	48(%esp), %xmm3
-	movd	%xmm4, %edx
 	andl	$1023, %edx
 	shll	$7, %edx
 	pxor	0(%esi, %edx), %xmm0
@@ -764,10 +764,10 @@ scrypt_core_sse2_loop2:
 	
 	pxor	%xmm4, %xmm0
 	pxor	%xmm5, %xmm1
-	pxor	%xmm6, %xmm2
-	pxor	%xmm7, %xmm3
 	movdqa	%xmm0, 0(%esp)
 	movdqa	%xmm1, 16(%esp)
+	pxor	%xmm6, %xmm2
+	pxor	%xmm7, %xmm3
 	movdqa	%xmm2, 32(%esp)
 	movdqa	%xmm3, 48(%esp)
 	salsa8_core_sse2
diff --git a/sha2-x64.S b/sha2-x64.S
index 63ecace..1fe87a6 100644
--- a/sha2-x64.S
+++ b/sha2-x64.S
@@ -234,12 +234,11 @@ _sha256_init_4way:
 
 .macro sha256_sse2_main_round i
 	movdqa	16*(\i)(%rax), %xmm6
-	paddd	16*(\i)(%rcx), %xmm6
-	paddd	32(%rsp), %xmm6
 
 	movdqa	%xmm0, %xmm1
 	movdqa	16(%rsp), %xmm2
 	pandn	%xmm2, %xmm1
+	paddd	32(%rsp), %xmm6
 
 	movdqa	%xmm2, 32(%rsp)
 	movdqa	0(%rsp), %xmm2
@@ -253,6 +252,7 @@ _sha256_init_4way:
 
 	movdqa	%xmm0, %xmm1
 	psrld	$6, %xmm0
+	paddd	16*(\i)(%rcx), %xmm6
 	movdqa	%xmm0, %xmm2
 	pslld	$7, %xmm1
 	psrld	$5, %xmm2
@@ -261,20 +261,19 @@ _sha256_init_4way:
 	pslld	$14, %xmm1
 	psrld	$14, %xmm2
 	pxor	%xmm1, %xmm0
-	pxor	%xmm2, %xmm0
 	pslld	$5, %xmm1
+	pxor	%xmm2, %xmm0
 	pxor	%xmm1, %xmm0
+	movdqa	%xmm5, %xmm1
 	paddd	%xmm0, %xmm6
 
 	movdqa	%xmm3, %xmm0
-	paddd	%xmm6, %xmm0
-
-	movdqa	%xmm5, %xmm1
 	movdqa	%xmm4, %xmm3
 	movdqa	%xmm4, %xmm2
+	paddd	%xmm6, %xmm0
 	pand	%xmm5, %xmm2
-	pand	%xmm7, %xmm4
 	pand	%xmm7, %xmm1
+	pand	%xmm7, %xmm4
 	pxor	%xmm4, %xmm1
 	movdqa	%xmm5, %xmm4
 	movdqa	%xmm7, %xmm5
@@ -287,12 +286,12 @@ _sha256_init_4way:
 	pslld	$10, %xmm2
 	psrld	$11, %xmm1
 	pxor	%xmm2, %xmm7
-	pxor	%xmm1, %xmm7
 	pslld	$9, %xmm2
+	pxor	%xmm1, %xmm7
 	psrld	$9, %xmm1
 	pxor	%xmm2, %xmm7
-	pxor	%xmm1, %xmm7
 	pslld	$11, %xmm2
+	pxor	%xmm1, %xmm7
 	pxor	%xmm2, %xmm7
 	paddd	%xmm6, %xmm7
 .endm
diff --git a/sha2-x86.S b/sha2-x86.S
index 5eeac84..89bf4a9 100644
--- a/sha2-x86.S
+++ b/sha2-x86.S
@@ -230,12 +230,11 @@ _sha256_init_4way:
 
 .macro sha256_sse2_main_round i
 	movdqa	16*(\i)(%eax), %xmm6
-	paddd	16*(\i)+sha256_4k, %xmm6
-	paddd	32(%esp), %xmm6
 
 	movdqa	%xmm0, %xmm1
 	movdqa	16(%esp), %xmm2
 	pandn	%xmm2, %xmm1
+	paddd	32(%esp), %xmm6
 
 	movdqa	%xmm2, 32(%esp)
 	movdqa	0(%esp), %xmm2
@@ -249,6 +248,7 @@ _sha256_init_4way:
 
 	movdqa	%xmm0, %xmm1
 	psrld	$6, %xmm0
+	paddd	16*(\i)+sha256_4k, %xmm6
 	movdqa	%xmm0, %xmm2
 	pslld	$7, %xmm1
 	psrld	$5, %xmm2
@@ -257,20 +257,19 @@ _sha256_init_4way:
 	pslld	$14, %xmm1
 	psrld	$14, %xmm2
 	pxor	%xmm1, %xmm0
-	pxor	%xmm2, %xmm0
 	pslld	$5, %xmm1
+	pxor	%xmm2, %xmm0
 	pxor	%xmm1, %xmm0
+	movdqa	%xmm5, %xmm1
 	paddd	%xmm0, %xmm6
 
 	movdqa	%xmm3, %xmm0
-	paddd	%xmm6, %xmm0
-
-	movdqa	%xmm5, %xmm1
 	movdqa	%xmm4, %xmm3
 	movdqa	%xmm4, %xmm2
+	paddd	%xmm6, %xmm0
 	pand	%xmm5, %xmm2
-	pand	%xmm7, %xmm4
 	pand	%xmm7, %xmm1
+	pand	%xmm7, %xmm4
 	pxor	%xmm4, %xmm1
 	movdqa	%xmm5, %xmm4
 	movdqa	%xmm7, %xmm5
@@ -283,12 +282,12 @@ _sha256_init_4way:
 	pslld	$10, %xmm2
 	psrld	$11, %xmm1
 	pxor	%xmm2, %xmm7
-	pxor	%xmm1, %xmm7
 	pslld	$9, %xmm2
+	pxor	%xmm1, %xmm7
 	psrld	$9, %xmm1
 	pxor	%xmm2, %xmm7
-	pxor	%xmm1, %xmm7
 	pslld	$11, %xmm2
+	pxor	%xmm1, %xmm7
 	pxor	%xmm2, %xmm7
 	paddd	%xmm6, %xmm7
 .endm