Add optimized ARM NEON code for scrypt and SHA-256d

2012-08-04 18:21:34 +02:00 · 2012-08-04 18:21:34 +02:00 · 3419ca2607
commit 3419ca2607
parent 4fd1ef6383
4 changed files with 1593 additions and 5 deletions
--- a/miner.h
+++ b/miner.h
@ -124,7 +124,7 @@ static inline void le32enc(void *pp, uint32_t x)
 void sha256_init(uint32_t *state);
 void sha256_transform(uint32_t *state, const uint32_t *block, int swap);

-#if defined(__i386__) || defined(__x86_64__)
+#if defined(__ARM_NEON__) || defined(__i386__) || defined(__x86_64__)
 #define HAVE_SHA256_4WAY 1
 int sha256_use_4way();
 void sha256_init_4way(uint32_t *state);
--- a/scrypt-arm.S
+++ b/scrypt-arm.S
@ -471,7 +471,10 @@
 scrypt_core:
 _scrypt_core:
 	stmfd	sp!, {r4-r11, lr}
-	sub	sp, sp, #20*4
+	mov	r12, sp
+	sub	sp, sp, #21*4
+	bic	sp, sp, #63
+	str	r12, [sp, #20*4]
 	
 	scrypt_shuffle
 	
@ -569,7 +572,7 @@ scrypt_core_loop2:
 	
 	scrypt_shuffle
 	
-	add	sp, sp, #20*4
+	ldr	sp, [sp, #20*4]
 #ifdef __thumb__
 	ldmfd	sp!, {r4-r11, lr}
 	bx	lr
@ -577,4 +580,594 @@ scrypt_core_loop2:
 	ldmfd	sp!, {r4-r11, pc}
 #endif

+
+#ifdef __ARM_NEON__
+
+.macro salsa8_core_3way_doubleround
+	ldrd	r6, [sp, #6*4]
+	vadd.u32	q4, q0, q1
+	add	r6, r2, r6
+	vadd.u32	q6, q8, q9
+	add	r7, r3, r7
+	vshl.u32	q5, q4, #7
+	eor	r10, r10, r6, ror #25
+	vshl.u32	q7, q6, #7
+	add	r6, r0, r4
+	vshr.u32	q4, q4, #32-7
+	eor	r11, r11, r7, ror #25
+	vshr.u32	q6, q6, #32-7
+	add	r7, r1, r5
+	veor.u32	q3, q3, q5
+	strd	r10, [sp, #14*4]
+	veor.u32	q11, q11, q7
+	eor	r12, r12, r6, ror #25
+	veor.u32	q3, q3, q4
+	eor	lr, lr, r7, ror #25
+	veor.u32	q11, q11, q6
+	
+	ldrd	r6, [sp, #10*4]
+	vadd.u32	q4, q3, q0
+	add	r2, r10, r2
+	vadd.u32	q6, q11, q8
+	add	r3, r11, r3
+	vshl.u32	q5, q4, #9
+	eor	r6, r6, r2, ror #23
+	vshl.u32	q7, q6, #9
+	add	r2, r12, r0
+	vshr.u32	q4, q4, #32-9
+	eor	r7, r7, r3, ror #23
+	vshr.u32	q6, q6, #32-9
+	add	r3, lr, r1
+	veor.u32	q2, q2, q5
+	strd	r6, [sp, #10*4]
+	veor.u32	q10, q10, q7
+	eor	r8, r8, r2, ror #23
+	veor.u32	q2, q2, q4
+	eor	r9, r9, r3, ror #23
+	veor.u32	q10, q10, q6
+	
+	ldrd	r2, [sp, #6*4]
+	vadd.u32	q4, q2, q3
+	add	r10, r6, r10
+	vadd.u32	q6, q10, q11
+	add	r11, r7, r11
+	vext.u32	q3, q3, q3, #3
+	eor	r2, r2, r10, ror #19
+	vshl.u32	q5, q4, #13
+	add	r10, r8, r12
+	vext.u32	q11, q11, q11, #3
+	eor	r3, r3, r11, ror #19
+	vshl.u32	q7, q6, #13
+	add	r11, r9, lr
+	vshr.u32	q4, q4, #32-13
+	eor	r4, r4, r10, ror #19
+	vshr.u32	q6, q6, #32-13
+	eor	r5, r5, r11, ror #19
+	veor.u32	q1, q1, q5
+	veor.u32	q9, q9, q7
+	veor.u32	q1, q1, q4
+	veor.u32	q9, q9, q6
+	
+	ldrd	r10, [sp, #2*4]
+	vadd.u32	q4, q1, q2
+	add	r6, r2, r6
+	vadd.u32	q6, q9, q10
+	add	r7, r3, r7
+	vswp.u32	d4, d5
+	eor	r10, r10, r6, ror #14
+	vshl.u32	q5, q4, #18
+	add	r6, r4, r8
+	vswp.u32	d20, d21
+	eor	r11, r11, r7, ror #14
+	vshl.u32	q7, q6, #18
+	add	r7, r5, r9
+	vshr.u32	q4, q4, #32-18
+	eor	r0, r0, r6, ror #14
+	vshr.u32	q6, q6, #32-18
+	eor	r1, r1, r7, ror #14
+	veor.u32	q0, q0, q5
+	ldrd	r6, [sp, #14*4]
+	veor.u32	q8, q8, q7
+	veor.u32	q0, q0, q4
+	veor.u32	q8, q8, q6
+	
+	
+	strd	r2, [sp, #6*4]
+	vadd.u32	q4, q0, q3
+	strd	r10, [sp, #2*4]
+	vadd.u32	q6, q8, q11
+	add	r6, r11, r6
+	vext.u32	q1, q1, q1, #1
+	add	r7, r0, r7
+	vshl.u32	q5, q4, #7
+	eor	r4, r4, r6, ror #25
+	vext.u32	q9, q9, q9, #1
+	add	r6, r1, r12
+	vshl.u32	q7, q6, #7
+	eor	r5, r5, r7, ror #25
+	vshr.u32	q4, q4, #32-7
+	add	r7, r10, lr
+	vshr.u32	q6, q6, #32-7
+	eor	r2, r2, r6, ror #25
+	veor.u32	q1, q1, q5
+	eor	r3, r3, r7, ror #25
+	veor.u32	q9, q9, q7
+	strd	r2, [sp, #6*4]
+	veor.u32	q1, q1, q4
+	veor.u32	q9, q9, q6
+	
+	add	r10, r3, r10
+	vadd.u32	q4, q1, q0
+	ldrd	r6, [sp, #10*4]
+	vadd.u32	q6, q9, q8
+	add	r11, r4, r11
+	vshl.u32	q5, q4, #9
+	eor	r8, r8, r10, ror #23
+	vshl.u32	q7, q6, #9
+	add	r10, r5, r0
+	vshr.u32	q4, q4, #32-9
+	eor	r9, r9, r11, ror #23
+	vshr.u32	q6, q6, #32-9
+	add	r11, r2, r1
+	veor.u32	q2, q2, q5
+	eor	r6, r6, r10, ror #23
+	veor.u32	q10, q10, q7
+	eor	r7, r7, r11, ror #23
+	veor.u32	q2, q2, q4
+	strd	r6, [sp, #10*4]
+	veor.u32	q10, q10, q6
+	
+	add	r2, r7, r2
+	vadd.u32	q4, q2, q1
+	ldrd	r10, [sp, #14*4]
+	vadd.u32	q6, q10, q9
+	add	r3, r8, r3
+	vext.u32	q1, q1, q1, #3
+	eor	r12, r12, r2, ror #19
+	vshl.u32	q5, q4, #13
+	add	r2, r9, r4
+	vext.u32	q9, q9, q9, #3
+	eor	lr, lr, r3, ror #19
+	vshl.u32	q7, q6, #13
+	add	r3, r6, r5
+	vshr.u32	q4, q4, #32-13
+	eor	r10, r10, r2, ror #19
+	vshr.u32	q6, q6, #32-13
+	eor	r11, r11, r3, ror #19
+	veor.u32	q3, q3, q5
+	veor.u32	q11, q11, q7
+	veor.u32	q3, q3, q4
+	veor.u32	q11, q11, q6
+	
+	ldrd	r2, [sp, #2*4]
+	vadd.u32	q4, q3, q2
+	add	r6, r11, r6
+	vadd.u32	q6, q11, q10
+	add	r7, r12, r7
+	vswp.u32	d4, d5
+	eor	r0, r0, r6, ror #14
+	vshl.u32	q5, q4, #18
+	add	r6, lr, r8
+	vswp.u32	d20, d21
+	eor	r1, r1, r7, ror #14
+	vshl.u32	q7, q6, #18
+	add	r7, r10, r9
+	vext.u32	q3, q3, q3, #1
+	eor	r2, r2, r6, ror #14
+	vshr.u32	q4, q4, #32-18
+	eor	r3, r3, r7, ror #14
+	vshr.u32	q6, q6, #32-18
+	strd	r2, [sp, #2*4]
+	vext.u32	q11, q11, q11, #1
+	strd	r10, [sp, #14*4]
+	veor.u32	q0, q0, q5
+	veor.u32	q8, q8, q7
+	veor.u32	q0, q0, q4
+	veor.u32	q8, q8, q6
+.endm
+
+.macro salsa8_core_3way
+	ldmia	sp, {r0-r12, lr}
+	ldrd	r10, [sp, #14*4]
+	salsa8_core_3way_doubleround
+	salsa8_core_3way_doubleround
+	salsa8_core_3way_doubleround
+	salsa8_core_3way_doubleround
+	stmia	sp, {r0-r5}
+	strd	r8, [sp, #8*4]
+	str	r12, [sp, #12*4]
+	str	lr, [sp, #13*4]
+.endm
+
+	.text
+	.code 32
+	.align 2
+	.globl scrypt_core_3way
+	.globl _scrypt_core_3way
+#ifdef __ELF__
+	.type scrypt_core_3way, %function
+#endif
+scrypt_core_3way:
+_scrypt_core_3way:
+	stmfd	sp!, {r4-r11, lr}
+	vpush	{q4-q7}
+	mov	r12, sp
+	sub	sp, sp, #24*16
+	bic	sp, sp, #63
+	str	r12, [sp, #4*16+3*4]
+	
+	mov	r2, r0
+	vldmia	r2!, {q8-q15}
+	vmov.u64	q0, #0xffffffff
+	vmov.u32	q1, q8
+	vmov.u32	q2, q12
+	vbif.u32	q8, q9, q0
+	vbif.u32	q12, q13, q0
+	vbif.u32	q9, q10, q0
+	vbif.u32	q13, q14, q0
+	vbif.u32	q10, q11, q0
+	vbif.u32	q14, q15, q0
+	vbif.u32	q11, q1, q0
+	vbif.u32	q15, q2, q0
+	vldmia	r2!, {q0-q7}
+	vswp.u32	d17, d21
+	vswp.u32	d25, d29
+	vswp.u32	d18, d22
+	vswp.u32	d26, d30
+	vstmia	r0, {q8-q15}
+	vmov.u64	q8, #0xffffffff
+	vmov.u32	q9, q0
+	vmov.u32	q10, q4
+	vbif.u32	q0, q1, q8
+	vbif.u32	q4, q5, q8
+	vbif.u32	q1, q2, q8
+	vbif.u32	q5, q6, q8
+	vbif.u32	q2, q3, q8
+	vbif.u32	q6, q7, q8
+	vbif.u32	q3, q9, q8
+	vbif.u32	q7, q10, q8
+	vldmia	r2, {q8-q15}
+	vswp.u32	d1, d5
+	vswp.u32	d9, d13
+	vswp.u32	d2, d6
+	vswp.u32	d10, d14
+	add	r12, sp, #8*16
+	vstmia	r12!, {q0-q7}
+	vmov.u64	q0, #0xffffffff
+	vmov.u32	q1, q8
+	vmov.u32	q2, q12
+	vbif.u32	q8, q9, q0
+	vbif.u32	q12, q13, q0
+	vbif.u32	q9, q10, q0
+	vbif.u32	q13, q14, q0
+	vbif.u32	q10, q11, q0
+	vbif.u32	q14, q15, q0
+	vbif.u32	q11, q1, q0
+	vbif.u32	q15, q2, q0
+	vswp.u32	d17, d21
+	vswp.u32	d25, d29
+	vswp.u32	d18, d22
+	vswp.u32	d26, d30
+	vstmia	r12, {q8-q15}
+	
+	add	lr, sp, #128
+	vldmia	lr, {q0-q7}
+	add	r2, r1, #1024*32*4
+	str	r0, [sp, #4*16+0*4]
+	str	r2, [sp, #4*16+2*4]
+scrypt_core_3way_loop1:
+	add	lr, r0, #16*4
+	add	r3, r1, #16*4
+	str	r1, [sp, #4*16+1*4]
+	mov	r12, sp
+	scrypt_core_macro1a_x4
+	scrypt_core_macro1a_x4
+	scrypt_core_macro1a_x4
+	scrypt_core_macro1a_x4
+	sub	r1, r1, #4*16
+	
+	add	r1, r1, #1024*32*4
+	vstmia	r1, {q0-q7}
+	add	r3, r1, #1024*32*4
+	vstmia	r3, {q8-q15}
+	
+	add	lr, sp, #128
+	veor.u32	q0, q0, q4
+	veor.u32	q1, q1, q5
+	veor.u32	q2, q2, q6
+	veor.u32	q3, q3, q7
+	vstmia	lr, {q0-q3}
+	veor.u32	q8, q8, q12
+	veor.u32	q9, q9, q13
+	veor.u32	q10, q10, q14
+	veor.u32	q11, q11, q15
+	add	r12, sp, #256
+	vstmia	r12, {q8-q11}
+	
+	salsa8_core_3way
+	
+	ldr	r0, [sp, #4*16+0*4]
+	mov	r12, sp
+	add	r2, r0, #16*4
+	scrypt_core_macro2_x4
+	scrypt_core_macro2_x4
+	scrypt_core_macro2_x4
+	scrypt_core_macro2_x4
+	
+	add	lr, sp, #128
+	vldmia	lr, {q4-q7}
+	vadd.u32	q4, q4, q0
+	vadd.u32	q5, q5, q1
+	vadd.u32	q6, q6, q2
+	vadd.u32	q7, q7, q3
+	add	r12, sp, #256
+	vldmia	r12, {q0-q3}
+	vstmia	lr, {q4-q7}
+	vadd.u32	q8, q8, q0
+	vadd.u32	q9, q9, q1
+	vadd.u32	q10, q10, q2
+	vadd.u32	q11, q11, q3
+	
+	add	r4, sp, #128+4*16
+	vldmia	r4, {q0-q3}
+	vstmia	r12, {q8-q11}
+	veor.u32	q0, q0, q4
+	veor.u32	q1, q1, q5
+	veor.u32	q2, q2, q6
+	veor.u32	q3, q3, q7
+	vstmia	r4, {q0-q3}
+	veor.u32	q8, q8, q12
+	veor.u32	q9, q9, q13
+	veor.u32	q10, q10, q14
+	veor.u32	q11, q11, q15
+	vmov	q12, q8
+	vmov	q13, q9
+	vmov	q14, q10
+	vmov	q15, q11
+	
+	salsa8_core_3way
+	
+	ldr	r0, [sp, #4*16+0*4]
+	mov	r1, sp
+	add	r0, r0, #16*4
+	scrypt_core_macro3_x6
+	scrypt_core_macro3_x6
+	scrypt_core_macro3_x4
+	sub	r0, r0, #8*16
+	
+	ldr	r1, [sp, #4*16+1*4]
+	ldr	r2, [sp, #4*16+2*4]
+	add	lr, sp, #128
+	add	r4, sp, #128+4*16
+	vldmia	r4, {q4-q7}
+	vadd.u32	q4, q4, q0
+	vadd.u32	q5, q5, q1
+	vadd.u32	q6, q6, q2
+	vadd.u32	q7, q7, q3
+	vstmia	r4, {q4-q7}
+	vldmia	lr, {q0-q3}
+	vadd.u32	q12, q12, q8
+	vadd.u32	q13, q13, q9
+	vadd.u32	q14, q14, q10
+	vadd.u32	q15, q15, q11
+	add	r12, sp, #256
+	vldmia	r12, {q8-q11}
+	
+	add	r1, r1, #8*16
+	cmp	r1, r2
+	bne	scrypt_core_3way_loop1
+	
+	add	r5, sp, #256+4*16
+	vstmia	r5, {q12-q15}
+	
+	sub	r1, r1, #1024*32*4
+	str	r1, [sp, #4*16+1*4]
+	mov	r2, #1024
+scrypt_core_3way_loop2:
+	str	r2, [sp, #4*16+2*4]
+	
+	ldr	r0, [sp, #4*16+0*4]
+	ldr	r1, [sp, #4*16+1*4]
+	ldr	r4, [r0, #16*4]
+	mov	r4, r4, lsl #32-10
+	add	r1, r1, r4, lsr #32-10-7
+	add	r2, r0, #16*4
+	add	r3, r1, #16*4
+	mov	r12, sp
+	scrypt_core_macro1b_x4
+	scrypt_core_macro1b_x4
+	scrypt_core_macro1b_x4
+	scrypt_core_macro1b_x4
+	
+	ldr	r1, [sp, #4*16+1*4]
+	add	r1, r1, #1024*32*4
+	add	r3, r1, #1024*32*4
+	vmov	r6, r7, d8
+	mov	r6, r6, lsl #32-10
+	add	r6, r1, r6, lsr #32-10-7
+	vmov	r7, r8, d24
+	add	lr, sp, #128
+	vldmia	lr, {q0-q3}
+	pld	[r6]
+	pld [r6, #8*4]
+	pld	[r6, #16*4]
+	pld [r6, #24*4]
+	vldmia	r6, {q8-q15}
+	mov	r7, r7, lsl #32-10
+	add	r7, r3, r7, lsr #32-10-7
+	veor.u32	q8, q8, q0
+	veor.u32	q9, q9, q1
+	veor.u32	q10, q10, q2
+	veor.u32	q11, q11, q3
+	pld	[r7]
+	pld [r7, #8*4]
+	pld	[r7, #16*4]
+	pld [r7, #24*4]
+	veor.u32	q12, q12, q4
+	veor.u32	q13, q13, q5
+	veor.u32	q14, q14, q6
+	veor.u32	q15, q15, q7
+	vldmia	r7, {q0-q7}
+	vstmia	lr, {q8-q15}
+	add	r12, sp, #256
+	vldmia	r12, {q8-q15}
+	veor.u32	q8, q8, q0
+	veor.u32	q9, q9, q1
+	veor.u32	q10, q10, q2
+	veor.u32	q11, q11, q3
+	veor.u32	q12, q12, q4
+	veor.u32	q13, q13, q5
+	veor.u32	q14, q14, q6
+	veor.u32	q15, q15, q7
+	
+	vldmia	lr, {q0-q7}
+	veor.u32	q0, q0, q4
+	veor.u32	q1, q1, q5
+	veor.u32	q2, q2, q6
+	veor.u32	q3, q3, q7
+	vstmia	lr, {q0-q3}
+	veor.u32	q8, q8, q12
+	veor.u32	q9, q9, q13
+	veor.u32	q10, q10, q14
+	veor.u32	q11, q11, q15
+	vstmia	r12, {q8-q15}
+	
+	salsa8_core_3way
+	
+	ldr	r0, [sp, #4*16+0*4]
+	mov	r12, sp
+	add	r2, r0, #16*4
+	scrypt_core_macro2_x4
+	scrypt_core_macro2_x4
+	scrypt_core_macro2_x4
+	scrypt_core_macro2_x4
+	
+	add	lr, sp, #128
+	vldmia	lr, {q4-q7}
+	vadd.u32	q4, q4, q0
+	vadd.u32	q5, q5, q1
+	vadd.u32	q6, q6, q2
+	vadd.u32	q7, q7, q3
+	add	r12, sp, #256
+	vldmia	r12, {q12-q15}
+	vstmia	lr, {q4-q7}
+	vadd.u32	q12, q12, q8
+	vadd.u32	q13, q13, q9
+	vadd.u32	q14, q14, q10
+	vadd.u32	q15, q15, q11
+	
+	add	r4, sp, #128+4*16
+	vldmia	r4, {q0-q3}
+	vstmia	r12, {q12-q15}
+	veor.u32	q0, q0, q4
+	veor.u32	q1, q1, q5
+	veor.u32	q2, q2, q6
+	veor.u32	q3, q3, q7
+	add	r5, sp, #256+4*16
+	vldmia	r5, {q8-q11}
+	vstmia	r4, {q0-q3}
+	veor.u32	q8, q8, q12
+	veor.u32	q9, q9, q13
+	veor.u32	q10, q10, q14
+	veor.u32	q11, q11, q15
+	vmov	q12, q8
+	vmov	q13, q9
+	vmov	q14, q10
+	vmov	q15, q11
+	
+	salsa8_core_3way
+	
+	ldr	r0, [sp, #4*16+0*4]
+	ldr	r3, [sp, #4*16+1*4]
+	mov	r1, sp
+	add	r0, r0, #16*4
+	scrypt_core_macro3_x4
+	mov	r4, r4, lsl #32-10
+	add	r3, r3, r4, lsr #32-10-7
+	pld	[r3, #16*4]
+	pld	[r3]
+	pld [r3, #24*4]
+	pld [r3, #8*4]
+	scrypt_core_macro3_x6
+	scrypt_core_macro3_x6
+	
+	add	lr, sp, #128
+	add	r4, sp, #128+4*16
+	vldmia	r4, {q4-q7}
+	vadd.u32	q4, q4, q0
+	vadd.u32	q5, q5, q1
+	vadd.u32	q6, q6, q2
+	vadd.u32	q7, q7, q3
+	vstmia	r4, {q4-q7}
+	vadd.u32	q12, q12, q8
+	vadd.u32	q13, q13, q9
+	vadd.u32	q14, q14, q10
+	vadd.u32	q15, q15, q11
+	add	r5, sp, #256+4*16
+	vstmia	r5, {q12-q15}
+	
+	ldr	r2, [sp, #4*16+2*4]
+	subs	r2, r2, #1
+	bne	scrypt_core_3way_loop2
+	
+	ldr	r0, [sp, #4*16+0*4]
+	vldmia	r0, {q8-q15}
+	vmov.u64	q0, #0xffffffff
+	vmov.u32	q1, q8
+	vmov.u32	q2, q12
+	vbif.u32	q8, q9, q0
+	vbif.u32	q12, q13, q0
+	vbif.u32	q9, q10, q0
+	vbif.u32	q13, q14, q0
+	vbif.u32	q10, q11, q0
+	vbif.u32	q14, q15, q0
+	vbif.u32	q11, q1, q0
+	vbif.u32	q15, q2, q0
+	add	r12, sp, #8*16
+	vldmia	r12!, {q0-q7}
+	vswp.u32	d17, d21
+	vswp.u32	d25, d29
+	vswp.u32	d18, d22
+	vswp.u32	d26, d30
+	vstmia	r0!, {q8-q15}
+	vmov.u64	q8, #0xffffffff
+	vmov.u32	q9, q0
+	vmov.u32	q10, q4
+	vbif.u32	q0, q1, q8
+	vbif.u32	q4, q5, q8
+	vbif.u32	q1, q2, q8
+	vbif.u32	q5, q6, q8
+	vbif.u32	q2, q3, q8
+	vbif.u32	q6, q7, q8
+	vbif.u32	q3, q9, q8
+	vbif.u32	q7, q10, q8
+	vldmia	r12, {q8-q15}
+	vswp.u32	d1, d5
+	vswp.u32	d9, d13
+	vswp.u32	d2, d6
+	vswp.u32	d10, d14
+	vstmia	r0!, {q0-q7}
+	vmov.u64	q0, #0xffffffff
+	vmov.u32	q1, q8
+	vmov.u32	q2, q12
+	vbif.u32	q8, q9, q0
+	vbif.u32	q12, q13, q0
+	vbif.u32	q9, q10, q0
+	vbif.u32	q13, q14, q0
+	vbif.u32	q10, q11, q0
+	vbif.u32	q14, q15, q0
+	vbif.u32	q11, q1, q0
+	vbif.u32	q15, q2, q0
+	vswp.u32	d17, d21
+	vswp.u32	d25, d29
+	vswp.u32	d18, d22
+	vswp.u32	d26, d30
+	vstmia	r0, {q8-q15}
+	
+	ldr	sp, [sp, #4*16+3*4]
+	vpop	{q4-q7}
+	ldmfd	sp!, {r4-r11, pc}
+
+#endif /* __ARM_NEON__ */
+
 #endif
--- a/scrypt.c
+++ b/scrypt.c
@ -273,6 +273,13 @@ void scrypt_core(uint32_t *X, uint32_t *V);
 #elif defined(__arm__) && defined(__APCS_32__)

 void scrypt_core(uint32_t *X, uint32_t *V);
+#if defined(__ARM_NEON__)
+#undef HAVE_SHA256_4WAY
+#define SCRYPT_MAX_WAYS 3
+#define HAVE_SCRYPT_3WAY 1
+#define scrypt_best_throughput() 3
+void scrypt_core_3way(uint32_t *X, uint32_t *V);
+#endif

 #else

@ -448,6 +455,34 @@ static void scrypt_1024_1_1_256_4way(const uint32_t *input,
 #endif /* HAVE_SHA256_4WAY */

 #ifdef HAVE_SCRYPT_3WAY
+
+static void scrypt_1024_1_1_256_3way(const uint32_t *input,
+	uint32_t *output, uint32_t *midstate, unsigned char *scratchpad)
+{
+	uint32_t tstate[3 * 8], ostate[3 * 8];
+	uint32_t X[3 * 32] __attribute__((aligned(64)));
+	uint32_t *V;
+	
+	V = (uint32_t *)(((uintptr_t)(scratchpad) + 63) & ~ (uintptr_t)(63));
+
+	memcpy(tstate +  0, midstate, 32);
+	memcpy(tstate +  8, midstate, 32);
+	memcpy(tstate + 16, midstate, 32);
+	HMAC_SHA256_80_init(input +  0, tstate +  0, ostate +  0);
+	HMAC_SHA256_80_init(input + 20, tstate +  8, ostate +  8);
+	HMAC_SHA256_80_init(input + 40, tstate + 16, ostate + 16);
+	PBKDF2_SHA256_80_128(tstate +  0, ostate +  0, input +  0, X +  0);
+	PBKDF2_SHA256_80_128(tstate +  8, ostate +  8, input + 20, X + 32);
+	PBKDF2_SHA256_80_128(tstate + 16, ostate + 16, input + 40, X + 64);
+
+	scrypt_core_3way(X, V);
+
+	PBKDF2_SHA256_128_32(tstate +  0, ostate +  0, X +  0, output +  0);
+	PBKDF2_SHA256_128_32(tstate +  8, ostate +  8, X + 32, output +  8);
+	PBKDF2_SHA256_128_32(tstate + 16, ostate + 16, X + 64, output + 16);
+}
+
+#ifdef HAVE_SHA256_4WAY
 static void scrypt_1024_1_1_256_12way(const uint32_t *input,
 	uint32_t *output, uint32_t *midstate, unsigned char *scratchpad)
 {
@ -514,6 +549,8 @@ static void scrypt_1024_1_1_256_12way(const uint32_t *input,
 		}
 	}
 }
+#endif /* HAVE_SHA256_4WAY */
+
 #endif /* HAVE_SCRYPT_3WAY */

 int scanhash_scrypt(int thr_id, uint32_t *pdata,
@ -542,15 +579,20 @@ int scanhash_scrypt(int thr_id, uint32_t *pdata,
 		for (i = 0; i < throughput; i++)
 			data[i * 20 + 19] = ++n;
 		
-#ifdef HAVE_SHA256_4WAY
+#if defined(HAVE_SHA256_4WAY)
 		if (throughput == 4)
 			scrypt_1024_1_1_256_4way(data, hash, midstate, scratchbuf);
 		else
 #endif
-#ifdef HAVE_SCRYPT_3WAY
+#if defined(HAVE_SCRYPT_3WAY) && defined(HAVE_SHA256_4WAY)
 		if (throughput == 12)
 			scrypt_1024_1_1_256_12way(data, hash, midstate, scratchbuf);
 		else
+#endif
+#if defined(HAVE_SCRYPT_3WAY)
+		if (throughput == 3)
+			scrypt_1024_1_1_256_3way(data, hash, midstate, scratchbuf);
+		else
 #endif
 		scrypt_1024_1_1_256(data, hash, midstate, scratchbuf);
 		
--- a/sha2-arm.S
+++ b/sha2-arm.S
@ -627,4 +627,957 @@ sha256d_ms_finish:
 	ldmfd	sp!, {r4-r11, pc}
 #endif

+
+#ifdef __ARM_NEON__
+
+	.text
+	.code 32
+	.align 2
+	.globl sha256_init_4way
+	.globl _sha256_init_4way
+#ifdef __ELF__
+	.type sha256_init_4way, %function
+#endif
+sha256_init_4way:
+_sha256_init_4way:
+	adr	r12, sha256_4h
+	vldmia	r12, {q8-q15}
+	vstmia	r0, {q8-q15}
+	bx	lr
+	.align 4
+sha256_4h:
+	.long 0x6a09e667, 0x6a09e667, 0x6a09e667, 0x6a09e667
+	.long 0xbb67ae85, 0xbb67ae85, 0xbb67ae85, 0xbb67ae85
+	.long 0x3c6ef372, 0x3c6ef372, 0x3c6ef372, 0x3c6ef372
+	.long 0xa54ff53a, 0xa54ff53a, 0xa54ff53a, 0xa54ff53a
+	.long 0x510e527f, 0x510e527f, 0x510e527f, 0x510e527f
+	.long 0x9b05688c, 0x9b05688c, 0x9b05688c, 0x9b05688c
+	.long 0x1f83d9ab, 0x1f83d9ab, 0x1f83d9ab, 0x1f83d9ab
+	.long 0x5be0cd19, 0x5be0cd19, 0x5be0cd19, 0x5be0cd19
+
+.macro sha256_4k
+	.long 0x428a2f98, 0x428a2f98, 0x428a2f98, 0x428a2f98
+	.long 0x71374491, 0x71374491, 0x71374491, 0x71374491
+	.long 0xb5c0fbcf, 0xb5c0fbcf, 0xb5c0fbcf, 0xb5c0fbcf
+	.long 0xe9b5dba5, 0xe9b5dba5, 0xe9b5dba5, 0xe9b5dba5
+	.long 0x3956c25b, 0x3956c25b, 0x3956c25b, 0x3956c25b
+	.long 0x59f111f1, 0x59f111f1, 0x59f111f1, 0x59f111f1
+	.long 0x923f82a4, 0x923f82a4, 0x923f82a4, 0x923f82a4
+	.long 0xab1c5ed5, 0xab1c5ed5, 0xab1c5ed5, 0xab1c5ed5
+	.long 0xd807aa98, 0xd807aa98, 0xd807aa98, 0xd807aa98
+	.long 0x12835b01, 0x12835b01, 0x12835b01, 0x12835b01
+	.long 0x243185be, 0x243185be, 0x243185be, 0x243185be
+	.long 0x550c7dc3, 0x550c7dc3, 0x550c7dc3, 0x550c7dc3
+	.long 0x72be5d74, 0x72be5d74, 0x72be5d74, 0x72be5d74
+	.long 0x80deb1fe, 0x80deb1fe, 0x80deb1fe, 0x80deb1fe
+	.long 0x9bdc06a7, 0x9bdc06a7, 0x9bdc06a7, 0x9bdc06a7
+	.long 0xc19bf174, 0xc19bf174, 0xc19bf174, 0xc19bf174
+	.long 0xe49b69c1, 0xe49b69c1, 0xe49b69c1, 0xe49b69c1
+	.long 0xefbe4786, 0xefbe4786, 0xefbe4786, 0xefbe4786
+	.long 0x0fc19dc6, 0x0fc19dc6, 0x0fc19dc6, 0x0fc19dc6
+	.long 0x240ca1cc, 0x240ca1cc, 0x240ca1cc, 0x240ca1cc
+	.long 0x2de92c6f, 0x2de92c6f, 0x2de92c6f, 0x2de92c6f
+	.long 0x4a7484aa, 0x4a7484aa, 0x4a7484aa, 0x4a7484aa
+	.long 0x5cb0a9dc, 0x5cb0a9dc, 0x5cb0a9dc, 0x5cb0a9dc
+	.long 0x76f988da, 0x76f988da, 0x76f988da, 0x76f988da
+	.long 0x983e5152, 0x983e5152, 0x983e5152, 0x983e5152
+	.long 0xa831c66d, 0xa831c66d, 0xa831c66d, 0xa831c66d
+	.long 0xb00327c8, 0xb00327c8, 0xb00327c8, 0xb00327c8
+	.long 0xbf597fc7, 0xbf597fc7, 0xbf597fc7, 0xbf597fc7
+	.long 0xc6e00bf3, 0xc6e00bf3, 0xc6e00bf3, 0xc6e00bf3
+	.long 0xd5a79147, 0xd5a79147, 0xd5a79147, 0xd5a79147
+	.long 0x06ca6351, 0x06ca6351, 0x06ca6351, 0x06ca6351
+	.long 0x14292967, 0x14292967, 0x14292967, 0x14292967
+	.long 0x27b70a85, 0x27b70a85, 0x27b70a85, 0x27b70a85
+	.long 0x2e1b2138, 0x2e1b2138, 0x2e1b2138, 0x2e1b2138
+	.long 0x4d2c6dfc, 0x4d2c6dfc, 0x4d2c6dfc, 0x4d2c6dfc
+	.long 0x53380d13, 0x53380d13, 0x53380d13, 0x53380d13
+	.long 0x650a7354, 0x650a7354, 0x650a7354, 0x650a7354
+	.long 0x766a0abb, 0x766a0abb, 0x766a0abb, 0x766a0abb
+	.long 0x81c2c92e, 0x81c2c92e, 0x81c2c92e, 0x81c2c92e
+	.long 0x92722c85, 0x92722c85, 0x92722c85, 0x92722c85
+	.long 0xa2bfe8a1, 0xa2bfe8a1, 0xa2bfe8a1, 0xa2bfe8a1
+	.long 0xa81a664b, 0xa81a664b, 0xa81a664b, 0xa81a664b
+	.long 0xc24b8b70, 0xc24b8b70, 0xc24b8b70, 0xc24b8b70
+	.long 0xc76c51a3, 0xc76c51a3, 0xc76c51a3, 0xc76c51a3
+	.long 0xd192e819, 0xd192e819, 0xd192e819, 0xd192e819
+	.long 0xd6990624, 0xd6990624, 0xd6990624, 0xd6990624
+	.long 0xf40e3585, 0xf40e3585, 0xf40e3585, 0xf40e3585
+	.long 0x106aa070, 0x106aa070, 0x106aa070, 0x106aa070
+	.long 0x19a4c116, 0x19a4c116, 0x19a4c116, 0x19a4c116
+	.long 0x1e376c08, 0x1e376c08, 0x1e376c08, 0x1e376c08
+	.long 0x2748774c, 0x2748774c, 0x2748774c, 0x2748774c
+	.long 0x34b0bcb5, 0x34b0bcb5, 0x34b0bcb5, 0x34b0bcb5
+	.long 0x391c0cb3, 0x391c0cb3, 0x391c0cb3, 0x391c0cb3
+	.long 0x4ed8aa4a, 0x4ed8aa4a, 0x4ed8aa4a, 0x4ed8aa4a
+	.long 0x5b9cca4f, 0x5b9cca4f, 0x5b9cca4f, 0x5b9cca4f
+	.long 0x682e6ff3, 0x682e6ff3, 0x682e6ff3, 0x682e6ff3
+	.long 0x748f82ee, 0x748f82ee, 0x748f82ee, 0x748f82ee
+	.long 0x78a5636f, 0x78a5636f, 0x78a5636f, 0x78a5636f
+	.long 0x84c87814, 0x84c87814, 0x84c87814, 0x84c87814
+	.long 0x8cc70208, 0x8cc70208, 0x8cc70208, 0x8cc70208
+	.long 0x90befffa, 0x90befffa, 0x90befffa, 0x90befffa
+	.long 0xa4506ceb, 0xa4506ceb, 0xa4506ceb, 0xa4506ceb
+	.long 0xbef9a3f7, 0xbef9a3f7, 0xbef9a3f7, 0xbef9a3f7
+	.long 0xc67178f2, 0xc67178f2, 0xc67178f2, 0xc67178f2
+.endm
+
+.macro sha256_4way_extend_doubleround_core i, rr, rw, ra, rb, ry, rz
+	vadd.u32	q5, q5, \ra
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, \ry, #19
+	vshl.u32	q1, \ry, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	\ra, q6, #7
+	vshl.u32	q0, q6, #32-7
+	veor.u32	q4, q4, q1
+	veor.u32	\ra, \ra, q0
+	vshr.u32	q1, \ry, #10
+	vshr.u32	q0, q6, #18
+	veor.u32	q4, q4, q1
+	veor.u32	\ra, \ra, q0
+	vshl.u32	q1, q6, #32-18
+	vshr.u32	q0, q6, #3
+	veor.u32	\ra, \ra, q1
+	vadd.u32	q4, q4, q5
+	veor.u32	\ra, \ra, q0
+	vld1.u32	{q5}, [\rr]!
+	vadd.u32	\ra, \ra, q4
+
+	vshr.u32	q4, \rz, #17
+	vshl.u32	q0, \rz, #32-17
+	vadd.u32	q6, q6, \rb
+	vst1.u32	{\ra}, [\rw]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, \rz, #19
+	vshl.u32	q1, \rz, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	\rb, q5, #7
+	veor.u32	q4, q4, q1
+	vshl.u32	q0, q5, #32-7
+	vshr.u32	q1, \rz, #10
+	veor.u32	\rb, \rb, q0
+	vshr.u32	q0, q5, #18
+	veor.u32	q4, q4, q1
+	veor.u32	\rb, \rb, q0
+	vshl.u32	q1, q5, #32-18
+	vshr.u32	q0, q5, #3
+	veor.u32	\rb, \rb, q1
+	vadd.u32	q1, q6, q4
+	veor.u32	\rb, \rb, q0
+.endm
+
+.macro sha256_4way_extend_doubleround_head i, rr, rw, ra, rb, ry, rz
+	vld1.u32	{q6}, [\rr]!
+	vshr.u32	q4, \ry, #17
+	vshl.u32	q0, \ry, #32-17
+	sha256_4way_extend_doubleround_core \i, \rr, \rw, \ra, \rb, \ry, \rz
+	vld1.u32	{q6}, [\rr]!
+	vadd.u32	\rb, \rb, q1
+.endm
+
+.macro sha256_4way_extend_doubleround_body i, rr, rw, ra, rb, ry, rz
+	vshr.u32	q4, \ry, #17
+	vshl.u32	q0, \ry, #32-17
+	vst1.u32	{\rz}, [\rw]!
+	sha256_4way_extend_doubleround_core \i, \rr, \rw, \ra, \rb, \ry, \rz
+	vld1.u32	{q6}, [\rr]!
+	vadd.u32	\rb, \rb, q1
+.endm
+
+.macro sha256_4way_extend_doubleround_foot i, rr, rw, ra, rb, ry, rz
+	vshr.u32	q4, \ry, #17
+	vshl.u32	q0, \ry, #32-17
+	vst1.u32	{\rz}, [\rw]!
+	sha256_4way_extend_doubleround_core \i, \rr, \rw, \ra, \rb, \ry, \rz
+	vadd.u32	\rb, \rb, q1
+	vst1.u32	{\rb}, [\rw]!
+.endm
+
+.macro sha256_4way_main_round i, rk, rw, ra, rb, rc, rd, re, rf, rg, rh
+	vld1.u32	{q8}, [\rw]!
+	vand.u32	q9, \rf, \re
+	vbic.u32	q10, \rg, \re
+	vshr.u32	q11, \re, #5
+	vorr.u32	q10, q10, q9
+	vld1.u32	{q9}, [\rk]!
+	vadd.u32	\rh, \rh, q10
+	vshl.u32	q12, \re, #32-5
+	veor.u32	q10, \re, q11
+	vshr.u32	q11, \re, #19
+	veor.u32	q10, q10, q12
+	vshl.u32	q12, \re, #32-19
+	veor.u32	q10, q10, q11
+	vadd.u32	\rh, \rh, q8
+	veor.u32	q10, q10, q12
+	vadd.u32	\rh, \rh, q9
+	veor.u32	q9, \ra, \rb
+	vshr.u32	q11, q10, #6
+	vshl.u32	q13, q10, #32-6
+	vadd.u32	\rh, \rh, q11
+
+	vshr.u32	q11, \ra, #11
+	vshl.u32	q12, \ra, #32-11
+	veor.u32	q8, \ra, q11
+	vand.u32	q10, \ra, \rb
+	veor.u32	q8, q8, q12
+	vshr.u32	q11, \ra, #20
+	vshl.u32	q12, \ra, #32-20
+	veor.u32	q8, q8, q11
+	vand.u32	q9, q9, \rc
+	veor.u32	q8, q8, q12
+	vadd.u32	\rh, \rh, q13
+	veor.u32	q10, q10, q9
+	vshr.u32	q11, q8, #2
+	vshl.u32	q12, q8, #32-2
+	vadd.u32	q9, \rh, q10
+	vadd.u32	q12, q12, q11
+	vadd.u32	\rh, \rh, \rd
+	vadd.u32	\rd, q9, q12
+.endm
+
+.macro sha256_4way_main_quadround i, rk, rw
+	sha256_4way_main_round \i+0, \rk, \rw, q0, q1, q2, q3, q4, q5, q6, q7
+	sha256_4way_main_round \i+1, \rk, \rw, q3, q0, q1, q2, q7, q4, q5, q6
+	sha256_4way_main_round \i+2, \rk, \rw, q2, q3, q0, q1, q6, q7, q4, q5
+	sha256_4way_main_round \i+3, \rk, \rw, q1, q2, q3, q0, q5, q6, q7, q4
+.endm
+
+
+	.text
+	.code 32
+	.align 2
+	.globl sha256_transform_4way
+	.globl _sha256_transform_4way
+#ifdef __ELF__
+	.type sha256_transform_4way, %function
+#endif
+sha256_transform_4way:
+_sha256_transform_4way:
+	stmfd	sp!, {r4, lr}
+	vpush	{q4-q7}
+	mov	r12, sp
+	sub	sp, sp, #64*16
+	bic	sp, sp, #63
+	cmp	r2, #0
+	bne	sha256_transform_4way_swap
+	
+	vldmia	r1!, {q0-q7}
+	vstmia	sp, {q0-q7}
+	add	r3, sp, #8*16
+	vldmia	r1, {q8-q15}
+	vstmia	r3, {q8-q15}
+	b	sha256_transform_4way_extend
+
+sha256_transform_4way_swap:
+	vldmia	r1!, {q0-q7}
+	vrev32.8	q0, q0
+	vrev32.8	q1, q1
+	vrev32.8	q2, q2
+	vrev32.8	q3, q3
+	vldmia	r1, {q8-q15}
+	vrev32.8	q4, q4
+	vrev32.8	q5, q5
+	vrev32.8	q6, q6
+	vrev32.8	q7, q7
+	vstmia	sp, {q0-q7}
+	vrev32.8	q8, q8
+	vrev32.8	q9, q9
+	vrev32.8	q10, q10
+	vrev32.8	q11, q11
+	vrev32.8	q12, q12
+	vrev32.8	q13, q13
+	vrev32.8	q14, q14
+	vrev32.8	q15, q15
+	add	r3, sp, #8*16
+	vstmia	r3, {q8-q15}
+	
+sha256_transform_4way_extend:
+	add	r1, sp, #1*16
+	add	r2, sp, #16*16
+	vmov.u32	q5, q0
+	sha256_4way_extend_doubleround_head  0, r1, r2,  q9, q10, q14, q15
+	sha256_4way_extend_doubleround_body  2, r1, r2, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_body  4, r1, r2, q13, q14, q11, q12
+	sha256_4way_extend_doubleround_body  6, r1, r2, q15,  q9, q13, q14
+	sha256_4way_extend_doubleround_body  8, r1, r2, q10, q11, q15,  q9
+	sha256_4way_extend_doubleround_body 10, r1, r2, q12, q13, q10, q11
+	sha256_4way_extend_doubleround_body 12, r1, r2, q14, q15, q12, q13
+	sha256_4way_extend_doubleround_body 14, r1, r2,  q9, q10, q14, q15
+	sha256_4way_extend_doubleround_body 16, r1, r2, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_body 18, r1, r2, q13, q14, q11, q12
+	sha256_4way_extend_doubleround_body 20, r1, r2, q15,  q9, q13, q14
+	sha256_4way_extend_doubleround_body 22, r1, r2, q10, q11, q15,  q9
+	sha256_4way_extend_doubleround_body 24, r1, r2, q12, q13, q10, q11
+	sha256_4way_extend_doubleround_body 26, r1, r2, q14, q15, q12, q13
+	sha256_4way_extend_doubleround_body 28, r1, r2,  q9, q10, q14, q15
+	sha256_4way_extend_doubleround_body 30, r1, r2, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_body 32, r1, r2, q13, q14, q11, q12
+	sha256_4way_extend_doubleround_body 34, r1, r2, q15,  q9, q13, q14
+	sha256_4way_extend_doubleround_body 36, r1, r2, q10, q11, q15,  q9
+	sha256_4way_extend_doubleround_body 38, r1, r2, q12, q13, q10, q11
+	sha256_4way_extend_doubleround_body 40, r1, r2, q14, q15, q12, q13
+	sha256_4way_extend_doubleround_body 42, r1, r2,  q9, q10, q14, q15
+	sha256_4way_extend_doubleround_body 44, r1, r2, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_foot 46, r1, r2, q13, q14, q11, q12
+	
+	vldmia	r0, {q0-q7}
+	adr	r4, sha256_transform_4way_4k
+	b	sha256_transform_4way_4k_over
+	.align 4
+sha256_transform_4way_4k:
+	sha256_4k
+sha256_transform_4way_4k_over:
+	sha256_4way_main_quadround  0, r4, sp
+	sha256_4way_main_quadround  4, r4, sp
+	sha256_4way_main_quadround  8, r4, sp
+	sha256_4way_main_quadround 12, r4, sp
+	sha256_4way_main_quadround 16, r4, sp
+	sha256_4way_main_quadround 20, r4, sp
+	sha256_4way_main_quadround 24, r4, sp
+	sha256_4way_main_quadround 28, r4, sp
+	sha256_4way_main_quadround 32, r4, sp
+	sha256_4way_main_quadround 36, r4, sp
+	sha256_4way_main_quadround 40, r4, sp
+	sha256_4way_main_quadround 44, r4, sp
+	sha256_4way_main_quadround 48, r4, sp
+	sha256_4way_main_quadround 52, r4, sp
+	sha256_4way_main_quadround 56, r4, sp
+	sha256_4way_main_quadround 60, r4, sp
+	
+	vldmia	r0, {q8-q15}
+	vadd.u32	q0, q0, q8
+	vadd.u32	q1, q1, q9
+	vadd.u32	q2, q2, q10
+	vadd.u32	q3, q3, q11
+	vadd.u32	q4, q4, q12
+	vadd.u32	q5, q5, q13
+	vadd.u32	q6, q6, q14
+	vadd.u32	q7, q7, q15
+	vstmia	r0, {q0-q7}
+	
+	mov	sp, r12
+	vpop	{q4-q7}
+	ldmfd	sp!, {r4, pc}
+	
+
+	.text
+	.code 32
+	.align 2
+	.globl sha256d_ms_4way
+	.globl _sha256d_ms_4way
+#ifdef __ELF__
+	.type sha256d_ms_4way, %function
+#endif
+sha256d_ms_4way:
+_sha256d_ms_4way:
+	stmfd	sp!, {r4, lr}
+	vpush	{q4-q7}
+	mov	r12, sp
+	sub	sp, sp, #64*16
+	bic	sp, sp, #63
+	
+	add	r4, r1, #3*16
+	vld1.u32	{q6}, [r4]!
+	add	r1, r1, #18*16
+	vldmia	r1, {q11-q13}
+	cmp	r0, r0
+	
+	vshr.u32	q10, q6, #7
+	vshl.u32	q0, q6, #32-7
+	vshr.u32	q1, q6, #18
+	veor.u32	q10, q10, q0
+	vshl.u32	q0, q6, #32-18
+	veor.u32	q10, q10, q1
+	vshr.u32	q1, q6, #3
+	veor.u32	q10, q10, q0
+	vstmia	sp!, {q11-q13}
+	veor.u32	q4, q10, q1
+	vadd.u32	q12, q12, q6
+	vadd.u32	q11, q11, q4
+	
+	vshr.u32	q14, q12, #17
+	vshr.u32	q4, q11, #17
+	vshl.u32	q0, q11, #32-17
+	vst1.u32	{q11}, [r1]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q11, #19
+	vshl.u32	q1, q11, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q12}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q11, #10
+	vshl.u32	q0, q12, #32-17
+	veor.u32	q4, q4, q1
+	veor.u32	q14, q14, q0
+	vadd.u32	q13, q13, q4
+	vshr.u32	q0, q12, #19
+	vshl.u32	q1, q12, #32-19
+	veor.u32	q14, q14, q0
+	vst1.u32	{q13}, [r1]!
+	veor.u32	q14, q14, q1
+	vshr.u32	q1, q12, #10
+	
+	vshr.u32	q4, q13, #17
+	vshl.u32	q0, q13, #32-17
+	veor.u32	q14, q14, q1
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q13, #19
+	vshl.u32	q1, q13, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q14}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q13, #10
+	vld1.u32	{q15}, [r1]
+	veor.u32	q4, q4, q1
+	vst1.u32	{q15}, [sp]!
+	vadd.u32	q15, q15, q4
+	vshr.u32	q4, q14, #17
+	vshl.u32	q0, q14, #32-17
+	vshl.u32	q1, q14, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q14, #19
+	vst1.u32	{q15}, [r1]!
+	veor.u32	q4, q4, q0
+	vld1.u32	{q9}, [r1]
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q14, #10
+	vst1.u32	{q9}, [sp]!
+	veor.u32	q5, q4, q1
+	
+	vshr.u32	q4, q15, #17
+	vadd.u32	q9, q9, q5
+	vshl.u32	q0, q15, #32-17
+	vshl.u32	q1, q15, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q15, #19
+	vst1.u32	{q9}, [r1]!
+	veor.u32	q4, q4, q0
+	vld1.u32	{q10}, [r1]
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q15, #10
+	vst1.u32	{q10}, [sp]!
+	veor.u32	q4, q4, q1
+	vshl.u32	q0, q9, #32-17
+	vadd.u32	q10, q10, q4
+	vshr.u32	q4, q9, #17
+	vshl.u32	q1, q9, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q9, #19
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q9, #10
+	veor.u32	q4, q4, q0
+	vst1.u32	{q10}, [r1]!
+	veor.u32	q5, q4, q1
+	
+	vshr.u32	q4, q10, #17
+	vshl.u32	q0, q10, #32-17
+	vadd.u32	q11, q11, q5
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q10, #19
+	vshl.u32	q1, q10, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q11}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q10, #10
+	vshl.u32	q0, q11, #32-17
+	veor.u32	q2, q4, q1
+	vshr.u32	q4, q11, #17
+	vadd.u32	q12, q12, q2
+	vshl.u32	q1, q11, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q11, #19
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q11, #10
+	veor.u32	q4, q4, q0
+	vst1.u32	{q12}, [r1]!
+	veor.u32	q5, q4, q1
+	
+	vshr.u32	q4, q12, #17
+	vshl.u32	q0, q12, #32-17
+	vadd.u32	q13, q13, q5
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q12, #19
+	vshl.u32	q1, q12, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q13}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q12, #10
+	vshl.u32	q0, q13, #32-17
+	veor.u32	q2, q4, q1
+	vshr.u32	q4, q13, #17
+	vadd.u32	q14, q14, q2
+	vshl.u32	q1, q13, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q13, #19
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q13, #10
+	veor.u32	q4, q4, q0
+	vst1.u32	{q14}, [r1]!
+	veor.u32	q5, q4, q1
+	add	r4, r4, #12*16
+	
+	vshr.u32	q4, q14, #17
+	vshl.u32	q0, q14, #32-17
+	vadd.u32	q15, q15, q5
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q14, #19
+	vshl.u32	q1, q14, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q15}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q14, #10
+	vld1.u32	{q2}, [r1]
+	veor.u32	q4, q4, q1
+	vshl.u32	q0, q15, #32-17
+	vadd.u32	q9, q9, q4
+	vst1.u32	{q2}, [sp]!
+	vadd.u32	q9, q9, q2
+	vshr.u32	q4, q15, #17
+	vshr.u32	q2, q15, #19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q9}, [r1]!
+	vshl.u32	q1, q15, #32-19
+	veor.u32	q4, q4, q2
+	vshr.u32	q0, q15, #10
+	veor.u32	q4, q4, q1
+	vld1.u32	{q5-q6}, [r4]!
+	veor.u32	q4, q4, q0
+	vld1.u32	{q2}, [r1]
+	vadd.u32	q10, q10, q4
+	vst1.u32	{q2}, [sp]!
+	vadd.u32	q10, q10, q2
+	
+	sub	sp, sp, #8*16
+	
+sha256d_ms_4way_extend_loop2:
+	sha256_4way_extend_doubleround_body 16, r4, r1, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_body 18, r4, r1, q13, q14, q11, q12
+	sha256_4way_extend_doubleround_body 20, r4, r1, q15,  q9, q13, q14
+	sha256_4way_extend_doubleround_body 22, r4, r1, q10, q11, q15,  q9
+	sha256_4way_extend_doubleround_body 24, r4, r1, q12, q13, q10, q11
+	sha256_4way_extend_doubleround_body 26, r4, r1, q14, q15, q12, q13
+	sha256_4way_extend_doubleround_body 28, r4, r1,  q9, q10, q14, q15
+	sha256_4way_extend_doubleround_body 30, r4, r1, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_body 32, r4, r1, q13, q14, q11, q12
+	sha256_4way_extend_doubleround_body 34, r4, r1, q15,  q9, q13, q14
+	sha256_4way_extend_doubleround_body 36, r4, r1, q10, q11, q15,  q9
+	sha256_4way_extend_doubleround_body 38, r4, r1, q12, q13, q10, q11
+	sha256_4way_extend_doubleround_body 40, r4, r1, q14, q15, q12, q13
+	sha256_4way_extend_doubleround_body 42, r4, r1,  q9, q10, q14, q15
+	sha256_4way_extend_doubleround_body 44, r4, r1, q11, q12,  q9, q10
+	sha256_4way_extend_doubleround_foot 46, r4, r1, q13, q14, q11, q12
+	bne	sha256d_ms_4way_extend_coda2
+	
+	vldmia	r3!, {q4-q7}
+	vldmia	r3, {q0-q3}
+	vswp	q0, q4
+	adr	r3, sha256d_ms_4way_4k+3*16
+	sub r1, r1, #(64-3)*16
+	b	sha256d_ms_4way_main_loop1
+	
+	.align 4
+sha256d_ms_4way_4k:
+	sha256_4k
+	
+sha256d_ms_4way_main_loop2:
+	sha256_4way_main_round  0, r3, r1, q0, q1, q2, q3, q4, q5, q6, q7
+	sha256_4way_main_round  1, r3, r1, q3, q0, q1, q2, q7, q4, q5, q6
+	sha256_4way_main_round  2, r3, r1, q2, q3, q0, q1, q6, q7, q4, q5
+sha256d_ms_4way_main_loop1:
+	sha256_4way_main_round  3, r3, r1, q1, q2, q3, q0, q5, q6, q7, q4
+	sha256_4way_main_quadround  4, r3, r1
+	sha256_4way_main_quadround  8, r3, r1
+	sha256_4way_main_quadround 12, r3, r1
+	sha256_4way_main_quadround 16, r3, r1
+	sha256_4way_main_quadround 20, r3, r1
+	sha256_4way_main_quadround 24, r3, r1
+	sha256_4way_main_quadround 28, r3, r1
+	sha256_4way_main_quadround 32, r3, r1
+	sha256_4way_main_quadround 36, r3, r1
+	sha256_4way_main_quadround 40, r3, r1
+	sha256_4way_main_quadround 44, r3, r1
+	sha256_4way_main_quadround 48, r3, r1
+	sha256_4way_main_quadround 52, r3, r1
+	sha256_4way_main_round 56, r3, r1, q0, q1, q2, q3, q4, q5, q6, q7
+	bne	sha256d_ms_4way_finish
+	sha256_4way_main_round 57, r3, r1, q3, q0, q1, q2, q7, q4, q5, q6
+	sha256_4way_main_round 58, r3, r1, q2, q3, q0, q1, q6, q7, q4, q5
+	sha256_4way_main_round 59, r3, r1, q1, q2, q3, q0, q5, q6, q7, q4
+	sha256_4way_main_quadround 60, r3, r1
+	
+	vldmia	r2, {q8-q15}
+	vadd.u32	q0, q0, q8
+	vadd.u32	q1, q1, q9
+	vadd.u32	q2, q2, q10
+	vadd.u32	q3, q3, q11
+	vadd.u32	q4, q4, q12
+	vadd.u32	q5, q5, q13
+	vadd.u32	q6, q6, q14
+	vadd.u32	q7, q7, q15
+	
+	vldmia	sp, {q8-q15}
+	sub	r1, r1, #(64-18)*16
+	vstmia	r1, {q8-q10}
+	add	r1, r1, #4*16
+	vstmia	r1, {q11-q13}
+	add	r1, r1, #8*16
+	vstmia	r1, {q14-q15}
+	
+	vstmia	sp, {q0-q7}
+	vmov.u32	q8,  #0x80000000
+	vmov.u32	q9,  #0
+	vmov.u32	q10, #0
+	vmov.u32	q11, #0
+	vmov.u32	q12, #0
+	vmov.u32	q13, #0
+	vmov.u32	q14, #0
+	vmov.u32	q15, #0x00000100
+	add	r1, sp, #8*16
+	vstmia	r1!, {q8-q15}
+	adds	r4, sp, #2*16
+	
+	vshr.u32	q9, q1, #7
+	vshl.u32	q2, q1, #32-7
+	vshr.u32	q4, q1, #18
+	veor.u32	q9, q9, q2
+	vshl.u32	q3, q1, #32-18
+	veor.u32	q9, q9, q4
+	vshr.u32	q2, q1, #3
+	veor.u32	q9, q9, q3
+	vld1.u32	{q5}, [r4]!
+	veor.u32	q9, q9, q2
+	vmov.u32	q7, #0x00a00000
+	vadd.u32	q9, q9, q0
+	vshr.u32	q10, q5, #7
+	vshl.u32	q0, q5, #32-7
+	vshl.u32	q3, q5, #32-18
+	veor.u32	q10, q10, q0
+	vshr.u32	q0, q5, #18
+	veor.u32	q10, q10, q3
+	vst1.u32	{q9}, [r1]!
+	vadd.u32	q3, q1, q7
+	veor.u32	q10, q10, q0
+	vshr.u32	q0, q5, #3
+	vld1.u32	{q6}, [r4]!
+	veor.u32	q10, q10, q0
+	
+	vshr.u32	q4, q9, #17
+	vshl.u32	q0, q9, #32-17
+	vadd.u32	q10, q10, q3
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q9, #19
+	vshl.u32	q1, q9, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q11, q6, #7
+	vshl.u32	q0, q6, #32-7
+	veor.u32	q4, q4, q1
+	veor.u32	q11, q11, q0
+	vshr.u32	q1, q9, #10
+	vshr.u32	q0, q6, #18
+	veor.u32	q4, q4, q1
+	veor.u32	q11, q11, q0
+	vshl.u32	q1, q6, #32-18
+	vshr.u32	q0, q6, #3
+	veor.u32	q11, q11, q1
+	vadd.u32	q4, q4, q5
+	veor.u32	q11, q11, q0
+	vld1.u32	{q5}, [r4]!
+	vadd.u32	q11, q11, q4
+	vshr.u32	q4, q10, #17
+	vshl.u32	q0, q10, #32-17
+	vst1.u32	{q10}, [r1]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q10, #19
+	vshl.u32	q1, q10, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q12, q5, #7
+	veor.u32	q4, q4, q1
+	vshl.u32	q0, q5, #32-7
+	vshr.u32	q1, q10, #10
+	veor.u32	q12, q12, q0
+	vshr.u32	q0, q5, #18
+	veor.u32	q4, q4, q1
+	veor.u32	q12, q12, q0
+	vshl.u32	q1, q5, #32-18
+	vst1.u32	{q11}, [r1]!
+	veor.u32	q12, q12, q1
+	vshr.u32	q0, q5, #3
+	vadd.u32	q1, q6, q4
+	veor.u32	q12, q12, q0
+	
+	vshr.u32	q4, q11, #17
+	vshl.u32	q0, q11, #32-17
+	vadd.u32	q12, q12, q1
+	vld1.u32	{q6}, [r4]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q11, #19
+	vshl.u32	q1, q11, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q13, q6, #7
+	vshl.u32	q0, q6, #32-7
+	veor.u32	q4, q4, q1
+	veor.u32	q13, q13, q0
+	vshr.u32	q1, q11, #10
+	vshr.u32	q0, q6, #18
+	veor.u32	q4, q4, q1
+	veor.u32	q13, q13, q0
+	vshl.u32	q1, q6, #32-18
+	vshr.u32	q0, q6, #3
+	veor.u32	q13, q13, q1
+	vadd.u32	q4, q4, q5
+	veor.u32	q13, q13, q0
+	vld1.u32	{q5}, [r4]!
+	vadd.u32	q13, q13, q4
+	vshr.u32	q4, q12, #17
+	vshl.u32	q0, q12, #32-17
+	vst1.u32	{q12}, [r1]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q12, #19
+	vshl.u32	q1, q12, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q14, q5, #7
+	veor.u32	q4, q4, q1
+	vshl.u32	q0, q5, #32-7
+	vshr.u32	q1, q12, #10
+	veor.u32	q14, q14, q0
+	vshr.u32	q0, q5, #18
+	veor.u32	q4, q4, q1
+	veor.u32	q14, q14, q0
+	vshl.u32	q1, q5, #32-18
+	vst1.u32	{q13}, [r1]!
+	veor.u32	q14, q14, q1
+	vshr.u32	q0, q5, #3
+	vadd.u32	q1, q6, q4
+	veor.u32	q14, q14, q0
+	
+	vshr.u32	q4, q13, #17
+	vshl.u32	q0, q13, #32-17
+	vadd.u32	q14, q14, q1
+	vld1.u32	{q6}, [r4]!
+	vadd.u32	q5, q5, q15
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q13, #19
+	vshl.u32	q1, q13, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q15, q6, #7
+	vshl.u32	q0, q6, #32-7
+	veor.u32	q4, q4, q1
+	veor.u32	q15, q15, q0
+	vshr.u32	q1, q13, #10
+	vshr.u32	q0, q6, #18
+	veor.u32	q4, q4, q1
+	veor.u32	q15, q15, q0
+	vshl.u32	q1, q6, #32-18
+	vshr.u32	q0, q6, #3
+	veor.u32	q15, q15, q1
+	vadd.u32	q4, q4, q5
+	veor.u32	q15, q15, q0
+	vmov.u32	q5, #0x80000000
+	vadd.u32	q15, q15, q4
+	vshr.u32	q4, q14, #17
+	vshl.u32	q0, q14, #32-17
+	vadd.u32	q6, q6, q9
+	vst1.u32	{q14}, [r1]!
+	vmov.u32	q7, #0x11000000
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q14, #19
+	vshl.u32	q1, q14, #32-19
+	vadd.u32	q6, q6, q7
+	vmov.u32	q2, #0x00002000
+	veor.u32	q4, q4, q0
+	vst1.u32	{q15}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q14, #10
+	vadd.u32	q6, q6, q2
+	veor.u32	q1, q4, q1
+	add	r4, r4, #8*16
+	
+	vshr.u32	q4, q15, #17
+	vshl.u32	q0, q15, #32-17
+	vadd.u32	q9, q6, q1
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q15, #19
+	vshl.u32	q1, q15, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q9}, [r1]!
+	vadd.u32	q5, q5, q10
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q15, #10
+	vshl.u32	q0, q9, #32-17
+	veor.u32	q10, q4, q1
+	vshr.u32	q4, q9, #17
+	vadd.u32	q10, q10, q5
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q9, #19
+	vshl.u32	q1, q9, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q9, #10
+	veor.u32	q4, q4, q1
+	vst1.u32	{q10}, [r1]!
+	veor.u32	q1, q4, q0
+	
+	vshr.u32	q4, q10, #17
+	vshl.u32	q0, q10, #32-17
+	vadd.u32	q11, q11, q1
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q10, #19
+	vshl.u32	q1, q10, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q11}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q10, #10
+	vshl.u32	q0, q11, #32-17
+	veor.u32	q1, q4, q1
+	vshr.u32	q4, q11, #17
+	vadd.u32	q12, q12, q1
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q11, #19
+	vshl.u32	q1, q11, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q11, #10
+	veor.u32	q4, q4, q1
+	vst1.u32	{q12}, [r1]!
+	veor.u32	q1, q4, q0
+	
+	vshr.u32	q4, q12, #17
+	vshl.u32	q0, q12, #32-17
+	vadd.u32	q13, q13, q1
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q12, #19
+	vshl.u32	q1, q12, #32-19
+	veor.u32	q4, q4, q0
+	vst1.u32	{q13}, [r1]!
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q12, #10
+	vshl.u32	q0, q13, #32-17
+	veor.u32	q1, q4, q1
+	vshr.u32	q4, q13, #17
+	vadd.u32	q14, q14, q1
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q13, #19
+	vshl.u32	q1, q13, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q13, #10
+	veor.u32	q4, q4, q1
+	vst1.u32	{q14}, [r1]!
+	veor.u32	q4, q4, q0
+	vmov.u32	q6, #0x00000100
+	vadd.u32	q15, q15, q4
+	
+	vshr.u32	q4, q14, #17
+	vshl.u32	q0, q14, #32-17
+	vmov.u32	q7, #0x00400000
+	vst1.u32	{q15}, [r1]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q14, #19
+	vshl.u32	q1, q14, #32-19
+	veor.u32	q4, q4, q0
+	vadd.u32	q9, q9, q7
+	veor.u32	q4, q4, q1
+	vshr.u32	q1, q14, #10
+	vmov.u32	q2, #0x00000022
+	veor.u32	q4, q4, q1
+	vadd.u32	q9, q9, q2
+	vld1.u32	{q5}, [r4]!
+	vadd.u32	q9, q9, q4
+	vshr.u32	q4, q15, #17
+	vshl.u32	q0, q15, #32-17
+	vadd.u32	q6, q6, q10
+	vst1.u32	{q9}, [r1]!
+	veor.u32	q4, q4, q0
+	vshr.u32	q0, q15, #19
+	vshl.u32	q1, q15, #32-19
+	veor.u32	q4, q4, q0
+	vshr.u32	q10, q5, #7
+	veor.u32	q4, q4, q1
+	vshl.u32	q0, q5, #32-7
+	vshr.u32	q1, q15, #10
+	veor.u32	q10, q10, q0
+	vshr.u32	q0, q5, #18
+	veor.u32	q4, q4, q1
+	veor.u32	q10, q10, q0
+	vshl.u32	q1, q5, #32-18
+	vshr.u32	q0, q5, #3
+	veor.u32	q10, q10, q1
+	vadd.u32	q1, q6, q4
+	veor.u32	q10, q10, q0
+	vld1.u32	{q6}, [r4]!
+	vadd.u32	q10, q10, q1
+	
+	b	sha256d_ms_4way_extend_loop2
+	
+	.align 4
+sha256d_ms_4way_4h:
+	.long 0x6a09e667, 0x6a09e667, 0x6a09e667, 0x6a09e667
+	.long 0xbb67ae85, 0xbb67ae85, 0xbb67ae85, 0xbb67ae85
+	.long 0x3c6ef372, 0x3c6ef372, 0x3c6ef372, 0x3c6ef372
+	.long 0xa54ff53a, 0xa54ff53a, 0xa54ff53a, 0xa54ff53a
+	.long 0x510e527f, 0x510e527f, 0x510e527f, 0x510e527f
+	.long 0x9b05688c, 0x9b05688c, 0x9b05688c, 0x9b05688c
+	.long 0x1f83d9ab, 0x1f83d9ab, 0x1f83d9ab, 0x1f83d9ab
+	.long 0x5be0cd19, 0x5be0cd19, 0x5be0cd19, 0x5be0cd19
+	
+sha256d_ms_4way_extend_coda2:
+	adr	r4, sha256d_ms_4way_4h
+	mov	r1, sp
+	vldmia	r4, {q0-q7}
+	vmov.u32	q15, q7
+	sub	r3, r3, #64*16
+	b	sha256d_ms_4way_main_loop2
+
+.macro sha256_4way_main_round_red i, rk, rw, rd, re, rf, rg, rh
+	vld1.u32	{q8}, [\rw]!
+	vand.u32	q9, \rf, \re
+	vbic.u32	q10, \rg, \re
+	vshr.u32	q11, \re, #5
+	vorr.u32	q10, q10, q9
+	vshl.u32	q12, \re, #32-5
+	vadd.u32	\rh, \rh, q10
+	veor.u32	q10, \re, q11
+	vshr.u32	q11, \re, #19
+	veor.u32	q10, q10, q12
+	vshl.u32	q12, \re, #32-19
+	veor.u32	q10, q10, q11
+	vadd.u32	\rh, \rh, q8
+	veor.u32	q10, q10, q12
+	vld1.u32	{q9}, [\rk]!
+	vadd.u32	\rh, \rh, \rd
+	vshr.u32	q11, q10, #6
+	vadd.u32	\rh, \rh, q9
+	vshl.u32	q13, q10, #32-6
+	vadd.u32	\rh, \rh, q11
+	vadd.u32	\rh, \rh, q13
+.endm
+
+sha256d_ms_4way_finish:
+	sha256_4way_main_round_red 57, r3, r1, q2, q7, q4, q5, q6
+	sha256_4way_main_round_red 58, r3, r1, q1, q6, q7, q4, q5
+	sha256_4way_main_round_red 59, r3, r1, q0, q5, q6, q7, q4
+	sha256_4way_main_round_red 60, r3, r1, q3, q4, q5, q6, q7
+	
+	vadd.u32	q7, q7, q15
+	add	r0, r0, #7*16
+	vst1.u32	{q7}, [r0]
+	
+	mov	sp, r12
+	vpop	{q4-q7}
+	ldmfd	sp!, {r4, pc}
+
+
+	.text
+	.code 32
+	.align 2
+	.globl sha256_use_4way
+	.globl _sha256_use_4way
+#ifdef __ELF__
+	.type sha256_use_4way, %function
+#endif
+sha256_use_4way:
+_sha256_use_4way:
+	mov	r0, #1
+	bx	lr
+
+#endif /* __ARM_NEON__ */
+
 #endif