| |
| @ ==================================================================== |
| @ Written by Andy Polyakov <appro@openssl.org> for the OpenSSL |
| @ project. The module is, however, dual licensed under OpenSSL and |
| @ CRYPTOGAMS licenses depending on where you obtain it. For further |
| @ details see http://www.openssl.org/~appro/cryptogams/. |
| @ |
| @ Specific modes and adaptation for Linux kernel by Ard Biesheuvel |
| @ <ard.biesheuvel@linaro.org>. Permission to use under GPL terms is |
| @ granted. |
| @ ==================================================================== |
| |
| @ Bit-sliced AES for ARM NEON |
| @ |
| @ February 2012. |
| @ |
| @ This implementation is direct adaptation of bsaes-x86_64 module for |
| @ ARM NEON. Except that this module is endian-neutral [in sense that |
| @ it can be compiled for either endianness] by courtesy of vld1.8's |
| @ neutrality. Initial version doesn't implement interface to OpenSSL, |
| @ only low-level primitives and unsupported entry points, just enough |
| @ to collect performance results, which for Cortex-A8 core are: |
| @ |
| @ encrypt 19.5 cycles per byte processed with 128-bit key |
| @ decrypt 22.1 cycles per byte processed with 128-bit key |
| @ key conv. 440 cycles per 128-bit key/0.18 of 8x block |
| @ |
| @ Snapdragon S4 encrypts byte in 17.6 cycles and decrypts in 19.7, |
| @ which is [much] worse than anticipated (for further details see |
| @ http://www.openssl.org/~appro/Snapdragon-S4.html). |
| @ |
| @ Cortex-A15 manages in 14.2/16.1 cycles [when integer-only code |
| @ manages in 20.0 cycles]. |
| @ |
| @ When comparing to x86_64 results keep in mind that NEON unit is |
| @ [mostly] single-issue and thus can't [fully] benefit from |
| @ instruction-level parallelism. And when comparing to aes-armv4 |
| @ results keep in mind key schedule conversion overhead (see |
| @ bsaes-x86_64.pl for further details)... |
| @ |
| @ <appro@openssl.org> |
| |
| @ April-August 2013 |
| @ |
| @ Add CBC, CTR and XTS subroutines, adapt for kernel use. |
| @ |
| @ <ard.biesheuvel@linaro.org> |
| |
| #ifndef __KERNEL__ |
| # include "arm_arch.h" |
| |
| # define VFP_ABI_PUSH vstmdb sp!,{d8-d15} |
| # define VFP_ABI_POP vldmia sp!,{d8-d15} |
| # define VFP_ABI_FRAME 0x40 |
| #else |
| # define VFP_ABI_PUSH |
| # define VFP_ABI_POP |
| # define VFP_ABI_FRAME 0 |
| # define BSAES_ASM_EXTENDED_KEY |
| # define XTS_CHAIN_TWEAK |
| # define __ARM_ARCH__ 7 |
| #endif |
| |
| #ifdef __thumb__ |
| # define adrl adr |
| #endif |
| |
| #if __ARM_ARCH__>=7 |
| .text |
| .syntax unified @ ARMv7-capable assembler is expected to handle this |
| #ifdef __thumb2__ |
| .thumb |
| #else |
| .code 32 |
| #endif |
| |
| .fpu neon |
| |
| .type _bsaes_decrypt8,%function |
| .align 4 |
| _bsaes_decrypt8: |
| adr r6,_bsaes_decrypt8 |
| vldmia r4!, {q9} @ round 0 key |
| add r6,r6,#.LM0ISR-_bsaes_decrypt8 |
| |
| vldmia r6!, {q8} @ .LM0ISR |
| veor q10, q0, q9 @ xor with round0 key |
| veor q11, q1, q9 |
| vtbl.8 d0, {q10}, d16 |
| vtbl.8 d1, {q10}, d17 |
| veor q12, q2, q9 |
| vtbl.8 d2, {q11}, d16 |
| vtbl.8 d3, {q11}, d17 |
| veor q13, q3, q9 |
| vtbl.8 d4, {q12}, d16 |
| vtbl.8 d5, {q12}, d17 |
| veor q14, q4, q9 |
| vtbl.8 d6, {q13}, d16 |
| vtbl.8 d7, {q13}, d17 |
| veor q15, q5, q9 |
| vtbl.8 d8, {q14}, d16 |
| vtbl.8 d9, {q14}, d17 |
| veor q10, q6, q9 |
| vtbl.8 d10, {q15}, d16 |
| vtbl.8 d11, {q15}, d17 |
| veor q11, q7, q9 |
| vtbl.8 d12, {q10}, d16 |
| vtbl.8 d13, {q10}, d17 |
| vtbl.8 d14, {q11}, d16 |
| vtbl.8 d15, {q11}, d17 |
| vmov.i8 q8,#0x55 @ compose .LBS0 |
| vmov.i8 q9,#0x33 @ compose .LBS1 |
| vshr.u64 q10, q6, #1 |
| vshr.u64 q11, q4, #1 |
| veor q10, q10, q7 |
| veor q11, q11, q5 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #1 |
| veor q5, q5, q11 |
| vshl.u64 q11, q11, #1 |
| veor q6, q6, q10 |
| veor q4, q4, q11 |
| vshr.u64 q10, q2, #1 |
| vshr.u64 q11, q0, #1 |
| veor q10, q10, q3 |
| veor q11, q11, q1 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q3, q3, q10 |
| vshl.u64 q10, q10, #1 |
| veor q1, q1, q11 |
| vshl.u64 q11, q11, #1 |
| veor q2, q2, q10 |
| veor q0, q0, q11 |
| vmov.i8 q8,#0x0f @ compose .LBS2 |
| vshr.u64 q10, q5, #2 |
| vshr.u64 q11, q4, #2 |
| veor q10, q10, q7 |
| veor q11, q11, q6 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #2 |
| veor q6, q6, q11 |
| vshl.u64 q11, q11, #2 |
| veor q5, q5, q10 |
| veor q4, q4, q11 |
| vshr.u64 q10, q1, #2 |
| vshr.u64 q11, q0, #2 |
| veor q10, q10, q3 |
| veor q11, q11, q2 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q3, q3, q10 |
| vshl.u64 q10, q10, #2 |
| veor q2, q2, q11 |
| vshl.u64 q11, q11, #2 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| vshr.u64 q10, q3, #4 |
| vshr.u64 q11, q2, #4 |
| veor q10, q10, q7 |
| veor q11, q11, q6 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #4 |
| veor q6, q6, q11 |
| vshl.u64 q11, q11, #4 |
| veor q3, q3, q10 |
| veor q2, q2, q11 |
| vshr.u64 q10, q1, #4 |
| vshr.u64 q11, q0, #4 |
| veor q10, q10, q5 |
| veor q11, q11, q4 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #4 |
| veor q4, q4, q11 |
| vshl.u64 q11, q11, #4 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| sub r5,r5,#1 |
| b .Ldec_sbox |
| .align 4 |
| .Ldec_loop: |
| vldmia r4!, {q8-q11} |
| veor q8, q8, q0 |
| veor q9, q9, q1 |
| vtbl.8 d0, {q8}, d24 |
| vtbl.8 d1, {q8}, d25 |
| vldmia r4!, {q8} |
| veor q10, q10, q2 |
| vtbl.8 d2, {q9}, d24 |
| vtbl.8 d3, {q9}, d25 |
| vldmia r4!, {q9} |
| veor q11, q11, q3 |
| vtbl.8 d4, {q10}, d24 |
| vtbl.8 d5, {q10}, d25 |
| vldmia r4!, {q10} |
| vtbl.8 d6, {q11}, d24 |
| vtbl.8 d7, {q11}, d25 |
| vldmia r4!, {q11} |
| veor q8, q8, q4 |
| veor q9, q9, q5 |
| vtbl.8 d8, {q8}, d24 |
| vtbl.8 d9, {q8}, d25 |
| veor q10, q10, q6 |
| vtbl.8 d10, {q9}, d24 |
| vtbl.8 d11, {q9}, d25 |
| veor q11, q11, q7 |
| vtbl.8 d12, {q10}, d24 |
| vtbl.8 d13, {q10}, d25 |
| vtbl.8 d14, {q11}, d24 |
| vtbl.8 d15, {q11}, d25 |
| .Ldec_sbox: |
| veor q1, q1, q4 |
| veor q3, q3, q4 |
| |
| veor q4, q4, q7 |
| veor q1, q1, q6 |
| veor q2, q2, q7 |
| veor q6, q6, q4 |
| |
| veor q0, q0, q1 |
| veor q2, q2, q5 |
| veor q7, q7, q6 |
| veor q3, q3, q0 |
| veor q5, q5, q0 |
| veor q1, q1, q3 |
| veor q11, q3, q0 |
| veor q10, q7, q4 |
| veor q9, q1, q6 |
| veor q13, q4, q0 |
| vmov q8, q10 |
| veor q12, q5, q2 |
| |
| vorr q10, q10, q9 |
| veor q15, q11, q8 |
| vand q14, q11, q12 |
| vorr q11, q11, q12 |
| veor q12, q12, q9 |
| vand q8, q8, q9 |
| veor q9, q6, q2 |
| vand q15, q15, q12 |
| vand q13, q13, q9 |
| veor q9, q3, q7 |
| veor q12, q1, q5 |
| veor q11, q11, q13 |
| veor q10, q10, q13 |
| vand q13, q9, q12 |
| vorr q9, q9, q12 |
| veor q11, q11, q15 |
| veor q8, q8, q13 |
| veor q10, q10, q14 |
| veor q9, q9, q15 |
| veor q8, q8, q14 |
| vand q12, q4, q6 |
| veor q9, q9, q14 |
| vand q13, q0, q2 |
| vand q14, q7, q1 |
| vorr q15, q3, q5 |
| veor q11, q11, q12 |
| veor q9, q9, q14 |
| veor q8, q8, q15 |
| veor q10, q10, q13 |
| |
| @ Inv_GF16 0, 1, 2, 3, s0, s1, s2, s3 |
| |
| @ new smaller inversion |
| |
| vand q14, q11, q9 |
| vmov q12, q8 |
| |
| veor q13, q10, q14 |
| veor q15, q8, q14 |
| veor q14, q8, q14 @ q14=q15 |
| |
| vbsl q13, q9, q8 |
| vbsl q15, q11, q10 |
| veor q11, q11, q10 |
| |
| vbsl q12, q13, q14 |
| vbsl q8, q14, q13 |
| |
| vand q14, q12, q15 |
| veor q9, q9, q8 |
| |
| veor q14, q14, q11 |
| veor q12, q5, q2 |
| veor q8, q1, q6 |
| veor q10, q15, q14 |
| vand q10, q10, q5 |
| veor q5, q5, q1 |
| vand q11, q1, q15 |
| vand q5, q5, q14 |
| veor q1, q11, q10 |
| veor q5, q5, q11 |
| veor q15, q15, q13 |
| veor q14, q14, q9 |
| veor q11, q15, q14 |
| veor q10, q13, q9 |
| vand q11, q11, q12 |
| vand q10, q10, q2 |
| veor q12, q12, q8 |
| veor q2, q2, q6 |
| vand q8, q8, q15 |
| vand q6, q6, q13 |
| vand q12, q12, q14 |
| vand q2, q2, q9 |
| veor q8, q8, q12 |
| veor q2, q2, q6 |
| veor q12, q12, q11 |
| veor q6, q6, q10 |
| veor q5, q5, q12 |
| veor q2, q2, q12 |
| veor q1, q1, q8 |
| veor q6, q6, q8 |
| |
| veor q12, q3, q0 |
| veor q8, q7, q4 |
| veor q11, q15, q14 |
| veor q10, q13, q9 |
| vand q11, q11, q12 |
| vand q10, q10, q0 |
| veor q12, q12, q8 |
| veor q0, q0, q4 |
| vand q8, q8, q15 |
| vand q4, q4, q13 |
| vand q12, q12, q14 |
| vand q0, q0, q9 |
| veor q8, q8, q12 |
| veor q0, q0, q4 |
| veor q12, q12, q11 |
| veor q4, q4, q10 |
| veor q15, q15, q13 |
| veor q14, q14, q9 |
| veor q10, q15, q14 |
| vand q10, q10, q3 |
| veor q3, q3, q7 |
| vand q11, q7, q15 |
| vand q3, q3, q14 |
| veor q7, q11, q10 |
| veor q3, q3, q11 |
| veor q3, q3, q12 |
| veor q0, q0, q12 |
| veor q7, q7, q8 |
| veor q4, q4, q8 |
| veor q1, q1, q7 |
| veor q6, q6, q5 |
| |
| veor q4, q4, q1 |
| veor q2, q2, q7 |
| veor q5, q5, q7 |
| veor q4, q4, q2 |
| veor q7, q7, q0 |
| veor q4, q4, q5 |
| veor q3, q3, q6 |
| veor q6, q6, q1 |
| veor q3, q3, q4 |
| |
| veor q4, q4, q0 |
| veor q7, q7, q3 |
| subs r5,r5,#1 |
| bcc .Ldec_done |
| @ multiplication by 0x05-0x00-0x04-0x00 |
| vext.8 q8, q0, q0, #8 |
| vext.8 q14, q3, q3, #8 |
| vext.8 q15, q5, q5, #8 |
| veor q8, q8, q0 |
| vext.8 q9, q1, q1, #8 |
| veor q14, q14, q3 |
| vext.8 q10, q6, q6, #8 |
| veor q15, q15, q5 |
| vext.8 q11, q4, q4, #8 |
| veor q9, q9, q1 |
| vext.8 q12, q2, q2, #8 |
| veor q10, q10, q6 |
| vext.8 q13, q7, q7, #8 |
| veor q11, q11, q4 |
| veor q12, q12, q2 |
| veor q13, q13, q7 |
| |
| veor q0, q0, q14 |
| veor q1, q1, q14 |
| veor q6, q6, q8 |
| veor q2, q2, q10 |
| veor q4, q4, q9 |
| veor q1, q1, q15 |
| veor q6, q6, q15 |
| veor q2, q2, q14 |
| veor q7, q7, q11 |
| veor q4, q4, q14 |
| veor q3, q3, q12 |
| veor q2, q2, q15 |
| veor q7, q7, q15 |
| veor q5, q5, q13 |
| vext.8 q8, q0, q0, #12 @ x0 <<< 32 |
| vext.8 q9, q1, q1, #12 |
| veor q0, q0, q8 @ x0 ^ (x0 <<< 32) |
| vext.8 q10, q6, q6, #12 |
| veor q1, q1, q9 |
| vext.8 q11, q4, q4, #12 |
| veor q6, q6, q10 |
| vext.8 q12, q2, q2, #12 |
| veor q4, q4, q11 |
| vext.8 q13, q7, q7, #12 |
| veor q2, q2, q12 |
| vext.8 q14, q3, q3, #12 |
| veor q7, q7, q13 |
| vext.8 q15, q5, q5, #12 |
| veor q3, q3, q14 |
| |
| veor q9, q9, q0 |
| veor q5, q5, q15 |
| vext.8 q0, q0, q0, #8 @ (x0 ^ (x0 <<< 32)) <<< 64) |
| veor q10, q10, q1 |
| veor q8, q8, q5 |
| veor q9, q9, q5 |
| vext.8 q1, q1, q1, #8 |
| veor q13, q13, q2 |
| veor q0, q0, q8 |
| veor q14, q14, q7 |
| veor q1, q1, q9 |
| vext.8 q8, q2, q2, #8 |
| veor q12, q12, q4 |
| vext.8 q9, q7, q7, #8 |
| veor q15, q15, q3 |
| vext.8 q2, q4, q4, #8 |
| veor q11, q11, q6 |
| vext.8 q7, q5, q5, #8 |
| veor q12, q12, q5 |
| vext.8 q4, q3, q3, #8 |
| veor q11, q11, q5 |
| vext.8 q3, q6, q6, #8 |
| veor q5, q9, q13 |
| veor q11, q11, q2 |
| veor q7, q7, q15 |
| veor q6, q4, q14 |
| veor q4, q8, q12 |
| veor q2, q3, q10 |
| vmov q3, q11 |
| @ vmov q5, q9 |
| vldmia r6, {q12} @ .LISR |
| ite eq @ Thumb2 thing, sanity check in ARM |
| addeq r6,r6,#0x10 |
| bne .Ldec_loop |
| vldmia r6, {q12} @ .LISRM0 |
| b .Ldec_loop |
| .align 4 |
| .Ldec_done: |
| vmov.i8 q8,#0x55 @ compose .LBS0 |
| vmov.i8 q9,#0x33 @ compose .LBS1 |
| vshr.u64 q10, q3, #1 |
| vshr.u64 q11, q2, #1 |
| veor q10, q10, q5 |
| veor q11, q11, q7 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #1 |
| veor q7, q7, q11 |
| vshl.u64 q11, q11, #1 |
| veor q3, q3, q10 |
| veor q2, q2, q11 |
| vshr.u64 q10, q6, #1 |
| vshr.u64 q11, q0, #1 |
| veor q10, q10, q4 |
| veor q11, q11, q1 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q4, q4, q10 |
| vshl.u64 q10, q10, #1 |
| veor q1, q1, q11 |
| vshl.u64 q11, q11, #1 |
| veor q6, q6, q10 |
| veor q0, q0, q11 |
| vmov.i8 q8,#0x0f @ compose .LBS2 |
| vshr.u64 q10, q7, #2 |
| vshr.u64 q11, q2, #2 |
| veor q10, q10, q5 |
| veor q11, q11, q3 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #2 |
| veor q3, q3, q11 |
| vshl.u64 q11, q11, #2 |
| veor q7, q7, q10 |
| veor q2, q2, q11 |
| vshr.u64 q10, q1, #2 |
| vshr.u64 q11, q0, #2 |
| veor q10, q10, q4 |
| veor q11, q11, q6 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q4, q4, q10 |
| vshl.u64 q10, q10, #2 |
| veor q6, q6, q11 |
| vshl.u64 q11, q11, #2 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| vshr.u64 q10, q4, #4 |
| vshr.u64 q11, q6, #4 |
| veor q10, q10, q5 |
| veor q11, q11, q3 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #4 |
| veor q3, q3, q11 |
| vshl.u64 q11, q11, #4 |
| veor q4, q4, q10 |
| veor q6, q6, q11 |
| vshr.u64 q10, q1, #4 |
| vshr.u64 q11, q0, #4 |
| veor q10, q10, q7 |
| veor q11, q11, q2 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #4 |
| veor q2, q2, q11 |
| vshl.u64 q11, q11, #4 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| vldmia r4, {q8} @ last round key |
| veor q6, q6, q8 |
| veor q4, q4, q8 |
| veor q2, q2, q8 |
| veor q7, q7, q8 |
| veor q3, q3, q8 |
| veor q5, q5, q8 |
| veor q0, q0, q8 |
| veor q1, q1, q8 |
| bx lr |
| .size _bsaes_decrypt8,.-_bsaes_decrypt8 |
| |
| .type _bsaes_const,%object |
| .align 6 |
| _bsaes_const: |
| .LM0ISR: @ InvShiftRows constants |
| .quad 0x0a0e0206070b0f03, 0x0004080c0d010509 |
| .LISR: |
| .quad 0x0504070602010003, 0x0f0e0d0c080b0a09 |
| .LISRM0: |
| .quad 0x01040b0e0205080f, 0x0306090c00070a0d |
| .LM0SR: @ ShiftRows constants |
| .quad 0x0a0e02060f03070b, 0x0004080c05090d01 |
| .LSR: |
| .quad 0x0504070600030201, 0x0f0e0d0c0a09080b |
| .LSRM0: |
| .quad 0x0304090e00050a0f, 0x01060b0c0207080d |
| .LM0: |
| .quad 0x02060a0e03070b0f, 0x0004080c0105090d |
| .LREVM0SR: |
| .quad 0x090d01050c000408, 0x03070b0f060a0e02 |
| .asciz "Bit-sliced AES for NEON, CRYPTOGAMS by <appro@openssl.org>" |
| .align 6 |
| .size _bsaes_const,.-_bsaes_const |
| |
| .type _bsaes_encrypt8,%function |
| .align 4 |
| _bsaes_encrypt8: |
| adr r6,_bsaes_encrypt8 |
| vldmia r4!, {q9} @ round 0 key |
| sub r6,r6,#_bsaes_encrypt8-.LM0SR |
| |
| vldmia r6!, {q8} @ .LM0SR |
| _bsaes_encrypt8_alt: |
| veor q10, q0, q9 @ xor with round0 key |
| veor q11, q1, q9 |
| vtbl.8 d0, {q10}, d16 |
| vtbl.8 d1, {q10}, d17 |
| veor q12, q2, q9 |
| vtbl.8 d2, {q11}, d16 |
| vtbl.8 d3, {q11}, d17 |
| veor q13, q3, q9 |
| vtbl.8 d4, {q12}, d16 |
| vtbl.8 d5, {q12}, d17 |
| veor q14, q4, q9 |
| vtbl.8 d6, {q13}, d16 |
| vtbl.8 d7, {q13}, d17 |
| veor q15, q5, q9 |
| vtbl.8 d8, {q14}, d16 |
| vtbl.8 d9, {q14}, d17 |
| veor q10, q6, q9 |
| vtbl.8 d10, {q15}, d16 |
| vtbl.8 d11, {q15}, d17 |
| veor q11, q7, q9 |
| vtbl.8 d12, {q10}, d16 |
| vtbl.8 d13, {q10}, d17 |
| vtbl.8 d14, {q11}, d16 |
| vtbl.8 d15, {q11}, d17 |
| _bsaes_encrypt8_bitslice: |
| vmov.i8 q8,#0x55 @ compose .LBS0 |
| vmov.i8 q9,#0x33 @ compose .LBS1 |
| vshr.u64 q10, q6, #1 |
| vshr.u64 q11, q4, #1 |
| veor q10, q10, q7 |
| veor q11, q11, q5 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #1 |
| veor q5, q5, q11 |
| vshl.u64 q11, q11, #1 |
| veor q6, q6, q10 |
| veor q4, q4, q11 |
| vshr.u64 q10, q2, #1 |
| vshr.u64 q11, q0, #1 |
| veor q10, q10, q3 |
| veor q11, q11, q1 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q3, q3, q10 |
| vshl.u64 q10, q10, #1 |
| veor q1, q1, q11 |
| vshl.u64 q11, q11, #1 |
| veor q2, q2, q10 |
| veor q0, q0, q11 |
| vmov.i8 q8,#0x0f @ compose .LBS2 |
| vshr.u64 q10, q5, #2 |
| vshr.u64 q11, q4, #2 |
| veor q10, q10, q7 |
| veor q11, q11, q6 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #2 |
| veor q6, q6, q11 |
| vshl.u64 q11, q11, #2 |
| veor q5, q5, q10 |
| veor q4, q4, q11 |
| vshr.u64 q10, q1, #2 |
| vshr.u64 q11, q0, #2 |
| veor q10, q10, q3 |
| veor q11, q11, q2 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q3, q3, q10 |
| vshl.u64 q10, q10, #2 |
| veor q2, q2, q11 |
| vshl.u64 q11, q11, #2 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| vshr.u64 q10, q3, #4 |
| vshr.u64 q11, q2, #4 |
| veor q10, q10, q7 |
| veor q11, q11, q6 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #4 |
| veor q6, q6, q11 |
| vshl.u64 q11, q11, #4 |
| veor q3, q3, q10 |
| veor q2, q2, q11 |
| vshr.u64 q10, q1, #4 |
| vshr.u64 q11, q0, #4 |
| veor q10, q10, q5 |
| veor q11, q11, q4 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #4 |
| veor q4, q4, q11 |
| vshl.u64 q11, q11, #4 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| sub r5,r5,#1 |
| b .Lenc_sbox |
| .align 4 |
| .Lenc_loop: |
| vldmia r4!, {q8-q11} |
| veor q8, q8, q0 |
| veor q9, q9, q1 |
| vtbl.8 d0, {q8}, d24 |
| vtbl.8 d1, {q8}, d25 |
| vldmia r4!, {q8} |
| veor q10, q10, q2 |
| vtbl.8 d2, {q9}, d24 |
| vtbl.8 d3, {q9}, d25 |
| vldmia r4!, {q9} |
| veor q11, q11, q3 |
| vtbl.8 d4, {q10}, d24 |
| vtbl.8 d5, {q10}, d25 |
| vldmia r4!, {q10} |
| vtbl.8 d6, {q11}, d24 |
| vtbl.8 d7, {q11}, d25 |
| vldmia r4!, {q11} |
| veor q8, q8, q4 |
| veor q9, q9, q5 |
| vtbl.8 d8, {q8}, d24 |
| vtbl.8 d9, {q8}, d25 |
| veor q10, q10, q6 |
| vtbl.8 d10, {q9}, d24 |
| vtbl.8 d11, {q9}, d25 |
| veor q11, q11, q7 |
| vtbl.8 d12, {q10}, d24 |
| vtbl.8 d13, {q10}, d25 |
| vtbl.8 d14, {q11}, d24 |
| vtbl.8 d15, {q11}, d25 |
| .Lenc_sbox: |
| veor q2, q2, q1 |
| veor q5, q5, q6 |
| veor q3, q3, q0 |
| veor q6, q6, q2 |
| veor q5, q5, q0 |
| |
| veor q6, q6, q3 |
| veor q3, q3, q7 |
| veor q7, q7, q5 |
| veor q3, q3, q4 |
| veor q4, q4, q5 |
| |
| veor q2, q2, q7 |
| veor q3, q3, q1 |
| veor q1, q1, q5 |
| veor q11, q7, q4 |
| veor q10, q1, q2 |
| veor q9, q5, q3 |
| veor q13, q2, q4 |
| vmov q8, q10 |
| veor q12, q6, q0 |
| |
| vorr q10, q10, q9 |
| veor q15, q11, q8 |
| vand q14, q11, q12 |
| vorr q11, q11, q12 |
| veor q12, q12, q9 |
| vand q8, q8, q9 |
| veor q9, q3, q0 |
| vand q15, q15, q12 |
| vand q13, q13, q9 |
| veor q9, q7, q1 |
| veor q12, q5, q6 |
| veor q11, q11, q13 |
| veor q10, q10, q13 |
| vand q13, q9, q12 |
| vorr q9, q9, q12 |
| veor q11, q11, q15 |
| veor q8, q8, q13 |
| veor q10, q10, q14 |
| veor q9, q9, q15 |
| veor q8, q8, q14 |
| vand q12, q2, q3 |
| veor q9, q9, q14 |
| vand q13, q4, q0 |
| vand q14, q1, q5 |
| vorr q15, q7, q6 |
| veor q11, q11, q12 |
| veor q9, q9, q14 |
| veor q8, q8, q15 |
| veor q10, q10, q13 |
| |
| @ Inv_GF16 0, 1, 2, 3, s0, s1, s2, s3 |
| |
| @ new smaller inversion |
| |
| vand q14, q11, q9 |
| vmov q12, q8 |
| |
| veor q13, q10, q14 |
| veor q15, q8, q14 |
| veor q14, q8, q14 @ q14=q15 |
| |
| vbsl q13, q9, q8 |
| vbsl q15, q11, q10 |
| veor q11, q11, q10 |
| |
| vbsl q12, q13, q14 |
| vbsl q8, q14, q13 |
| |
| vand q14, q12, q15 |
| veor q9, q9, q8 |
| |
| veor q14, q14, q11 |
| veor q12, q6, q0 |
| veor q8, q5, q3 |
| veor q10, q15, q14 |
| vand q10, q10, q6 |
| veor q6, q6, q5 |
| vand q11, q5, q15 |
| vand q6, q6, q14 |
| veor q5, q11, q10 |
| veor q6, q6, q11 |
| veor q15, q15, q13 |
| veor q14, q14, q9 |
| veor q11, q15, q14 |
| veor q10, q13, q9 |
| vand q11, q11, q12 |
| vand q10, q10, q0 |
| veor q12, q12, q8 |
| veor q0, q0, q3 |
| vand q8, q8, q15 |
| vand q3, q3, q13 |
| vand q12, q12, q14 |
| vand q0, q0, q9 |
| veor q8, q8, q12 |
| veor q0, q0, q3 |
| veor q12, q12, q11 |
| veor q3, q3, q10 |
| veor q6, q6, q12 |
| veor q0, q0, q12 |
| veor q5, q5, q8 |
| veor q3, q3, q8 |
| |
| veor q12, q7, q4 |
| veor q8, q1, q2 |
| veor q11, q15, q14 |
| veor q10, q13, q9 |
| vand q11, q11, q12 |
| vand q10, q10, q4 |
| veor q12, q12, q8 |
| veor q4, q4, q2 |
| vand q8, q8, q15 |
| vand q2, q2, q13 |
| vand q12, q12, q14 |
| vand q4, q4, q9 |
| veor q8, q8, q12 |
| veor q4, q4, q2 |
| veor q12, q12, q11 |
| veor q2, q2, q10 |
| veor q15, q15, q13 |
| veor q14, q14, q9 |
| veor q10, q15, q14 |
| vand q10, q10, q7 |
| veor q7, q7, q1 |
| vand q11, q1, q15 |
| vand q7, q7, q14 |
| veor q1, q11, q10 |
| veor q7, q7, q11 |
| veor q7, q7, q12 |
| veor q4, q4, q12 |
| veor q1, q1, q8 |
| veor q2, q2, q8 |
| veor q7, q7, q0 |
| veor q1, q1, q6 |
| veor q6, q6, q0 |
| veor q4, q4, q7 |
| veor q0, q0, q1 |
| |
| veor q1, q1, q5 |
| veor q5, q5, q2 |
| veor q2, q2, q3 |
| veor q3, q3, q5 |
| veor q4, q4, q5 |
| |
| veor q6, q6, q3 |
| subs r5,r5,#1 |
| bcc .Lenc_done |
| vext.8 q8, q0, q0, #12 @ x0 <<< 32 |
| vext.8 q9, q1, q1, #12 |
| veor q0, q0, q8 @ x0 ^ (x0 <<< 32) |
| vext.8 q10, q4, q4, #12 |
| veor q1, q1, q9 |
| vext.8 q11, q6, q6, #12 |
| veor q4, q4, q10 |
| vext.8 q12, q3, q3, #12 |
| veor q6, q6, q11 |
| vext.8 q13, q7, q7, #12 |
| veor q3, q3, q12 |
| vext.8 q14, q2, q2, #12 |
| veor q7, q7, q13 |
| vext.8 q15, q5, q5, #12 |
| veor q2, q2, q14 |
| |
| veor q9, q9, q0 |
| veor q5, q5, q15 |
| vext.8 q0, q0, q0, #8 @ (x0 ^ (x0 <<< 32)) <<< 64) |
| veor q10, q10, q1 |
| veor q8, q8, q5 |
| veor q9, q9, q5 |
| vext.8 q1, q1, q1, #8 |
| veor q13, q13, q3 |
| veor q0, q0, q8 |
| veor q14, q14, q7 |
| veor q1, q1, q9 |
| vext.8 q8, q3, q3, #8 |
| veor q12, q12, q6 |
| vext.8 q9, q7, q7, #8 |
| veor q15, q15, q2 |
| vext.8 q3, q6, q6, #8 |
| veor q11, q11, q4 |
| vext.8 q7, q5, q5, #8 |
| veor q12, q12, q5 |
| vext.8 q6, q2, q2, #8 |
| veor q11, q11, q5 |
| vext.8 q2, q4, q4, #8 |
| veor q5, q9, q13 |
| veor q4, q8, q12 |
| veor q3, q3, q11 |
| veor q7, q7, q15 |
| veor q6, q6, q14 |
| @ vmov q4, q8 |
| veor q2, q2, q10 |
| @ vmov q5, q9 |
| vldmia r6, {q12} @ .LSR |
| ite eq @ Thumb2 thing, samity check in ARM |
| addeq r6,r6,#0x10 |
| bne .Lenc_loop |
| vldmia r6, {q12} @ .LSRM0 |
| b .Lenc_loop |
| .align 4 |
| .Lenc_done: |
| vmov.i8 q8,#0x55 @ compose .LBS0 |
| vmov.i8 q9,#0x33 @ compose .LBS1 |
| vshr.u64 q10, q2, #1 |
| vshr.u64 q11, q3, #1 |
| veor q10, q10, q5 |
| veor q11, q11, q7 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #1 |
| veor q7, q7, q11 |
| vshl.u64 q11, q11, #1 |
| veor q2, q2, q10 |
| veor q3, q3, q11 |
| vshr.u64 q10, q4, #1 |
| vshr.u64 q11, q0, #1 |
| veor q10, q10, q6 |
| veor q11, q11, q1 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q6, q6, q10 |
| vshl.u64 q10, q10, #1 |
| veor q1, q1, q11 |
| vshl.u64 q11, q11, #1 |
| veor q4, q4, q10 |
| veor q0, q0, q11 |
| vmov.i8 q8,#0x0f @ compose .LBS2 |
| vshr.u64 q10, q7, #2 |
| vshr.u64 q11, q3, #2 |
| veor q10, q10, q5 |
| veor q11, q11, q2 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #2 |
| veor q2, q2, q11 |
| vshl.u64 q11, q11, #2 |
| veor q7, q7, q10 |
| veor q3, q3, q11 |
| vshr.u64 q10, q1, #2 |
| vshr.u64 q11, q0, #2 |
| veor q10, q10, q6 |
| veor q11, q11, q4 |
| vand q10, q10, q9 |
| vand q11, q11, q9 |
| veor q6, q6, q10 |
| vshl.u64 q10, q10, #2 |
| veor q4, q4, q11 |
| vshl.u64 q11, q11, #2 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| vshr.u64 q10, q6, #4 |
| vshr.u64 q11, q4, #4 |
| veor q10, q10, q5 |
| veor q11, q11, q2 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q5, q5, q10 |
| vshl.u64 q10, q10, #4 |
| veor q2, q2, q11 |
| vshl.u64 q11, q11, #4 |
| veor q6, q6, q10 |
| veor q4, q4, q11 |
| vshr.u64 q10, q1, #4 |
| vshr.u64 q11, q0, #4 |
| veor q10, q10, q7 |
| veor q11, q11, q3 |
| vand q10, q10, q8 |
| vand q11, q11, q8 |
| veor q7, q7, q10 |
| vshl.u64 q10, q10, #4 |
| veor q3, q3, q11 |
| vshl.u64 q11, q11, #4 |
| veor q1, q1, q10 |
| veor q0, q0, q11 |
| vldmia r4, {q8} @ last round key |
| veor q4, q4, q8 |
| veor q6, q6, q8 |
| veor q3, q3, q8 |
| veor q7, q7, q8 |
| veor q2, q2, q8 |
| veor q5, q5, q8 |
| veor q0, q0, q8 |
| veor q1, q1, q8 |
| bx lr |
| .size _bsaes_encrypt8,.-_bsaes_encrypt8 |
| .type _bsaes_key_convert,%function |
| .align 4 |
| _bsaes_key_convert: |
| adr r6,_bsaes_key_convert |
| vld1.8 {q7}, [r4]! @ load round 0 key |
| sub r6,r6,#_bsaes_key_convert-.LM0 |
| vld1.8 {q15}, [r4]! @ load round 1 key |
| |
| vmov.i8 q8, #0x01 @ bit masks |
| vmov.i8 q9, #0x02 |
| vmov.i8 q10, #0x04 |
| vmov.i8 q11, #0x08 |
| vmov.i8 q12, #0x10 |
| vmov.i8 q13, #0x20 |
| vldmia r6, {q14} @ .LM0 |
| |
| #ifdef __ARMEL__ |
| vrev32.8 q7, q7 |
| vrev32.8 q15, q15 |
| #endif |
| sub r5,r5,#1 |
| vstmia r12!, {q7} @ save round 0 key |
| b .Lkey_loop |
| |
| .align 4 |
| .Lkey_loop: |
| vtbl.8 d14,{q15},d28 |
| vtbl.8 d15,{q15},d29 |
| vmov.i8 q6, #0x40 |
| vmov.i8 q15, #0x80 |
| |
| vtst.8 q0, q7, q8 |
| vtst.8 q1, q7, q9 |
| vtst.8 q2, q7, q10 |
| vtst.8 q3, q7, q11 |
| vtst.8 q4, q7, q12 |
| vtst.8 q5, q7, q13 |
| vtst.8 q6, q7, q6 |
| vtst.8 q7, q7, q15 |
| vld1.8 {q15}, [r4]! @ load next round key |
| vmvn q0, q0 @ "pnot" |
| vmvn q1, q1 |
| vmvn q5, q5 |
| vmvn q6, q6 |
| #ifdef __ARMEL__ |
| vrev32.8 q15, q15 |
| #endif |
| subs r5,r5,#1 |
| vstmia r12!,{q0-q7} @ write bit-sliced round key |
| bne .Lkey_loop |
| |
| vmov.i8 q7,#0x63 @ compose .L63 |
| @ don't save last round key |
| bx lr |
| .size _bsaes_key_convert,.-_bsaes_key_convert |
| .extern AES_cbc_encrypt |
| .extern AES_decrypt |
| |
| .global bsaes_cbc_encrypt |
| .type bsaes_cbc_encrypt,%function |
| .align 5 |
| bsaes_cbc_encrypt: |
| #ifndef __KERNEL__ |
| cmp r2, #128 |
| #ifndef __thumb__ |
| blo AES_cbc_encrypt |
| #else |
| bhs 1f |
| b AES_cbc_encrypt |
| 1: |
| #endif |
| #endif |
| |
| @ it is up to the caller to make sure we are called with enc == 0 |
| |
| mov ip, sp |
| stmdb sp!, {r4-r10, lr} |
| VFP_ABI_PUSH |
| ldr r8, [ip] @ IV is 1st arg on the stack |
| mov r2, r2, lsr#4 @ len in 16 byte blocks |
| sub sp, #0x10 @ scratch space to carry over the IV |
| mov r9, sp @ save sp |
| |
| ldr r10, [r3, #240] @ get # of rounds |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| @ allocate the key schedule on the stack |
| sub r12, sp, r10, lsl#7 @ 128 bytes per inner round key |
| add r12, #96 @ sifze of bit-slices key schedule |
| |
| @ populate the key schedule |
| mov r4, r3 @ pass key |
| mov r5, r10 @ pass # of rounds |
| mov sp, r12 @ sp is sp |
| bl _bsaes_key_convert |
| vldmia sp, {q6} |
| vstmia r12, {q15} @ save last round key |
| veor q7, q7, q6 @ fix up round 0 key |
| vstmia sp, {q7} |
| #else |
| ldr r12, [r3, #244] |
| eors r12, #1 |
| beq 0f |
| |
| @ populate the key schedule |
| str r12, [r3, #244] |
| mov r4, r3 @ pass key |
| mov r5, r10 @ pass # of rounds |
| add r12, r3, #248 @ pass key schedule |
| bl _bsaes_key_convert |
| add r4, r3, #248 |
| vldmia r4, {q6} |
| vstmia r12, {q15} @ save last round key |
| veor q7, q7, q6 @ fix up round 0 key |
| vstmia r4, {q7} |
| |
| .align 2 |
| 0: |
| #endif |
| |
| vld1.8 {q15}, [r8] @ load IV |
| b .Lcbc_dec_loop |
| |
| .align 4 |
| .Lcbc_dec_loop: |
| subs r2, r2, #0x8 |
| bmi .Lcbc_dec_loop_finish |
| |
| vld1.8 {q0-q1}, [r0]! @ load input |
| vld1.8 {q2-q3}, [r0]! |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| mov r4, sp @ pass the key |
| #else |
| add r4, r3, #248 |
| #endif |
| vld1.8 {q4-q5}, [r0]! |
| mov r5, r10 |
| vld1.8 {q6-q7}, [r0] |
| sub r0, r0, #0x60 |
| vstmia r9, {q15} @ put aside IV |
| |
| bl _bsaes_decrypt8 |
| |
| vldmia r9, {q14} @ reload IV |
| vld1.8 {q8-q9}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q10-q11}, [r0]! |
| veor q1, q1, q8 |
| veor q6, q6, q9 |
| vld1.8 {q12-q13}, [r0]! |
| veor q4, q4, q10 |
| veor q2, q2, q11 |
| vld1.8 {q14-q15}, [r0]! |
| veor q7, q7, q12 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| veor q3, q3, q13 |
| vst1.8 {q6}, [r1]! |
| veor q5, q5, q14 |
| vst1.8 {q4}, [r1]! |
| vst1.8 {q2}, [r1]! |
| vst1.8 {q7}, [r1]! |
| vst1.8 {q3}, [r1]! |
| vst1.8 {q5}, [r1]! |
| |
| b .Lcbc_dec_loop |
| |
| .Lcbc_dec_loop_finish: |
| adds r2, r2, #8 |
| beq .Lcbc_dec_done |
| |
| vld1.8 {q0}, [r0]! @ load input |
| cmp r2, #2 |
| blo .Lcbc_dec_one |
| vld1.8 {q1}, [r0]! |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| mov r4, sp @ pass the key |
| #else |
| add r4, r3, #248 |
| #endif |
| mov r5, r10 |
| vstmia r9, {q15} @ put aside IV |
| beq .Lcbc_dec_two |
| vld1.8 {q2}, [r0]! |
| cmp r2, #4 |
| blo .Lcbc_dec_three |
| vld1.8 {q3}, [r0]! |
| beq .Lcbc_dec_four |
| vld1.8 {q4}, [r0]! |
| cmp r2, #6 |
| blo .Lcbc_dec_five |
| vld1.8 {q5}, [r0]! |
| beq .Lcbc_dec_six |
| vld1.8 {q6}, [r0]! |
| sub r0, r0, #0x70 |
| |
| bl _bsaes_decrypt8 |
| |
| vldmia r9, {q14} @ reload IV |
| vld1.8 {q8-q9}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q10-q11}, [r0]! |
| veor q1, q1, q8 |
| veor q6, q6, q9 |
| vld1.8 {q12-q13}, [r0]! |
| veor q4, q4, q10 |
| veor q2, q2, q11 |
| vld1.8 {q15}, [r0]! |
| veor q7, q7, q12 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| veor q3, q3, q13 |
| vst1.8 {q6}, [r1]! |
| vst1.8 {q4}, [r1]! |
| vst1.8 {q2}, [r1]! |
| vst1.8 {q7}, [r1]! |
| vst1.8 {q3}, [r1]! |
| b .Lcbc_dec_done |
| .align 4 |
| .Lcbc_dec_six: |
| sub r0, r0, #0x60 |
| bl _bsaes_decrypt8 |
| vldmia r9,{q14} @ reload IV |
| vld1.8 {q8-q9}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q10-q11}, [r0]! |
| veor q1, q1, q8 |
| veor q6, q6, q9 |
| vld1.8 {q12}, [r0]! |
| veor q4, q4, q10 |
| veor q2, q2, q11 |
| vld1.8 {q15}, [r0]! |
| veor q7, q7, q12 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| vst1.8 {q6}, [r1]! |
| vst1.8 {q4}, [r1]! |
| vst1.8 {q2}, [r1]! |
| vst1.8 {q7}, [r1]! |
| b .Lcbc_dec_done |
| .align 4 |
| .Lcbc_dec_five: |
| sub r0, r0, #0x50 |
| bl _bsaes_decrypt8 |
| vldmia r9, {q14} @ reload IV |
| vld1.8 {q8-q9}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q10-q11}, [r0]! |
| veor q1, q1, q8 |
| veor q6, q6, q9 |
| vld1.8 {q15}, [r0]! |
| veor q4, q4, q10 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| veor q2, q2, q11 |
| vst1.8 {q6}, [r1]! |
| vst1.8 {q4}, [r1]! |
| vst1.8 {q2}, [r1]! |
| b .Lcbc_dec_done |
| .align 4 |
| .Lcbc_dec_four: |
| sub r0, r0, #0x40 |
| bl _bsaes_decrypt8 |
| vldmia r9, {q14} @ reload IV |
| vld1.8 {q8-q9}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q10}, [r0]! |
| veor q1, q1, q8 |
| veor q6, q6, q9 |
| vld1.8 {q15}, [r0]! |
| veor q4, q4, q10 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| vst1.8 {q6}, [r1]! |
| vst1.8 {q4}, [r1]! |
| b .Lcbc_dec_done |
| .align 4 |
| .Lcbc_dec_three: |
| sub r0, r0, #0x30 |
| bl _bsaes_decrypt8 |
| vldmia r9, {q14} @ reload IV |
| vld1.8 {q8-q9}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q15}, [r0]! |
| veor q1, q1, q8 |
| veor q6, q6, q9 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| vst1.8 {q6}, [r1]! |
| b .Lcbc_dec_done |
| .align 4 |
| .Lcbc_dec_two: |
| sub r0, r0, #0x20 |
| bl _bsaes_decrypt8 |
| vldmia r9, {q14} @ reload IV |
| vld1.8 {q8}, [r0]! @ reload input |
| veor q0, q0, q14 @ ^= IV |
| vld1.8 {q15}, [r0]! @ reload input |
| veor q1, q1, q8 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| b .Lcbc_dec_done |
| .align 4 |
| .Lcbc_dec_one: |
| sub r0, r0, #0x10 |
| mov r10, r1 @ save original out pointer |
| mov r1, r9 @ use the iv scratch space as out buffer |
| mov r2, r3 |
| vmov q4,q15 @ just in case ensure that IV |
| vmov q5,q0 @ and input are preserved |
| bl AES_decrypt |
| vld1.8 {q0}, [r9,:64] @ load result |
| veor q0, q0, q4 @ ^= IV |
| vmov q15, q5 @ q5 holds input |
| vst1.8 {q0}, [r10] @ write output |
| |
| .Lcbc_dec_done: |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| vmov.i32 q0, #0 |
| vmov.i32 q1, #0 |
| .Lcbc_dec_bzero: @ wipe key schedule [if any] |
| vstmia sp!, {q0-q1} |
| cmp sp, r9 |
| bne .Lcbc_dec_bzero |
| #endif |
| |
| mov sp, r9 |
| add sp, #0x10 @ add sp,r9,#0x10 is no good for thumb |
| vst1.8 {q15}, [r8] @ return IV |
| VFP_ABI_POP |
| ldmia sp!, {r4-r10, pc} |
| .size bsaes_cbc_encrypt,.-bsaes_cbc_encrypt |
| .extern AES_encrypt |
| .global bsaes_ctr32_encrypt_blocks |
| .type bsaes_ctr32_encrypt_blocks,%function |
| .align 5 |
| bsaes_ctr32_encrypt_blocks: |
| cmp r2, #8 @ use plain AES for |
| blo .Lctr_enc_short @ small sizes |
| |
| mov ip, sp |
| stmdb sp!, {r4-r10, lr} |
| VFP_ABI_PUSH |
| ldr r8, [ip] @ ctr is 1st arg on the stack |
| sub sp, sp, #0x10 @ scratch space to carry over the ctr |
| mov r9, sp @ save sp |
| |
| ldr r10, [r3, #240] @ get # of rounds |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| @ allocate the key schedule on the stack |
| sub r12, sp, r10, lsl#7 @ 128 bytes per inner round key |
| add r12, #96 @ size of bit-sliced key schedule |
| |
| @ populate the key schedule |
| mov r4, r3 @ pass key |
| mov r5, r10 @ pass # of rounds |
| mov sp, r12 @ sp is sp |
| bl _bsaes_key_convert |
| veor q7,q7,q15 @ fix up last round key |
| vstmia r12, {q7} @ save last round key |
| |
| vld1.8 {q0}, [r8] @ load counter |
| add r8, r6, #.LREVM0SR-.LM0 @ borrow r8 |
| vldmia sp, {q4} @ load round0 key |
| #else |
| ldr r12, [r3, #244] |
| eors r12, #1 |
| beq 0f |
| |
| @ populate the key schedule |
| str r12, [r3, #244] |
| mov r4, r3 @ pass key |
| mov r5, r10 @ pass # of rounds |
| add r12, r3, #248 @ pass key schedule |
| bl _bsaes_key_convert |
| veor q7,q7,q15 @ fix up last round key |
| vstmia r12, {q7} @ save last round key |
| |
| .align 2 |
| 0: add r12, r3, #248 |
| vld1.8 {q0}, [r8] @ load counter |
| adrl r8, .LREVM0SR @ borrow r8 |
| vldmia r12, {q4} @ load round0 key |
| sub sp, #0x10 @ place for adjusted round0 key |
| #endif |
| |
| vmov.i32 q8,#1 @ compose 1<<96 |
| veor q9,q9,q9 |
| vrev32.8 q0,q0 |
| vext.8 q8,q9,q8,#4 |
| vrev32.8 q4,q4 |
| vadd.u32 q9,q8,q8 @ compose 2<<96 |
| vstmia sp, {q4} @ save adjusted round0 key |
| b .Lctr_enc_loop |
| |
| .align 4 |
| .Lctr_enc_loop: |
| vadd.u32 q10, q8, q9 @ compose 3<<96 |
| vadd.u32 q1, q0, q8 @ +1 |
| vadd.u32 q2, q0, q9 @ +2 |
| vadd.u32 q3, q0, q10 @ +3 |
| vadd.u32 q4, q1, q10 |
| vadd.u32 q5, q2, q10 |
| vadd.u32 q6, q3, q10 |
| vadd.u32 q7, q4, q10 |
| vadd.u32 q10, q5, q10 @ next counter |
| |
| @ Borrow prologue from _bsaes_encrypt8 to use the opportunity |
| @ to flip byte order in 32-bit counter |
| |
| vldmia sp, {q9} @ load round0 key |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x10 @ pass next round key |
| #else |
| add r4, r3, #264 |
| #endif |
| vldmia r8, {q8} @ .LREVM0SR |
| mov r5, r10 @ pass rounds |
| vstmia r9, {q10} @ save next counter |
| sub r6, r8, #.LREVM0SR-.LSR @ pass constants |
| |
| bl _bsaes_encrypt8_alt |
| |
| subs r2, r2, #8 |
| blo .Lctr_enc_loop_done |
| |
| vld1.8 {q8-q9}, [r0]! @ load input |
| vld1.8 {q10-q11}, [r0]! |
| veor q0, q8 |
| veor q1, q9 |
| vld1.8 {q12-q13}, [r0]! |
| veor q4, q10 |
| veor q6, q11 |
| vld1.8 {q14-q15}, [r0]! |
| veor q3, q12 |
| vst1.8 {q0-q1}, [r1]! @ write output |
| veor q7, q13 |
| veor q2, q14 |
| vst1.8 {q4}, [r1]! |
| veor q5, q15 |
| vst1.8 {q6}, [r1]! |
| vmov.i32 q8, #1 @ compose 1<<96 |
| vst1.8 {q3}, [r1]! |
| veor q9, q9, q9 |
| vst1.8 {q7}, [r1]! |
| vext.8 q8, q9, q8, #4 |
| vst1.8 {q2}, [r1]! |
| vadd.u32 q9,q8,q8 @ compose 2<<96 |
| vst1.8 {q5}, [r1]! |
| vldmia r9, {q0} @ load counter |
| |
| bne .Lctr_enc_loop |
| b .Lctr_enc_done |
| |
| .align 4 |
| .Lctr_enc_loop_done: |
| add r2, r2, #8 |
| vld1.8 {q8}, [r0]! @ load input |
| veor q0, q8 |
| vst1.8 {q0}, [r1]! @ write output |
| cmp r2, #2 |
| blo .Lctr_enc_done |
| vld1.8 {q9}, [r0]! |
| veor q1, q9 |
| vst1.8 {q1}, [r1]! |
| beq .Lctr_enc_done |
| vld1.8 {q10}, [r0]! |
| veor q4, q10 |
| vst1.8 {q4}, [r1]! |
| cmp r2, #4 |
| blo .Lctr_enc_done |
| vld1.8 {q11}, [r0]! |
| veor q6, q11 |
| vst1.8 {q6}, [r1]! |
| beq .Lctr_enc_done |
| vld1.8 {q12}, [r0]! |
| veor q3, q12 |
| vst1.8 {q3}, [r1]! |
| cmp r2, #6 |
| blo .Lctr_enc_done |
| vld1.8 {q13}, [r0]! |
| veor q7, q13 |
| vst1.8 {q7}, [r1]! |
| beq .Lctr_enc_done |
| vld1.8 {q14}, [r0] |
| veor q2, q14 |
| vst1.8 {q2}, [r1]! |
| |
| .Lctr_enc_done: |
| vmov.i32 q0, #0 |
| vmov.i32 q1, #0 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| .Lctr_enc_bzero: @ wipe key schedule [if any] |
| vstmia sp!, {q0-q1} |
| cmp sp, r9 |
| bne .Lctr_enc_bzero |
| #else |
| vstmia sp, {q0-q1} |
| #endif |
| |
| mov sp, r9 |
| add sp, #0x10 @ add sp,r9,#0x10 is no good for thumb |
| VFP_ABI_POP |
| ldmia sp!, {r4-r10, pc} @ return |
| |
| .align 4 |
| .Lctr_enc_short: |
| ldr ip, [sp] @ ctr pointer is passed on stack |
| stmdb sp!, {r4-r8, lr} |
| |
| mov r4, r0 @ copy arguments |
| mov r5, r1 |
| mov r6, r2 |
| mov r7, r3 |
| ldr r8, [ip, #12] @ load counter LSW |
| vld1.8 {q1}, [ip] @ load whole counter value |
| #ifdef __ARMEL__ |
| rev r8, r8 |
| #endif |
| sub sp, sp, #0x10 |
| vst1.8 {q1}, [sp,:64] @ copy counter value |
| sub sp, sp, #0x10 |
| |
| .Lctr_enc_short_loop: |
| add r0, sp, #0x10 @ input counter value |
| mov r1, sp @ output on the stack |
| mov r2, r7 @ key |
| |
| bl AES_encrypt |
| |
| vld1.8 {q0}, [r4]! @ load input |
| vld1.8 {q1}, [sp,:64] @ load encrypted counter |
| add r8, r8, #1 |
| #ifdef __ARMEL__ |
| rev r0, r8 |
| str r0, [sp, #0x1c] @ next counter value |
| #else |
| str r8, [sp, #0x1c] @ next counter value |
| #endif |
| veor q0,q0,q1 |
| vst1.8 {q0}, [r5]! @ store output |
| subs r6, r6, #1 |
| bne .Lctr_enc_short_loop |
| |
| vmov.i32 q0, #0 |
| vmov.i32 q1, #0 |
| vstmia sp!, {q0-q1} |
| |
| ldmia sp!, {r4-r8, pc} |
| .size bsaes_ctr32_encrypt_blocks,.-bsaes_ctr32_encrypt_blocks |
| .globl bsaes_xts_encrypt |
| .type bsaes_xts_encrypt,%function |
| .align 4 |
| bsaes_xts_encrypt: |
| mov ip, sp |
| stmdb sp!, {r4-r10, lr} @ 0x20 |
| VFP_ABI_PUSH |
| mov r6, sp @ future r3 |
| |
| mov r7, r0 |
| mov r8, r1 |
| mov r9, r2 |
| mov r10, r3 |
| |
| sub r0, sp, #0x10 @ 0x10 |
| bic r0, #0xf @ align at 16 bytes |
| mov sp, r0 |
| |
| #ifdef XTS_CHAIN_TWEAK |
| ldr r0, [ip] @ pointer to input tweak |
| #else |
| @ generate initial tweak |
| ldr r0, [ip, #4] @ iv[] |
| mov r1, sp |
| ldr r2, [ip, #0] @ key2 |
| bl AES_encrypt |
| mov r0,sp @ pointer to initial tweak |
| #endif |
| |
| ldr r1, [r10, #240] @ get # of rounds |
| mov r3, r6 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| @ allocate the key schedule on the stack |
| sub r12, sp, r1, lsl#7 @ 128 bytes per inner round key |
| @ add r12, #96 @ size of bit-sliced key schedule |
| sub r12, #48 @ place for tweak[9] |
| |
| @ populate the key schedule |
| mov r4, r10 @ pass key |
| mov r5, r1 @ pass # of rounds |
| mov sp, r12 |
| add r12, #0x90 @ pass key schedule |
| bl _bsaes_key_convert |
| veor q7, q7, q15 @ fix up last round key |
| vstmia r12, {q7} @ save last round key |
| #else |
| ldr r12, [r10, #244] |
| eors r12, #1 |
| beq 0f |
| |
| str r12, [r10, #244] |
| mov r4, r10 @ pass key |
| mov r5, r1 @ pass # of rounds |
| add r12, r10, #248 @ pass key schedule |
| bl _bsaes_key_convert |
| veor q7, q7, q15 @ fix up last round key |
| vstmia r12, {q7} |
| |
| .align 2 |
| 0: sub sp, #0x90 @ place for tweak[9] |
| #endif |
| |
| vld1.8 {q8}, [r0] @ initial tweak |
| adr r2, .Lxts_magic |
| |
| subs r9, #0x80 |
| blo .Lxts_enc_short |
| b .Lxts_enc_loop |
| |
| .align 4 |
| .Lxts_enc_loop: |
| vldmia r2, {q5} @ load XTS magic |
| vshr.s64 q6, q8, #63 |
| mov r0, sp |
| vand q6, q6, q5 |
| vadd.u64 q9, q8, q8 |
| vst1.64 {q8}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q9, #63 |
| veor q9, q9, q6 |
| vand q7, q7, q5 |
| vadd.u64 q10, q9, q9 |
| vst1.64 {q9}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q10, #63 |
| veor q10, q10, q7 |
| vand q6, q6, q5 |
| vld1.8 {q0}, [r7]! |
| vadd.u64 q11, q10, q10 |
| vst1.64 {q10}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q11, #63 |
| veor q11, q11, q6 |
| vand q7, q7, q5 |
| vld1.8 {q1}, [r7]! |
| veor q0, q0, q8 |
| vadd.u64 q12, q11, q11 |
| vst1.64 {q11}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q12, #63 |
| veor q12, q12, q7 |
| vand q6, q6, q5 |
| vld1.8 {q2}, [r7]! |
| veor q1, q1, q9 |
| vadd.u64 q13, q12, q12 |
| vst1.64 {q12}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q13, #63 |
| veor q13, q13, q6 |
| vand q7, q7, q5 |
| vld1.8 {q3}, [r7]! |
| veor q2, q2, q10 |
| vadd.u64 q14, q13, q13 |
| vst1.64 {q13}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q14, #63 |
| veor q14, q14, q7 |
| vand q6, q6, q5 |
| vld1.8 {q4}, [r7]! |
| veor q3, q3, q11 |
| vadd.u64 q15, q14, q14 |
| vst1.64 {q14}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q15, #63 |
| veor q15, q15, q6 |
| vand q7, q7, q5 |
| vld1.8 {q5}, [r7]! |
| veor q4, q4, q12 |
| vadd.u64 q8, q15, q15 |
| vst1.64 {q15}, [r0,:128]! |
| vswp d15,d14 |
| veor q8, q8, q7 |
| vst1.64 {q8}, [r0,:128] @ next round tweak |
| |
| vld1.8 {q6-q7}, [r7]! |
| veor q5, q5, q13 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q6, q6, q14 |
| mov r5, r1 @ pass rounds |
| veor q7, q7, q15 |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12-q13}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q4, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q6, q11 |
| vld1.64 {q14-q15}, [r0,:128]! |
| veor q10, q3, q12 |
| vst1.8 {q8-q9}, [r8]! |
| veor q11, q7, q13 |
| veor q12, q2, q14 |
| vst1.8 {q10-q11}, [r8]! |
| veor q13, q5, q15 |
| vst1.8 {q12-q13}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| |
| subs r9, #0x80 |
| bpl .Lxts_enc_loop |
| |
| .Lxts_enc_short: |
| adds r9, #0x70 |
| bmi .Lxts_enc_done |
| |
| vldmia r2, {q5} @ load XTS magic |
| vshr.s64 q7, q8, #63 |
| mov r0, sp |
| vand q7, q7, q5 |
| vadd.u64 q9, q8, q8 |
| vst1.64 {q8}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q9, #63 |
| veor q9, q9, q7 |
| vand q6, q6, q5 |
| vadd.u64 q10, q9, q9 |
| vst1.64 {q9}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q10, #63 |
| veor q10, q10, q6 |
| vand q7, q7, q5 |
| vld1.8 {q0}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_enc_1 |
| vadd.u64 q11, q10, q10 |
| vst1.64 {q10}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q11, #63 |
| veor q11, q11, q7 |
| vand q6, q6, q5 |
| vld1.8 {q1}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_enc_2 |
| veor q0, q0, q8 |
| vadd.u64 q12, q11, q11 |
| vst1.64 {q11}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q12, #63 |
| veor q12, q12, q6 |
| vand q7, q7, q5 |
| vld1.8 {q2}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_enc_3 |
| veor q1, q1, q9 |
| vadd.u64 q13, q12, q12 |
| vst1.64 {q12}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q13, #63 |
| veor q13, q13, q7 |
| vand q6, q6, q5 |
| vld1.8 {q3}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_enc_4 |
| veor q2, q2, q10 |
| vadd.u64 q14, q13, q13 |
| vst1.64 {q13}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q14, #63 |
| veor q14, q14, q6 |
| vand q7, q7, q5 |
| vld1.8 {q4}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_enc_5 |
| veor q3, q3, q11 |
| vadd.u64 q15, q14, q14 |
| vst1.64 {q14}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q15, #63 |
| veor q15, q15, q7 |
| vand q6, q6, q5 |
| vld1.8 {q5}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_enc_6 |
| veor q4, q4, q12 |
| sub r9, #0x10 |
| vst1.64 {q15}, [r0,:128] @ next round tweak |
| |
| vld1.8 {q6}, [r7]! |
| veor q5, q5, q13 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q6, q6, q14 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12-q13}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q4, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q6, q11 |
| vld1.64 {q14}, [r0,:128]! |
| veor q10, q3, q12 |
| vst1.8 {q8-q9}, [r8]! |
| veor q11, q7, q13 |
| veor q12, q2, q14 |
| vst1.8 {q10-q11}, [r8]! |
| vst1.8 {q12}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_enc_done |
| .align 4 |
| .Lxts_enc_6: |
| vst1.64 {q14}, [r0,:128] @ next round tweak |
| |
| veor q4, q4, q12 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q5, q5, q13 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12-q13}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q4, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q6, q11 |
| veor q10, q3, q12 |
| vst1.8 {q8-q9}, [r8]! |
| veor q11, q7, q13 |
| vst1.8 {q10-q11}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_enc_done |
| |
| @ put this in range for both ARM and Thumb mode adr instructions |
| .align 5 |
| .Lxts_magic: |
| .quad 1, 0x87 |
| |
| .align 5 |
| .Lxts_enc_5: |
| vst1.64 {q13}, [r0,:128] @ next round tweak |
| |
| veor q3, q3, q11 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q4, q4, q12 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q4, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q6, q11 |
| veor q10, q3, q12 |
| vst1.8 {q8-q9}, [r8]! |
| vst1.8 {q10}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_enc_done |
| .align 4 |
| .Lxts_enc_4: |
| vst1.64 {q12}, [r0,:128] @ next round tweak |
| |
| veor q2, q2, q10 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q3, q3, q11 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| veor q1, q1, q9 |
| veor q8, q4, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q6, q11 |
| vst1.8 {q8-q9}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_enc_done |
| .align 4 |
| .Lxts_enc_3: |
| vst1.64 {q11}, [r0,:128] @ next round tweak |
| |
| veor q1, q1, q9 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q2, q2, q10 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10}, [r0,:128]! |
| veor q0, q0, q8 |
| veor q1, q1, q9 |
| veor q8, q4, q10 |
| vst1.8 {q0-q1}, [r8]! |
| vst1.8 {q8}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_enc_done |
| .align 4 |
| .Lxts_enc_2: |
| vst1.64 {q10}, [r0,:128] @ next round tweak |
| |
| veor q0, q0, q8 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q1, q1, q9 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_encrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| veor q0, q0, q8 |
| veor q1, q1, q9 |
| vst1.8 {q0-q1}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_enc_done |
| .align 4 |
| .Lxts_enc_1: |
| mov r0, sp |
| veor q0, q8 |
| mov r1, sp |
| vst1.8 {q0}, [sp,:128] |
| mov r2, r10 |
| mov r4, r3 @ preserve fp |
| |
| bl AES_encrypt |
| |
| vld1.8 {q0}, [sp,:128] |
| veor q0, q0, q8 |
| vst1.8 {q0}, [r8]! |
| mov r3, r4 |
| |
| vmov q8, q9 @ next round tweak |
| |
| .Lxts_enc_done: |
| #ifndef XTS_CHAIN_TWEAK |
| adds r9, #0x10 |
| beq .Lxts_enc_ret |
| sub r6, r8, #0x10 |
| |
| .Lxts_enc_steal: |
| ldrb r0, [r7], #1 |
| ldrb r1, [r8, #-0x10] |
| strb r0, [r8, #-0x10] |
| strb r1, [r8], #1 |
| |
| subs r9, #1 |
| bhi .Lxts_enc_steal |
| |
| vld1.8 {q0}, [r6] |
| mov r0, sp |
| veor q0, q0, q8 |
| mov r1, sp |
| vst1.8 {q0}, [sp,:128] |
| mov r2, r10 |
| mov r4, r3 @ preserve fp |
| |
| bl AES_encrypt |
| |
| vld1.8 {q0}, [sp,:128] |
| veor q0, q0, q8 |
| vst1.8 {q0}, [r6] |
| mov r3, r4 |
| #endif |
| |
| .Lxts_enc_ret: |
| bic r0, r3, #0xf |
| vmov.i32 q0, #0 |
| vmov.i32 q1, #0 |
| #ifdef XTS_CHAIN_TWEAK |
| ldr r1, [r3, #0x20+VFP_ABI_FRAME] @ chain tweak |
| #endif |
| .Lxts_enc_bzero: @ wipe key schedule [if any] |
| vstmia sp!, {q0-q1} |
| cmp sp, r0 |
| bne .Lxts_enc_bzero |
| |
| mov sp, r3 |
| #ifdef XTS_CHAIN_TWEAK |
| vst1.8 {q8}, [r1] |
| #endif |
| VFP_ABI_POP |
| ldmia sp!, {r4-r10, pc} @ return |
| |
| .size bsaes_xts_encrypt,.-bsaes_xts_encrypt |
| |
| .globl bsaes_xts_decrypt |
| .type bsaes_xts_decrypt,%function |
| .align 4 |
| bsaes_xts_decrypt: |
| mov ip, sp |
| stmdb sp!, {r4-r10, lr} @ 0x20 |
| VFP_ABI_PUSH |
| mov r6, sp @ future r3 |
| |
| mov r7, r0 |
| mov r8, r1 |
| mov r9, r2 |
| mov r10, r3 |
| |
| sub r0, sp, #0x10 @ 0x10 |
| bic r0, #0xf @ align at 16 bytes |
| mov sp, r0 |
| |
| #ifdef XTS_CHAIN_TWEAK |
| ldr r0, [ip] @ pointer to input tweak |
| #else |
| @ generate initial tweak |
| ldr r0, [ip, #4] @ iv[] |
| mov r1, sp |
| ldr r2, [ip, #0] @ key2 |
| bl AES_encrypt |
| mov r0, sp @ pointer to initial tweak |
| #endif |
| |
| ldr r1, [r10, #240] @ get # of rounds |
| mov r3, r6 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| @ allocate the key schedule on the stack |
| sub r12, sp, r1, lsl#7 @ 128 bytes per inner round key |
| @ add r12, #96 @ size of bit-sliced key schedule |
| sub r12, #48 @ place for tweak[9] |
| |
| @ populate the key schedule |
| mov r4, r10 @ pass key |
| mov r5, r1 @ pass # of rounds |
| mov sp, r12 |
| add r12, #0x90 @ pass key schedule |
| bl _bsaes_key_convert |
| add r4, sp, #0x90 |
| vldmia r4, {q6} |
| vstmia r12, {q15} @ save last round key |
| veor q7, q7, q6 @ fix up round 0 key |
| vstmia r4, {q7} |
| #else |
| ldr r12, [r10, #244] |
| eors r12, #1 |
| beq 0f |
| |
| str r12, [r10, #244] |
| mov r4, r10 @ pass key |
| mov r5, r1 @ pass # of rounds |
| add r12, r10, #248 @ pass key schedule |
| bl _bsaes_key_convert |
| add r4, r10, #248 |
| vldmia r4, {q6} |
| vstmia r12, {q15} @ save last round key |
| veor q7, q7, q6 @ fix up round 0 key |
| vstmia r4, {q7} |
| |
| .align 2 |
| 0: sub sp, #0x90 @ place for tweak[9] |
| #endif |
| vld1.8 {q8}, [r0] @ initial tweak |
| adr r2, .Lxts_magic |
| |
| tst r9, #0xf @ if not multiple of 16 |
| it ne @ Thumb2 thing, sanity check in ARM |
| subne r9, #0x10 @ subtract another 16 bytes |
| subs r9, #0x80 |
| |
| blo .Lxts_dec_short |
| b .Lxts_dec_loop |
| |
| .align 4 |
| .Lxts_dec_loop: |
| vldmia r2, {q5} @ load XTS magic |
| vshr.s64 q6, q8, #63 |
| mov r0, sp |
| vand q6, q6, q5 |
| vadd.u64 q9, q8, q8 |
| vst1.64 {q8}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q9, #63 |
| veor q9, q9, q6 |
| vand q7, q7, q5 |
| vadd.u64 q10, q9, q9 |
| vst1.64 {q9}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q10, #63 |
| veor q10, q10, q7 |
| vand q6, q6, q5 |
| vld1.8 {q0}, [r7]! |
| vadd.u64 q11, q10, q10 |
| vst1.64 {q10}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q11, #63 |
| veor q11, q11, q6 |
| vand q7, q7, q5 |
| vld1.8 {q1}, [r7]! |
| veor q0, q0, q8 |
| vadd.u64 q12, q11, q11 |
| vst1.64 {q11}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q12, #63 |
| veor q12, q12, q7 |
| vand q6, q6, q5 |
| vld1.8 {q2}, [r7]! |
| veor q1, q1, q9 |
| vadd.u64 q13, q12, q12 |
| vst1.64 {q12}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q13, #63 |
| veor q13, q13, q6 |
| vand q7, q7, q5 |
| vld1.8 {q3}, [r7]! |
| veor q2, q2, q10 |
| vadd.u64 q14, q13, q13 |
| vst1.64 {q13}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q14, #63 |
| veor q14, q14, q7 |
| vand q6, q6, q5 |
| vld1.8 {q4}, [r7]! |
| veor q3, q3, q11 |
| vadd.u64 q15, q14, q14 |
| vst1.64 {q14}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q15, #63 |
| veor q15, q15, q6 |
| vand q7, q7, q5 |
| vld1.8 {q5}, [r7]! |
| veor q4, q4, q12 |
| vadd.u64 q8, q15, q15 |
| vst1.64 {q15}, [r0,:128]! |
| vswp d15,d14 |
| veor q8, q8, q7 |
| vst1.64 {q8}, [r0,:128] @ next round tweak |
| |
| vld1.8 {q6-q7}, [r7]! |
| veor q5, q5, q13 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q6, q6, q14 |
| mov r5, r1 @ pass rounds |
| veor q7, q7, q15 |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12-q13}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q6, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q4, q11 |
| vld1.64 {q14-q15}, [r0,:128]! |
| veor q10, q2, q12 |
| vst1.8 {q8-q9}, [r8]! |
| veor q11, q7, q13 |
| veor q12, q3, q14 |
| vst1.8 {q10-q11}, [r8]! |
| veor q13, q5, q15 |
| vst1.8 {q12-q13}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| |
| subs r9, #0x80 |
| bpl .Lxts_dec_loop |
| |
| .Lxts_dec_short: |
| adds r9, #0x70 |
| bmi .Lxts_dec_done |
| |
| vldmia r2, {q5} @ load XTS magic |
| vshr.s64 q7, q8, #63 |
| mov r0, sp |
| vand q7, q7, q5 |
| vadd.u64 q9, q8, q8 |
| vst1.64 {q8}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q9, #63 |
| veor q9, q9, q7 |
| vand q6, q6, q5 |
| vadd.u64 q10, q9, q9 |
| vst1.64 {q9}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q10, #63 |
| veor q10, q10, q6 |
| vand q7, q7, q5 |
| vld1.8 {q0}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_dec_1 |
| vadd.u64 q11, q10, q10 |
| vst1.64 {q10}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q11, #63 |
| veor q11, q11, q7 |
| vand q6, q6, q5 |
| vld1.8 {q1}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_dec_2 |
| veor q0, q0, q8 |
| vadd.u64 q12, q11, q11 |
| vst1.64 {q11}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q12, #63 |
| veor q12, q12, q6 |
| vand q7, q7, q5 |
| vld1.8 {q2}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_dec_3 |
| veor q1, q1, q9 |
| vadd.u64 q13, q12, q12 |
| vst1.64 {q12}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q13, #63 |
| veor q13, q13, q7 |
| vand q6, q6, q5 |
| vld1.8 {q3}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_dec_4 |
| veor q2, q2, q10 |
| vadd.u64 q14, q13, q13 |
| vst1.64 {q13}, [r0,:128]! |
| vswp d13,d12 |
| vshr.s64 q7, q14, #63 |
| veor q14, q14, q6 |
| vand q7, q7, q5 |
| vld1.8 {q4}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_dec_5 |
| veor q3, q3, q11 |
| vadd.u64 q15, q14, q14 |
| vst1.64 {q14}, [r0,:128]! |
| vswp d15,d14 |
| vshr.s64 q6, q15, #63 |
| veor q15, q15, q7 |
| vand q6, q6, q5 |
| vld1.8 {q5}, [r7]! |
| subs r9, #0x10 |
| bmi .Lxts_dec_6 |
| veor q4, q4, q12 |
| sub r9, #0x10 |
| vst1.64 {q15}, [r0,:128] @ next round tweak |
| |
| vld1.8 {q6}, [r7]! |
| veor q5, q5, q13 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q6, q6, q14 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12-q13}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q6, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q4, q11 |
| vld1.64 {q14}, [r0,:128]! |
| veor q10, q2, q12 |
| vst1.8 {q8-q9}, [r8]! |
| veor q11, q7, q13 |
| veor q12, q3, q14 |
| vst1.8 {q10-q11}, [r8]! |
| vst1.8 {q12}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_dec_done |
| .align 4 |
| .Lxts_dec_6: |
| vst1.64 {q14}, [r0,:128] @ next round tweak |
| |
| veor q4, q4, q12 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q5, q5, q13 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12-q13}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q6, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q4, q11 |
| veor q10, q2, q12 |
| vst1.8 {q8-q9}, [r8]! |
| veor q11, q7, q13 |
| vst1.8 {q10-q11}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_dec_done |
| .align 4 |
| .Lxts_dec_5: |
| vst1.64 {q13}, [r0,:128] @ next round tweak |
| |
| veor q3, q3, q11 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q4, q4, q12 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| vld1.64 {q12}, [r0,:128]! |
| veor q1, q1, q9 |
| veor q8, q6, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q4, q11 |
| veor q10, q2, q12 |
| vst1.8 {q8-q9}, [r8]! |
| vst1.8 {q10}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_dec_done |
| .align 4 |
| .Lxts_dec_4: |
| vst1.64 {q12}, [r0,:128] @ next round tweak |
| |
| veor q2, q2, q10 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q3, q3, q11 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10-q11}, [r0,:128]! |
| veor q0, q0, q8 |
| veor q1, q1, q9 |
| veor q8, q6, q10 |
| vst1.8 {q0-q1}, [r8]! |
| veor q9, q4, q11 |
| vst1.8 {q8-q9}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_dec_done |
| .align 4 |
| .Lxts_dec_3: |
| vst1.64 {q11}, [r0,:128] @ next round tweak |
| |
| veor q1, q1, q9 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q2, q2, q10 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| vld1.64 {q10}, [r0,:128]! |
| veor q0, q0, q8 |
| veor q1, q1, q9 |
| veor q8, q6, q10 |
| vst1.8 {q0-q1}, [r8]! |
| vst1.8 {q8}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_dec_done |
| .align 4 |
| .Lxts_dec_2: |
| vst1.64 {q10}, [r0,:128] @ next round tweak |
| |
| veor q0, q0, q8 |
| #ifndef BSAES_ASM_EXTENDED_KEY |
| add r4, sp, #0x90 @ pass key schedule |
| #else |
| add r4, r10, #248 @ pass key schedule |
| #endif |
| veor q1, q1, q9 |
| mov r5, r1 @ pass rounds |
| mov r0, sp |
| |
| bl _bsaes_decrypt8 |
| |
| vld1.64 {q8-q9}, [r0,:128]! |
| veor q0, q0, q8 |
| veor q1, q1, q9 |
| vst1.8 {q0-q1}, [r8]! |
| |
| vld1.64 {q8}, [r0,:128] @ next round tweak |
| b .Lxts_dec_done |
| .align 4 |
| .Lxts_dec_1: |
| mov r0, sp |
| veor q0, q8 |
| mov r1, sp |
| vst1.8 {q0}, [sp,:128] |
| mov r2, r10 |
| mov r4, r3 @ preserve fp |
| mov r5, r2 @ preserve magic |
| |
| bl AES_decrypt |
| |
| vld1.8 {q0}, [sp,:128] |
| veor q0, q0, q8 |
| vst1.8 {q0}, [r8]! |
| mov r3, r4 |
| mov r2, r5 |
| |
| vmov q8, q9 @ next round tweak |
| |
| .Lxts_dec_done: |
| #ifndef XTS_CHAIN_TWEAK |
| adds r9, #0x10 |
| beq .Lxts_dec_ret |
| |
| @ calculate one round of extra tweak for the stolen ciphertext |
| vldmia r2, {q5} |
| vshr.s64 q6, q8, #63 |
| vand q6, q6, q5 |
| vadd.u64 q9, q8, q8 |
| vswp d13,d12 |
| veor q9, q9, q6 |
| |
| @ perform the final decryption with the last tweak value |
| vld1.8 {q0}, [r7]! |
| mov r0, sp |
| veor q0, q0, q9 |
| mov r1, sp |
| vst1.8 {q0}, [sp,:128] |
| mov r2, r10 |
| mov r4, r3 @ preserve fp |
| |
| bl AES_decrypt |
| |
| vld1.8 {q0}, [sp,:128] |
| veor q0, q0, q9 |
| vst1.8 {q0}, [r8] |
| |
| mov r6, r8 |
| .Lxts_dec_steal: |
| ldrb r1, [r8] |
| ldrb r0, [r7], #1 |
| strb r1, [r8, #0x10] |
| strb r0, [r8], #1 |
| |
| subs r9, #1 |
| bhi .Lxts_dec_steal |
| |
| vld1.8 {q0}, [r6] |
| mov r0, sp |
| veor q0, q8 |
| mov r1, sp |
| vst1.8 {q0}, [sp,:128] |
| mov r2, r10 |
| |
| bl AES_decrypt |
| |
| vld1.8 {q0}, [sp,:128] |
| veor q0, q0, q8 |
| vst1.8 {q0}, [r6] |
| mov r3, r4 |
| #endif |
| |
| .Lxts_dec_ret: |
| bic r0, r3, #0xf |
| vmov.i32 q0, #0 |
| vmov.i32 q1, #0 |
| #ifdef XTS_CHAIN_TWEAK |
| ldr r1, [r3, #0x20+VFP_ABI_FRAME] @ chain tweak |
| #endif |
| .Lxts_dec_bzero: @ wipe key schedule [if any] |
| vstmia sp!, {q0-q1} |
| cmp sp, r0 |
| bne .Lxts_dec_bzero |
| |
| mov sp, r3 |
| #ifdef XTS_CHAIN_TWEAK |
| vst1.8 {q8}, [r1] |
| #endif |
| VFP_ABI_POP |
| ldmia sp!, {r4-r10, pc} @ return |
| |
| .size bsaes_xts_decrypt,.-bsaes_xts_decrypt |
| #endif |