Improve COPY TO performance when server and client encodings match
authorMichael Paquier <[email protected]>
Fri, 9 Feb 2024 00:30:53 +0000 (09:30 +0900)
committerMichael Paquier <[email protected]>
Fri, 9 Feb 2024 00:30:53 +0000 (09:30 +0900)
This commit fixes an oversight introduced in c61a2f58418e, where COPY TO
would attempt to do encoding conversions even if the encodings of the
client and the server matched for multi-byte encodings.  All conversions
go through pg_any_to_server() that makes the conversion a no-op when the
encodings of the client and the server match, even for multi-byte
encodings.

The logic was fine, but setting CopyToStateData->need_transcoding would
cause strlen() to be called for nothing for each attribute of all the
rows copied, and that was showing high in some profiles (more attributes
make that easier to reach).  This change improves the runtime of some
worst-case COPY TO queries by 15%~ (number present at least here).

This is a performance improvement, so no backpatch is done out of
caution as this is not a regression.

Reported-by: Andres Freund
Analyzed-by: Andres Freund
Author: Michael Paquier
Reviewed-by: Heikki Linnakangas
Discussion: https://postgr.es/m/20240206020504[email protected]

src/backend/commands/copyto.c

index bd4710a79be99ab604bdde89362f1322d07ea2df..b44f9f9321d2b891d41b8f36f5279605408caae7 100644 (file)
@@ -612,13 +612,15 @@ BeginCopyTo(ParseState *pstate,
        cstate->file_encoding = cstate->opts.file_encoding;
 
    /*
-    * Set up encoding conversion info.  Even if the file and server encodings
-    * are the same, we must apply pg_any_to_server() to validate data in
-    * multibyte encodings.
+    * Set up encoding conversion info if the file and server encodings
+    * differ (see also pg_server_to_any).
     */
-   cstate->need_transcoding =
-       (cstate->file_encoding != GetDatabaseEncoding() ||
-        pg_database_encoding_max_length() > 1);
+   if (cstate->file_encoding == GetDatabaseEncoding() ||
+       cstate->file_encoding == PG_SQL_ASCII)
+       cstate->need_transcoding = false;
+   else
+       cstate->need_transcoding = true;
+
    /* See Multibyte encoding comment above */
    cstate->encoding_embeds_ascii = PG_ENCODING_IS_CLIENT_ONLY(cstate->file_encoding);