SYM-7152: Limit time purge job spends on stranded data (#464) (#469)

pavel-jm · web-flow · commit b36249e749ab · 2025-11-25T08:15:33.000-05:00
diff --git a/symmetric-core/src/main/java/org/jumpmind/symmetric/common/ParameterConstants.java b/symmetric-core/src/main/java/org/jumpmind/symmetric/common/ParameterConstants.java
@@ -316,6 +316,8 @@ private ParameterConstants() {
     public final static String PURGE_STATS_RETENTION_MINUTES = "purge.stats.retention.minutes";
     public final static String PURGE_TRIGGER_HIST_RETENTION_MINUTES = "purge.trigger.hist.retention.minutes";
     public final static String PURGE_EXPIRED_DATA_GAP_RETENTION_MINUTES = "purge.expired.data.gap.retention.minutes";
+    public final static String PURGE_STRANDED_DATA_RECAPTURE_ENABLED = "job.purge.recapture.stranded.data";
+    public final static String PURGE_STRANDED_DATA_TIME_LIMIT_MS = "job.purge.stranded.max.time.ms";
     public final static String PURGE_MONITOR_EVENT_RETENTION_MINUTES = "purge.monitor.event.retention.minutes";
     public final static String PURGE_MAX_NUMBER_OF_DATA_IDS = "job.purge.max.num.data.to.delete.in.tx";
     public final static String PURGE_MAX_NUMBER_OF_BATCH_IDS = "job.purge.max.num.batches.to.delete.in.tx";
diff --git a/symmetric-core/src/main/java/org/jumpmind/symmetric/service/impl/PurgeService.java b/symmetric-core/src/main/java/org/jumpmind/symmetric/service/impl/PurgeService.java
@@ -87,6 +87,7 @@ public PurgeService(IParameterService parameterService, ISymmetricDialect symmet
         setSqlMap(new PurgeServiceSqlMap(symmetricDialect.getPlatform(), createSqlReplacementTokens()));
     }
 
+    @Override
     public long purgeOutgoing(boolean force) {
         long rowsPurged = 0;
         long startTime = System.currentTimeMillis();
@@ -115,6 +116,7 @@ public long purgeOutgoing(boolean force) {
         return rowsPurged;
     }
 
+    @Override
     public long purgeIncoming(boolean force) {
         long rowsPurged = 0;
         Calendar retentionCutoff = Calendar.getInstance();
@@ -123,6 +125,7 @@ public long purgeIncoming(boolean force) {
         return rowsPurged;
     }
 
+    @Override
     public long purgeOutgoing(Calendar retentionCutoff, boolean force) {
         long rowsPurged = 0;
         if (force || clusterService.lock(ClusterConstants.PURGE_OUTGOING)) {
@@ -455,15 +458,22 @@ private int purgeDataGapsExpired(OutgoingContext context) {
             long ts = System.currentTimeMillis();
             int[] argTypes = new int[] { symmetricDialect.getSqlTypeForIds(), symmetricDialect.getSqlTypeForIds() };
             for (DataGap gap : dataGapsExpiredToCheck) {
-                int count = dataService.reCaptureData(gap.getStartId(), gap.getEndId());
+                Object[] args = new Object[] { gap.getStartId(), gap.getEndId() };
+                if (parameterService.is(ParameterConstants.PURGE_STRANDED_DATA_RECAPTURE_ENABLED)) {
+                    int recapturedRowCount = dataService.reCaptureData(gap.getStartId(), gap.getEndId());
+                    if (log.isDebugEnabled()) {
+                        log.debug("Recaptured {} rows of stranded data for gap {} - {}", recapturedRowCount, gap.getStartId(), gap.getEndId());
+                    }
+                } else if (log.isDebugEnabled()) {
+                    log.debug("Skipped recapture of stranded data for gap {} - {}", gap.getStartId(), gap.getEndId());
+                }
+                int count = sqlTemplate.update(getSql("deleteDataByRangeSql"), args, argTypes);
                 purgedDataRowCount += count;
                 statisticManager.incrementPurgedExpiredDataRows(count);
-                Object[] args = new Object[] { gap.getStartId(), gap.getEndId() };
-                sqlTemplate.update(getSql("deleteDataByRangeSql"), args, argTypes);
                 purgedDataGapCount++;
                 checkedDataGapCount++;
-                if (System.currentTimeMillis() - ts > 60000) {
-                    log.info("Checked {} expired data gaps", checkedDataGapCount);
+                if (System.currentTimeMillis() - ts > DateUtils.MILLIS_PER_MINUTE) {
+                    log.info("Checked {} expired data gaps. Deleted {} data rows.", checkedDataGapCount, count);
                     ts = System.currentTimeMillis();
                 }
             }
@@ -646,7 +656,12 @@ private int purgeByMinMax(long[] minMax, MinMaxDeleteSql identifier, OutgoingCon
                     }
                     args = new Object[] { minId = minMaxAvoidGaps[0], maxId = minMaxAvoidGaps[1], cutoffTime };
                     argTypes = new int[] { idSqlType, idSqlType, Types.TIMESTAMP };
-                    dataService.reCaptureData(minId, maxId);
+                    if (parameterService.is(ParameterConstants.PURGE_STRANDED_DATA_RECAPTURE_ENABLED)) {
+                        int recapturedRowCount = dataService.reCaptureData(minId, maxId);
+                        log.debug("Recaptured {} stranded data rows for range {} - {}", recapturedRowCount, minId, maxId);
+                    } else if (log.isDebugEnabled()) {
+                        log.debug("Skipped recapture of stranded data for range {} - {}", minId, maxId);
+                    }
                     break;
                 case STRANDED_DATA_EVENT:
                     deleteSql = getSql("deleteStrandedDataEvent");
@@ -659,11 +674,21 @@ private int purgeByMinMax(long[] minMax, MinMaxDeleteSql identifier, OutgoingCon
             log.debug("Deleted {} rows", count);
             statConsumer.accept(count);
             totalCount += count;
+            long currentRunTimeMs = System.currentTimeMillis() - ts;
             if (count == 0 && (identifier == MinMaxDeleteSql.STRANDED_DATA || identifier == MinMaxDeleteSql.STRANDED_DATA_EVENT)) {
-                log.info("Ending purge of {} early at {} after finding empty space", name, maxId);
-                break;
+                long runtimeLimit = parameterService.getLong(ParameterConstants.PURGE_STRANDED_DATA_TIME_LIMIT_MS);
+                if (runtimeLimit > 0 && currentRunTimeMs >= runtimeLimit) {
+                    log.info("Ending purge of {} early at {} after finding empty space. Total rows purged={}", name, maxId, totalCount);
+                    break;
+                } else {
+                    if (currentRunTimeMs > DateUtils.MILLIS_PER_MINUTE * 5) {
+                        log.info("Skipping empty space in {} for range {} - {}", name, minId, maxId);
+                    } else {
+                        log.debug("Skipping empty space in {} for range {} - {}. Total rows purged={}", name, minId, maxId, totalCount);
+                    }
+                }
             }
-            if (System.currentTimeMillis() - ts > DateUtils.MILLIS_PER_MINUTE * 5) {
+            if (currentRunTimeMs > DateUtils.MILLIS_PER_MINUTE * 5) {
                 log.info("Purged {} of {} rows so far using {} statements", new Object[] { totalCount, name, totalDeleteStmts });
                 ts = System.currentTimeMillis();
                 clusterService.refreshLock(ClusterConstants.PURGE_OUTGOING);
@@ -747,6 +772,7 @@ public static long[] getMinMaxAvoidGaps(long minId, long maxId, List<DataGap> da
         return new long[] { minId, maxId };
     }
 
+    @Override
     public long purgeIncoming(Calendar retentionCutoff, boolean force) {
         long purgedRowCount = 0;
         long startTime = System.currentTimeMillis();
@@ -807,6 +833,7 @@ private long purgeIncomingBatch(final Calendar time) {
         log.info("Getting range for incoming batch");
         List<NodeBatchRange> nodeBatchRangeList = sqlTemplateDirty.query(
                 getSql("selectIncomingBatchRangeSql"), new ISqlRowMapper<NodeBatchRange>() {
+                    @Override
                     public NodeBatchRange mapRow(Row rs) {
                         return new NodeBatchRange(rs.getString("node_id"), rs.getLong("min_id"), rs
                                 .getLong("max_id"));
@@ -849,6 +876,7 @@ private int purgeByNodeBatchRangeList(List<NodeBatchRange> nodeBatchRangeList) {
         return totalCount;
     }
 
+    @Override
     public void purgeStats(boolean force) {
         Calendar retentionCutoff = Calendar.getInstance();
         retentionCutoff.add(Calendar.MINUTE,
@@ -872,6 +900,7 @@ public void purgeStats(boolean force) {
         }
     }
 
+    @Override
     public void purgeAllIncomingEventsForNode(String nodeId) {
         int count = sqlTemplate.update(getSql("deleteIncomingBatchByNodeSql"),
                 new Object[] { nodeId });
diff --git a/symmetric-core/src/main/resources/symmetric-default.properties b/symmetric-core/src/main/resources/symmetric-default.properties
@@ -2173,6 +2173,25 @@ purge.trigger.hist.retention.minutes=86400
 # Type: integer
 purge.expired.data.gap.retention.minutes=1440
 
+# Controls section of the purge job responsible for combing through stranded data in attempt to salvage it.
+# Recapturing stranded data involves queries against the original tables, thus increasing processing time significantly.
+# Disable this feature temporarily only if there is a significant backlog to clear and a support engineer has recommended this action.
+#
+# DatabaseOverridable: true
+# Tags: purge
+# Type: boolean
+job.purge.recapture.stranded.data=true
+
+# This limits processing time purge job spends cleaning up stranded data.
+# The purge job will automatically move to the next processing step once specified time limit has been reached.
+# If you see a log message to about this limit often, this indicates that the purge job is falling behind. 
+# It might indicate that the database server is not able to keep up with the workload or limit is too low.  
+#
+# DatabaseOverridable: true
+# Tags: purge
+# Type: integer
+job.purge.stranded.max.time.ms=900000
+
 # This is the retention time for how long to keep monitor events before purging them.
 #
 # DatabaseOverridable: true