experiment: try to avoid a char[] and a string allocation when searching for the end tag

rbri · rbri · commit b978f8eec4a9 · 2026-03-07T14:11:20.000+01:00
diff --git a/src/main/java/org/htmlunit/cyberneko/HTMLScanner.java b/src/main/java/org/htmlunit/cyberneko/HTMLScanner.java
@@ -507,6 +507,7 @@ public class HTMLScanner implements XMLDocumentSource, XMLLocator, HTMLComponent
     final XMLString fScanComment = new XMLString();
 
     private final XMLString fScanLiteral = new XMLString();
+    private final XMLString fNextContent = new XMLString(10);
 
     /**
      * Reusable single-element boolean array used as an out-parameter.
@@ -1827,41 +1828,47 @@ int read() throws IOException {
         }
 
         /**
-         * Reads the next characters WITHOUT impacting the buffer content up to current
-         * offset.
+         * Performs a non-destructive lookahead read of up to {@code len} characters,
+         * filling {@code result} without advancing the current position. The offset,
+         * column number, and character offset are all restored after the read, so
+         * subsequent reads continue from the same position as before this call.
          *
-         * @param len the number of characters to read
-         * @return the read string (length may be smaller if EOF is encountered)
-         * @throws IOException in case of io problems
+         * <p>If EOF is reached before {@code len} characters have been read, the
+         * result is shorter than requested; callers must check {@code result.length()}
+         * rather than assuming it equals {@code len}.
+         *
+         * <p>The {@code result} buffer is cleared before filling, so any previous
+         * content is discarded. The caller is expected to pass a shared, reusable
+         * {@link XMLString} instance to avoid allocation on every call.
+         *
+         * @param result the buffer to fill with the lookahead characters; must not
+         *               be null. Cleared before use.
+         * @param len    the maximum number of characters to read
+         * @throws IOException if an I/O error occurs while reading
          */
-        String nextContent(final int len) throws IOException {
+        void nextContent(final XMLString result, final int len) throws IOException {
+            result.clear();
+
             final int originalOffset = offset_;
             final int originalColumnNumber = getColumnNumber();
             final int originalCharacterOffset = getCharacterOffset();
 
-            final char[] buff = new char[len];
-            int nbRead;
-            for (nbRead = 0; nbRead < len; ++nbRead) {
-                // load(length_) should not clear the buffer
+            for (int i = 0; i < len; i++) {
                 if (offset_ == length_) {
                     if (load(length_) == -1) {
                         break;
                     }
                 }
-
                 final int c = read();
                 if (c == -1) {
                     break;
                 }
-                buff[nbRead] = (char) c;
+                result.append((char) c);
             }
 
-            // restore position
             offset_ = originalOffset;
             columnNumber_ = originalColumnNumber;
             characterOffset_ = originalCharacterOffset;
-
-            return new String(buff, 0, nbRead);
         }
 
         // Reads a single character, preserving the old buffer content
@@ -2514,12 +2521,11 @@ private void scanUntilEndTag(final String tagNameWithLeadingSlash) throws IOExce
                     break;
                 }
                 if (c == '<') {
-                    final String next = fCurrentEntity.nextContent(lengthToScan) + " ";
-                    if (next.length() >= lengthToScan
-                            && tagNameWithLeadingSlash.equalsIgnoreCase(
-                                    next.substring(0, tagNameWithLeadingSlash.length()))
-                            && ('>' == next.charAt(lengthToScan - 1)
-                                    || Character.isWhitespace(next.charAt(lengthToScan - 1)))) {
+                    fCurrentEntity.nextContent(fNextContent, lengthToScan);
+                    if (fNextContent.length() >= lengthToScan
+                            && fNextContent.startsWithLowerCase(tagNameWithLeadingSlash)
+                            && ('>' == fNextContent.charAt(lengthToScan - 1, ' ')
+                                    || Character.isWhitespace(fNextContent.charAt(lengthToScan - 1, ' ')))) {
                         fCurrentEntity.rewind();
                         break;
                     }
@@ -3211,6 +3217,7 @@ protected int scanAttribute(final XMLAttributesImpl attributes, final boolean[]
                     empty[0] = fCurrentEntity.skipMarkup(false);
                     return SCAN_FALSE;
                 }
+                // TODO add test and maybe fix me by using fNamesAttrs as second param
                 aname = '=' + scanName(false, fNamesElems);
             }
             if (fReportErrors_ && !skippedSpaces) {
@@ -3731,9 +3738,11 @@ public int scan(final boolean complete) throws IOException {
                             state = ScanScriptState.ESCAPED;
                         }
                         else if (c == '<') {
-                            final String next = fCurrentEntity.nextContent(8) + " ";
-                            if (next.length() >= 8 && "/script".equalsIgnoreCase(next.substring(0, 7))
-                                    && ('>' == next.charAt(7) || Character.isWhitespace(next.charAt(7)))) {
+                            fCurrentEntity.nextContent(fNextContent, 8);
+                            if (fNextContent.length() >= 8
+                                    && fNextContent.startsWithLowerCase("/script")
+                                    && ('>' == fNextContent.charAt(7, ' ')
+                                            || Character.isWhitespace(fNextContent.charAt(7, ' ')))) {
                                 fCurrentEntity.rewind();
                                 break OUTER;
                             }
@@ -3750,9 +3759,11 @@ else if (fScanScriptContent.endsWith("--!")) {
                             }
                         }
                         else if (c == '<') {
-                            final String next = fCurrentEntity.nextContent(8) + " ";
-                            if (next.length() >= 8 && "/script".equalsIgnoreCase(next.substring(0, 7))
-                                    && ('>' == next.charAt(7) || Character.isWhitespace(next.charAt(7)))) {
+                            fCurrentEntity.nextContent(fNextContent, 8);
+                            if (fNextContent.length() >= 8
+                                    && fNextContent.startsWithLowerCase("/script")
+                                    && ('>' == fNextContent.charAt(7, ' ')
+                                            || Character.isWhitespace(fNextContent.charAt(7, ' ')))) {
                                 fCurrentEntity.rewind();
                                 break OUTER;
                             }
diff --git a/src/main/java/org/htmlunit/cyberneko/xerces/xni/XMLString.java b/src/main/java/org/htmlunit/cyberneko/xerces/xni/XMLString.java
@@ -1121,4 +1121,37 @@ public void ignorableWhitespace(final ContentHandler contentHandler) throws SAXE
     public void comment(final LexicalHandler lexicalHandler) throws SAXException {
         lexicalHandler.comment(data_, 0, length_);
     }
+    
+    /**
+     * Returns true if the first {@code prefix.length()} chars of this buffer
+     * match {@code prefix} case-insensitively, where {@code prefix} is assumed
+     * to be already lowercase. This is faster than equalsIgnoreCase because
+     * it only needs one case conversion per char instead of two.
+     *
+     * @param lowercasePrefix a lowercase string to match against the start of this buffer
+     * @return true if this buffer starts with prefix (case-insensitive)
+     */
+    public boolean startsWithLowerCase(final String lowercasePrefix) {
+        if (length_ < lowercasePrefix.length()) {
+            return false;
+        }
+        for (int i = 0; i < lowercasePrefix.length(); i++) {
+            if (Character.toLowerCase(data_[i]) != lowercasePrefix.charAt(i)) {
+                return false;
+            }
+        }
+        return true;
+    }
+    
+    /**
+     * Returns the char at {@code index}, or {@code defaultChar} if index is
+     * out of bounds.
+     *
+     * @param index the position to read
+     * @param defaultChar value to return when index >= length
+     * @return the char at index, or defaultChar
+     */
+    public char charAt(final int index, final char defaultChar) {
+        return index < length_ ? data_[index] : defaultChar;
+    }
 }
diff --git a/src/test/java/org/htmlunit/cyberneko/HTMLScannerTest.java b/src/test/java/org/htmlunit/cyberneko/HTMLScannerTest.java
@@ -209,7 +209,7 @@ class MyContentScanner extends HTMLScanner.ContentScanner {
             @Override
             protected int scanComment() throws IOException {
                 // bug was here: calling nextContent() at the end of the buffer/input
-                fCurrentEntity.nextContent(30);
+                fCurrentEntity.nextContent(null, 30);
                 return super.scanComment();
             }
         }
diff --git a/src/test/java/org/htmlunit/cyberneko/xerces/xni/XMLStringTest.java b/src/test/java/org/htmlunit/cyberneko/xerces/xni/XMLStringTest.java
@@ -1436,4 +1436,180 @@ public void contains_XMLString() {
         assertEquals(true, t.apply("abc", "bc"));
         assertEquals(true, t.apply("abcabc", "abc"));
     }
+
+    // -------------------------------------------------------------------------
+    // startsWithLowerCase
+    // -------------------------------------------------------------------------
+
+    @Test
+    public void startsWithLowerCase_exactMatchAllLower() {
+        final XMLString s = new XMLString("/script");
+        assertTrue(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_exactMatchUpperCaseInBuffer() {
+        final XMLString s = new XMLString("/SCRIPT");
+        assertTrue(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_exactMatchMixedCaseInBuffer() {
+        final XMLString s = new XMLString("/Script");
+        assertTrue(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_prefixShorterThanBuffer() {
+        final XMLString s = new XMLString("/script>");
+        assertTrue(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_prefixShorterThanBufferUpperCase() {
+        final XMLString s = new XMLString("/SCRIPT>");
+        assertTrue(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_noMatch() {
+        final XMLString s = new XMLString("/style");
+        assertFalse(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_noMatchPartialOverlap() {
+        final XMLString s = new XMLString("/scrivener");
+        assertFalse(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_bufferShorterThanPrefix() {
+        final XMLString s = new XMLString("/scr");
+        assertFalse(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_emptyPrefix() {
+        final XMLString s = new XMLString("/script");
+        assertTrue(s.startsWithLowerCase(""));
+    }
+
+    @Test
+    public void startsWithLowerCase_emptyPrefixAgainstEmptyBuffer() {
+        final XMLString s = new XMLString(0);
+        assertTrue(s.startsWithLowerCase(""));
+    }
+
+    @Test
+    public void startsWithLowerCase_emptyBuffer_nonEmptyPrefix() {
+        final XMLString s = new XMLString(0);
+        assertFalse(s.startsWithLowerCase("/script"));
+    }
+
+    @Test
+    public void startsWithLowerCase_singleCharMatchLower() {
+        final XMLString s = new XMLString("a");
+        assertTrue(s.startsWithLowerCase("a"));
+    }
+
+    @Test
+    public void startsWithLowerCase_singleCharMatchUpper() {
+        final XMLString s = new XMLString("A");
+        assertTrue(s.startsWithLowerCase("a"));
+    }
+
+    @Test
+    public void startsWithLowerCase_singleCharNoMatch() {
+        final XMLString s = new XMLString("b");
+        assertFalse(s.startsWithLowerCase("a"));
+    }
+
+    @Test
+    public void startsWithLowerCase_realWorldScriptLowerCase() {
+        final XMLString s = new XMLString("/script>");
+        assertTrue(s.startsWithLowerCase("/script"));
+        assertEquals('>', s.charAt(7, ' '));
+    }
+
+    @Test
+    public void startsWithLowerCase_realWorldScriptUpperCase() {
+        final XMLString s = new XMLString("/SCRIPT>");
+        assertTrue(s.startsWithLowerCase("/script"));
+        assertEquals('>', s.charAt(7, ' '));
+    }
+
+    @Test
+    public void startsWithLowerCase_realWorldScriptWhitespaceSeparator() {
+        final XMLString s = new XMLString("/SCRIPT ");
+        assertTrue(s.startsWithLowerCase("/script"));
+        assertTrue(Character.isWhitespace(s.charAt(7, ' ')));
+    }
+
+    // -------------------------------------------------------------------------
+    // charAt(int, char)
+    // -------------------------------------------------------------------------
+
+    @Test
+    public void charAtWithDefault_withinBounds() {
+        final XMLString s = new XMLString("hello");
+        assertEquals('h', s.charAt(0, ' '));
+        assertEquals('e', s.charAt(1, ' '));
+        assertEquals('o', s.charAt(4, ' '));
+    }
+
+    @Test
+    public void charAtWithDefault_exactlyAtLastIndex() {
+        final XMLString s = new XMLString("hi");
+        assertEquals('i', s.charAt(1, ' '));
+    }
+
+    @Test
+    public void charAtWithDefault_onePastEnd_returnsDefault() {
+        final XMLString s = new XMLString("hi");
+        assertEquals(' ', s.charAt(2, ' '));
+    }
+
+    @Test
+    public void charAtWithDefault_wellBeyondEnd_returnsDefault() {
+        final XMLString s = new XMLString("hi");
+        assertEquals(' ', s.charAt(99, ' '));
+    }
+
+    @Test
+    public void charAtWithDefault_emptyBuffer_returnsDefault() {
+        final XMLString s = new XMLString(0);
+        assertEquals(' ', s.charAt(0, ' '));
+    }
+
+    @Test
+    public void charAtWithDefault_customDefault() {
+        final XMLString s = new XMLString("ab");
+        assertEquals('X', s.charAt(5, 'X'));
+    }
+
+    @Test
+    public void charAtWithDefault_sentinelPatternGt() {
+        // replicates: '>' == fNextContent.charAt(7, ' ')
+        // buffer has exactly 7 chars — index 7 is out of bounds, returns ' '
+        // which is whitespace, satisfying the isWhitespace branch
+        final XMLString s = new XMLString("/script");   // length 7
+        final char sentinel = s.charAt(7, ' ');
+        assertEquals(' ', sentinel);
+        assertTrue(Character.isWhitespace(sentinel));
+    }
+
+    @Test
+    public void charAtWithDefault_sentinelPatternExactGt() {
+        // buffer has 8 chars ending with '>'
+        final XMLString s = new XMLString("/script>");  // length 8
+        assertEquals('>', s.charAt(7, ' '));
+    }
+
+    @Test
+    public void charAtWithDefault_bufferFilledToRequestedLen() {
+        // EOF case: nextContent asked for 8, got only 4 — index 7 out of bounds
+        final XMLString s = new XMLString("/scr");      // length 4
+        assertEquals(' ', s.charAt(7, ' '));
+    }
 }

Original file line number	Diff line number	Diff line change
`@@ -209,7 +209,7 @@ class MyContentScanner extends HTMLScanner.ContentScanner {`
`209`	`209`	`@Override`
`210`	`210`	`protected int scanComment() throws IOException {`
`211`	`211`	`// bug was here: calling nextContent() at the end of the buffer/input`
`212`		`- fCurrentEntity.nextContent(30);`
	`212`	`+ fCurrentEntity.nextContent(null, 30);`
`213`	`213`	`return super.scanComment();`
`214`	`214`	`}`
`215`	`215`	`}`