[spark] support map type by YannByron · Pull Request #2740 · apache/fluss

YannByron · 2026-02-27T07:52:16Z

Purpose

Linked issue: close #2673

Brief change log

Tests

API and Format

Documentation

YannByron · 2026-04-07T09:00:57Z

@wuchong @Yohahaha please take a look.

Yohahaha · 2026-04-08T02:02:18Z

fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/DataConverter.scala

  def toSparkMap(flussMap: FlussInternalMap, mapType: FlussMapType): SparkMapData = {
-    // TODO: support map type in fluss-spark
-    throw new UnsupportedOperationException()
+    new FlussAsSparkMap(mapType).replace(flussMap)


do we need to call InternalRowUtils.copyMap ?

No. What is needed here is an implementation of SparkMapData.

wuchong · 2026-04-08T11:25:35Z

cc @beryllw could you help to review this?

Copilot

Pull request overview

Note

Copilot was unable to run its full agentic suite in this review.

Adds Spark ↔ Fluss support for MAP types and updates tests to validate map read/write behavior (closes #2673).

Changes:

Implement map wrappers/converters: SparkAsFlussMap, FlussAsSparkMap, and enable getMap in row/array wrappers.
Extend Spark test schemas and end-to-end read/write tests to include map columns.
Add/unit-update tests covering map handling in rows, arrays, and the converter layer.

Reviewed changes

Copilot reviewed 18 out of 18 changed files in this pull request and generated 9 comments.

Show a summary per file

File	Description
fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/SparkAsFlussRow.scala	Implements `getMap` for Spark→Fluss row wrapper
fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/SparkAsFlussMap.scala	New Spark→Fluss map wrapper
fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/SparkAsFlussArray.scala	Enables map elements inside arrays (Spark→Fluss)
fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/FlussAsSparkRow.scala	Implements `getMap` for Fluss→Spark row wrapper
fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/FlussAsSparkMap.scala	New Fluss→Spark map wrapper
fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/DataConverter.scala	Implements `toSparkMap`
fluss-common/src/main/java/org/apache/fluss/utils/InternalRowUtils.java	Exposes `copyMap` for reuse by Spark adapter
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/util/TestUtils.scala	Adds a map field to the shared test schema
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/SparkAsFlussRowTest.scala	Extends row test with map assertions
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/SparkAsFlussArrayTest.scala	Adds array-of-map test coverage
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/SparkAsFlussMapTest.scala	New unit/integration tests for Spark→Fluss map wrapper
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/FlussAsSparkRowTest.scala	Updates row tests to validate `getMap`
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/FlussAsSparkArrayTest.scala	Updates array tests to validate `getMap`
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/FlussAsSparkMapTest.scala	New unit/integration tests for Fluss→Spark map wrapper
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/DataConverterTest.scala	Adds `toSparkMap` test, removes “unsupported” test
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/SparkWriteTest.scala	Adds map literal to write test and asserts map contents
fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/SparkLogTableReadTest.scala	Adds map column to nested-types read test

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/FlussAsSparkMapTest.scala

fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/DataConverterTest.scala

fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/SparkAsFlussMapTest.scala

fluss-spark/fluss-spark-ut/src/test/scala/org/apache/fluss/spark/row/SparkAsFlussRowTest.scala

fluss-common/src/main/java/org/apache/fluss/utils/InternalRowUtils.java

YannByron · 2026-04-09T13:26:44Z

The failed CI is caused by a flaky UT that is fixed in #3045.

beryllw · 2026-04-10T10:09:04Z

fluss-spark/fluss-spark-common/src/main/scala/org/apache/fluss/spark/row/DataConverter.scala

  def toSparkArray(flussArray: FlussInternalArray, arrayType: FlussArrayType): SparkArrayData = {
    val elementType = arrayType.getElementType
    new FlussAsSparkArray(elementType)
      .replace(InternalRowUtils.copyArray(flussArray, elementType))


fluss/fluss-client/src/main/java/org/apache/fluss/client/table/scanner/log/CompletedFetch.java

Lines 95 to 106 in bb0e12b

// TODO: optimize this to avoid deep copying the record.

// refactor #fetchRecords to return an iterator which lazily deserialize

// from underlying record stream and arrow buffer.

ScanRecord toScanRecord(LogRecord record) {

GenericRow newRow = new GenericRow(selectedFieldGetters.length);

InternalRow internalRow = record.getRow();

for (int i = 0; i < selectedFieldGetters.length; i++) {

newRow.setField(i, selectedFieldGetters[i].getFieldOrNull(internalRow));

}

return new ScanRecord(

record.logOffset(), record.timestamp(), record.getChangeType(), newRow);

}

fluss/fluss-common/src/main/java/org/apache/fluss/row/InternalArray.java

Lines 178 to 190 in b306ed0

case ARRAY:

DataType nestedType = ((ArrayType) fieldType).getElementType();

ElementGetter nestedGetter = createDeepElementGetter(nestedType);

elementGetter =

(array, pos) -> {

InternalArray inner = array.getArray(pos);

Object[] objs = new Object[inner.size()];

for (int i = 0; i < inner.size(); i++) {

objs[i] = nestedGetter.getElementOrNull(inner, i);

}

return new GenericArray(objs);

};

break;

May be we don't need to call InternalRowUtils.copyArray?

[spark] to support map type

1961b3f

YannByron changed the title ~~[spark] to support map type~~ [spark] support map type Feb 27, 2026

Yohahaha reviewed Apr 8, 2026

View reviewed changes

wuchong requested a review from Copilot April 8, 2026 11:24

Copilot AI reviewed Apr 8, 2026

View reviewed changes

Copilot started reviewing on behalf of wuchong April 8, 2026 11:33 View session

[update] fix comments

8456121

beryllw reviewed Apr 10, 2026

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[spark] support map type#2740

[spark] support map type#2740
YannByron wants to merge 2 commits intoapache:mainfrom
YannByron:main-spark-mapType

YannByron commented Feb 27, 2026

Uh oh!

YannByron commented Apr 7, 2026

Uh oh!

Yohahaha Apr 8, 2026

Uh oh!

YannByron Apr 8, 2026

Uh oh!

wuchong commented Apr 8, 2026

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

YannByron commented Apr 9, 2026

Uh oh!

beryllw Apr 10, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

	// TODO: optimize this to avoid deep copying the record.
	// refactor #fetchRecords to return an iterator which lazily deserialize
	// from underlying record stream and arrow buffer.
	ScanRecord toScanRecord(LogRecord record) {
	GenericRow newRow = new GenericRow(selectedFieldGetters.length);
	InternalRow internalRow = record.getRow();
	for (int i = 0; i < selectedFieldGetters.length; i++) {
	newRow.setField(i, selectedFieldGetters[i].getFieldOrNull(internalRow));
	}
	return new ScanRecord(
	record.logOffset(), record.timestamp(), record.getChangeType(), newRow);
	}

	case ARRAY:
	DataType nestedType = ((ArrayType) fieldType).getElementType();
	ElementGetter nestedGetter = createDeepElementGetter(nestedType);
	elementGetter =
	(array, pos) -> {
	InternalArray inner = array.getArray(pos);
	Object[] objs = new Object[inner.size()];
	for (int i = 0; i < inner.size(); i++) {
	objs[i] = nestedGetter.getElementOrNull(inner, i);
	}
	return new GenericArray(objs);
	};
	break;

Conversation

YannByron commented Feb 27, 2026

Purpose

Brief change log

Tests

API and Format

Documentation

Uh oh!

YannByron commented Apr 7, 2026

Uh oh!

Yohahaha Apr 8, 2026

Choose a reason for hiding this comment

Uh oh!

YannByron Apr 8, 2026

Choose a reason for hiding this comment

Uh oh!

wuchong commented Apr 8, 2026

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

YannByron commented Apr 9, 2026

Uh oh!

beryllw Apr 10, 2026

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants