Это уже чрезмерный оптимизм. Если файлы отличаются на 3 гига, то дифф будет не меньше этих 3 гиг. А скорее все 10, при условии идентичности форматирования и сохранения порядка. В данном случае более вероятно около 300 гиг :slight_smile:

Заочно можно очень долго гадать.
Идентичные по сути xml могут отличаться форматированием кардинально.
Вот только несколько моментов:
Незначащие пробелы и переводы кареток:


<tag1><tag2></tag2></tag1>

идентично


   <tag1>
         <tag2>
         </tag2>
   </tag1>

Более того - это же идентично

<tag1><tag2/></tag1>

Можно использовать разные кодировки, можно использовать коды символов (“&32;” вместо простого пробела).
Ну и так далее…

Как вариант, стоит запостить по десятку первых строчек от исходного и получившегося файлов, тогда можно будет оценить хотя бы разницу в форматировании.

P.S. Даже разница в концах строк (2 символа под DOS/Windows и 1 под UNIX/Mac) даст больше, чем замеченные два процента, если средняя длина строки меньше 50 символов.