Это уже чрезмерный оптимизм. Если файлы отличаются на 3 гига, то дифф будет не меньше этих 3 гиг. А скорее все 10, при условии идентичности форматирования и сохранения порядка. В данном случае более вероятно около 300 гиг 
Заочно можно очень долго гадать.
Идентичные по сути xml могут отличаться форматированием кардинально.
Вот только несколько моментов:
Незначащие пробелы и переводы кареток:
<tag1><tag2></tag2></tag1>
идентично
<tag1>
<tag2>
</tag2>
</tag1>
Более того - это же идентично
<tag1><tag2/></tag1>
Можно использовать разные кодировки, можно использовать коды символов (“&32;” вместо простого пробела).
Ну и так далее…
Как вариант, стоит запостить по десятку первых строчек от исходного и получившегося файлов, тогда можно будет оценить хотя бы разницу в форматировании.
P.S. Даже разница в концах строк (2 символа под DOS/Windows и 1 под UNIX/Mac) даст больше, чем замеченные два процента, если средняя длина строки меньше 50 символов.