Это уже чрезмерный оптимизм. Если файлы отличаются на 3 гига, то дифф будет не меньше этих 3 гиг. А скорее все 10, при условии идентичности форматирования и сохранения порядка. В данном случае более вероятно около 300 гиг
Заочно можно очень долго гадать.
Идентичные по сути xml могут отличаться форматированием кардинально.
Вот только несколько моментов:
Незначащие пробелы и переводы кареток:
<tag1><tag2></tag2></tag1>
идентично
<tag1>
<tag2>
</tag2>
</tag1>
Более того - это же идентично
<tag1><tag2/></tag1>
Можно использовать разные кодировки, можно использовать коды символов (“&32;” вместо простого пробела).
Ну и так далее…
Как вариант, стоит запостить по десятку первых строчек от исходного и получившегося файлов, тогда можно будет оценить хотя бы разницу в форматировании.
P.S. Даже разница в концах строк (2 символа под DOS/Windows и 1 под UNIX/Mac) даст больше, чем замеченные два процента, если средняя длина строки меньше 50 символов.
подскажите, чем диффнуть два 160 гб файла? первый несколько десятков миллионов строк совпали до символа, дальше meld выжрал всю оперативку и начал дико тормозить систему, пришлось прибить.