油气大模型破局需从三方面发力

来源：科技日报

时间：2024-10-21 17:00:13

热度：

在人工智能技术日新月异的今天，生成式人工智能的代表——ChatGPT的横空出世，不仅在短时间内吸引了全世界关注的目光，更激发了各行业对大型预训练模型的无限遐想。油气行业作为国民经济的支柱之一，同样期待它能为油气勘探、

在人工智能技术日新月异的今天，生成式人工智能的代表——ChatGPT的横空出世，不仅在短时间内吸引了全世界关注的目光，更激发了各行业对大型预训练模型的无限遐想。油气行业作为国民经济的支柱之一，同样期待它能为油气勘探、开发带来新变革。尤其是随着国内油气资源品质逐步劣质化，油气勘探开发难度逐渐加大，亟须运用新技术提质增效。

油气大模型应用面临挑战

数据、算力和算法是大模型发展的核心要素。其中，数据是大模型应用的基石，算力是大模型应用的保障，算法是大模型应用的工具。由于油气行业具有特殊性，在上述三个层面，油气大模型开发都面临着诸多挑战。

在数据方面，油气大模型应用面临数据稀缺、复杂和安全性的挑战。一是油气行业的数据涵盖了地质勘探、钻井、生产和运输等多个环节，每个环节的数据采集都伴随高昂的成本，样本数量少且获取非常困难，采集回的数据还具有多解性和不可验证性的特点。二是油气行业的数据类型非常多样化，处理这些不同种类、不同版本、不同结构的数据本身就充满挑战。三是大模型需要学习海量数据，但油气行业对数据的安全性和保密性有着极高的要求，数据不能上传公有云，且必须防止泄露，因此普遍存在“数据孤岛”问题。这一现状使得如何在保障数据安全前提下，整合分散的数据并训练行业基础模型，成为油气行业大模型应用的关键难题。

在算力方面，油气大模型的训练和优化也面临着算力资源不足的挑战。大模型的训练和优化通常需要巨大的算力资源，这往往伴随着相当高的投入成本。自建算力中心需要巨额资金投入，而租赁算力又存在数据安全和隐私保护的问题。目前，国内油气行业仅具备有限的微调算力，普遍不具备训练行业基础模型所需的高水平算力。此外，由于各种原因，国内油气行业在短期内很难建立起满足大模型需求的算力资源。这一问题进一步加剧了算力资源的短缺，使得大模型的应用和发展受到严重制约。

在算法方面，油气大模型也面临版权纠纷等挑战。算法的优劣直接影响大模型的实际应用效果。相较于传统深度学习等算法，大模型的技术门槛更高，目前的发展主要依赖少数高端算法人才推动。尽管许多开源大模型算法可以作为研发基础，但它们可能缺乏必要的技术支持和安全保障，存在商业机密泄露的风险，且其能力往往不如闭源算法。此外，开源算法的版权协议中存在诸多限制条款，使得基于开源算法进行研发时可能面临版权纠纷。如果选择使用闭源算法，则难以实现核心算法的自主可控。

从数据、算力和算法入手推动大模型应用

油气大模型应用并非坦途，需要在数据、算力和算法等方面破局。

首先，数据之困需破冰。面对数据采集高成本与复杂性并存的挑战，破解数据之困，要以大模型应用为契机，推动数据治理，确保数据的全面性、准确性和时效性。油气行业在大模型方面的核心竞争力是“行业数据”，要做好“训练样本库”的基本功。油气企业必须强化数据全生命周期管理，从数据源头、数据采集、数据清洗、数据融合和匹配、数据完整性增强、数据标注等环节严格规范，建立高质量的训练样本库，提升数据治理能力，为模型提供坚实的数据基础。同时，应通过数据脱敏、数据加密、访问控制和审计、合规性审查等方式加强数据安全和隐私性保护。如设置合适的权限和用户角色，限制用户对数据库的访问和操作，保护数据的安全性。还需进行数据库的维护和优化工作，包括定期备份、数据清理、性能监控等。在此前提下，构建一批高质量开源数据集，推动油气大模型研发生态建设。

其次，算力建设应灵活。面对资金投入与隐私保护之间平衡的挑战，破解算力之困，应以油气大模型为契机，推动融合算力建设。可采取租赁与自建相结合的方式，注重智算能力建设的同时，加强数据安全与隐私保护。例如，企业应根据自身业务需求、成本预算和技术实力，灵活选择算力获取方式。对于常规的计算任务，可通过租赁公有云资源快速响应；而对于涉及敏感数据或需长期稳定运行的任务，则可考虑自建或合作共建数据中心，确保数据安全与算力的可持续供给。在算力设施规划上，应注重长远，实现通用计算、智能计算和高性能计算的融合布局，通用计算满足日常运营的基本计算需求，智能计算侧重于深度学习、机器学习等智能算法的高效执行，高性能计算则针对大规模科学计算和复杂模拟，满足不同场景的需求，显著提高算力资源的利用效率。

此外，算法创新勿盲从。面对大模型训练周期长与迭代速度快的双重考验，破解算法之困，应量身定做适合行业特性的算法模型，避免盲目跟风。应理性认识大模型的价值，优先实施场景模型和数据质量优良的L2行业基础模型，重点应放在微调和适配下游任务上，避免盲目投入通用基础模型的研发，确保技术栈的自主可控。油气行业应秉持资源优化配置的原则，聚焦油气主营业务，从投入成本、产出效益、技术成熟度，以及稳定性、行业聚焦、核心竞争力等方面慎重考虑。在岩心分析、地震资料处理解释、测井数据分析等特定领域，大模型能发挥显著作用，但不可过度依赖，应明确模型的适用范围。

为了推动大模型技术的自主可控，还需加强“AI+能源”复合团队的建设。训练、应用大模型不能闭门造车，要打破传统行业壁垒，注重联合研发生态的建设，例如推动油气行业与互联网企业、高校等的合作，促进跨学科人才整合，形成产学研用紧密结合的创新体系，为油气大模型应用构建可持续的人才保障。同时，可通过项目合作、人才培养、共建研发平台等方式加强大模型算法等方面的合作交流，并明确合作目标与分工，以及知识产权分配与管理、数据保密和隐私保护等制度和规范。

大模型必将推动油气行业新质生产力发展，未来可期，但道阻且长。油气行业要充分认识油气大模型的特殊性，从数据、算力、算法等方面做好工作，稳扎稳打，逐步推进，让AI成为推动油气行业转型升级的重要驱动力。

（作者系中国工程院院士、中国石油勘探开发研究院正高级工程师）