Evaluating Gemini LLM in Food Image-Based Recipe and Nutrition Description with EfficientNet-B4 Visual Backbone

Anam, Rizal Khoirul

doi:10.5281/zenodo.17582044

Published February 18, 2025 | Version v1

Journal Open

Evaluating Gemini LLM in Food Image-Based Recipe and Nutrition Description with EfficientNet-B4 Visual Backbone

Anam, Rizal Khoirul (Researcher)¹

1. Nanjing University of Information Science and Technology

The proliferation of digital food applications necessitates robust methods for automated nutritional analysis and culinary guidance. This paper presents a comprehensive comparative evaluation of a decoupled, multimodal pipeline for food recognition. We evaluate a system integrating a specialized visual backbone (EfficientNet-B4) with a powerful generative large language model (Google's Gemini LLM). The core objective is to evaluate the trade-offs between visual classification accuracy, model efficiency, and the quality of generative output (nutritional data and recipes). We benchmark this pipeline against alternative vision backbones (VGG-16, ResNet-50, YOLOv8) and a lightweight LLM (Gemma). We introduce a formalization for "Semantic Error Propagation" (SEP) to analyze how classification inaccuracies from the visual module cascade into the generative output. Our analysis is grounded in a new Custom Chinese Food Dataset (CCFD) developed to address cultural bias in public datasets. Experimental results demonstrate that while EfficientNet-B4 (89.0\% Top-1 Acc.) provides the best balance of accuracy and efficiency, and Gemini (9.2/10 Factual Accuracy) provides superior generative quality, the system's overall utility is fundamentally bottlenecked by the visual front-end's perceptive accuracy. We conduct a detailed per-class analysis, identifying high semantic similarity as the most critical failure mode.

Files

Evaluating_Gemini_LLM_in_Food_Image_Based_Recipe_and_Nutrition_Description_with_EfficientNet_B4_Visual_Backbone-1.pdf

Files (1.4 MB)

Name	Size	Download all
Evaluating_Gemini_LLM_in_Food_Image_Based_Recipe_and_Nutrition_Description_with_EfficientNet_B4_Visual_Backbone-1.pdf md5:013c2a40f23b916fbce4c48c1495ee03	1.4 MB	Preview Download

	All versions	This version
Views	22	22
Downloads	13	13
Data volume	28.5 MB	28.5 MB

Evaluating Gemini LLM in Food Image-Based Recipe and Nutrition Description with EfficientNet-B4 Visual Backbone

Authors/Creators

Description

Files

Evaluating_Gemini_LLM_in_Food_Image_Based_Recipe_and_Nutrition_Description_with_EfficientNet_B4_Visual_Backbone-1.pdf

Files (1.4 MB)