def read_network_docx(file_url):
"""
从指定的 URL 读取 .docx 文件内容并返回文本。
:param file_url: .docx 文件的 URL 地址
:return: 文件内容的字符串形式,如果请求失败则返回 None
"""
if not file_url:
return return_dict(400, "file_url参数不能为空")
try:
# 发送 HTTP GET 请求到指定的 URL
response = requests.get(file_url)
# 检查请求是否成功(状态码 200 表示成功)
response.raise_for_status()
# 获取 Content-Type 字段
content_type = response.headers.get("Content-Type", "").lower()
# 判断 Content-Type 是否是 Word 文档的 MIME 类型
if "application/vnd.openxmlformats-officedocument.wordprocessingml.document" in content_type or "application/msword" in content_type:
# 将响应内容(字节数据)加载到 BytesIO 对象中
file_stream = BytesIO(response.content)
# 使用 python-docx 读取 .docx 文件
doc = Document(file_stream)
# 提取文件中的文本内容
text = "\n".join([paragraph.text for paragraph in doc.paragraphs])
return return_dict(200, "读取成功", {"text": text})
else:
return return_dict(400, "file_url类型错误")
except requests.exceptions.RequestException as e:
return return_dict(400, f"报错信息:{e}")
except Exception as e:
return return_dict(400, f"报错信息:{e}")
从指定的 URL 读取 .docx 文件内容并返回文本
相关推荐
-
生成图片
from PIL import Image, ImageColor, ImageDraw, ImageFont, ImageFilterdef create_image_with_text(size, color, text, font_path, font_size, text_color, shadow_color, output_path): """ Create a new image of specified size and color with centered text that has a border and shadow. :param size: A tuple con
-
获取指定目录下的所有图片信息
1 获取指定目录下的所有图片信息// 获取指定目录下的所有图片信息 public function getImagesInfo($directory) { $images = []; // 创建递归目录迭代器 $iterator = new \RecursiveIteratorIterator( new \RecursiveDirectoryIterator($directory, \RecursiveDirectoryIterator::SKIP_DOTS), \RecursiveIteratorIterator::LEAVES_ONLY ); // 遍历目录中的每个文件 foreach (
-
Thinkphp各版本的PHP要求
ThinkPHP 8.0:运行环境要求PHP8.0+,兼容PHP8.3ThinkPHP 6.1:运行环境要求PHP7.2+,兼容PHP8.1ThinkPHP 6.0:运行环境要求PHP7.2+,兼容PHP8.1ThinkPHP 5.1:运行环境要求PHP5.6+,兼容PHP8.0ThinkPHP 5.0:运行环境要求PHP5.4+,兼容PHP7.3