『玩转Streamlit』–集成定时任务

学习了Streamlit了之后,可以尝试给自己的命令行小工具加一个简单的界面。

本篇总结了我改造自己的数据采集的工具时的一些经验。

1. 概要

与常规的程序相比,数据采集任务的特点很明显,比如它一般都是I/O密集型程序,涉及大量网络请求或文件读写,耗费的时间比较长;而且往往是按照一定的时间间隔周期性地执行。

这样的程序对交互性要求不高,所以我之前都是用命令行的方式来实现的。

命令行虽然完成采集的任务没有问题,但是采集程序多了之后,管理起来不太方便,

比如,需要查看某个采集程序的配置,或是查看采集程序的状态时,需要登录服务器的命令行页面去查看。

于是,自然就想到使用Streamlit来构造一个简单的界面,本来采集程序也是用Python编写的,

Streamlit集成非常方便。

下面主要使用Streamlit完成以下功能:

  1. 启动定时任务
  2. 停止定时任务
  3. 查看任务状态

2. 实现示例

数据集采集任务都是耗时比较长的,在命令行中无所谓,把定时任务放在一个无限循环中,

不断的去执行就行了。停止采集只要中断命令行(比如Ctrl+C)就行。

但是,在Streamlit中,不能被采集任务阻塞住页面,所以要用多线程或多进程的方式来启动。

因为不同的采集程序是独立的,所以下面的示例采用多进程的方式。

同时,通过Streamlitsession_state来存储采集程序的状态,从而实现控制采集程序启停的功能。

大致的结构如下:

『玩转Streamlit』--集成定时任务

具体代码如下,其中的采集程序是模拟的,主要是为了展示如何通过Streamlit App来控制其他任务的执行。

```python
import streamlit as st
import pandas as pd
import multiprocessing
import time

if "status01" not in st.session_state:
    st.session_state.status01 = False

if "status02" not in st.session_state:
    st.session_state.status02 = False


def spider01():
    """模拟数据采集01"""
    while True:
        print("数据采集01...")
        time.sleep(3)


def spider02():
    """模拟数据采集02"""
    while True:
        print("数据采集02...")
        time.sleep(3)


st.title("采集管理")

spider_data = pd.DataFrame(
    {
        "ID": [1, 2],
        "名称": ["采集01", "采集02"],
        "状态": [False, False],
    }
)

spiders = st.data_editor(
    spider_data,
    width=500,
    num_rows="dynamic",
    disabled=["ID", "名称"],
)

status01 = spiders.iloc[0, 2]
status02 = spiders.iloc[1, 2]

if status01 != st.session_state.status01:
    if status01:  # 启动
        print("启动采集01")
        spider01_proc = multiprocessing.Process(target=spider01)
        spider01_proc.daemon = True
        spider01_proc.start()
        st.session_state.proc01 = spider01_proc
    else:
        print("停止采集01")
        st.session_state.proc01.terminate()
        st.session_state.proc01.join()

    st.session_state.status01 = status01

if status02 != st.session_state.status02:
    if status02:  # 启动
        print("启动采集02")
        spider02_proc = multiprocessing.Process(target=spider02)
        spider02_proc.daemon = True
        spider02_proc.start()
        st.session_state.proc02 = spider02_proc
    else:
        print("停止采集02")
        st.session_state.proc02.terminate()
        st.session_state.proc02.join()

    st.session_state.status02 = status02
```

『玩转Streamlit』--集成定时任务

通过勾选状态 列的Checkbox来控制采集程序的启停,运行的日志如下:

```python
$  streamlit run .app.py

  You can now view your Streamlit app in your browser.

  Local URL: http://localhost:8501
  Network URL: http://192.168.0.6:8501

启动采集01
数据采集01...
数据采集01...
启动采集02
数据采集01...
数据采集02...
数据采集01...
数据采集02...
数据采集01...
数据采集02...
停止采集02
数据采集01...
停止采集01
```

3. 总结

通过Streamlit,可以快速的提供一个简单易用的数据采集控制界面。

上面使用sesstion来管理状态其实不太合理(重新打开浏览器session会丢失),使用sqlite之类的持久存储来保存更好。

文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/6016.html

(0)
LomuLomu
上一篇 2025 年 1 月 12 日 下午1:18
下一篇 2025 年 1 月 12 日 下午2:18

相关推荐

  • Java核心设计模式解析与典型应用场景剖析

    Java设计模式深度解析与实践应用 在构建高质量软件系统时,设计模式作为经验结晶能够有效解决特定场景下的架构难题。合理运用这些模式可以显著提升代码质量,增强系统的灵活性和可维护性。以下将深入分析几种典型的Java设计模式,并配以实例代码说明其应用场景。 1. 单实例模式(Singleton) 核心概念:保证类在程序运行期间仅有一个实例存在,并提供统一的访问入…

    未分类 2025 年 5 月 13 日
    28800
  • 探秘荣昌卤鹅美食地图:基于Java与天地图的地理信息实践

    目录导航背景介绍1、网红效应带动地方美食热潮2、荣昌卤鹅产业布局解析3、技术赋能美食探索一、地理信息检索基础1、检索功能概述2、API接口详解二、实战荣昌卤鹅定位1、数据采集方案2、API请求实现3、参数配置技巧4、数据存储方案三、实践总结 背景介绍 1、网红效应带动地方美食热潮 近期,重庆荣昌卤鹅因一起跨文化交流事件意外走红。当地助农主播林某通过创意营销,…

    2025 年 5 月 13 日
    27400
  • 网站动静加速架构 dcdn+ga 全站加速和全球加速api

    # 背景概述 我们的公司专注于在香港提供服务,但面对的挑战是,我们的客户群体主要分布在中国内地。因此,国内用户访问香港服务时,不可避免地会遇到速度慢的问题。由于我们公司主要从事NFT业务,因此选择在香港提供服务是有其特定原因的。 # 加速策略 ## 1.1 静态内容加速 静态内容加速指的是对静态文件,如HTML、JavaScript、CSS、图片等资源的快速…

    未分类 2024 年 12 月 26 日
    41500
  • 思维导图xmind如何安装?附安装包

    前言 大家好,我是小徐啊。我们在Java开发中,有时候是需要用到思维导图的,这可以帮助我们更好的理清思路,提高开发的效率。而说到思维导图,最有名的就是xmind了,它的功能十分强大,几乎是思维导图里面最强大的那一个。但是,默认只能使用初级功能,高级功能需要额外再开通,今天小徐就来介绍下如何安装xmind以及升级,让我们可以使用pro的功能。文末附获取方式。 …

    2025 年 1 月 10 日
    40400
  • 新版 Cursor 把其他 AI 编程工具按在地上摩擦了!

    大家好,我是汤师爷~ AI编程助手Cursor背后的Anysphere公司刚刚完成了1亿美元的B轮融资,估值直接飙升至26亿美元。 四个月前,这家公司刚拿下6000万美元,估值还只有4亿美元。如今,增长6.5倍,这速度,简直让人怀疑开挂了。 Anysphere不仅融资拿到手软,收入增长更是逆天。 公司从4月的年收入400万美元,短短六个月后,10月的月收入竟…

    2025 年 1 月 10 日
    56600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信