Spaces:

mikeee
/

litbee

Build error

App Files Files Community

freemt commited on Jun 4, 2022

Commit

1319de8

1 Parent(s): f11db08

Bump version from 0.1.2-alpha.2 to 0.1.2-alpha.3, styled df, dl links

Browse files

Files changed (15) hide show

app.py +1 -0
litbee/__init__.py +1 -1
litbee/app.py +11 -11
litbee/color_map.py +49 -0
litbee/fetch_paste.py +3 -1
litbee/fetch_upload.py +1 -1
litbee/fetch_urls.py +9 -6
litbee/files2df.py +3 -1
litbee/home.py +61 -9
litbee/pad.txt +0 -21
litbee/settings.py +1 -1
litbee/t2s.py +5 -2
litbee/utils.py +44 -0
pyproject.toml +4 -1
pyrightconfig.json +2 -1

app.py CHANGED Viewed

@@ -195,4 +195,5 @@ def main():
     state.ns.count += 1
     state.ns.updated = False
 main()

     state.ns.count += 1
     state.ns.updated = False
 main()

litbee/__init__.py CHANGED Viewed

@@ -1,5 +1,5 @@
 """Init."""
-__version__ = "0.1.2a1"
 from .litbee import litbee
 __all__ = ("litbee",)

 """Init."""
+__version__ = "0.1.2a3"
 from .litbee import litbee
 __all__ = ("litbee",)

litbee/app.py CHANGED Viewed

@@ -55,13 +55,12 @@ from pathlib import Path
 from types import SimpleNamespace
 from typing import Optional
 import loguru
 import logzero
 import pandas as pd
-import ezbee
-import dzbee
-import debee
 import streamlit as st
 from loguru import logger as loggu
 from logzero import logger
@@ -69,25 +68,25 @@ from set_loglevel import set_loglevel
 from streamlit import session_state as state
 from litbee import __version__
-# from litbee.options import options
 # from litbee.files2df import files2df
 # from litbee.utils import sb_front_cover, instructions, menu_items
 # from litbee.ezbee_page import ezbee_page
 # from litbee.dzbee_page import dzbee_page
 # from litbee.xbee_page import xbee_page
-from litbee.utils import menu_items
-from litbee.multipage import Multipage
 # from litbee.fetch_upload import fetch_upload
 # from litbee.fetch_paste import fetch_paste
 # from litbee.fetch_urls import fetch_urls
-from litbee.home import home
-from litbee.settings import settings
-from litbee.info import info
-from litbee.utils import style_css
 # from ezbee import ezbee
@@ -195,4 +194,5 @@ def main():
     state.ns.count += 1
     state.ns.updated = False
 main()

 from types import SimpleNamespace
 from typing import Optional
+import debee
+import dzbee
+import ezbee
 import loguru
 import logzero
 import pandas as pd
 import streamlit as st
 from loguru import logger as loggu
 from logzero import logger
 from streamlit import session_state as state
 from litbee import __version__
+from litbee.home import home
+from litbee.info import info
+from litbee.multipage import Multipage
+from litbee.settings import settings
 # from litbee.files2df import files2df
 # from litbee.utils import sb_front_cover, instructions, menu_items
 # from litbee.ezbee_page import ezbee_page
 # from litbee.dzbee_page import dzbee_page
 # from litbee.xbee_page import xbee_page
+from litbee.utils import menu_items, style_css
+# from litbee.options import options
 # from litbee.fetch_upload import fetch_upload
 # from litbee.fetch_paste import fetch_paste
 # from litbee.fetch_urls import fetch_urls
 # from ezbee import ezbee
     state.ns.count += 1
     state.ns.updated = False
 main()

litbee/color_map.py ADDED Viewed

	@@ -0,0 +1,49 @@

+"""Map cell background color for pandas.DataFrame.
+palette = sns.blend_palette(
+    # ["pink", "palegreen", 'green'], N_COLORS).as_hex()
+    # ["pink", "palegreen"], N_COLORS).as_hex()
+    ["red", "palegreen"], N_COLORS).as_hex()
+Refer to color_table_applymap.py
+Taken from vizbee color_map
+"""
+# pylint: disable=invalid-name, broad-except
+palette = [
+    # "#f00000",
+    # "#f02315",
+    "#e2482c",
+    "#d36b41",
+    "#c49057",
+    "#b5b36c",
+    "#a7d883",
+    "#98fb98",
+]
+ncolors = len(palette)
+def color_map(v, min_: float = 0, max_: float = 1):
+    """Map cell background color.
+    e.g. s_df = df.style.applymap(color_map, min_=min_, max_=max_, subset=["B"])
+    or s_df = df.style.applymap(color_map, subset=['likelihood'])
+    or
+    s_df = df.style.applymap(color_map, subset=[2,])
+    or
+    s_df = df.style.applymap(color_map, subset=[df.columns[2])
+    or
+    s_df = df.style.applymap(color_map, subset=[*df.columns[1:3]] + [*df.columns[0:1]])
+    """
+    wd = (max_ - min_) / ncolors
+    try:
+        v = float(v)  # !!!
+        pal = palette[min(ncolors - 1, int((v - min_) / wd))]
+    except Exception:  # as e:  # wont style str etc.
+        # logger.debug("%s", e)
+        # return None
+        return "wrap_text: true"
+    return f"background-color: {pal}"

litbee/fetch_paste.py CHANGED Viewed

@@ -40,5 +40,7 @@ def fetch_paste():
     logger.debug("len(list1): %s, len(list2): %s", len(list1), len(list2))
-    state.ns.updated = True
     logger.debug("state.ns.updated: %s", state.ns.updated)

     logger.debug("len(list1): %s, len(list2): %s", len(list1), len(list2))
     logger.debug("state.ns.updated: %s", state.ns.updated)
+    state.ns.src_filename = ""
+    state.ns.updated = True

litbee/fetch_upload.py CHANGED Viewed

@@ -1,6 +1,6 @@
 """Fetch upload and convert to list1/list2."""
-from logzero import logger
 import streamlit as st
 from streamlit import session_state as state

 """Fetch upload and convert to list1/list2."""
 import streamlit as st
+from logzero import logger
 from streamlit import session_state as state

litbee/fetch_urls.py CHANGED Viewed

@@ -4,6 +4,7 @@ import streamlit as st
 from icecream import ic
 from logzero import logger
 from streamlit import session_state as state
 from litbee.url2txt import url2txt
 ic.configureOutput(
@@ -18,8 +19,12 @@ def fetch_urls():
     sourcecount = state.ns.sourcecount
     value = ""
     if beetype == "ezbee":
-        url1 = "https://raw.githubusercontent.com/ffreemt/en-de-zh-txt/master/test_en.txt"
-        url2 = "https://raw.githubusercontent.com/ffreemt/en-de-zh-txt/master/test_zh.txt"
         value = f"{url1} {url2}"
     if beetype == "dzbee":
         url1 = "https://raw.githubusercontent.com/ffreemt/en-de-zh-txt/master/sternstunden04-de.txt"
@@ -144,10 +149,7 @@ def fetch_urls():
                         value=text2,
                     )
-            submitted = st.form_submit_button(
-                "Submit",
-                on_click=text2lists
-            )
     else:  # 1-mix
         with st.form(key="fetched_1_text_in_form"):
@@ -167,4 +169,5 @@ def fetch_urls():
         return
     # """
     state.ns.updated = True

 from icecream import ic
 from logzero import logger
 from streamlit import session_state as state
 from litbee.url2txt import url2txt
 ic.configureOutput(
     sourcecount = state.ns.sourcecount
     value = ""
     if beetype == "ezbee":
+        url1 = (
+            "https://raw.githubusercontent.com/ffreemt/en-de-zh-txt/master/test_en.txt"
+        )
+        url2 = (
+            "https://raw.githubusercontent.com/ffreemt/en-de-zh-txt/master/test_zh.txt"
+        )
         value = f"{url1} {url2}"
     if beetype == "dzbee":
         url1 = "https://raw.githubusercontent.com/ffreemt/en-de-zh-txt/master/sternstunden04-de.txt"
                         value=text2,
                     )
+            submitted = st.form_submit_button("Submit", on_click=text2lists)
     else:  # 1-mix
         with st.form(key="fetched_1_text_in_form"):
         return
     # """
+    state.ns.src_filename = ""
     state.ns.updated = True

litbee/files2df.py CHANGED Viewed

@@ -14,7 +14,9 @@ def files2df(file1, file2):
     text1 = [_.strip() for _ in process_upload(file1).splitlines() if _.strip()]
     # if file2 is tempfile._TemporaryFileWrapper:
-    if isinstance(file2, tempfile._TemporaryFileWrapper):  # pylint: disable=protected-access
         try:
             filename = file2.name
         except AttributeError:

     text1 = [_.strip() for _ in process_upload(file1).splitlines() if _.strip()]
     # if file2 is tempfile._TemporaryFileWrapper:
+    if isinstance(
+        file2, tempfile._TemporaryFileWrapper
+    ):  # pylint: disable=protected-access
         try:
             filename = file2.name
         except AttributeError:

litbee/home.py CHANGED Viewed

@@ -4,18 +4,20 @@ org ezbee_page.py.
 """
 # pylint: disable=invalid-name
 # pylint: disable=too-many-locals, too-many-return-statements, too-many-branches, too-many-statements
 import inspect
 # pylint: disable=invalid-name
 from functools import partial
 from itertools import zip_longest
-from about_time import about_time
 import hanzidentifier
 import logzero
 import numpy as np
 import pandas as pd
 import streamlit as st
 # from ezbee.gen_pairs import gen_pairs  # aset2pairs?
 from aset2pairs import aset2pairs
@@ -32,8 +34,9 @@ from st_aggrid import AgGrid, GridOptionsBuilder, GridUpdateMode
 # from st_aggrid.grid_options_builder import GridOptionsBuilder
 from streamlit import session_state as state
-from litbee.fetch_upload import fetch_upload
 from litbee.fetch_paste import fetch_paste
 from litbee.fetch_urls import fetch_urls
 from litbee.t2s import t2s
@@ -156,7 +159,9 @@ def home():  # noqa
                         # min_samples=min_samples,
                     )
                 except Exception as e:
-                    logger.exception("aset = globals()[state.ns.beetype](...) exc: %s", e)
                     aset = ""
                     st.write("Collecting inputs...")
                     logger.debug("Collecting inputs...")
@@ -197,12 +202,12 @@ def home():  # noqa
         aligned_pairs, columns=["text1", "text2", "llh"], dtype="object"
     )
-    # if set_loglevel() <= 10:
-    _ = st.expander("done aligned")
-    with _:
-        st.table(df_a.astype(str))
-        # st.markdown(df_a.astype(str).to_markdown())
-        # st.markdown(df_a.astype(str).to_numpy().tolist())
     # insert seq no
     df_a.insert(0, "sn", range(len(df_a)))
@@ -234,6 +239,53 @@ def home():  # noqa
             update_mode=GridUpdateMode.MODEL_CHANGED,
         )
     # reset
     state.ns.updated = False

 """
 # pylint: disable=invalid-name
 # pylint: disable=too-many-locals, too-many-return-statements, too-many-branches, too-many-statements
+import base64
 import inspect
+import io
 # pylint: disable=invalid-name
 from functools import partial
 from itertools import zip_longest
 import hanzidentifier
 import logzero
 import numpy as np
 import pandas as pd
 import streamlit as st
+from about_time import about_time
 # from ezbee.gen_pairs import gen_pairs  # aset2pairs?
 from aset2pairs import aset2pairs
 # from st_aggrid.grid_options_builder import GridOptionsBuilder
 from streamlit import session_state as state
+from litbee.color_map import color_map
 from litbee.fetch_paste import fetch_paste
+from litbee.fetch_upload import fetch_upload
 from litbee.fetch_urls import fetch_urls
 from litbee.t2s import t2s
                         # min_samples=min_samples,
                     )
                 except Exception as e:
+                    logger.exception(
+                        "aset = globals()[state.ns.beetype](...) exc: %s", e
+                    )
                     aset = ""
                     st.write("Collecting inputs...")
                     logger.debug("Collecting inputs...")
         aligned_pairs, columns=["text1", "text2", "llh"], dtype="object"
     )
+    if set_loglevel() <= 10:
+        _ = st.expander("done aligned")
+        with _:
+            st.table(df_a.astype(str))
+            # st.markdown(df_a.astype(str).to_markdown())
+            # st.markdown(df_a.astype(str).to_numpy().tolist())
     # insert seq no
     df_a.insert(0, "sn", range(len(df_a)))
             update_mode=GridUpdateMode.MODEL_CHANGED,
         )
+    # ### prep download
+    # taken from vizbee cb_save_xlsx
+    # subset = list(df_a.columns[2:3])  # 3rd col
+    subset = list(df_a.columns[2:])  # 3rd col
+    # pop("sn"): remove sn column
+    df_a.pop("sn")
+    s_df = df_a.astype(str).style.applymap(color_map, subset=subset)
+    if set_loglevel() <= 10:
+        logger.debug(" showing styled aligned")
+    with st.expander("styled aligned"):
+        # st.dataframe(s_df)  # can't handle styleddf
+        st.table(s_df)
+    output = io.BytesIO()
+    with pd.ExcelWriter(
+        output, engine="xlsxwriter"
+    ) as writer:  # pylint: disable=abstract-class-instantiated
+        s_df.to_excel(writer, index=False, header=False, sheet_name="Sheet1")
+        writer.sheets["Sheet1"].set_column("A:A", 70)
+        writer.sheets["Sheet1"].set_column("B:B", 70)
+    output.seek(0)
+    val = output.getvalue()
+    b64 = base64.b64encode(val)
+    filename = ""
+    if state.ns.src_filename:
+        filename = f"{state.ns.src_filename}-"
+    dl_xlsx = f'<a href="data:application/octet-stream;base64,{b64.decode()}" download="{filename}aligned_paras.xlsx">Download aligned paras xlsx</a>'
+    output = io.BytesIO()
+    df_a.astype(str).to_csv(output, sep="\t", index=False, header=False, encoding="gbk")
+    output.seek(0)
+    val = output.getvalue()
+    b64 = base64.b64encode(val)
+    dl_tsv = f'<a href="data:application/octet-stream;base64,{b64.decode()}" download="{filename}aligned_paras.tsv">Download aligned paras tsv</a>'
+    col1_dl, col2_dl = st.columns(2)
+    with col1_dl:
+        st.markdown(dl_xlsx, unsafe_allow_html=True)
+    with col2_dl:
+        st.markdown(dl_tsv, unsafe_allow_html=True)
     # reset
     state.ns.updated = False

litbee/pad.txt DELETED Viewed

@@ -1,21 +0,0 @@
-    if text1:
-        try:
-            list1 = [elm.strip() for elm in text1.splitlines() if elm.strip()]
-            state.ns.list1 = list1[:]
-        except Exception as e:
-            logger.warning("text1 to list1 errors: %s", e)
-        st.text_area(
-            label="Your pasted",
-            value=text1,
-            key="pasted_text1",
-            # help=""
-            height=500,
-        )
-    if text2:
-        try:
-            list1 = [elm.strip() for elm in text1.splitlines() if elm.strip()]
-            state.ns.list1 = list1[:]
-        except Exception as e:
-            logger.warning("text1 to list1 errors: %s", e)

litbee/settings.py CHANGED Viewed

@@ -68,7 +68,7 @@ def settings():
         sourcecount_list,
         index=index,
         format_func=lambda x: f"{x:<3} |",
-        help="2: two separate sources (files/paste/urls), each containing one language; 1: one mixed source (file/pate/url) containing both languages",
         disabled=True,
     )
     state.ns.sourcecount = sourcecount

         sourcecount_list,
         index=index,
         format_func=lambda x: f"{x:<3} |",
+        help="2: two separate sources (files/pastes/urls), each containing one language; 1: one mixed source (file/paste/url) containing both languages",
         disabled=True,
     )
     state.ns.sourcecount = sourcecount

litbee/t2s.py CHANGED Viewed

@@ -1,11 +1,12 @@
 """Convert list to simlified Chinese for traditional Chinese, do nothing otherwise."""
 # pylint: disable=invalid-name
 from typing import List
 import hanzidentifier
 from logzero import logger
 from opencc import OpenCC
-convert = OpenCC('t2s').convert
 def t2s(lst: List[str]) -> List[str]:
@@ -21,7 +22,9 @@ def t2s(lst: List[str]) -> List[str]:
         # lst[:1000] strim down for extremely large docs
         _ = hanzidentifier.identify(" ".join(lst[:1000]))
     except Exception as e:
-        logger.warning("hanzidentifier.is_traditional error: %s, settin to simplified.", e)
         _ = hanzidentifier.SIMP  # 2: simplified
     if _ not in [hanzidentifier.TRAD, hanzidentifier.MIXED]:

 """Convert list to simlified Chinese for traditional Chinese, do nothing otherwise."""
 # pylint: disable=invalid-name
 from typing import List
 import hanzidentifier
 from logzero import logger
 from opencc import OpenCC
+convert = OpenCC("t2s").convert
 def t2s(lst: List[str]) -> List[str]:
         # lst[:1000] strim down for extremely large docs
         _ = hanzidentifier.identify(" ".join(lst[:1000]))
     except Exception as e:
+        logger.warning(
+            "hanzidentifier.is_traditional error: %s, settin to simplified.", e
+        )
         _ = hanzidentifier.SIMP  # 2: simplified
     if _ not in [hanzidentifier.TRAD, hanzidentifier.MIXED]:

litbee/utils.py CHANGED Viewed

@@ -1,7 +1,10 @@
 """Prep front cover for sidebar (based on st-bumblebee-st_app.py)."""
 from textwrap import dedent
 import logzero
 import streamlit as st
 from logzero import logger
 from set_loglevel import set_loglevel
@@ -267,3 +270,44 @@ hr {
   }
 }
 """

 """Prep front cover for sidebar (based on st-bumblebee-st_app.py)."""
+import base64
+from io import BytesIO
 from textwrap import dedent
 import logzero
+import pandas as pd
 import streamlit as st
 from logzero import logger
 from set_loglevel import set_loglevel
   }
 }
 """
+def to_excel(df):
+    """Convert df to excel.
+    ref. st-bumblebee st_app.py
+    """
+    output = BytesIO()
+    writer = pd.ExcelWriter(output, engine="xlsxwriter")
+    df.to_excel(writer, sheet_name="Sheet1")
+    writer.save()
+    processed_data = output.getvalue()
+    return processed_data
+def get_table_download_link(df):
+    """Generates a link allowing the data in a given panda dataframe to be downloaded.
+    Args:
+        df: pandas.dataframe
+    Returns:
+        href string
+    """
+    val = to_excel(df)
+    b64 = base64.b64encode(val)  # val looks like b'...'
+    return f'<a href="data:application/octet-stream;base64,{b64.decode()}" download="aligned_paras.xlsx">Download aligned paras xlsx file</a>'  # decode b'abc' => abc
+def get_table_download_link_sents(df):
+    """Generates a link allowing the data in a given panda dataframe to be downloaded for sents aligned.
+    Args:
+        df: pandas.dataframe
+    Returns:
+        href string
+    """
+    val = to_excel(df)
+    b64 = base64.b64encode(val)  # val looks like b'...'
+    return f'<a href="data:application/octet-stream;base64,{b64.decode()}" download="aligned_sents.xlsx">Download aligned sents xlsx file</a>'  # decode b'abc' => abc

pyproject.toml CHANGED Viewed

@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "litbee"
-version = "0.1.2-alpha.1"
 description = "align (en, de, zh) texts via streamlit "
 authors = ["ffreemt"]
 license = "MIT"
@@ -48,7 +48,10 @@ isort = "isort tests litbee"
 black = "black tests litbee"
 format = ["isort", "black"]
 docstyle = "pydocstyle --convention=google tests litbee"
 git = {cmd = "git ac Update && git push && git push github"}
 tunnel = {cmd = "ssh -CN ip_or_hostname_defined_in_hosts -L 9091:127.0.0.1:9091"}
 [tool.poetry.dev-dependencies]

 [tool.poetry]
 name = "litbee"
+version = "0.1.2-alpha.3"
 description = "align (en, de, zh) texts via streamlit "
 authors = ["ffreemt"]
 license = "MIT"
 black = "black tests litbee"
 format = ["isort", "black"]
 docstyle = "pydocstyle --convention=google tests litbee"
+copyapp = "copy appy.py litbee/app.py"
+prerelease = {cmd = "poetry version prerelease && sync-version"}
 git = {cmd = "git ac Update && git push && git push github"}
+deploy = ["copyapp", "export", "git"]
 tunnel = {cmd = "ssh -CN ip_or_hostname_defined_in_hosts -L 9091:127.0.0.1:9091"}
 [tool.poetry.dev-dependencies]

pyrightconfig.json CHANGED Viewed

@@ -4,6 +4,7 @@
   "reportTypeshedErrors": false,
   "reportMissingImports": true,
   "reportMissingTypeStubs": false,
-  "pythonVersion": "3.7",
   "ignore": []
 }

   "reportTypeshedErrors": false,
   "reportMissingImports": true,
   "reportMissingTypeStubs": false,
+  "reportOptionalMemberAccess": true,
+  "pythonVersion": "3.8",
   "ignore": []
 }